精品天堂九九久久Av,久久久久色,99,久久草婷婷

手機(jī)上的大數(shù)據(jù)（三）：手機(jī)上的閱讀

2015-01-30 行業(yè)研究

展示量: 3594

【編者按】本文由百分點(diǎn)信息無(wú)線業(yè)務(wù)部高級(jí)總監(jiān)李曉東、Talking Data COO徐懿以及成都電子科大的龔亮聯(lián)合撰寫(xiě)。

在移動(dòng)互聯(lián)網(wǎng)所覆蓋的日常生活中，用戶隨時(shí)隨地都在產(chǎn)生數(shù)據(jù)，數(shù)據(jù)的產(chǎn)生以及獲取在現(xiàn)在的移動(dòng)互聯(lián)網(wǎng)上已經(jīng)不是什么難以攻破的難題。需要我們面對(duì)的是從海量數(shù)據(jù)的分析中得到我們所需要的真正信息。

手機(jī)大數(shù)據(jù)的組織與應(yīng)用

手機(jī)上的大數(shù)據(jù)對(duì)于移動(dòng)互聯(lián)網(wǎng)業(yè)務(wù)早期無(wú)疑具有非常大的指導(dǎo)意義，但并不是所有的手機(jī)上產(chǎn)生的大數(shù)據(jù)都會(huì)那么有意義。比如說(shuō)社會(huì)媒體—微博，每天也會(huì)產(chǎn)生大量的數(shù)據(jù)，但多數(shù)都是沒(méi)有意義的。

手機(jī)上的大數(shù)據(jù)（三）：手機(jī)上的閱讀,互聯(lián)網(wǎng)的一些事

手機(jī)大數(shù)據(jù)的組織與應(yīng)用

手機(jī)上產(chǎn)生的大數(shù)據(jù)需要重新組織方能揭示出有意義的信息。

在現(xiàn)今的時(shí)代，大數(shù)據(jù)本身不是問(wèn)題，你從各個(gè)渠道都可能獲得海量的數(shù)據(jù);我們每個(gè)人每天都要生產(chǎn)很大量的數(shù)據(jù)，關(guān)鍵的問(wèn)題是如何處理、分析這些數(shù)據(jù)。數(shù)據(jù)不處理、不分析，就像Mary舉的例子一樣，就是一堆稻草，毫無(wú)價(jià)值。

稻草堆里尋針

數(shù)據(jù)處理、分析就是要從一大垛稻草堆里面挑出一根針。

這句話有兩層含義：

無(wú)論我們從何種渠道，通過(guò)何種方式獲得的數(shù)據(jù)，大量的數(shù)據(jù)是沒(méi)有意義的，這其中只有少量的數(shù)據(jù)是有效地，可以從中得出一些有規(guī)律、有價(jià)值的信息的，原始數(shù)據(jù)需要清洗、整理;(這一點(diǎn)對(duì)于移動(dòng)互聯(lián)網(wǎng)更為明顯，一般來(lái)說(shuō)，幾乎80%-90%的移動(dòng)應(yīng)用數(shù)據(jù)都是毫無(wú)價(jià)值的，只有不到10%-20%左右的數(shù)據(jù)才包含后續(xù)分析所需要的信息)

我們需要通過(guò)后續(xù)的數(shù)據(jù)挖掘的工作，從雜亂無(wú)章的稻草堆里找出遺落在層層表象下面的一根針，而非一根稻草!這顯然，不是簡(jiǎn)單通過(guò)統(tǒng)計(jì)就可以得出的;是比統(tǒng)計(jì)分析更為復(fù)雜的算法，去從簡(jiǎn)單關(guān)聯(lián)過(guò)度復(fù)雜邏輯的層面。

從上一章中，我們知道手機(jī)上的大數(shù)據(jù)的來(lái)源多種多樣，不同的移動(dòng)互聯(lián)入口、不同的應(yīng)用都會(huì)導(dǎo)致不同數(shù)據(jù)的產(chǎn)生，而這些不同的數(shù)據(jù)又支撐不同的業(yè)務(wù)，并且不同的業(yè)務(wù)之間還可能存在一些交叉應(yīng)用。所以針對(duì)這些特點(diǎn)，下面我們根據(jù)這些特點(diǎn)來(lái)對(duì)大數(shù)據(jù)的組織做一個(gè)簡(jiǎn)單介紹，手機(jī)大數(shù)據(jù)的組織方式可以采用如下圖的結(jié)構(gòu)。

手機(jī)大數(shù)據(jù)的組織方式

從上面的結(jié)構(gòu)可以看出，手機(jī)大數(shù)據(jù)的組織主要分為以下三個(gè)部分：原始數(shù)據(jù)存儲(chǔ)層，計(jì)算層和業(yè)務(wù)數(shù)據(jù)存儲(chǔ)層

原始數(shù)據(jù)存儲(chǔ)層

主要存儲(chǔ)不同入口產(chǎn)生的數(shù)據(jù)，而不同入口不同數(shù)據(jù)域也分開(kāi)并存此時(shí)各個(gè)數(shù)據(jù)集是彼此獨(dú)立，數(shù)據(jù)集之間沒(méi)有任何聯(lián)系方式。這樣做的好處就是能最大限度的保證原始數(shù)據(jù)的完善性，正確性。

計(jì)算層

該層的主要任務(wù)是對(duì)原始數(shù)據(jù)存儲(chǔ)層存取的數(shù)據(jù)進(jìn)行挖掘處理，并將挖掘結(jié)果按照不同業(yè)務(wù)進(jìn)行分類。挖掘處理的大致分為以下兩點(diǎn)：① 對(duì)不同數(shù)據(jù)域進(jìn)行內(nèi)部分析，挖掘。② 對(duì)不同數(shù)據(jù)域之間進(jìn)行關(guān)聯(lián)分析挖掘。結(jié)果分類主要是將挖掘出的結(jié)果進(jìn)行分類，比如音樂(lè)、餐飲、廣告等應(yīng)用。

業(yè)務(wù)數(shù)據(jù)存儲(chǔ)層

業(yè)務(wù)數(shù)據(jù)存儲(chǔ)層主要是對(duì)計(jì)算層產(chǎn)出的數(shù)據(jù)進(jìn)行分開(kāi)存儲(chǔ)，以為上層應(yīng)用提供更明確的數(shù)據(jù)接口。

當(dāng)我們對(duì)數(shù)據(jù)進(jìn)行有效地存儲(chǔ)管理后，我們就可以利用這些大數(shù)據(jù)進(jìn)行一些有意義的工作，尤其是對(duì)于移動(dòng)互聯(lián)網(wǎng)業(yè)務(wù)早期無(wú)疑具有非常大的指導(dǎo)意義，下面我們以手機(jī)閱讀為例，對(duì)手機(jī)上的大數(shù)據(jù)如何應(yīng)用做一個(gè)說(shuō)明。

手機(jī)上的閱讀

手機(jī)閱讀作為移動(dòng)互聯(lián)網(wǎng)目前為數(shù)不多還算有一定共性和沉淀應(yīng)用之一，是我們?cè)缙谑謾C(jī)應(yīng)用研究的對(duì)象。所謂“共性”和“沉淀”，就是針對(duì)手機(jī)應(yīng)用“碎片化”而言。手機(jī)閱讀雖然也有大量的碎片時(shí)間，但已經(jīng)逐漸形成了一早一晚寶貴的“床上”連片時(shí)間，有相對(duì)比較完整時(shí)間片上呈現(xiàn)的行為習(xí)慣，有相對(duì)比較完整的用戶在移動(dòng)互聯(lián)網(wǎng)上體現(xiàn)出來(lái)的偏好信息。

盡管很多報(bào)告都顯示，用戶在互聯(lián)網(wǎng)與移動(dòng)互聯(lián)網(wǎng)上的表征有著巨大的差異，但我依然相信，人們?cè)诿鎸?duì)一段文字，一個(gè)圖片上的喜好、感覺(jué)是不會(huì)變的。因?yàn)槿诵允遣粫?huì)輕易改變的。互聯(lián)網(wǎng)和移動(dòng)互聯(lián)網(wǎng)的用戶行為之所以不同，那是因?yàn)閼?yīng)用本身使用場(chǎng)景的不同，解決問(wèn)題的不同所導(dǎo)致的。并不是一個(gè)人在互聯(lián)網(wǎng)上是一個(gè)性格，而到了移動(dòng)互聯(lián)網(wǎng)上就是另外一個(gè)人生了。

這是我們研究手機(jī)閱讀上大數(shù)據(jù)的初衷。

下面，我們以一個(gè)曾經(jīng)做過(guò)的手機(jī)閱讀項(xiàng)目為例，主要從發(fā)現(xiàn)問(wèn)題、解決問(wèn)題、結(jié)果驗(yàn)證三個(gè)方面來(lái)為大家展開(kāi)。

發(fā)現(xiàn)問(wèn)題

通過(guò)對(duì)手機(jī)閱讀數(shù)據(jù)的挖掘分析，我們發(fā)現(xiàn)了如下幾個(gè)問(wèn)題：

(1) 城市與城市之間的閱讀行為相似

我們統(tǒng)計(jì)過(guò)杭州、廣州、深圳在某一時(shí)間段內(nèi)用戶的閱讀數(shù)據(jù)，得到了這三個(gè)城市這三個(gè)月熱門前二十的數(shù)據(jù)。

下表統(tǒng)計(jì)的是杭州與廣州深圳這兩個(gè)城市在該時(shí)間段內(nèi)的熱門閱讀圖書(shū)重合數(shù)數(shù)。

手機(jī)上的大數(shù)據(jù)（三）：手機(jī)上的閱讀,互聯(lián)網(wǎng)的一些事

從表中，我們可以猜測(cè)，杭州與深圳、廣州這兩個(gè)城市之間確實(shí)存在著一定程度上的閱讀相似性。

計(jì)算公式為：Sim(A,B) = Same(A,B)*2/[Count(A)+Count(B)]

Sim(A,B)表示的是城市A,B的閱讀相似性。Same(A,B)表示的是城市A,B在某時(shí)間段內(nèi)共同閱讀過(guò)的圖書(shū)的本書(shū)，Count(A)表示的是城市A在某時(shí)間段內(nèi)閱讀過(guò)的圖書(shū)的本書(shū)。

從表中我們可以發(fā)現(xiàn)杭州與深圳廣州的閱讀相似性都很高。也就是說(shuō)杭深或者杭廣城市間閱讀是比較相似的，我們可以考慮用他們來(lái)作為閱讀風(fēng)向標(biāo)的參考城市。

所以，如果考慮要做風(fēng)向標(biāo)分析的話，更傾向于選擇廣州作為杭州的閱讀風(fēng)向標(biāo)，杭州作為深圳的風(fēng)向標(biāo)，杭州跟廣州可以互相參考。

(2) 移動(dòng)閱讀的“長(zhǎng)尾”現(xiàn)象嚴(yán)重

在我們的數(shù)據(jù)統(tǒng)計(jì)中發(fā)現(xiàn)，手機(jī)閱讀市場(chǎng)基本上靠熱榜和主觀推薦來(lái)運(yùn)營(yíng)。這就造成了我們所常見(jiàn)的“長(zhǎng)尾”效應(yīng)，而且隨著書(shū)籍的增多，這種效應(yīng)更為嚴(yán)重!

　(3) 不同行為模式的用戶表現(xiàn)相差比較大

我們通過(guò)kmeans聚類算法(一種常見(jiàn)的數(shù)據(jù)挖掘算法)，說(shuō)明各類用戶之間表現(xiàn)的特征差異還是比較明顯。

不同行為模式的用戶表現(xiàn)相差比較大

解決方案

我們針對(duì)歷史數(shù)據(jù)進(jìn)行了分析，對(duì)于不同的問(wèn)題，我們覺(jué)得可以采用如下方法進(jìn)行解決。

　(1) 數(shù)據(jù)聚類推薦送

通過(guò)對(duì)用戶進(jìn)行聚類推送圖書(shū)，我們發(fā)現(xiàn)有如下結(jié)果：

數(shù)據(jù)聚類推薦送

第一類：人群比例接近60%。這類人群一直有閱讀推薦書(shū)的行為(平均約e^1)，在6月14號(hào)當(dāng)天PV量并沒(méi)有提升，而在后面幾天提到較明顯的提升，6月20號(hào)之后似乎又回到了之前的PV水平。

第二類：人數(shù)較少，僅57人。在推薦前基本無(wú)閱讀推薦書(shū)行為，而在推薦后閱讀推薦書(shū)PV量較大(平均e^2)，且后續(xù)也有較好的保持，可以認(rèn)為被推送激發(fā)了閱讀推薦書(shū)的興趣。

第三類：人群比例接近40%。這類人群在6月13-17號(hào)之間閱讀推送書(shū)籍的PV量提升非常明顯，但是在這個(gè)時(shí)間段之外，比較沉默，前期(6月13號(hào)前)閱讀推薦書(shū)很少，后期(6月17號(hào))閱讀量有些提升，但是還是回歸到比較沉默狀態(tài)。

　　(2) 個(gè)性化推送

由于手機(jī)的推送方式，目前大多數(shù)是通過(guò)流行榜來(lái)推薦，這就造成了這些被推送的書(shū)籍越流行，后面越推送他。反復(fù)的循環(huán)下去，就造成了系統(tǒng)長(zhǎng)尾現(xiàn)象，數(shù)據(jù)覆蓋率等問(wèn)題。所以最好是根據(jù)不同的用戶設(shè)置不同的推薦方法。這樣可以大大改善系統(tǒng)中這些狀況。

結(jié)果驗(yàn)證

通過(guò)我們對(duì)數(shù)據(jù)的挖掘處理，然后用戶實(shí)際應(yīng)用，最后得到了如下的反饋結(jié)果：

(1) PV量的增加

首日PV比較

從實(shí)驗(yàn)分析中，我們得出：總的一周反饋率，實(shí)驗(yàn)組是對(duì)照組的1.30倍。

推薦成功用戶首日推薦書(shū)籍PV總量，實(shí)驗(yàn)組是對(duì)照組的8.17倍;人均推薦書(shū)籍PV量，實(shí)驗(yàn)組是對(duì)照組的15.19倍。

推薦成功用戶首日總激發(fā)PV量，實(shí)驗(yàn)組是對(duì)照組的9.62倍;人均全部書(shū)籍PV量，實(shí)驗(yàn)組是對(duì)照組的17.88倍。

推薦成功用戶中，實(shí)驗(yàn)組的一周推薦書(shū)籍PV總量約為對(duì)照組的5.45倍;人均推薦書(shū)籍PV量，實(shí)驗(yàn)組是對(duì)照組的4.88倍。

推薦成功用戶中，實(shí)驗(yàn)組的一周總激發(fā)PV量是對(duì)照組的7.01倍;人均全部書(shū)籍PV量，實(shí)驗(yàn)組是對(duì)照組的6.28倍。

綜上所述，經(jīng)過(guò)數(shù)據(jù)挖掘、分析、推薦等算法的處理，手機(jī)閱讀的各項(xiàng)指標(biāo)得到了大幅的提升，其效果已經(jīng)不是百分之幾十的提高，而是成倍地增加了!這就是大數(shù)據(jù)應(yīng)用的魅力!

知名風(fēng)險(xiǎn)投資公司

創(chuàng)業(yè)聯(lián)合網(wǎng)是創(chuàng)業(yè)者和投資人的交流平臺(tái)。平臺(tái)擁有5000+名投資人入駐。幫助創(chuàng)業(yè)企業(yè)對(duì)接投資人和投資機(jī)構(gòu)，同時(shí)也是創(chuàng)業(yè)企業(yè)的媒體宣傳和交流合作平臺(tái)。

我想找投資人我想發(fā)布信息

精華文章

丝袜久久亚洲国产毛片,老人AV综合,国产精品日韩av,超碰国产综合,综合av在线草,毛片久久久,精品蜜桃一区三区,99久久久,人妻99在线视频