【編者按】本文由百分點(diǎn)信息無(wú)線業(yè)務(wù)部高級(jí)總監(jiān)李曉東、Talking Data COO徐懿以及成都電子科大的龔亮聯(lián)合撰寫(xiě)。
在移動(dòng)互聯(lián)網(wǎng)所覆蓋的日常生活中,用戶隨時(shí)隨地都在產(chǎn)生數(shù)據(jù),數(shù)據(jù)的產(chǎn)生以及獲取在現(xiàn)在的移動(dòng)互聯(lián)網(wǎng)上已經(jīng)不是什么難以攻破的難題。需要我們面對(duì)的是從海量數(shù)據(jù)的分析中得到我們所需要的真正信息。
手機(jī)大數(shù)據(jù)的組織與應(yīng)用
手機(jī)上的大數(shù)據(jù)對(duì)于移動(dòng)互聯(lián)網(wǎng)業(yè)務(wù)早期無(wú)疑具有非常大的指導(dǎo)意義,但并不是所有的手機(jī)上產(chǎn)生的大數(shù)據(jù)都會(huì)那么有意義。比如說(shuō)社會(huì)媒體—微博,每天也會(huì)產(chǎn)生大量的數(shù)據(jù),但多數(shù)都是沒(méi)有意義的。

手機(jī)大數(shù)據(jù)的組織與應(yīng)用
手機(jī)上產(chǎn)生的大數(shù)據(jù)需要重新組織方能揭示出有意義的信息。
在現(xiàn)今的時(shí)代,大數(shù)據(jù)本身不是問(wèn)題,你從各個(gè)渠道都可能獲得海量的數(shù)據(jù);我們每個(gè)人每天都要生產(chǎn)很大量的數(shù)據(jù),關(guān)鍵的問(wèn)題是如何處理、分析這些數(shù)據(jù)。數(shù)據(jù)不處理、不分析,就像Mary舉的例子一樣,就是一堆稻草,毫無(wú)價(jià)值。

稻草堆里尋針
數(shù)據(jù)處理、分析就是要從一大垛稻草堆里面挑出一根針。
這句話有兩層含義:
無(wú)論我們從何種渠道,通過(guò)何種方式獲得的數(shù)據(jù),大量的數(shù)據(jù)是沒(méi)有意義的,這其中只有少量的數(shù)據(jù)是有效地,可以從中得出一些有規(guī)律、有價(jià)值的信息的,原始數(shù)據(jù)需要清洗、整理;(這一點(diǎn)對(duì)于移動(dòng)互聯(lián)網(wǎng)更為明顯,一般來(lái)說(shuō),幾乎80%-90%的移動(dòng)應(yīng)用數(shù)據(jù)都是毫無(wú)價(jià)值的,只有不到10%-20%左右的數(shù)據(jù)才包含后續(xù)分析所需要的信息)
我們需要通過(guò)后續(xù)的數(shù)據(jù)挖掘的工作,從雜亂無(wú)章的稻草堆里找出遺落在層層表象下面的一根針,而非一根稻草!這顯然,不是簡(jiǎn)單通過(guò)統(tǒng)計(jì)就可以得出的;是比統(tǒng)計(jì)分析更為復(fù)雜的算法,去從簡(jiǎn)單關(guān)聯(lián)過(guò)度復(fù)雜邏輯的層面。
從上一章中,我們知道手機(jī)上的大數(shù)據(jù)的來(lái)源多種多樣,不同的移動(dòng)互聯(lián)入口、不同的應(yīng)用都會(huì)導(dǎo)致不同數(shù)據(jù)的產(chǎn)生,而這些不同的數(shù)據(jù)又支撐不同的業(yè)務(wù),并且不同的業(yè)務(wù)之間還可能存在一些交叉應(yīng)用。所以針對(duì)這些特點(diǎn),下面我們根據(jù)這些特點(diǎn)來(lái)對(duì)大數(shù)據(jù)的組織做一個(gè)簡(jiǎn)單介紹,手機(jī)大數(shù)據(jù)的組織方式可以采用如下圖的結(jié)構(gòu)。

手機(jī)大數(shù)據(jù)的組織方式
從上面的結(jié)構(gòu)可以看出,手機(jī)大數(shù)據(jù)的組織主要分為以下三個(gè)部分:原始數(shù)據(jù)存儲(chǔ)層,計(jì)算層和業(yè)務(wù)數(shù)據(jù)存儲(chǔ)層
原始數(shù)據(jù)存儲(chǔ)層
主要存儲(chǔ)不同入口產(chǎn)生的數(shù)據(jù),而不同入口不同數(shù)據(jù)域也分開(kāi)并存此時(shí)各個(gè)數(shù)據(jù)集是彼此獨(dú)立,數(shù)據(jù)集之間沒(méi)有任何聯(lián)系方式。這樣做的好處就是能最大限度的保證原始數(shù)據(jù)的完善性,正確性。
計(jì)算層
該層的主要任務(wù)是對(duì)原始數(shù)據(jù)存儲(chǔ)層存取的數(shù)據(jù)進(jìn)行挖掘處理,并將挖掘結(jié)果按照不同業(yè)務(wù)進(jìn)行分類。挖掘處理的大致分為以下兩點(diǎn):① 對(duì)不同數(shù)據(jù)域進(jìn)行內(nèi)部分析,挖掘。② 對(duì)不同數(shù)據(jù)域之間進(jìn)行關(guān)聯(lián)分析挖掘。結(jié)果分類主要是將挖掘出的結(jié)果進(jìn)行分類,比如音樂(lè)、餐飲、廣告等應(yīng)用。
業(yè)務(wù)數(shù)據(jù)存儲(chǔ)層
業(yè)務(wù)數(shù)據(jù)存儲(chǔ)層主要是對(duì)計(jì)算層產(chǎn)出的數(shù)據(jù)進(jìn)行分開(kāi)存儲(chǔ),以為上層應(yīng)用提供更明確的數(shù)據(jù)接口。
當(dāng)我們對(duì)數(shù)據(jù)進(jìn)行有效地存儲(chǔ)管理后,我們就可以利用這些大數(shù)據(jù)進(jìn)行一些有意義的工作,尤其是對(duì)于移動(dòng)互聯(lián)網(wǎng)業(yè)務(wù)早期無(wú)疑具有非常大的指導(dǎo)意義,下面我們以手機(jī)閱讀為例,對(duì)手機(jī)上的大數(shù)據(jù)如何應(yīng)用做一個(gè)說(shuō)明。
手機(jī)上的閱讀
手機(jī)閱讀作為移動(dòng)互聯(lián)網(wǎng)目前為數(shù)不多還算有一定共性和沉淀應(yīng)用之一,是我們?cè)缙谑謾C(jī)應(yīng)用研究的對(duì)象。所謂“共性”和“沉淀”,就是針對(duì)手機(jī)應(yīng)用“碎片化”而言。手機(jī)閱讀雖然也有大量的碎片時(shí)間,但已經(jīng)逐漸形成了一早一晚寶貴的“床上”連片時(shí)間,有相對(duì)比較完整時(shí)間片上呈現(xiàn)的行為習(xí)慣,有相對(duì)比較完整的用戶在移動(dòng)互聯(lián)網(wǎng)上體現(xiàn)出來(lái)的偏好信息。
盡管很多報(bào)告都顯示,用戶在互聯(lián)網(wǎng)與移動(dòng)互聯(lián)網(wǎng)上的表征有著巨大的差異,但我依然相信,人們?cè)诿鎸?duì)一段文字,一個(gè)圖片上的喜好、感覺(jué)是不會(huì)變的。因?yàn)槿诵允遣粫?huì)輕易改變的。互聯(lián)網(wǎng)和移動(dòng)互聯(lián)網(wǎng)的用戶行為之所以不同,那是因?yàn)閼?yīng)用本身使用場(chǎng)景的不同,解決問(wèn)題的不同所導(dǎo)致的。并不是一個(gè)人在互聯(lián)網(wǎng)上是一個(gè)性格,而到了移動(dòng)互聯(lián)網(wǎng)上就是另外一個(gè)人生了。

這是我們研究手機(jī)閱讀上大數(shù)據(jù)的初衷。
下面,我們以一個(gè)曾經(jīng)做過(guò)的手機(jī)閱讀項(xiàng)目為例,主要從發(fā)現(xiàn)問(wèn)題、解決問(wèn)題、結(jié)果驗(yàn)證三個(gè)方面來(lái)為大家展開(kāi)。
發(fā)現(xiàn)問(wèn)題
通過(guò)對(duì)手機(jī)閱讀數(shù)據(jù)的挖掘分析,我們發(fā)現(xiàn)了如下幾個(gè)問(wèn)題:
(1) 城市與城市之間的閱讀行為相似
我們統(tǒng)計(jì)過(guò)杭州、廣州、深圳在某一時(shí)間段內(nèi)用戶的閱讀數(shù)據(jù),得到了這三個(gè)城市這三個(gè)月熱門前二十的數(shù)據(jù)。
下表統(tǒng)計(jì)的是杭州與廣州深圳這兩個(gè)城市在該時(shí)間段內(nèi)的熱門閱讀圖書(shū)重合數(shù)數(shù)。

從表中,我們可以猜測(cè),杭州與深圳、廣州這兩個(gè)城市之間確實(shí)存在著一定程度上的閱讀相似性。
計(jì)算公式為:Sim(A,B) = Same(A,B)*2/[Count(A)+Count(B)]
Sim(A,B)表示的是城市A,B的閱讀相似性。Same(A,B)表示的是城市A,B在某時(shí)間段內(nèi)共同閱讀過(guò)的圖書(shū)的本書(shū),Count(A)表示的是城市A在某時(shí)間段內(nèi)閱讀過(guò)的圖書(shū)的本書(shū)。
從表中我們可以發(fā)現(xiàn)杭州與深圳廣州的閱讀相似性都很高。也就是說(shuō)杭深或者杭廣城市間閱讀是比較相似的,我們可以考慮用他們來(lái)作為閱讀風(fēng)向標(biāo)的參考城市。
所以,如果考慮要做風(fēng)向標(biāo)分析的話,更傾向于選擇廣州作為杭州的閱讀風(fēng)向標(biāo),杭州作為深圳的風(fēng)向標(biāo),杭州跟廣州可以互相參考。
(2) 移動(dòng)閱讀的“長(zhǎng)尾”現(xiàn)象嚴(yán)重
在我們的數(shù)據(jù)統(tǒng)計(jì)中發(fā)現(xiàn),手機(jī)閱讀市場(chǎng)基本上靠熱榜和主觀推薦來(lái)運(yùn)營(yíng)。這就造成了我們所常見(jiàn)的“長(zhǎng)尾”效應(yīng),而且隨著書(shū)籍的增多,這種效應(yīng)更為嚴(yán)重!
(3) 不同行為模式的用戶表現(xiàn)相差比較大
我們通過(guò)kmeans聚類算法(一種常見(jiàn)的數(shù)據(jù)挖掘算法),說(shuō)明各類用戶之間表現(xiàn)的特征差異還是比較明顯。

不同行為模式的用戶表現(xiàn)相差比較大
解決方案
我們針對(duì)歷史數(shù)據(jù)進(jìn)行了分析,對(duì)于不同的問(wèn)題,我們覺(jué)得可以采用如下方法進(jìn)行解決。
(1) 數(shù)據(jù)聚類推薦送
通過(guò)對(duì)用戶進(jìn)行聚類推送圖書(shū),我們發(fā)現(xiàn)有如下結(jié)果:

數(shù)據(jù)聚類推薦送
第一類:人群比例接近60%。這類人群一直有閱讀推薦書(shū)的行為(平均約e^1),在6月14號(hào)當(dāng)天PV量并沒(méi)有提升,而在后面幾天提到較明顯的提升,6月20號(hào)之后似乎又回到了之前的PV水平。
第二類:人數(shù)較少,僅57人。在推薦前基本無(wú)閱讀推薦書(shū)行為,而在推薦后閱讀推薦書(shū)PV量較大(平均e^2),且后續(xù)也有較好的保持,可以認(rèn)為被推送激發(fā)了閱讀推薦書(shū)的興趣。
第三類:人群比例接近40%。這類人群在6月13-17號(hào)之間閱讀推送書(shū)籍的PV量提升非常明顯,但是在這個(gè)時(shí)間段之外,比較沉默,前期(6月13號(hào)前)閱讀推薦書(shū)很少,后期(6月17號(hào))閱讀量有些提升,但是還是回歸到比較沉默狀態(tài)。
(2) 個(gè)性化推送
由于手機(jī)的推送方式,目前大多數(shù)是通過(guò)流行榜來(lái)推薦,這就造成了這些被推送的書(shū)籍越流行,后面越推送他。反復(fù)的循環(huán)下去,就造成了系統(tǒng)長(zhǎng)尾現(xiàn)象,數(shù)據(jù)覆蓋率等問(wèn)題。所以最好是根據(jù)不同的用戶設(shè)置不同的推薦方法。這樣可以大大改善系統(tǒng)中這些狀況。
結(jié)果驗(yàn)證
通過(guò)我們對(duì)數(shù)據(jù)的挖掘處理,然后用戶實(shí)際應(yīng)用,最后得到了如下的反饋結(jié)果:
(1) PV量的增加

首日PV比較
從實(shí)驗(yàn)分析中,我們得出:總的一周反饋率,實(shí)驗(yàn)組是對(duì)照組的1.30倍。
推薦成功用戶首日推薦書(shū)籍PV總量,實(shí)驗(yàn)組是對(duì)照組的8.17倍;人均推薦書(shū)籍PV量,實(shí)驗(yàn)組是對(duì)照組的15.19倍。
推薦成功用戶首日總激發(fā)PV量,實(shí)驗(yàn)組是對(duì)照組的9.62倍;人均全部書(shū)籍PV量,實(shí)驗(yàn)組是對(duì)照組的17.88倍。
推薦成功用戶中,實(shí)驗(yàn)組的一周推薦書(shū)籍PV總量約為對(duì)照組的5.45倍;人均推薦書(shū)籍PV量,實(shí)驗(yàn)組是對(duì)照組的4.88倍。
推薦成功用戶中,實(shí)驗(yàn)組的一周總激發(fā)PV量是對(duì)照組的7.01倍;人均全部書(shū)籍PV量,實(shí)驗(yàn)組是對(duì)照組的6.28倍。
綜上所述,經(jīng)過(guò)數(shù)據(jù)挖掘、分析、推薦等算法的處理,手機(jī)閱讀的各項(xiàng)指標(biāo)得到了大幅的提升,其效果已經(jīng)不是百分之幾十的提高,而是成倍地增加了!這就是大數(shù)據(jù)應(yīng)用的魅力!
