丝袜久久亚洲国产毛片,老人AV综合,国产精品日韩av,超碰国产综合,综合av在线草,毛片久久久,精品蜜桃一区三区,99久久久,人妻99在线视频

手機(jī)上的大數(shù)據(jù)(三):手機(jī)上的閱讀

2015-01-30 行業(yè)研究

展示量: 3594

【編者按】本文由百分點(diǎn)信息無(wú)線業(yè)務(wù)部高級(jí)總監(jiān)李曉東、Talking Data COO徐懿以及成都電子科大的龔亮聯(lián)合撰寫(xiě)。

在移動(dòng)互聯(lián)網(wǎng)所覆蓋的日常生活中,用戶隨時(shí)隨地都在產(chǎn)生數(shù)據(jù),數(shù)據(jù)的產(chǎn)生以及獲取在現(xiàn)在的移動(dòng)互聯(lián)網(wǎng)上已經(jīng)不是什么難以攻破的難題。需要我們面對(duì)的是從海量數(shù)據(jù)的分析中得到我們所需要的真正信息。

手機(jī)大數(shù)據(jù)的組織與應(yīng)用

手機(jī)上的大數(shù)據(jù)對(duì)于移動(dòng)互聯(lián)網(wǎng)業(yè)務(wù)早期無(wú)疑具有非常大的指導(dǎo)意義,但并不是所有的手機(jī)上產(chǎn)生的大數(shù)據(jù)都會(huì)那么有意義。比如說(shuō)社會(huì)媒體—微博,每天也會(huì)產(chǎn)生大量的數(shù)據(jù),但多數(shù)都是沒(méi)有意義的。

手機(jī)上的大數(shù)據(jù)(三):手機(jī)上的閱讀,互聯(lián)網(wǎng)的一些事

手機(jī)大數(shù)據(jù)的組織與應(yīng)用

手機(jī)上產(chǎn)生的大數(shù)據(jù)需要重新組織方能揭示出有意義的信息。

在現(xiàn)今的時(shí)代,大數(shù)據(jù)本身不是問(wèn)題,你從各個(gè)渠道都可能獲得海量的數(shù)據(jù);我們每個(gè)人每天都要生產(chǎn)很大量的數(shù)據(jù),關(guān)鍵的問(wèn)題是如何處理、分析這些數(shù)據(jù)。數(shù)據(jù)不處理、不分析,就像Mary舉的例子一樣,就是一堆稻草,毫無(wú)價(jià)值。

手機(jī)上的大數(shù)據(jù)(三):手機(jī)上的閱讀,互聯(lián)網(wǎng)的一些事

稻草堆里尋針

數(shù)據(jù)處理、分析就是要從一大垛稻草堆里面挑出一根針。

這句話有兩層含義:

無(wú)論我們從何種渠道,通過(guò)何種方式獲得的數(shù)據(jù),大量的數(shù)據(jù)是沒(méi)有意義的,這其中只有少量的數(shù)據(jù)是有效地,可以從中得出一些有規(guī)律、有價(jià)值的信息的,原始數(shù)據(jù)需要清洗、整理;(這一點(diǎn)對(duì)于移動(dòng)互聯(lián)網(wǎng)更為明顯,一般來(lái)說(shuō),幾乎80%-90%的移動(dòng)應(yīng)用數(shù)據(jù)都是毫無(wú)價(jià)值的,只有不到10%-20%左右的數(shù)據(jù)才包含后續(xù)分析所需要的信息)

我們需要通過(guò)后續(xù)的數(shù)據(jù)挖掘的工作,從雜亂無(wú)章的稻草堆里找出遺落在層層表象下面的一根針,而非一根稻草!這顯然,不是簡(jiǎn)單通過(guò)統(tǒng)計(jì)就可以得出的;是比統(tǒng)計(jì)分析更為復(fù)雜的算法,去從簡(jiǎn)單關(guān)聯(lián)過(guò)度復(fù)雜邏輯的層面。

從上一章中,我們知道手機(jī)上的大數(shù)據(jù)的來(lái)源多種多樣,不同的移動(dòng)互聯(lián)入口、不同的應(yīng)用都會(huì)導(dǎo)致不同數(shù)據(jù)的產(chǎn)生,而這些不同的數(shù)據(jù)又支撐不同的業(yè)務(wù),并且不同的業(yè)務(wù)之間還可能存在一些交叉應(yīng)用。所以針對(duì)這些特點(diǎn),下面我們根據(jù)這些特點(diǎn)來(lái)對(duì)大數(shù)據(jù)的組織做一個(gè)簡(jiǎn)單介紹,手機(jī)大數(shù)據(jù)的組織方式可以采用如下圖的結(jié)構(gòu)。

手機(jī)上的大數(shù)據(jù)(三):手機(jī)上的閱讀,互聯(lián)網(wǎng)的一些事

手機(jī)大數(shù)據(jù)的組織方式

從上面的結(jié)構(gòu)可以看出,手機(jī)大數(shù)據(jù)的組織主要分為以下三個(gè)部分:原始數(shù)據(jù)存儲(chǔ)層,計(jì)算層和業(yè)務(wù)數(shù)據(jù)存儲(chǔ)層

原始數(shù)據(jù)存儲(chǔ)層

主要存儲(chǔ)不同入口產(chǎn)生的數(shù)據(jù),而不同入口不同數(shù)據(jù)域也分開(kāi)并存此時(shí)各個(gè)數(shù)據(jù)集是彼此獨(dú)立,數(shù)據(jù)集之間沒(méi)有任何聯(lián)系方式。這樣做的好處就是能最大限度的保證原始數(shù)據(jù)的完善性,正確性。

計(jì)算層

該層的主要任務(wù)是對(duì)原始數(shù)據(jù)存儲(chǔ)層存取的數(shù)據(jù)進(jìn)行挖掘處理,并將挖掘結(jié)果按照不同業(yè)務(wù)進(jìn)行分類。挖掘處理的大致分為以下兩點(diǎn):① 對(duì)不同數(shù)據(jù)域進(jìn)行內(nèi)部分析,挖掘。② 對(duì)不同數(shù)據(jù)域之間進(jìn)行關(guān)聯(lián)分析挖掘。結(jié)果分類主要是將挖掘出的結(jié)果進(jìn)行分類,比如音樂(lè)、餐飲、廣告等應(yīng)用。

業(yè)務(wù)數(shù)據(jù)存儲(chǔ)層

業(yè)務(wù)數(shù)據(jù)存儲(chǔ)層主要是對(duì)計(jì)算層產(chǎn)出的數(shù)據(jù)進(jìn)行分開(kāi)存儲(chǔ),以為上層應(yīng)用提供更明確的數(shù)據(jù)接口。

當(dāng)我們對(duì)數(shù)據(jù)進(jìn)行有效地存儲(chǔ)管理后,我們就可以利用這些大數(shù)據(jù)進(jìn)行一些有意義的工作,尤其是對(duì)于移動(dòng)互聯(lián)網(wǎng)業(yè)務(wù)早期無(wú)疑具有非常大的指導(dǎo)意義,下面我們以手機(jī)閱讀為例,對(duì)手機(jī)上的大數(shù)據(jù)如何應(yīng)用做一個(gè)說(shuō)明。

手機(jī)上的閱讀

手機(jī)閱讀作為移動(dòng)互聯(lián)網(wǎng)目前為數(shù)不多還算有一定共性和沉淀應(yīng)用之一,是我們?cè)缙谑謾C(jī)應(yīng)用研究的對(duì)象。所謂“共性”和“沉淀”,就是針對(duì)手機(jī)應(yīng)用“碎片化”而言。手機(jī)閱讀雖然也有大量的碎片時(shí)間,但已經(jīng)逐漸形成了一早一晚寶貴的“床上”連片時(shí)間,有相對(duì)比較完整時(shí)間片上呈現(xiàn)的行為習(xí)慣,有相對(duì)比較完整的用戶在移動(dòng)互聯(lián)網(wǎng)上體現(xiàn)出來(lái)的偏好信息。

盡管很多報(bào)告都顯示,用戶在互聯(lián)網(wǎng)與移動(dòng)互聯(lián)網(wǎng)上的表征有著巨大的差異,但我依然相信,人們?cè)诿鎸?duì)一段文字,一個(gè)圖片上的喜好、感覺(jué)是不會(huì)變的。因?yàn)槿诵允遣粫?huì)輕易改變的。互聯(lián)網(wǎng)和移動(dòng)互聯(lián)網(wǎng)的用戶行為之所以不同,那是因?yàn)閼?yīng)用本身使用場(chǎng)景的不同,解決問(wèn)題的不同所導(dǎo)致的。并不是一個(gè)人在互聯(lián)網(wǎng)上是一個(gè)性格,而到了移動(dòng)互聯(lián)網(wǎng)上就是另外一個(gè)人生了。

手機(jī)上的大數(shù)據(jù)(三):手機(jī)上的閱讀,互聯(lián)網(wǎng)的一些事

這是我們研究手機(jī)閱讀上大數(shù)據(jù)的初衷。

下面,我們以一個(gè)曾經(jīng)做過(guò)的手機(jī)閱讀項(xiàng)目為例,主要從發(fā)現(xiàn)問(wèn)題、解決問(wèn)題、結(jié)果驗(yàn)證三個(gè)方面來(lái)為大家展開(kāi)。

發(fā)現(xiàn)問(wèn)題

通過(guò)對(duì)手機(jī)閱讀數(shù)據(jù)的挖掘分析,我們發(fā)現(xiàn)了如下幾個(gè)問(wèn)題:

(1) 城市與城市之間的閱讀行為相似

我們統(tǒng)計(jì)過(guò)杭州、廣州、深圳在某一時(shí)間段內(nèi)用戶的閱讀數(shù)據(jù),得到了這三個(gè)城市這三個(gè)月熱門前二十的數(shù)據(jù)。

下表統(tǒng)計(jì)的是杭州與廣州深圳這兩個(gè)城市在該時(shí)間段內(nèi)的熱門閱讀圖書(shū)重合數(shù)數(shù)。

手機(jī)上的大數(shù)據(jù)(三):手機(jī)上的閱讀,互聯(lián)網(wǎng)的一些事

從表中,我們可以猜測(cè),杭州與深圳、廣州這兩個(gè)城市之間確實(shí)存在著一定程度上的閱讀相似性。

計(jì)算公式為:Sim(A,B) = Same(A,B)*2/[Count(A)+Count(B)]

Sim(A,B)表示的是城市A,B的閱讀相似性。Same(A,B)表示的是城市A,B在某時(shí)間段內(nèi)共同閱讀過(guò)的圖書(shū)的本書(shū),Count(A)表示的是城市A在某時(shí)間段內(nèi)閱讀過(guò)的圖書(shū)的本書(shū)。

從表中我們可以發(fā)現(xiàn)杭州與深圳廣州的閱讀相似性都很高。也就是說(shuō)杭深或者杭廣城市間閱讀是比較相似的,我們可以考慮用他們來(lái)作為閱讀風(fēng)向標(biāo)的參考城市。

所以,如果考慮要做風(fēng)向標(biāo)分析的話,更傾向于選擇廣州作為杭州的閱讀風(fēng)向標(biāo),杭州作為深圳的風(fēng)向標(biāo),杭州跟廣州可以互相參考。

(2) 移動(dòng)閱讀的“長(zhǎng)尾”現(xiàn)象嚴(yán)重

在我們的數(shù)據(jù)統(tǒng)計(jì)中發(fā)現(xiàn),手機(jī)閱讀市場(chǎng)基本上靠熱榜和主觀推薦來(lái)運(yùn)營(yíng)。這就造成了我們所常見(jiàn)的“長(zhǎng)尾”效應(yīng),而且隨著書(shū)籍的增多,這種效應(yīng)更為嚴(yán)重!

 (3) 不同行為模式的用戶表現(xiàn)相差比較大

我們通過(guò)kmeans聚類算法(一種常見(jiàn)的數(shù)據(jù)挖掘算法),說(shuō)明各類用戶之間表現(xiàn)的特征差異還是比較明顯。

手機(jī)上的大數(shù)據(jù)(三):手機(jī)上的閱讀,互聯(lián)網(wǎng)的一些事

不同行為模式的用戶表現(xiàn)相差比較大

解決方案

我們針對(duì)歷史數(shù)據(jù)進(jìn)行了分析,對(duì)于不同的問(wèn)題,我們覺(jué)得可以采用如下方法進(jìn)行解決。

 (1) 數(shù)據(jù)聚類推薦送

通過(guò)對(duì)用戶進(jìn)行聚類推送圖書(shū),我們發(fā)現(xiàn)有如下結(jié)果:

手機(jī)上的大數(shù)據(jù)(三):手機(jī)上的閱讀,互聯(lián)網(wǎng)的一些事

數(shù)據(jù)聚類推薦送

第一類:人群比例接近60%。這類人群一直有閱讀推薦書(shū)的行為(平均約e^1),在6月14號(hào)當(dāng)天PV量并沒(méi)有提升,而在后面幾天提到較明顯的提升,6月20號(hào)之后似乎又回到了之前的PV水平。

第二類:人數(shù)較少,僅57人。在推薦前基本無(wú)閱讀推薦書(shū)行為,而在推薦后閱讀推薦書(shū)PV量較大(平均e^2),且后續(xù)也有較好的保持,可以認(rèn)為被推送激發(fā)了閱讀推薦書(shū)的興趣。

第三類:人群比例接近40%。這類人群在6月13-17號(hào)之間閱讀推送書(shū)籍的PV量提升非常明顯,但是在這個(gè)時(shí)間段之外,比較沉默,前期(6月13號(hào)前)閱讀推薦書(shū)很少,后期(6月17號(hào))閱讀量有些提升,但是還是回歸到比較沉默狀態(tài)。

  (2) 個(gè)性化推送

由于手機(jī)的推送方式,目前大多數(shù)是通過(guò)流行榜來(lái)推薦,這就造成了這些被推送的書(shū)籍越流行,后面越推送他。反復(fù)的循環(huán)下去,就造成了系統(tǒng)長(zhǎng)尾現(xiàn)象,數(shù)據(jù)覆蓋率等問(wèn)題。所以最好是根據(jù)不同的用戶設(shè)置不同的推薦方法。這樣可以大大改善系統(tǒng)中這些狀況。

結(jié)果驗(yàn)證

通過(guò)我們對(duì)數(shù)據(jù)的挖掘處理,然后用戶實(shí)際應(yīng)用,最后得到了如下的反饋結(jié)果:

(1) PV量的增加

手機(jī)上的大數(shù)據(jù)(三):手機(jī)上的閱讀,互聯(lián)網(wǎng)的一些事

首日PV比較

從實(shí)驗(yàn)分析中,我們得出:總的一周反饋率,實(shí)驗(yàn)組是對(duì)照組的1.30倍。

推薦成功用戶首日推薦書(shū)籍PV總量,實(shí)驗(yàn)組是對(duì)照組的8.17倍;人均推薦書(shū)籍PV量,實(shí)驗(yàn)組是對(duì)照組的15.19倍。

推薦成功用戶首日總激發(fā)PV量,實(shí)驗(yàn)組是對(duì)照組的9.62倍;人均全部書(shū)籍PV量,實(shí)驗(yàn)組是對(duì)照組的17.88倍。

推薦成功用戶中,實(shí)驗(yàn)組的一周推薦書(shū)籍PV總量約為對(duì)照組的5.45倍;人均推薦書(shū)籍PV量,實(shí)驗(yàn)組是對(duì)照組的4.88倍。

推薦成功用戶中,實(shí)驗(yàn)組的一周總激發(fā)PV量是對(duì)照組的7.01倍;人均全部書(shū)籍PV量,實(shí)驗(yàn)組是對(duì)照組的6.28倍。

綜上所述,經(jīng)過(guò)數(shù)據(jù)挖掘、分析、推薦等算法的處理,手機(jī)閱讀的各項(xiàng)指標(biāo)得到了大幅的提升,其效果已經(jīng)不是百分之幾十的提高,而是成倍地增加了!這就是大數(shù)據(jù)應(yīng)用的魅力!

知名風(fēng)險(xiǎn)投資公司
紅杉資本|瑞華投資|同創(chuàng)偉業(yè)|達(dá)晨創(chuàng)投|深創(chuàng)投|IDG|創(chuàng)東方|君聯(lián)資本|中科招商|經(jīng)緯中國(guó)|啟明創(chuàng)投|松禾資本|英特爾投資|優(yōu)勢(shì)資本|東方富海|天堂硅谷|九鼎投資|晨興創(chuàng)投|江蘇高科投|北極光創(chuàng)投|德同資本|凱雷投資|中國(guó)風(fēng)投|天圖資本|真格基金|DCM|IFC|凱鵬華盈|高盛投資|啟迪創(chuàng)投|戈壁|荷多投資|紀(jì)源資本|鼎暉投資|華平投資|金沙江投資|海納亞洲|永宣創(chuàng)投|險(xiǎn)峰華興創(chuàng)投|中投|海通開(kāi)元|中信資本|力鼎資本|平安創(chuàng)新資本|天使灣創(chuàng)投|和君資本|祥峰集團(tuán)|招商湘江投資|元禾控股|力合創(chuàng)投|復(fù)星創(chuàng)富|陜西高投|光速創(chuàng)投|富達(dá)亞洲|成為資本|中信產(chǎn)業(yè)基金|GIC|基石資本|金茂資本|富坤創(chuàng)投|盈富泰克|重慶科投|鼎暉創(chuàng)投|北工投資|海富投資|招商局資本|新天域資本|中路集團(tuán)|摩根士丹利|青云創(chuàng)投|建銀國(guó)際|德豐杰|弘毅投資|CVC|藍(lán)馳創(chuàng)投|寬帶資本|秉鴻資本|金石投資|天創(chuàng)資本|證大投資|中經(jīng)合|信中利|蘭馨亞洲|淡馬錫|浙商創(chuàng)投|華睿投資|景林資產(chǎn)|摯信資本|高特佳|清科創(chuàng)投|華登國(guó)際|山東高新投|集富亞洲|騰訊|無(wú)錫創(chuàng)投|創(chuàng)新工場(chǎng)|智基創(chuàng)投|策源創(chuàng)投|軟銀中國(guó)|
創(chuàng)業(yè)聯(lián)合網(wǎng)是創(chuàng)業(yè)者和投資人的交流平臺(tái)。平臺(tái)擁有5000+名投資人入駐。幫助創(chuàng)業(yè)企業(yè)對(duì)接投資人和投資機(jī)構(gòu),同時(shí)也是創(chuàng)業(yè)企業(yè)的媒體宣傳和交流合作平臺(tái)。
我想找投資人 我想發(fā)布信息
Copyright©創(chuàng)業(yè)聯(lián)合網(wǎng) ALL Rights Reserved
滬ICP備2024089025號(hào)-2
商務(wù)與客服聯(lián)系微信
竹山县| 马山县| 乐陵市| 綦江县| 无棣县| 壶关县| 纳雍县| 绥棱县| 罗江县| 闵行区| 青川县| 天峻县| 平湖市| 金昌市| 新巴尔虎右旗| 宝鸡市| 宁国市| 勐海县| 沈阳市| 清镇市| 曲周县| 穆棱市| 宁波市| 沽源县| 托克托县| 崇明县| 秦皇岛市| 新巴尔虎左旗| 桐梓县| 仁化县| 吉林市| 弥渡县| 神农架林区| 广宁县| 建平县| 聂拉木县| 泸水县| 红安县| 静宁县| 缙云县| 嘉黎县|