【編者按】本文由百分點信息無線業(yè)務(wù)部高級總監(jiān)李曉東、Talking Data COO徐懿以及成都電子科大的龔亮聯(lián)合撰寫。
無線音樂是用戶利用手機等通信終端,以WAP、WEB、APP等接入方式獲取以音樂為主題內(nèi)容的相關(guān)業(yè)務(wù)的總稱,具體包括彩鈴、無線音樂俱樂部、及手機客戶端軟件等業(yè)務(wù)??梢哉f在智能手機時代,手機客戶端音樂逐漸成為用戶享受生活的主要方式。
隨著智能手機的不斷普及,無線音樂行業(yè)成就了一些大頭手機音樂客戶端公司,這些公司擁有著上百萬甚至千萬級別規(guī)模的用戶群體。
手機客戶端音樂的不斷發(fā)展及用戶群體的不斷壯大,隨之也帶來了大量無線音樂數(shù)據(jù)的產(chǎn)生。這些數(shù)據(jù)看似雜亂無章、繁多冗余,但卻隱藏著很多的秘密。如果能有效地對這些數(shù)據(jù)進行組織管理,并且利用相關(guān)技術(shù)進行挖掘、分析,少則可以揭示一個公司一次決策實施后的效果,發(fā)現(xiàn)公司現(xiàn)有存在的重大問題,多則發(fā)現(xiàn)潛在的高價值業(yè)務(wù)或需求,這些業(yè)務(wù)或需求很有可能為公司的發(fā)展提供戰(zhàn)略性指導(dǎo)意見。
下面以國內(nèi)某著名手機客戶端音樂公司的無線音樂數(shù)據(jù)為例,我們還是按照發(fā)現(xiàn)問題、解決問題、結(jié)果驗證這三個方面來說明無線音樂數(shù)據(jù)的組織與應(yīng)用。
發(fā)現(xiàn)問題
通過對該數(shù)據(jù)進行分析挖掘,我們發(fā)現(xiàn)如下幾個問題。
(1) 用戶、歌曲均存在長尾效應(yīng)
從數(shù)據(jù)中我們發(fā)現(xiàn)用戶有兩種行為,一種是下載、一種是試聽,
每種行為中,我們發(fā)現(xiàn)用戶和歌曲均存在“長尾現(xiàn)象”,絕大部分用戶只試聽或下載系統(tǒng)中的少部分歌曲,而大部分歌曲出于閑置狀態(tài)。具體信息如下圖

音樂的長尾問題
說明:圖中左子圖橫坐標(biāo)表示用戶的聽歌,縱坐標(biāo)表示對應(yīng)用戶所占比例。右子圖橫坐標(biāo)表示歌曲的被多少人聽過,縱坐標(biāo)表示對應(yīng)度歌曲所占比例。造成這方面的原因可能是:數(shù)據(jù)量大,信息過載嚴(yán)重用戶找不到自己喜歡的歌曲。
此時大多數(shù)用戶直接轉(zhuǎn)向流行榜或熱歌榜歌曲,就會造成系統(tǒng)中熱門歌曲越熱門,冷門歌曲越冷門的現(xiàn)象。
(2) 歌曲覆蓋率低
從數(shù)據(jù)中我們還發(fā)現(xiàn)歌曲的覆蓋率很低,在整個抽樣數(shù)據(jù)中歌曲
覆蓋率只有2.01%。絕大部門歌曲根本沒有被用戶聽過或者下載過,這不僅造成系統(tǒng)資源的大量浪費,而且造成公司資金的無辜流失(因為每首歌曲都要付版權(quán)費,而系統(tǒng)中98%的歌曲處于浪費狀態(tài))。歌曲的覆蓋率累計分布如下如圖。

歌曲覆蓋率圖
說明:圖中橫坐標(biāo)表示歌曲的被聽歌人數(shù)(去重),縱坐標(biāo)是不小于這個數(shù)目的歌曲所占的比例。
造成這方面的原因可能是:大量歌曲處于冷啟動狀態(tài),數(shù)據(jù)稀疏。作為冷啟動作曲,系統(tǒng)不知道如何把他推送到適當(dāng)?shù)挠脩羰掷?,而用戶也不能通過有效方式找到他,就使得這類歌曲處理系統(tǒng)的暗處,不容易被發(fā)現(xiàn)。
(3) 用戶每天聽歌時間呈間斷性分布
在給定的樣本數(shù)據(jù)中,我們發(fā)現(xiàn)用戶聽歌行為并不是均勻分布,而是間斷性分布,即在不同的時間用戶聽歌集中度不同。為了更好的看出效果,我們將一天分為8個時間段,每個時間段包括3個小時,在每個時間段內(nèi)用戶聽歌活躍性如下圖。

用戶活躍時間圖
說明:圖中橫坐標(biāo)表示時間段,縱坐標(biāo)是該時間段內(nèi)用戶的活躍性比。
造成這方面的原因可能是: 下班、休息、乏困疲憊時間
用戶在無限端聽歌的模式還是傾向于休閑與娛樂,主要是以休息碎片時間為主。
(4) 不同用戶對歌曲的屬性依賴性不同
在樣本數(shù)據(jù)中,歌曲有專輯與歌手兩種屬性。我們從用戶的長程關(guān)聯(lián)顯著性、短程關(guān)聯(lián)顯著性等方面對用戶的聽歌行為進行分析,分析具體結(jié)果如下表:

說明:圖中Strong null model、Weak null mode、Temporal null model分別表示系統(tǒng)中所有播放之間相似度值,所有歌曲之間的相似性值,相鄰播放之間相似性值。Album表示專輯,Artist表示歌手。造成這方面的原因可能是: 與專輯相比用戶傾向于聽同一個歌手的歌曲
(5) 不同用戶聽歌行為不同
從數(shù)據(jù)中我們分析還得出,不同活躍性的用戶所聽歌曲也不同。分析中我們從歌曲新穎性、歌曲在專輯上的相似性、歌曲在歌手上的相似性三個指標(biāo)上對不同活躍性的用戶所聽歌曲進行分析。
具體信息如下圖

歌曲的三個維度分析
說明:圖中橫坐標(biāo)表示用戶的活躍性值,縱坐標(biāo)表示對應(yīng)活躍性用戶所聽歌曲的新穎性值、歌曲在專輯上的相似性值、歌曲在歌手上的相似性值
造成這方面的原因可能是: 用戶可能呈分群現(xiàn)象
活躍性較低的用戶可能是普通用戶,這類用戶根據(jù)自己的愛好來選擇自己想聽的歌曲。活躍性較高的用戶可能是專業(yè)用戶,這類用戶根據(jù)自己的專業(yè)需要來選擇自己想聽的歌曲。
解決方案
從上面一小節(jié)的討論中,我們已經(jīng)知道無線音樂端大數(shù)據(jù)中可能隱藏的幾個問題如下:
①用戶、歌曲均存在長尾效應(yīng)
②歌曲覆蓋率低
③用戶每天聽歌時間呈間斷性分布
④不同用戶對歌曲的屬性依賴性不同
⑤不同用戶聽歌行為不同
當(dāng)一個公司面對以上問題時應(yīng)該采用怎樣的解決方案來解決或者
改善當(dāng)前情況是另一個重要的問題。尤其是上述問題①、②,如果處理不恰當(dāng),可能會影響整個公司是否能正常運行,甚至影響公司的發(fā)展。
因此,本部分從無線音樂數(shù)據(jù)出發(fā),提出幾種適合的解決方案。
(1)用戶、歌曲均存在長尾效應(yīng),我們可以采用以下技術(shù)
采用信息過濾技術(shù),一種方法可以對歌曲進行分類,將不同的用戶映射到不同的歌曲類別中。另一種方法就是個性化推薦技術(shù),系統(tǒng)自動的分析用戶的偏好為不同用戶過濾相應(yīng)的歌曲。
(2)歌曲覆蓋率低,我們可以采用如下技術(shù)
歌曲覆蓋率低主要是因為用戶找到不到音樂,造成這個問題的原因主要有兩種:①音樂本身的信息不充足,②音樂有信息,但是用戶找不到這些音樂。
所以一方面我們可以給音樂打標(biāo)簽,使用標(biāo)簽信息來表示歌曲的具體屬性;另一方面,我們可以采用推薦技術(shù)對歌曲進行個性化推薦。
(3)用戶每天聽歌時間呈間斷性分布,我們可以采用如下技術(shù)
在不同的時間,我們設(shè)置不同的主題歌曲以適應(yīng)不同的聽歌場景,比如夜晚放舒緩、平滑的歌曲,上午上搖滾、重金屬之類的歌曲。
當(dāng)然具體的場景還需要通過進一步的數(shù)據(jù)挖掘來獲得,本文只是提出一種方法,對具體技術(shù)不做過多闡述。
(4)不同用戶對歌曲的屬性依賴性不同,我們采用如下技術(shù)
通過歷史數(shù)據(jù)分析獲取用戶對歌曲屬性的依賴性,從中我們能得知用戶對哪種屬性更加依賴。當(dāng)發(fā)現(xiàn)用戶對流派更依賴,則我們可以根據(jù)流派為其播放歌曲,當(dāng)發(fā)現(xiàn)用戶對歌手感興趣,則我可以根據(jù)歌手為其播放歌曲。
(5)不同用戶聽歌行為不同,我們可以采用如下技術(shù)
根據(jù)用戶特征將用戶分群,這樣可以將用戶分為多個不同的群體。針對不同的群體我們給其播放的歌曲不同,比如普通用戶可以熱歌為主進行播放,而對于專業(yè)歌手,我們則以高多樣的歌曲來為其播放。
結(jié)果驗證
為了進一步說明上述解決方案的有效性,此處我們僅采用推薦算法來進行說明當(dāng)系統(tǒng)采用該解決方案后,系統(tǒng)中出現(xiàn)的一些顯著變化,具體的變化如下:
l 用戶更容易找到自己喜歡的歌曲

用戶找更容易找到歌曲
該音樂網(wǎng)站目前采用熱歌榜(GRM)來組織歌曲,通過此種方式用戶找到其喜歡歌曲的概率是千分之一左右,當(dāng)我們采用了3種推薦方法(分別是OCF、HC、MD)后,發(fā)現(xiàn)用戶找到自己喜歡歌曲的概率明顯增加,而且對于MD算法,其準(zhǔn)確度提升了10倍之多。
系統(tǒng)長尾的變化

使用推薦算法前

使用推薦算法后
長尾效應(yīng)的改善
從上圖明顯的可以看出,系統(tǒng)的長尾效應(yīng)有顯著的變化。這樣的結(jié)果應(yīng)該是公司最想看的結(jié)果,不僅大大縮減了公司不必要的浪費,也為用戶提供更好的用戶體驗。
