丝袜久久亚洲国产毛片,老人AV综合,国产精品日韩av,超碰国产综合,综合av在线草,毛片久久久,精品蜜桃一区三区,99久久久,人妻99在线视频

基于用戶投票的排名算法(六):貝葉斯平均

2015-02-02 行業(yè)研究

展示量: 3599

 

上一篇《基于用戶投票的排名算法(五)》介紹了"威爾遜區(qū)間",它解決了投票人數(shù)過少、導(dǎo)致結(jié)果不可信的問題。

舉例來說,如果只有2個(gè)人投票,"威爾遜區(qū)間"的下限值會(huì)將贊成票的比例大幅拉低。這樣做固然保證了排名的可信性,但也帶來了另一個(gè)問題:排行榜前列總是那些票數(shù)最多的項(xiàng)目,新項(xiàng)目或者冷門的項(xiàng)目,很難有出頭機(jī)會(huì),排名可能會(huì)長期靠后。

以IMDB為例,它是世界最大的電影數(shù)據(jù)庫,觀眾可以對每部電影投票,最低為1分,最高為10分。

基于用戶投票的排名算法(六):貝葉斯平均,互聯(lián)網(wǎng)的一些事

系統(tǒng)根據(jù)投票結(jié)果,計(jì)算出每部電影的平均得分。然后,再根據(jù)平均得分,排出最受歡迎的前250名的電影。

基于用戶投票的排名算法(六):貝葉斯平均,互聯(lián)網(wǎng)的一些事

這里就有一個(gè)問題:熱門電影與冷門電影的平均得分,是否真的可比?舉例來說,一部好萊塢大片有10000個(gè)觀眾投票,一部小成本的文藝片只有100個(gè)觀眾投票。這兩者的投票結(jié)果,怎么比較?如果使用"威爾遜區(qū)間",后者的得分將被大幅拉低,這樣處理是否公平,能不能反映它們真正的質(zhì)量?

一個(gè)合理的思路是,如果要比較兩部電影的好壞,至少應(yīng)該請同樣多的觀眾觀看和評分。既然文藝片的觀眾人數(shù)偏少,那么應(yīng)該設(shè)法為它增加一些觀眾。

在排名頁面的底部,IMDB給出了它的計(jì)算方法。

基于用戶投票的排名算法(六):貝葉斯平均,互聯(lián)網(wǎng)的一些事

- WR, 加權(quán)得分(weighted rating)。

- R,該電影的用戶投票的平均得分(Rating)。

- v,該電影的投票人數(shù)(votes)。

- m,排名前250名的電影的最低投票數(shù)(現(xiàn)在為3000)。

- C, 所有電影的平均得分(現(xiàn)在為6.9)。

仔細(xì)研究這個(gè)公式,你會(huì)發(fā)現(xiàn),IMDB為每部電影增加了3000張選票,并且這些選票的評分都為6.9。這樣做的原因是,假設(shè)所有電影都至少有3000張選票,那么就都具備了進(jìn)入前250名的評選條件;然后假設(shè)這3000張選票的評分是所有電影的平均得分(即假設(shè)這部電影具有平均水準(zhǔn));最后,用現(xiàn)有的觀眾投票進(jìn)行修正,長期來看,v/(v+m)這部分的權(quán)重將越來越大,得分將慢慢接近真實(shí)情況。

這樣做拉近了不同電影之間投票人數(shù)的差異,使得投票人數(shù)較少的電影也有可能排名前列。

把這個(gè)公式寫成更一般的形式:

基于用戶投票的排名算法(六):貝葉斯平均,互聯(lián)網(wǎng)的一些事

- C,投票人數(shù)擴(kuò)展的規(guī)模,是一個(gè)自行設(shè)定的常數(shù),與整個(gè)網(wǎng)站的總體用戶人數(shù)有關(guān),可以等于每個(gè)項(xiàng)目的平均投票數(shù)。

- n,該項(xiàng)目的現(xiàn)有投票人數(shù)。

- x,該項(xiàng)目的每張選票的值。

- m,總體平均分,即整個(gè)網(wǎng)站所有選票的算術(shù)平均值。

這種算法被稱為"貝葉斯平均"(Bayesian average)。因?yàn)槟撤N程度上,它借鑒了"貝葉斯推斷"(Bayesian inference)的思想:既然不知道投票結(jié)果,那就先估計(jì)一個(gè)值,然后不斷用新的信息修正,使得它越來越接近正確的值。

在這個(gè)公式中,m(總體平均分)是"先驗(yàn)概率",每一次新的投票都是一個(gè)調(diào)整因子,使總體平均分不斷向該項(xiàng)目的真實(shí)投票結(jié)果靠近。投票人數(shù)越多,該項(xiàng)目的"貝葉斯平均"就越接近算術(shù)平均,對排名的影響就越小。

因此,這種方法可以給一些投票人數(shù)較少的項(xiàng)目,以相對公平的排名。

=================================================

"貝葉斯平均"也有缺點(diǎn),主要問題是它假設(shè)用戶的投票是正態(tài)分布。比如,電影A有10個(gè)觀眾評分,5個(gè)為五星,5個(gè)為一星;電影B也有10個(gè)觀眾評分,都給了三星。這兩部電影的平均得分(無論是算術(shù)平均,還是貝葉斯平均)都是三星,但是電影A可能比電影B更值得看。

解決這個(gè)問題的思路是,假定每個(gè)用戶的投票都是獨(dú)立事件,每次投票只有n個(gè)選項(xiàng)可以選擇,那么這就服從"多項(xiàng)分布"(Multinomial distribution),就可以結(jié)合貝葉斯定理,估計(jì)該分布的期望值。由于這涉及復(fù)雜的統(tǒng)計(jì)學(xué)知識,這里就不深入了,感興趣的朋友可以繼續(xù)閱讀William Morgan的How to rank products based on user input。

(完)


  相關(guān)閱讀:

  基于用戶投票的排名算法(一):Delicious和Hacker News

  基于用戶投票的排名算法(二):Reddit

  基于用戶投票的排名算法(三):Stack Overflow

  基于用戶投票的排名算法(四):牛頓冷卻定律

  基于用戶投票的排名算法(五):威爾遜區(qū)間

  基于用戶投票的排名算法(六):貝葉斯平均

知名風(fēng)險(xiǎn)投資公司
紅杉資本|瑞華投資|同創(chuàng)偉業(yè)|達(dá)晨創(chuàng)投|深創(chuàng)投|IDG|創(chuàng)東方|君聯(lián)資本|中科招商|經(jīng)緯中國|啟明創(chuàng)投|松禾資本|英特爾投資|優(yōu)勢資本|東方富海|天堂硅谷|九鼎投資|晨興創(chuàng)投|江蘇高科投|北極光創(chuàng)投|德同資本|凱雷投資|中國風(fēng)投|天圖資本|真格基金|DCM|IFC|凱鵬華盈|高盛投資|啟迪創(chuàng)投|戈壁|荷多投資|紀(jì)源資本|鼎暉投資|華平投資|金沙江投資|海納亞洲|永宣創(chuàng)投|險(xiǎn)峰華興創(chuàng)投|中投|海通開元|中信資本|力鼎資本|平安創(chuàng)新資本|天使灣創(chuàng)投|和君資本|祥峰集團(tuán)|招商湘江投資|元禾控股|力合創(chuàng)投|復(fù)星創(chuàng)富|陜西高投|光速創(chuàng)投|富達(dá)亞洲|成為資本|中信產(chǎn)業(yè)基金|GIC|基石資本|金茂資本|富坤創(chuàng)投|盈富泰克|重慶科投|鼎暉創(chuàng)投|北工投資|海富投資|招商局資本|新天域資本|中路集團(tuán)|摩根士丹利|青云創(chuàng)投|建銀國際|德豐杰|弘毅投資|CVC|藍(lán)馳創(chuàng)投|寬帶資本|秉鴻資本|金石投資|天創(chuàng)資本|證大投資|中經(jīng)合|信中利|蘭馨亞洲|淡馬錫|浙商創(chuàng)投|華睿投資|景林資產(chǎn)|摯信資本|高特佳|清科創(chuàng)投|華登國際|山東高新投|集富亞洲|騰訊|無錫創(chuàng)投|創(chuàng)新工場|智基創(chuàng)投|策源創(chuàng)投|軟銀中國|
Copyright©創(chuàng)業(yè)聯(lián)合網(wǎng) ALL Rights Reserved
滬ICP備2024089025號-2
商務(wù)與客服聯(lián)系微信
丹阳市| 盈江县| 宾川县| 长汀县| 拜泉县| 宿州市| 敦煌市| 合江县| 霍林郭勒市| 望谟县| 渑池县| 融水| 青州市| 于田县| 河南省| 长武县| 巴彦县| 弥渡县| 广平县| 左权县| 盐城市| 施甸县| 尚志市| 冀州市| 迁西县| 黎城县| 垣曲县| 卢龙县| 南宁市| 安乡县| 牙克石市| 浦城县| 响水县| 崇信县| 鲁山县| 上高县| 吴堡县| 壶关县| 广丰县| 彩票| 卢龙县|