丝袜久久亚洲国产毛片,老人AV综合,国产精品日韩av,超碰国产综合,综合av在线草,毛片久久久,精品蜜桃一区三区,99久久久,人妻99在线视频

基于用戶投票的排名算法(五):威爾遜區(qū)間

2015-02-02 行業(yè)研究

展示量: 3442

迄今為止,這個系列都在討論,如何給出"某個時段"的排名,比如"過去24小時最熱門的文章"。

但是,很多場合需要的是"所有時段"的排名,比如"最受用戶好評的產(chǎn)品"。

這時,時間因素就不需要考慮了。這個系列的最后兩篇,就研究不考慮時間因素的情況下,如何給出排名。

一種常見的錯誤算法是:

得分 = 贊成票 - 反對票

假定有兩個項目,項目A是60張贊成票,40張反對票,項目B是550張贊成票,450張反對票。請問,誰應(yīng)該排在前面?按照上面的公式,B會排在前面,因為它的得分(550 - 450 = 100)高于A(60 - 40 = 20)。但是實際上,B的好評率只有55%(550 / 1000),而A為60%(60 / 100),所以正確的結(jié)果應(yīng)該是A排在前面。

Urban Dictionary就是這種錯誤算法的實例。

基于用戶投票的排名算法(五):威爾遜區(qū)間,互聯(lián)網(wǎng)的一些事

另一種常見的錯誤算法是

得分 = 贊成票 / 總票數(shù)

如果"總票數(shù)"很大,這種算法其實是對的。問題出在如果"總票數(shù)"很少,這時就會出錯。假定A有2張贊成票、0張反對票,B有100張贊成票、1張反對票。這種算法會使得A排在B前面。這顯然錯誤。

Amazon就是這種錯誤算法的實例。

基于用戶投票的排名算法(五):威爾遜區(qū)間,互聯(lián)網(wǎng)的一些事

那么,正確的算法是什么呢?

我們先做如下設(shè)定:

(1)每個用戶的投票都是獨立事件。

(2)用戶只有兩個選擇,要么投贊成票,要么投反對票。

(3)如果投票總?cè)藬?shù)為n,其中贊成票為k,那么贊成票的比例p就等于k/n。

如果你熟悉統(tǒng)計學(xué),可能已經(jīng)看出來了,這是一種統(tǒng)計分布,叫做"二項分布"(binomial distribution)。這很重要,下面馬上要用到。

我們的思路是,p越大,就代表這個項目的好評比例越高,越應(yīng)該排在前面。但是,p的可信性,取決于有多少人投票,如果樣本太小,p就不可信。好在我們已經(jīng)知道,p是"二項分布"中某個事件的發(fā)生概率,因此我們可以計算出p的置信區(qū)間。所謂"置信區(qū)間",就是說,以某個概率而言,p會落在的那個區(qū)間。比如,某個產(chǎn)品的好評率是80%,但是這個值不一定可信。根據(jù)統(tǒng)計學(xué),我們只能說,有95%的把握可以斷定,好評率在75%到85%之間,即置信區(qū)間是[75%, 85%]。

這樣一來,排名算法就比較清晰了:

  第一步,計算每個項目的"好評率"(即贊成票的比例)。

  第二步,計算每個"好評率"的置信區(qū)間(以95%的概率)。

  第三步,根據(jù)置信區(qū)間的下限值,進(jìn)行排名。這個值越大,排名就越高。

這樣做的原理是,置信區(qū)間的寬窄與樣本的數(shù)量有關(guān)。比如,A有8張贊成票,2張反對票;B有80張贊成票,20張反對票。這兩個項目的贊成票比例都是80%,但是B的置信區(qū)間(假定[75%, 85%])會比A的置信區(qū)間(假定[70%, 90%])窄得多,因此B的置信區(qū)間的下限值(75%)會比A(70%)大,所以B應(yīng)該排在A前面。

置信區(qū)間的實質(zhì),就是進(jìn)行可信度的修正,彌補(bǔ)樣本量過小的影響。如果樣本多,就說明比較可信,不需要很大的修正,所以置信區(qū)間會比較窄,下限值會比較大;如果樣本少,就說明不一定可信,必須進(jìn)行較大的修正,所以置信區(qū)間會比較寬,下限值會比較小。

二項分布的置信區(qū)間有多種計算公式,最常見的是"正態(tài)區(qū)間"(Normal approximation interval),教科書里幾乎都是這種方法。但是,它只適用于樣本較多的情況(np > 5 且 n(1 − p) > 5),對于小樣本,它的準(zhǔn)確性很差。

1927年,美國數(shù)學(xué)家 Edwin Bidwell Wilson提出了一個修正公式,被稱為"威爾遜區(qū)間",很好地解決了小樣本的準(zhǔn)確性問題。

基于用戶投票的排名算法(五):威爾遜區(qū)間,互聯(lián)網(wǎng)的一些事

在上面的公式中,基于用戶投票的排名算法(五):威爾遜區(qū)間,互聯(lián)網(wǎng)的一些事表示樣本的"贊成票比例",n表示樣本的大小,基于用戶投票的排名算法(五):威爾遜區(qū)間,互聯(lián)網(wǎng)的一些事 表示對應(yīng)某個置信水平的z統(tǒng)計量,這是一個常數(shù),可以通過查表或統(tǒng)計軟件包得到。一般情況下,在95%的置信水平下,z統(tǒng)計量的值為1.96。

威爾遜置信區(qū)間的均值為

基于用戶投票的排名算法(五):威爾遜區(qū)間,互聯(lián)網(wǎng)的一些事

它的下限值為

基于用戶投票的排名算法(五):威爾遜區(qū)間,互聯(lián)網(wǎng)的一些事

可以看到,當(dāng)n的值足夠大時,這個下限值會趨向基于用戶投票的排名算法(五):威爾遜區(qū)間,互聯(lián)網(wǎng)的一些事。如果n非常小(投票人很少),這個下限值會大大小于基于用戶投票的排名算法(五):威爾遜區(qū)間,互聯(lián)網(wǎng)的一些事。實際上,起到了降低"贊成票比例"的作用,使得該項目的得分變小、排名下降。

Reddit的評論排名,目前就使用這個算法。

基于用戶投票的排名算法(五):威爾遜區(qū)間,互聯(lián)網(wǎng)的一些事

[參考文獻(xiàn)]

* How Not To Sort By Average Rating

(完)


  相關(guān)閱讀:

  基于用戶投票的排名算法(一):Delicious和Hacker News

  基于用戶投票的排名算法(二):Reddit

  基于用戶投票的排名算法(三):Stack Overflow

  基于用戶投票的排名算法(四):牛頓冷卻定律

  基于用戶投票的排名算法(五):威爾遜區(qū)間

  基于用戶投票的排名算法(六):貝葉斯平均

知名風(fēng)險投資公司
紅杉資本|瑞華投資|同創(chuàng)偉業(yè)|達(dá)晨創(chuàng)投|深創(chuàng)投|IDG|創(chuàng)東方|君聯(lián)資本|中科招商|經(jīng)緯中國|啟明創(chuàng)投|松禾資本|英特爾投資|優(yōu)勢資本|東方富海|天堂硅谷|九鼎投資|晨興創(chuàng)投|江蘇高科投|北極光創(chuàng)投|德同資本|凱雷投資|中國風(fēng)投|天圖資本|真格基金|DCM|IFC|凱鵬華盈|高盛投資|啟迪創(chuàng)投|戈壁|荷多投資|紀(jì)源資本|鼎暉投資|華平投資|金沙江投資|海納亞洲|永宣創(chuàng)投|險峰華興創(chuàng)投|中投|海通開元|中信資本|力鼎資本|平安創(chuàng)新資本|天使灣創(chuàng)投|和君資本|祥峰集團(tuán)|招商湘江投資|元禾控股|力合創(chuàng)投|復(fù)星創(chuàng)富|陜西高投|光速創(chuàng)投|富達(dá)亞洲|成為資本|中信產(chǎn)業(yè)基金|GIC|基石資本|金茂資本|富坤創(chuàng)投|盈富泰克|重慶科投|鼎暉創(chuàng)投|北工投資|海富投資|招商局資本|新天域資本|中路集團(tuán)|摩根士丹利|青云創(chuàng)投|建銀國際|德豐杰|弘毅投資|CVC|藍(lán)馳創(chuàng)投|寬帶資本|秉鴻資本|金石投資|天創(chuàng)資本|證大投資|中經(jīng)合|信中利|蘭馨亞洲|淡馬錫|浙商創(chuàng)投|華睿投資|景林資產(chǎn)|摯信資本|高特佳|清科創(chuàng)投|華登國際|山東高新投|集富亞洲|騰訊|無錫創(chuàng)投|創(chuàng)新工場|智基創(chuàng)投|策源創(chuàng)投|軟銀中國|
Copyright©創(chuàng)業(yè)聯(lián)合網(wǎng) ALL Rights Reserved
滬ICP備2024089025號-2
商務(wù)與客服聯(lián)系微信
信丰县| 永丰县| 延安市| 张家川| 黄冈市| 平武县| 德庆县| 大名县| 镇安县| 双城市| 元朗区| 余干县| 延安市| 固阳县| 淮安市| 鹤山市| 武川县| 磐安县| 山东| 温州市| 秦安县| 银川市| 新巴尔虎左旗| 东城区| 太湖县| 从化市| 涟水县| 新昌县| 康平县| 准格尔旗| 苍梧县| 宁乡县| 上蔡县| 平顶山市| 湛江市| 阳曲县| 腾冲县| 社旗县| 集贤县| 涪陵区| 平遥县|