第一次民間版知乎用戶分析報告

起因
對「看知乎」了解稍為深入的人都知道,每天推薦的答案全部來自我監(jiān)控的用戶數(shù)據(jù)庫。而這個數(shù)字在年初是1萬左右,到現(xiàn)在也沒超過3萬(雖然每天都在增加)。
有時候會想,我有沒有可能是井底之蛙?知乎用戶究竟是緊密圍繞著一個核心團體還是聚集成許多互不來往的孤島呢?如果是后者的話,難道我真的遺漏了大量值得關(guān)注的用戶,只因為他們屬于另一個群體嗎?
以及,知乎到底有多少人?年初400萬,5月600萬,現(xiàn)在有700萬還是800萬?
他們中的大多數(shù)都活躍嗎?專業(yè)嗎?受歡迎嗎?
他們都關(guān)注了誰?被誰關(guān)注?
最近常被拉出來聲討的三零用戶到底有多少人?占多大比例?
帶著這些疑問,我修改了一下爬蟲算法,以盡可能大的范圍來搜集用戶,以及他們之間互相關(guān)注的關(guān)系。
以下就是本次調(diào)查分析的結(jié)果了。
概況
數(shù)據(jù)收集方法:以「看知乎」網(wǎng)站2014年8月20日監(jiān)控到的28,810個用戶作為種子,遍歷他們的關(guān)注者列表;再將第一次收集到的用戶關(guān)注者列表進行二次遍歷,然后將全部用戶以及他們的關(guān)聯(lián)關(guān)系匯總起來。
執(zhí)行這個工程的時間跨度是8月21~24日,由于時間導(dǎo)致的數(shù)據(jù)誤差在可承受范圍內(nèi),不影響結(jié)果的合理性。
收集到的總用戶數(shù)是3,507,426人。
嗯?三百五十萬?是不是比預(yù)計的少了一半?
沒錯,但剩余的另一半基本可確認(rèn)為是零提問零回答零關(guān)注的三零用戶,以及只關(guān)注對方的僵尸粉小團體等等,其中絕大部分賬號應(yīng)該都是不活躍的、也不參與提問和回答的。
考慮到知乎的規(guī)模和用戶群的凝聚性,這樣的推測結(jié)果很合理。剩余的幾百萬賬號里基本不可能存在一個不與外界交流的、有價值用戶的集合了。
暫且忽略掉他們,假設(shè)知乎的全體用戶即是這3,507,426人,下面所有分析也都在此范圍內(nèi)進行。
一些數(shù)字:
他們提出了1,381,317個問題;
撰寫了5,065,386個答案;
發(fā)表了21,098篇專欄文章;
獲得了41,856,875個贊同;
被關(guān)注51,934,080人次。
(不包含匿名行為)
回答者
一般情況下,某個用戶在知乎從零起步的過程應(yīng)該是這樣的:
回答問題;
因為答案的質(zhì)量優(yōu)秀而獲得贊同;
引發(fā)別人的興趣,進而關(guān)注自己;
以上三個步驟循環(huán)或交錯進行。
這就涉及到三個重要指標(biāo):回答數(shù)、贊同數(shù)、被關(guān)注數(shù)。
我們先講前兩者,關(guān)注的問題放在后面幾節(jié)中進行。
知乎的作者和讀者關(guān)系以及傳播路徑大體是這種樣子:
頂端是信息制造者;之下是有賬號、可交互的讀者,能通過贊同、反對、評論等方式對答案進行影響并傳播;再下面則是純粹的讀者了。
那么,在金字塔頂端的回答者占到知乎用戶的多少呢?這些回答者中有多少人得到了贊同呢?以及,又有多少人因此而被人關(guān)注了呢?
下面的數(shù)字可能會令你略有些意外:
而且,寫過答案的人里,還有一半從來沒得到過贊同、三分之一左右沒有人關(guān)注;
換言之,被別人點過哪怕一個贊同的用戶,也已經(jīng)在整個知乎排到了前8.77%內(nèi)。
(最高紀(jì)錄保持者是位寫了340個答案卻無人贊同的知友——沒辦法,答案太水了)
對被贊同過的307,430人還可以再細(xì)分一下:
經(jīng)??吹接腥嗽诖鸢干厦娓隆竿郏尤挥泻脦装賯€贊了」,說明大家覺得幾百上千個贊同還是挺有面子的事。事實也確是如此,超過1000贊同的人只占1.86%——而且還不是所有人的1.86%,而是至少有一個贊同的人里的。
如果放到全體用戶中,超過1000贊同人的只占0.1633%,也就是不到千分之二。
贊同
我們時常在話題精華和熱門推薦中看到動輒數(shù)千票的答案,但其中許多只是偶然現(xiàn)象。一般來說,只有一兩個高票答案的用戶在知乎很可能會曇花一現(xiàn)。既不能持續(xù)引發(fā)讀者的興趣,也不能轉(zhuǎn)化為關(guān)注數(shù)。
下面就把全體用戶的最高票答案和整體贊同數(shù)拿出來計算一下,除了最高的之外,我們還按由高到低的順序取出前5及前10的答案做對比。
(如果回答數(shù)不足5或10,那有幾個就拿幾個)
解釋一下。
最下面的「全部」一行,也就是圖表中的最右列,指的是全體知乎用戶的最高票答案在所有贊同中所占的比例。
平均來說,單個答案票數(shù)占了三分之一,而前10個答案的票數(shù)就有近七成了;
前幾行則是贊同數(shù)在某個范圍內(nèi)的所有用戶所占的比例??梢钥闯?,越是得到贊同較多的用戶,越不會依靠單獨一個或幾個答案就被人重視,而是擁有更多熱門答案。
不過另有個有趣的現(xiàn)象,即贊同數(shù)在10000以下的所有用戶中,最高票答案所占的比例平均都在45~50%之間,超過10000后則急劇縮減。
這并不難解釋:知乎贊同破萬的答案僅有50多個,并不常見,而絕大多數(shù)高票答案位于百字頭或千字頭范圍內(nèi),因此有相當(dāng)一部分用戶會依靠單個答案的贊同而跨入上一級門檻,如果刪掉它,就會掉回下一數(shù)量級里去。
當(dāng)你寫出第一個受歡迎的答案時,無論是有干貨還是抖機靈,都沒法只靠它走上人生巔峰。只有堅持不斷地在自己擅長的領(lǐng)域輸出信息才能得到更多人的認(rèn)可。
而關(guān)注數(shù)顯然是代表了更高的認(rèn)可層級。
如果說贊同數(shù)是軍功章,代表過去的成就,那關(guān)注數(shù)就是軍銜,代表日后的影響力。
下面的圖表解釋得更明白:
它表達(dá)的就是:
如果只有單個高票答案出彩,其余答案則反響平平,那么是不會得到很多關(guān)注的;
反之,如果某人有幾十上百個答案都很受歡迎,在一個或多個領(lǐng)域樹立起名聲,那受關(guān)注的幾率會直線上漲,甚至遠(yuǎn)超過贊同數(shù)。
接下來會詳細(xì)分析「關(guān)注」這件事。
關(guān)注者
對用戶而言,「被關(guān)注人數(shù)」,或者說粉絲數(shù)才是最重要的指標(biāo),因為這代表了他回答問題或贊同答案時的直接傳播范圍。
有時候我們會借用微博的稱謂,把粉絲上萬的人稱為「大V」(盡管知乎沒有認(rèn)證體系)或者叫「大?!梗约澳切浊€粉絲的中牛小牛們。
那么,這些大中小牛在知乎的幾百萬用戶中又占多少呢?
直覺來說可能不少,畢竟我們每個人都關(guān)注了幾個感興趣的大牛嘛,每天時間線上推送的也常常是他們的答案,而且重復(fù)。
但直覺并不那么可靠。統(tǒng)計結(jié)果如下:
看圖可知,整個知乎,有近70%是完全沒有被人關(guān)注過的小透明;
超過96%的人粉絲少于10人;
而粉絲超過1000人的, 只占到了萬分之九。
換句話說,99.9%的人影響力是極為有限的,至于有限到什么程度,后文有詳述。
順便補充一下,零關(guān)注、零提問、零回答的「三零用戶」共2,092,271人,占全體用戶的59.65%。
影響力
對于普通用戶而言,首頁時間線是獲取信息的最大渠道,肯進入發(fā)現(xiàn)頻道或話題中主動尋找新問題和答案的已經(jīng)是少數(shù)了。
那么,占據(jù)他們時間線的是哪些人所推送的信息呢?
也就是說,知乎用戶樂于關(guān)注哪些人呢?
如果一個網(wǎng)站的「社交性」較強,那么大家會更多地關(guān)注自己的熟人朋友;但如果「媒體性」較強的話,大家則會更專注于那些名人、大號、專業(yè)人士。
微博是這兩者的結(jié)合,因為上面很常見的行為是既關(guān)注一群朋友,又關(guān)注幾個大V。
前面也說過,知乎上大多數(shù)人的粉絲很少,那么他們更樂于互相關(guān)注呢?還是盡可能去關(guān)注大牛們呢?接下來我們就要分析這點。
首先把所有用戶的關(guān)注行為匯總起來,看看他們更樂于關(guān)注什么人:
這張圖可能不是太好理解。解釋一下,如果你關(guān)注了50個人,則發(fā)生了50次「關(guān)注行為」,如果關(guān)注的是個只有十幾粉絲的普通人,則會累加在1~100這個區(qū)間內(nèi),而關(guān)注的是一個幾十萬粉絲的名人時,就會累加在10000以上的區(qū)間內(nèi)。
對全部51,934,080次「關(guān)注行為」的匯總結(jié)果就是上面這張圖了。
與前一節(jié)的數(shù)據(jù)對比,就可以看出知乎用戶的關(guān)注是何等地集中:
粉絲達(dá)到100的人數(shù)僅占全部用戶的不到1%,卻吸引了85%的注意力;
粉絲超過10000的大牛們僅有700多人,但當(dāng)知乎用戶每點下10次「關(guān)注」時,就有7次落在這個小群體上。
再換個角度,可能會更明顯些。
我們要把每個知乎用戶所有關(guān)注的人中,粉絲大于100的、1000的和10000的人所占的比例都計算出來,稍作簡化,就是下面的三幅圖了:
初看似乎更不容易理解,在此解釋一下:
以第一幅圖為例,它說明有77%的知乎用戶只關(guān)注了粉絲100以上的人,而對沒什么名氣的普通人一概置之不理;還有19%雖然也關(guān)注了幾個普通人,但超過一半仍然是大中小牛們;只有4%例外。
再看后兩幅,就更清楚了。
65%的人只關(guān)注粉絲上千的3000多位「中?!梗?/div>
近一半的人把所有目光完全限定在粉絲過萬的729位「大?!怪小?/div>
現(xiàn)在你應(yīng)該能感到知乎用戶的「受眾」身份是多么明顯了:他們絕大多數(shù)都只盯著那些牛人們看,時間線上鋪滿他們的答案和推薦。
或者說,它的「社交性」遠(yuǎn)遠(yuǎn)遜于「媒體性」,盡管許多人最近開始說知乎是個社交網(wǎng)站,抱怨有效信息被稀釋、灌水的人也越來越多。但對絕大多數(shù)人而言,來到這里還是為了閱讀與傾聽,而不是為了發(fā)表自己的看法的。
關(guān)聯(lián)度
上一節(jié)的結(jié)論仿佛在說知乎無社交,是否真的如此呢?
在全部51,934,080次關(guān)注行為中,僅有1,291,626次是雙向的,也就是不到2.5%。
換言之社交媒體上常見的「回粉」在這里基本行不通,因為你關(guān)注一個人時只有1.25%的概率得到一個回粉。考慮到知乎的媒體性和眼球集中在少數(shù)大牛的現(xiàn)狀,并且?guī)资f粉絲的大牛們無法逐個回粉,確實顯得社交性不足。
但并不代表知乎就不存在社交。
如果按照粉絲數(shù)劃分人群,并將每個人關(guān)注別人時對方也關(guān)注了你的情況全都整理出來,得出下面的結(jié)果:
有人可能會質(zhì)疑,前面說整體的雙向關(guān)注率只有2.5%,怎么這里最低的一檔也有6.01%呢?是不是統(tǒng)計出錯了?
不是的,因為占總?cè)藬?shù)70%的2,425,064位零粉絲的小透明所做出的23,125,516次關(guān)注行為,完全沒有得到回應(yīng),即回粉率為零,這才拉低了整體水平。
這個結(jié)論似乎更殘酷了,還是談點別的吧。
前面一直在說所有人都在關(guān)注大牛,那么,把觀察范圍僅限于「牛圈」中時,他們互相之間的關(guān)系又是怎樣的呢?
我們?nèi)匀灰苑劢z數(shù)100、1000和10000為分界點,分別將他們的數(shù)據(jù)整理成表格:
解釋一下里面的名詞。
人數(shù):屬于這個范圍的人數(shù),注意,粉絲100以上同時也包含了粉絲1000以上的人數(shù),這點和之前的許多圖表不同;
關(guān)注次數(shù):這個范圍內(nèi)任何一人關(guān)注了另一人,則算作一次關(guān)注,互粉則算兩次;
理論最大值:假設(shè)這些人中的任意兩個都互粉,算出來的理論最大關(guān)注次數(shù);
關(guān)注率:關(guān)注次數(shù)/理論最大值,越高則代表大家的關(guān)系越近;
平均關(guān)注人數(shù):關(guān)注次數(shù)/人數(shù),即平均每個人關(guān)注了多少圈子內(nèi)的別人;
平均路徑長度:大家都知道六度分隔理論吧,指的是某人平均只需經(jīng)過六個人就能聯(lián)系到世界上的任意一個人,那么路徑長度就是7了。
當(dāng)然,六度的范圍已經(jīng)很大了,一般來說,圈子越小、聯(lián)系越緊,這個路徑長度就會越短。
計算公式是:,其中n為路徑長度,N為人數(shù),W為每人的平均關(guān)注數(shù)。
假設(shè)關(guān)注次數(shù)達(dá)到理論最大值,則路徑長度為1,即每個人只需要一步即可聯(lián)系到任意的另一個人。
而知乎粉絲上萬的大牛們路徑長度僅為1.5,這是什么概念?平均來講,兩個大牛要么直接認(rèn)識,要么僅僅通過一個中間人就能認(rèn)識;
就算是粉絲超過100的接近兩萬人里,平均也只需要經(jīng)過一個中間人就認(rèn)識了!
看到這里,恐怕大家對知乎的人際網(wǎng)是如何緊密有個認(rèn)識了吧。
順便一提,全體知乎用戶的路徑長度是5.65,比六度分隔略低一些。
如果還有興趣,本文后附了個有個趣味小程序,是關(guān)于大?;ハ嚓P(guān)注的,動動鼠標(biāo)就知道這幫人到底多熟了。
粉絲質(zhì)量
以前@chenqin提過一個二級關(guān)注的概念,就是「粉絲的粉絲」到底有多少人。它能夠表示出一個知乎用戶到底是常被大牛關(guān)注還是常被三零用戶關(guān)注,換句話說就是某個人的粉絲平均質(zhì)量有多高。
看過前面幾節(jié)的分析之后,大概也能推測出統(tǒng)計趨勢了:大牛們的粉絲里,與自己同級別的人數(shù)量不少,但相對來說,絕大多數(shù)都是三零用戶。
實際是這樣嗎?我們整理出了下面的圖表:
圖中每根柱子代表了粉絲數(shù)位于某區(qū)間段內(nèi)的用戶群,而不同的顏色則表示他們的「粉絲的粉絲」數(shù)量分布情況。
與預(yù)計相符的趨勢當(dāng)然就是大牛們的粉絲里三零用戶(橙色)占了絕大多數(shù),而相反地,越是受人關(guān)注較少的,本人和粉絲所在的群體越相符。
比如某人只有不到100個粉時,關(guān)注他的有70%也在這個區(qū)間內(nèi)(青色)。
不過,數(shù)量最小的群體擁有的能量卻很大。下面就是將粉絲群體再按照他們粉絲數(shù)量匯總的情況:
這回形勢倒轉(zhuǎn)了,三零用戶們的占比完全是零,而80%的貢獻(xiàn)度來源于10000以上的大牛們。
不太容易理解的可能就是最右一列為何藍(lán)色部分占比會變小,其實原因就是「受大牛關(guān)注的普通用戶」這個人群太少了而已,如果減去那些知乎早期注冊但很久不活躍的人,恐怕這部分還會更低呢。
對二級關(guān)注的分析,在統(tǒng)計學(xué)上可能意義并不大。因為知乎的關(guān)注現(xiàn)狀是大量的純讀者集中關(guān)注少數(shù)大牛,恐怕并不容易在其中找出誰的粉絲質(zhì)量更高。當(dāng)然,我倒是發(fā)現(xiàn)了它的另一種用法,就是用來找僵尸粉和僵尸點贊……
總結(jié)
每一段正文都是圍繞著數(shù)據(jù)來講的,很少談到這對知乎代表了什么。
如果最后一定需要總結(jié)的話,其實也很簡單:
知乎的用戶數(shù)量不少,但貢獻(xiàn)和關(guān)注度的差距絕對不是80-20原則能形容的,簡直是百里挑一,甚至萬里挑一。
而且用戶金字塔的尖端還結(jié)成了一個十分緊密的小圈子。
這個小圈子借助知乎社區(qū)和媒體平臺的放大效應(yīng),擁有了不亞于大中型互聯(lián)網(wǎng)媒體的影響力。然而無論是圈子成員,還是身為管理者的知乎團隊,對現(xiàn)狀的認(rèn)識都有所不足。對一些隨著影響力而來的必然狀況應(yīng)對無措,以至于造成了社區(qū)氛圍的不和諧。
了解問題是解決問題的第一步。如果只用自己身邊的情況來判讀最近的某些事件,會發(fā)生許多誤解。多少把握一些知乎整體狀況的話,或許能有所改觀吧。
附言
這次小統(tǒng)計根本算不上什么「分析報告」,標(biāo)題是唬人的。缺了許多數(shù)據(jù),也少了深入挖掘,只能算是收集一些表層信息并且做了簡單解讀而已。
最大的遺憾當(dāng)然是數(shù)據(jù)太少,也沒有直接的渠道,更缺乏拿到更有用的數(shù)據(jù)的能力。其實我很想要答案下各個贊同的點擊時間,還有位置(比如是首頁還是內(nèi)頁)之類,能夠分析出很多與傳播有關(guān)的信息。但就算能拿到,區(qū)區(qū)一臺個人電腦都未必有能力裝下并查詢……
說到底,我只是想通過真實的數(shù)據(jù)來為大家展現(xiàn)知乎的「另一面」,而不是像最近的許多人那樣,單憑自己直接觀察到的一點情況,就認(rèn)為整個網(wǎng)站如何如何?;蛟S有人靠直覺也能把贊同、關(guān)注的分布情況猜得分毫不差,那確實夠了不起的。但隨著數(shù)據(jù)的進一步完善,總會有意料之外的時候。
雖然只收集了一些最簡單的關(guān)注關(guān)系,但我覺得里面還足以挖掘出更有價值的信息。恕我愚鈍,如果有人能稍作提醒的話,我可以嘗試再挖挖它的潛力,看還能整理出什么東西來。謝謝。
知名風(fēng)險投資公司
紅杉資本|瑞華投資|同創(chuàng)偉業(yè)|達(dá)晨創(chuàng)投|深創(chuàng)投|IDG|創(chuàng)東方|君聯(lián)資本|中科招商|經(jīng)緯中國|啟明創(chuàng)投|松禾資本|英特爾投資|優(yōu)勢資本|東方富海|天堂硅谷|九鼎投資|晨興創(chuàng)投|江蘇高科投|北極光創(chuàng)投|德同資本|凱雷投資|中國風(fēng)投|天圖資本|真格基金|DCM|IFC|凱鵬華盈|高盛投資|啟迪創(chuàng)投|戈壁|荷多投資|紀(jì)源資本|鼎暉投資|華平投資|金沙江投資|海納亞洲|永宣創(chuàng)投|險峰華興創(chuàng)投|中投|海通開元|中信資本|力鼎資本|平安創(chuàng)新資本|天使灣創(chuàng)投|和君資本|祥峰集團|招商湘江投資|元禾控股|力合創(chuàng)投|復(fù)星創(chuàng)富|陜西高投|光速創(chuàng)投|富達(dá)亞洲|成為資本|中信產(chǎn)業(yè)基金|GIC|基石資本|金茂資本|富坤創(chuàng)投|盈富泰克|重慶科投|鼎暉創(chuàng)投|北工投資|海富投資|招商局資本|新天域資本|中路集團|摩根士丹利|青云創(chuàng)投|建銀國際|德豐杰|弘毅投資|CVC|藍(lán)馳創(chuàng)投|寬帶資本|秉鴻資本|金石投資|天創(chuàng)資本|證大投資|中經(jīng)合|信中利|蘭馨亞洲|淡馬錫|浙商創(chuàng)投|華睿投資|景林資產(chǎn)|摯信資本|高特佳|清科創(chuàng)投|華登國際|山東高新投|集富亞洲|騰訊|無錫創(chuàng)投|創(chuàng)新工場|智基創(chuàng)投|策源創(chuàng)投|軟銀中國|
創(chuàng)業(yè)聯(lián)合網(wǎng)是創(chuàng)業(yè)者和投資人的交流平臺。平臺擁有5000+名投資人入駐。幫助創(chuàng)業(yè)企業(yè)對接投資人和投資機構(gòu),同時也是創(chuàng)業(yè)企業(yè)的媒體宣傳和交流合作平臺。
熱門標(biāo)簽
精華文章
商務(wù)與客服聯(lián)系微信





















