丝袜久久亚洲国产毛片,老人AV综合,国产精品日韩av,超碰国产综合,综合av在线草,毛片久久久,精品蜜桃一区三区,99久久久,人妻99在线视频

透析:大數(shù)據(jù)與商業(yè)決策之間,究竟是何關系?

2014-05-10 項目

展示量: 3926
透析:大數(shù)據(jù)與商業(yè)決策之間,究竟是何關系?
本文摘自阿里巴巴集團副總裁、數(shù)據(jù)委員會會長車品覺的新書《決戰(zhàn)大數(shù)據(jù)》中的一章。本章著重探討了大數(shù)據(jù)與商業(yè)決策之間的關系、乃至處理步驟。

今天,我們正處于決策成本產(chǎn)生巨變的爆發(fā)點,過去那些想盡辦法都無法獲取的數(shù)據(jù),在今天唾手可得,而當有些表面上完全不相關的行業(yè)數(shù)據(jù)關聯(lián)起來時,居然產(chǎn)生了新的商業(yè)價值。更重要的是,過去,我們更多地是帶著問題去尋找能夠驗證自己觀點的數(shù)據(jù),而今天我們卻可以使用數(shù)據(jù)去預測可能出現(xiàn)的問題。海量數(shù)據(jù)可以使人的智慧得到更大的發(fā)揮,并變得更加規(guī)?;?。大數(shù)據(jù)的本質是人,數(shù)據(jù)研究的極點就是莫測的人性。我們一旦掌控了數(shù)據(jù)之后的數(shù)據(jù),就會擁有制勝未來商業(yè)的無敵利器。

假定數(shù)據(jù)是臟的
在處理數(shù)據(jù)的時候,會像污水處理廠一樣,每一步都問自己要如何處理這些污水。這種情況的出現(xiàn),到底是因為數(shù)據(jù)源臟了,還是因為數(shù)據(jù)提煉過程做得不好?

美國有一家初創(chuàng)公司,專注于與地理位置相關的數(shù)據(jù)收集、整理和查詢服務。它將地理位置的相關指標,按照酒店和旅館等屬性劃分為不同細類,對外提供基于位置信息的實時查詢,為包括美國最大點評網(wǎng) Yelp在內的多個知名應用提供底層數(shù)據(jù)服務。

這家公司最令人印象深刻的是,它對于所收集來的數(shù)據(jù)會提供一個數(shù)據(jù)質量評分,以反映數(shù)據(jù)的可信度和質量水平。它會對這些數(shù)據(jù)的源頭以及對處理數(shù)據(jù)階段所用的算法進行評分。也就是說,這家公司在提煉數(shù)據(jù)的每一個階段都進行了數(shù)據(jù)化管理。

這家公司的做法讓我們看到了一個趨勢,也是一個非常重要的趨勢。因為它首先已經(jīng)接受了數(shù)據(jù)源肯定是臟的和數(shù)據(jù)源一定會被污染的事實。所以,它在處理數(shù)據(jù)的時候,會像污水處理廠一樣,每一步都問自己要如何處理這些污水。這種情況的出現(xiàn),到底是因為數(shù)據(jù)源臟了,還是因為數(shù)據(jù)提煉過程做得不好?這個過程我們一定要區(qū)分,而且這樣的區(qū)分是可取的。這家公司是假定數(shù)據(jù)是“臟”的來做數(shù)據(jù)管理,而不是假定數(shù)據(jù)是穩(wěn)定的。而且,假定數(shù)據(jù)是“臟”的來處理數(shù)據(jù),在大數(shù)據(jù)時代將是一個非常重要的趨勢。

事實上,我們今天在處理的大數(shù)據(jù),依然只是冰山一角,而更大的數(shù)據(jù)都隱藏在我們的語言中,比如我們說的話和寫的字。所以,將來我們要準確地從互動中抓取數(shù)據(jù),也一定要依賴對自然語言的處理?,F(xiàn)在,美國的很多數(shù)據(jù)研究人員都在瞄準非結構性數(shù)據(jù),即語言處理這一領域。

學會慢慢淡化數(shù)據(jù)
數(shù)據(jù)是有優(yōu)先值的,在數(shù)據(jù)中有些是特別核心的,有些即使缺失了也沒有多大問題。所以,我們要學會真正坐下來盤點那些對公司最有價值、對用戶最有價值的數(shù)據(jù)。

想要確定數(shù)據(jù)的優(yōu)先值,就要先解決以下幾個問題。一是數(shù)據(jù)的標準化。在大數(shù)據(jù)時代,我們需要一個標準化的東西供我們進行交流。二是我們到底如何對接和交換數(shù)據(jù),如何在交換的時候保持數(shù)據(jù)的穩(wěn)定性。比如自然語言,比如在無線和 PC不同場景下受到的影響,這些情況都會滋生出許多新問題。

第三個重要的問題是數(shù)據(jù)的存儲,這將涉及數(shù)據(jù)的時效性這一問題。有人曾經(jīng)提出過一個很有價值的觀點,即現(xiàn)實中,網(wǎng)站最大的場景變化就是網(wǎng)站改版。因為重新設計網(wǎng)站,本身就影響數(shù)據(jù),比如公司的詳情頁和首頁,任何改變都在影響數(shù)據(jù)。如果在 1~3年后,你才說得出數(shù)據(jù)的這一改變是由于促銷、用戶行為或是改版引起的,那這一數(shù)據(jù)就已經(jīng)沒有任何價值了,這就是數(shù)據(jù)的時效性。

所以,美國出現(xiàn)了一個概念叫數(shù)據(jù)淡化( Data Decay),意思很明顯,數(shù)據(jù)會慢慢淡化。我們要更清楚地認識到,數(shù)據(jù)是有優(yōu)先值的,在數(shù)據(jù)中有些是特別核心的,有些即使缺失了也沒有多大問題。所以我們要學會真正坐下來盤點那些對公司最有價值、對用戶最有價值的數(shù)據(jù),這是一個非常重要的趨勢。

數(shù)據(jù)的標簽化管理
數(shù)據(jù)的屬性標簽是人類經(jīng)驗判斷的數(shù)據(jù),是數(shù)據(jù)后的數(shù)據(jù)。

數(shù)據(jù)的屬性標簽是人類經(jīng)驗判斷的數(shù)據(jù),是數(shù)據(jù)后的數(shù)據(jù)。例如,當你要為一件物品打上標簽時,其實就已經(jīng)動用了你的經(jīng)驗數(shù)據(jù)分析,并進行了歸納總結,結合當下的環(huán)境給出了判斷。如果沒有考慮環(huán)境的影響及準確性的評估,這種經(jīng)驗加上直覺的判斷是不穩(wěn)定且又難以解釋的。但從數(shù)據(jù)收集的角度去看,數(shù)據(jù)的屬性標簽又是一個潛力極大的數(shù)據(jù)。

在數(shù)據(jù)屬性的管理上,對于用戶來說,每個人身上貼的標簽都是多種多樣的,但是對于企業(yè)來說,如何將這些標簽歸一,如何用一個點去將之串聯(lián),又如何把這些點連起來去描述這個用戶,這才是核心問題。

比如說,你要去應聘一家公司, A公司對你的評價是“很可靠”, B公司對你的評價是“不可靠”,而 C公司準備雇用你,然后 C公司看到了 A公司和 B公司給你貼的兩個標簽:“可靠”和“不可靠”,它就會困惑。

這樣的問題常常發(fā)生,那么,我們要怎么去做標簽的管理呢?

首先,我們要明確的是,“可靠”這個概念是沒有標準化意義的,除非在定義標簽之前,我們就界定清楚這個“可靠”的標準是什么。否則,“可靠”的標準是準時還錢、說話算數(shù),還是他向來都很守時,我們就無從得知了。如果這些標準是“可靠”,就給予了我們一種可以還原數(shù)據(jù)的能力。所以,在屬性管理中,假如屬性是“×”,那么我們一定要定義清楚什么是“×”,在沒有清楚定義的情況下,這個數(shù)據(jù)的屬性是毫無價值的,而且,將來你也依然不知道怎么使用這一數(shù)據(jù)。

標簽在觀察之后加進平臺和直接加進去是不一樣的。在電商平臺中,就有一些標簽是在觀察后加進去的,如果由賣家自由地加標簽進去,必然會造成混亂。所以,標簽的屬性管理,在運營數(shù)據(jù)中非常重要。 

標簽化管理,是一個非常重要的趨勢。電商企業(yè)今天面對的一些問題在美國的電商企業(yè)中同樣存在,可見,我們發(fā)現(xiàn)的問題,別人也在面對,不過這些問題并不需要現(xiàn)在就去解決。 

屬性管理的層級化十分有必要,但是在使用數(shù)據(jù)前,必須要了解數(shù)據(jù)的場景、數(shù)據(jù)是如何放進去的和數(shù)據(jù)的場景是什么。在這一切未知之前,就說數(shù)據(jù)如何好用的話,是不可能的。所以,現(xiàn)在企業(yè)運營數(shù)據(jù)的趨勢是,我們應該找出一些屬性進行歸類,然后再慢慢地考慮如何提煉,這對于未來非常重要。 

重要的是數(shù)據(jù)和數(shù)據(jù)之間的關系,而不是數(shù)據(jù)本身
大數(shù)據(jù)價值的實現(xiàn),在于數(shù)據(jù)與數(shù)據(jù)的連接。  

Google做了一件非常驚人的事情 —— Google甚至能在不明白某個網(wǎng)頁語言的情況下,知道其內容是什么。試想一下,如果你懂俄語,看出俄語網(wǎng)頁里在講什么當然很簡單。但是,如果你僅僅通過看字詞的排列和網(wǎng)站的分類,就知道網(wǎng)頁的內容,這是不是很令人驚嘆? 

這就是知識圖譜,它是一個無窮無盡的世界。事實上,知識圖譜并不是數(shù)據(jù),而是數(shù)據(jù)和數(shù)據(jù)之間的關系。但這里有一個非常大的弊端,就是數(shù)據(jù)的儲藏量非常大、儲存的方法也很復雜,且稍微改變一點點關系的定義,整體就會產(chǎn)生巨大的變化。

比如說,有一個知識圖譜在說電商平臺用戶之間的關系,那數(shù)據(jù)信息就非常龐大了。試想一下,今天電商平臺里有多少個用戶跟你有關系?假如說有 25個人,那么 25個人的關系就演變成了 25×25條關系。這時候,我再問你“什么是關系”、“見過就算關系,還是一起買過東西叫關系”的問題就具備了一定的難度。

關系建立的維度是無限大的,而且定義稍微改變一下,整個存儲和整個數(shù)據(jù)庫都會發(fā)生變化。所以,知識圖譜的把控是有難度的。舉個貼近我們生活的例子,比如說銀行很早之前就給你開辦了信用卡,決定銀行這一決策的不是你的個人關系而是總關系。銀行決定是否貸款給你,是要看你愛人做什么職業(yè)以及你家中其他人的經(jīng)濟情況如何。當這種種關系關聯(lián)起來時,就會產(chǎn)生一個極為重要的知識圖譜。

以往我們談大數(shù)據(jù)時候的本錢,莫過于“我有這種數(shù)據(jù),你沒有”。在未來,數(shù)據(jù)和數(shù)據(jù)之間的關系才是重中之重,而不是單純的數(shù)據(jù)本身。

數(shù)據(jù)的實時化與實時性分層
我們千萬不要把所有的能力都用來處理實時化的問題,因為我們依然會有大量的數(shù)據(jù)需要在恰當?shù)臅r機(Right Time)處理,有的數(shù)據(jù)是重要的,但不緊急。

以上講到的很多內容都是關于數(shù)據(jù)收集和管理層面的,而在數(shù)據(jù)的處理上,我在 LinkedIn上看到了一個很有趣且有價值的做法。 LinkedIn在處理數(shù)據(jù)時,會把公司的數(shù)據(jù)服務分為幾層,一方面是緊迫度,另一方面是重要不重要。比如,它會把數(shù)據(jù)分為“快數(shù)據(jù)緊急”、“快數(shù)據(jù)不緊急”和“慢數(shù)據(jù)重要”等。

我覺得對數(shù)據(jù)實時性分層的做法是合理的,而有人覺得數(shù)據(jù)的實時化處理是趨勢,但是我持有一定的懷疑態(tài)度。 Real Time是“實時”,Right Time是“恰當?shù)臅r機”。但是,據(jù)我看來,數(shù)據(jù)處理不一定要實時。比如,我們常見的情況是,每家公司都有財務的相關數(shù)據(jù),這類數(shù)據(jù)的處理都是“ T+1”,意思是你想要的數(shù)據(jù)在第二天才可以拿到。因為在其他數(shù)據(jù)沒有到位的情況下,數(shù)據(jù)實時化的價值也不大。

但是,換個場景來看,銀行若要判斷某個人的信用卡是否被盜用,那么肯定要對之進行實時化處理。數(shù)據(jù)的實時化,讓我們從商業(yè)的角度去認知數(shù)據(jù),值得注意的是,在具備了實時化的數(shù)據(jù)處理能力后,很多以前不能解決的場景開始變得能夠解決。在未來的某一天,編碼的工程師能夠在編碼時直接寫上“如果一個三天前只瀏覽未購買的客戶回來了,我要不要給他一個兩元錢的紅包”。這個程序是完全編好的,用戶登錄本身就成了一個實時標簽,快速的運算會讓每個網(wǎng)站都具備最強的時效性。

我們再換一個角度來思考,如今手機、電視、游戲機和 PC等多屏運作的時代下,作為一個網(wǎng)站,有多大的能力在非常快速的情況下,讓自身在非常小的時間點里抓住消費者,賣出產(chǎn)品,這種實時的能力會在未來的商業(yè)中變得越來越重要。

一個網(wǎng)站必須要讓自己的實時能力更高,甚至用戶接下來的每一步你都應該猜到,但我們千萬不要把所有的能力都用在處理實時化上,因為依然會有大量的數(shù)據(jù)需要在恰當?shù)臅r機( Right Time)處理,有的數(shù)據(jù)是重要的,但不緊急。

未來是人機的結合體
人和機器的結合,或者人和數(shù)據(jù)的結合將是未來的一種進步模式,人類將通過數(shù)據(jù)變得更加智能。

很多人會問,大數(shù)據(jù)目前發(fā)展到什么階段了?我的答案是——水分太多的階段。但毋庸置疑,大數(shù)據(jù)已經(jīng)極大地影響了我們的社會,但還遠遠沒有達到它的爆發(fā)點。因為有了大數(shù)據(jù),人的經(jīng)驗開始和數(shù)據(jù)結合,兩者相互激活,讓人的智慧得到了規(guī)模化地放大,這也使得整個社會開始伴隨著數(shù)據(jù)的發(fā)展產(chǎn)生巨大的改變。但是,在大數(shù)據(jù)的使用上,未來的發(fā)展空間注定會比現(xiàn)在取得的成績更加宏大,“數(shù)據(jù)化運營”和“運營數(shù)據(jù)”這個數(shù)據(jù)與人之間的閉環(huán)系統(tǒng)也會越來越完善,人機結合仍然有巨大的空間讓我們去挖掘。

未來,數(shù)據(jù)的種類將超出我們的想象。以前的數(shù)據(jù)更多集中在外部行為的監(jiān)控上,不論是網(wǎng)絡購買行為,還是網(wǎng)上社交行為,都是用戶在“遠距離”提供數(shù)據(jù),即便這樣,我們仍然還沒有運用好這些數(shù)據(jù)。隨著可穿戴式設備的出現(xiàn),數(shù)據(jù)和人將真正融為一體,類似谷歌眼鏡這樣的設備,將讓我們看到的東西即時數(shù)據(jù)化;類似健康手環(huán)類設備和可以深度收集腦電波數(shù)據(jù)的設備,將隨時會使我們人體的活動轉化成數(shù)據(jù)。目前,記錄睡眠狀況只是其初步的應用,在不遠的未來,用數(shù)據(jù)記錄我們每一秒鐘的生活也將成為可能。

當萬物皆數(shù)據(jù)的時刻到來時,商業(yè)發(fā)展的更多新機會將會出現(xiàn),數(shù)據(jù)將會幫助我們更好地做出判斷,比如,什么時候最適合吃飯、什么時候身體疲憊適合睡覺和什么時候記憶力最好等,這些都能通過數(shù)據(jù)來進行預判。甚至于,當記錄了人的足夠數(shù)據(jù)之后,數(shù)據(jù)就可能告訴我們此時此刻應該做些什么及最佳的策略。也許在那時,決定人是否聰明的指標,已經(jīng)不是 IQ,而是是否擁有足夠優(yōu)質的數(shù)據(jù)。

人和機器的結合,或者人和數(shù)據(jù)的結合將是未來的一種進步模式,人類將通過數(shù)據(jù)變得更加智能。

最后我想用兩句話來總結:

當下,我們要學會人機分工,讓人做人最擅長的事情,讓機器做機器最擅長的事情;
未來,我們要相信人機結合,人機的界線已經(jīng)模糊,無人駕駛汽車已經(jīng)變成可能。未來人類的身上流動著的是血液以及數(shù)據(jù)。

忽略了趨勢,過去的價值一文不值

我們通常都認為,經(jīng)驗應該是越多越好。一個有經(jīng)驗的人總是更能夠在很多事情上做出正確的判斷,因為積累使然。但事實上,我們發(fā)現(xiàn),有時候經(jīng)驗越多,似乎越容易讓人犯一些低級錯誤。這就好像,你會發(fā)覺往往天天研究彩票和股票的人總是發(fā)不了大財,而往往是一個菜鳥莫名其妙地就中了大獎和買了一只牛股。

為什么經(jīng)驗有時會使人犯低級錯誤呢?在這里,我們應該將其分成兩種情況來看待:一種是信息不對稱;另一種則是邏輯錯誤。

當我們討論信息的不對稱時,首先要講的就是經(jīng)驗。經(jīng)驗是對過去的度量,但不是所有經(jīng)驗信息的質量都很好。在經(jīng)驗的數(shù)據(jù)庫里,肯定有一些信息是正確的,有一些是錯誤的。當經(jīng)驗中混有很多噪音干擾時,我們會跟隨錯誤的經(jīng)驗做出判斷,此時,我們就會發(fā)現(xiàn)自己變笨了。

比如,在使用沒有評估過的經(jīng)驗時,你用 A方案獲得了成功,用 B方案卻失敗了,而且在評估的過程中也不是單純的 0或1,而是用 0~1的范圍來度量的。說到這個,就要提到數(shù)據(jù)分析師了。一般而言,數(shù)據(jù)分析師對于信息是很有潔癖的,也就是在對于經(jīng)驗的累積上,他們對質量把控得十分嚴格,如對于數(shù)據(jù)信息的排序、分析可靠的信息源進行多次使用、了解信息的出處和知道信息的提供者等。根據(jù)這些,數(shù)據(jù)分析師在它們的輔助下做出了決定。這意味著,你所有的信息來源都需要有正確的途徑和渠道,不然,這個決策也會出現(xiàn)偏差。

除此之外,還有一個因素導致經(jīng)驗使人變笨,那就是在分析時忽略了趨勢,這個道理可以用賽馬的故事來舉證。

在香港,你經(jīng)常會發(fā)現(xiàn)拿著一大堆材料的人會分析馬匹的數(shù)據(jù)。比如,有人會根據(jù)一匹馬進行 1 200米跑的時間,來計算它未來可能跑完全程所需要的時間。但我們發(fā)現(xiàn),還是有很多人因算錯導致賭馬失敗。為什么呢?因為歷史數(shù)據(jù)和我們今天面對的情況中出現(xiàn)了一些假象。香港大多數(shù)賭馬的人,他們最終收集到的數(shù)據(jù)都是受到影響的,而不是經(jīng)過清洗的,當然是不準確的。每一個賭馬的人都在看過去的數(shù)據(jù)——馬會會給每一個賭馬者提供前三場賽馬的數(shù)據(jù),大家只會關注這個結果,而不會去關注賽馬當天發(fā)生了什么。如果是我,則會去回看錄像,就可能發(fā)現(xiàn)其他的情況。比如,如果這匹馬本來想發(fā)力,但前面有馬匹擋住了它,它才被扣除了兩秒鐘;或者騎師揚鞭,鞭子掉了,扣除 5秒鐘;再或者有些馬發(fā)脾氣偏離跑道,也要扣除秒數(shù)。當排除所有意外算出的時間,就是干凈的、沒有影響因素的真正經(jīng)驗了。這時候,我們得到的第 1~3名的數(shù)據(jù)和最終比賽結束公布出來的第 1~3名的數(shù)據(jù)就會不一樣。

除此之外,還要觀察有關賽馬成長的趨勢問題。事實上,在每一場賽馬里都會出現(xiàn)很多意外,如果這些意外都不出現(xiàn),也會直接導致結果的不同。因為每匹馬幼年和成年的狀態(tài)是完全不同的,因此它的數(shù)據(jù)價值評估也是不一樣的。一匹馬 3~4歲等同于我們人類 18~25歲,體能上會出現(xiàn)非常大的變化;又或者,年幼的馬匹對于騎士的體重非常敏感,多 1~2磅就會有非常大的影響,但長到 5歲后,負重對其的影響則會慢慢降低,這就是硬趨勢。即便有很多過往經(jīng)驗的數(shù)據(jù)都不能很好地匹配今天你要做的事情時,意味著經(jīng)驗需要將數(shù)據(jù)進行清洗——把當天的影響因素都找出來,并還原,這時候得到的數(shù)據(jù)才是正確的經(jīng)驗。

結論就是,經(jīng)驗使人變笨的原因在于你之前的經(jīng)驗本身就存在誤差,即數(shù)據(jù)源本身就存在問題,而這種誤差一般人看不出來。因此,在過去的經(jīng)驗積累本身就有問題的情況下,根據(jù)經(jīng)驗得出的結論自然會使人犯低級錯誤。

你永遠不要假定這個世界是真空的,所以你還需要多多觀察頻繁出現(xiàn)的新數(shù)據(jù)。當有新的數(shù)據(jù)出現(xiàn)時,以往的經(jīng)驗就需要重新做評估了。
知名風險投資公司
紅杉資本|瑞華投資|同創(chuàng)偉業(yè)|達晨創(chuàng)投|深創(chuàng)投|IDG|創(chuàng)東方|君聯(lián)資本|中科招商|經(jīng)緯中國|啟明創(chuàng)投|松禾資本|英特爾投資|優(yōu)勢資本|東方富海|天堂硅谷|九鼎投資|晨興創(chuàng)投|江蘇高科投|北極光創(chuàng)投|德同資本|凱雷投資|中國風投|天圖資本|真格基金|DCM|IFC|凱鵬華盈|高盛投資|啟迪創(chuàng)投|戈壁|荷多投資|紀源資本|鼎暉投資|華平投資|金沙江投資|海納亞洲|永宣創(chuàng)投|險峰華興創(chuàng)投|中投|海通開元|中信資本|力鼎資本|平安創(chuàng)新資本|天使灣創(chuàng)投|和君資本|祥峰集團|招商湘江投資|元禾控股|力合創(chuàng)投|復星創(chuàng)富|陜西高投|光速創(chuàng)投|富達亞洲|成為資本|中信產(chǎn)業(yè)基金|GIC|基石資本|金茂資本|富坤創(chuàng)投|盈富泰克|重慶科投|鼎暉創(chuàng)投|北工投資|海富投資|招商局資本|新天域資本|中路集團|摩根士丹利|青云創(chuàng)投|建銀國際|德豐杰|弘毅投資|CVC|藍馳創(chuàng)投|寬帶資本|秉鴻資本|金石投資|天創(chuàng)資本|證大投資|中經(jīng)合|信中利|蘭馨亞洲|淡馬錫|浙商創(chuàng)投|華睿投資|景林資產(chǎn)|摯信資本|高特佳|清科創(chuàng)投|華登國際|山東高新投|集富亞洲|騰訊|無錫創(chuàng)投|創(chuàng)新工場|智基創(chuàng)投|策源創(chuàng)投|軟銀中國|
Copyright©創(chuàng)業(yè)聯(lián)合網(wǎng) ALL Rights Reserved
滬ICP備2024089025號-2
商務與客服聯(lián)系微信
葫芦岛市| 华阴市| 嘉黎县| 安塞县| 延寿县| 永安市| 定州市| 太湖县| 昆山市| 启东市| 峨边| 五台县| 阳东县| 舟山市| 铁力市| 喀喇沁旗| 夏邑县| 新绛县| 庆阳市| 琼结县| 衡阳县| 汉沽区| 广昌县| 平山县| 黄山市| 六盘水市| 台州市| 汝城县| 台东县| 穆棱市| 新田县| 酒泉市| 南投市| 临泉县| 永川市| 盈江县| 北票市| 夏邑县| 商丘市| 马关县| 吴旗县|