丝袜久久亚洲国产毛片,老人AV综合,国产精品日韩av,超碰国产综合,综合av在线草,毛片久久久,精品蜜桃一区三区,99久久久,人妻99在线视频

【專治不明覺厲】之“大數(shù)據(jù)”

2014-04-14 項目

展示量: 4064
【專治不明覺厲】之“大數(shù)據(jù)”
創(chuàng)投分享會注:上一篇“專治不明覺厲”文章,創(chuàng)投分享會君為大家介紹了“云計算”領域中的那些“不明覺厲”的名詞。作為云計算最重要的應用,大數(shù)據(jù)領域也有很多看上去“不明覺厲”的詞匯。本篇文章,創(chuàng)投分享會君就為各位介紹“大數(shù)據(jù)”領域里的“不明覺厲”。

大數(shù)據(jù)(Big Data)

大數(shù)據(jù),官方定義是指那些數(shù)據(jù)量特別大、數(shù)據(jù)類別特別復雜的數(shù)據(jù)集,這種數(shù)據(jù)集無法用傳統(tǒng)的數(shù)據(jù)庫進行存儲,管理和處理。大數(shù)據(jù)的主要特點為數(shù)據(jù)量大(Volume),數(shù)據(jù)類別復雜(Variety),數(shù)據(jù)處理速度快(Velocity)數(shù)據(jù)真實性高(Veracity),合起來被稱為4V。

大數(shù)據(jù)中的數(shù)據(jù)量非常巨大,達到了PB級別。而且這龐大的數(shù)據(jù)之中,不僅僅包括結構化數(shù)據(jù)(如數(shù)字、符號等數(shù)據(jù)),還包括非結構化數(shù)據(jù)(如文本、圖像、聲音、視頻等數(shù)據(jù))。這使得大數(shù)據(jù)的存儲,管理和處理很難利用傳統(tǒng)的關系型數(shù)據(jù)庫去完成。在大數(shù)據(jù)之中,有價值的信息往往深藏其中。這就需要對大數(shù)據(jù)的處理速度要非???,才能短時間之內就能從大量的復雜數(shù)據(jù)之中獲取到有價值的信息。在大數(shù)據(jù)的大量復雜的數(shù)據(jù)之中,通常不僅僅包含真實的數(shù)據(jù),一些虛假的數(shù)據(jù)也混雜其中。這就需要在大數(shù)據(jù)的處理中將虛假的數(shù)據(jù)剔除,利用真實的數(shù)據(jù)來分析得出真實的結果。

大數(shù)據(jù)分析(Big Data Analysis)

大數(shù)據(jù),表面上看就是大量復雜的數(shù)據(jù),這些數(shù)據(jù)本身的價值并不高,但是對這些大量復雜的數(shù)據(jù)進行分析處理后,卻能從中提煉出很有價值的信息。對大數(shù)據(jù)的分析,主要分為五個方面:可視化分析(Analytic Visualization)、數(shù)據(jù)挖掘算法(Date Mining Algorithms)、預測性分析能力(Predictive Analytic Capabilities)、語義引擎(Semantic Engines)數(shù)據(jù)質量管理(Data Quality Management)。

可視化分析是普通消費者常??梢砸姷降囊环N大數(shù)據(jù)分析結果的表現(xiàn)形式,比如說百度制作的“百度地圖春節(jié)人口遷徙大數(shù)據(jù)”就是典型的案例之一??梢暬治鰧⒋罅繌碗s的數(shù)據(jù)自動轉化成直觀形象的圖表,使其能夠更加容易的被普通消費者所接受和理解。

數(shù)據(jù)挖掘算法是大數(shù)據(jù)分析的理論核心,其本質是一組根據(jù)算法事先定義好的數(shù)學公式,將收集到的數(shù)據(jù)作為參數(shù)變量帶入其中,從而能夠從大量復雜的數(shù)據(jù)中提取到有價值的信息。著名的“啤酒和尿布”的故事就是數(shù)據(jù)挖掘算法的經典案例。沃爾瑪通過對啤酒和尿布購買數(shù)據(jù)的分析,挖掘出以前未知的兩者間的聯(lián)系,并利用這種聯(lián)系,提升了商品的銷量。亞馬遜的推薦引擎和谷歌的廣告系統(tǒng)都大量使用了數(shù)據(jù)挖掘算法。

預測性分析能力是大數(shù)據(jù)分析最重要的應用領域。從大量復雜的數(shù)據(jù)中挖掘出規(guī)律,建立起科學的事件模型,通過將新的數(shù)據(jù)帶入模型,就可以預測未來的事件走向。預測性分析能力常常被應用在金融分析和科學研究領域,用于股票預測或氣象預測等。

語義引擎是機器學習的成果之一。過去,計算機對用戶輸入內容的理解僅僅停留在字符階段,不能很好的理解輸入內容的意思,因此常常不能準確的了解用戶的需求。通過對大量復雜的數(shù)據(jù)進行分析,讓計算機從中自我學習,可以使計算機能夠盡量精確的了解用戶輸入內容的意思,從而把握住用戶的需求,提供更好的用戶體驗。蘋果的Siri和谷歌的Google Now都采用了語義引擎。

數(shù)據(jù)質量管理是大數(shù)據(jù)在企業(yè)領域的重要應用。為了保證大數(shù)據(jù)分析結果的準確性,需要將大數(shù)據(jù)中不真實的數(shù)據(jù)剔除掉,保留最準確的數(shù)據(jù)。這就需要建立有效的數(shù)據(jù)質量管理系統(tǒng),分析收集到的大量復雜的數(shù)據(jù),挑選出真實有效的數(shù)據(jù)。

分布式計算(Distributed Computing)

對于如何處理大數(shù)據(jù),計算機科學界有兩大方向:第一個方向是集中式計算,就是通過不斷增加處理器的數(shù)量來增強單個計算機的計算能力,從而提高處理數(shù)據(jù)的速度。第二個方向是分布式計算,就是把一組計算機通過網絡相互連接組成分散系統(tǒng),然后將需要處理的大量數(shù)據(jù)分散成多個部分,交由分散系統(tǒng)內的計算機組同時計算,最后將這些計算結果合并得到最終的結果。盡管分散系統(tǒng)內的單個計算機的計算能力不強,但是由于每個計算機只計算一部分數(shù)據(jù),而且是多臺計算機同時計算,所以就分散系統(tǒng)而言,處理數(shù)據(jù)的速度會遠高于單個計算機。

過去,分布式計算理論比較復雜,技術實現(xiàn)比較困難,因此在處理大數(shù)據(jù)方面,集中式計算一直是主流解決方案。IBM的大型機就是集中式計算的典型硬件,很多銀行和政府機構都用它處理大數(shù)據(jù)。不過,對于當時的互聯(lián)網公司來說,IBM的大型機的價格過于昂貴。因此,互聯(lián)網公司的把研究方向放在了可以使用在廉價計算機上的分布式計算上。

服務器集群(Server Cluster)

服務器集群是一種提升服務器整體計算能力的解決方案。它是由互相連接在一起的服務器群所組成的一個并行式或分布式系統(tǒng)。服務器集群中的服務器運行同一個計算任務。因此,從外部看,這群服務器表現(xiàn)為一臺虛擬的服務器,對外提供統(tǒng)一的服務。

盡管單臺服務器的運算能力有限,但是將成百上千的服務器組成服務器集群后,整個系統(tǒng)就具備了強大的運算能力,可以支持大數(shù)據(jù)分析的運算負荷。Google,Amazon,阿里巴巴的計算中心里的服務器集群都達到了5000臺服務器的規(guī)模。

大數(shù)據(jù)的技術基礎:MapReduce、Google File System和BigTable

2003年到2004年間,Google發(fā)表了MapReduce、GFS(Google File System)和BigTable三篇技術論文,提出了一套全新的分布式計算理論。

MapReduce是分布式計算框架,GFS(Google File System)是分布式文件系統(tǒng),BigTable是基于Google File System的數(shù)據(jù)存儲系統(tǒng),這三大組件組成了Google的分布式計算模型。

Google的分布式計算模型相比于傳統(tǒng)的分布式計算模型有三大優(yōu)勢:首先,它簡化了傳統(tǒng)的分布式計算理論,降低了技術實現(xiàn)的難度,可以進行實際的應用。其次,它可以應用在廉價的計算設備上,只需增加計算設備的數(shù)量就可以提升整體的計算能力,應用成本十分低廉。最后,它被Google應用在Google的計算中心,取得了很好的效果,有了實際應用的證明。

后來,各家互聯(lián)網公司開始利用Google的分布式計算模型搭建自己的分布式計算系統(tǒng),Google的這三篇論文也就成為了大數(shù)據(jù)時代的技術核心。

主流的三大分布式計算系統(tǒng):Hadoop,Spark和Storm

由于Google沒有開源Google分布式計算模型的技術實現(xiàn),所以其他互聯(lián)網公司只能根據(jù)Google三篇技術論文中的相關原理,搭建自己的分布式計算系統(tǒng)。

Yahoo的工程師Doug Cutting和Mike Cafarella在2005年合作開發(fā)了分布式計算系統(tǒng)Hadoop。后來,Hadoop被貢獻給了Apache基金會,成為了Apache基金會的開源項目。Doug Cutting也成為Apache基金會的主席,主持Hadoop的開發(fā)工作。

Hadoop采用MapReduce分布式計算框架,并根據(jù)GFS開發(fā)了HDFS分布式文件系統(tǒng),根據(jù)BigTable開發(fā)了HBase數(shù)據(jù)存儲系統(tǒng)。盡管和Google內部使用的分布式計算系統(tǒng)原理相同,但是Hadoop在運算速度上依然達不到Google論文中的標準。

不過,Hadoop的開源特性使其成為分布式計算系統(tǒng)的事實上的國際標準。Yahoo,F(xiàn)acebook,Amazon以及國內的百度,阿里巴巴等眾多互聯(lián)網公司都以Hadoop為基礎搭建自己的分布式計算系統(tǒng)。

Spark也是Apache基金會的開源項目,它由加州大學伯克利分校的實驗室開發(fā),是另外一種重要的分布式計算系統(tǒng)。它在Hadoop的基礎上進行了一些架構上的改良。Spark與Hadoop最大的不同點在于,Hadoop使用硬盤來存儲數(shù)據(jù),而Spark使用內存來存儲數(shù)據(jù),因此Spark可以提供超過Hadoop100倍的運算速度。但是,由于內存斷電后會丟失數(shù)據(jù),Spark不能用于處理需要長期保存的數(shù)據(jù)。

Storm是Twitter主推的分布式計算系統(tǒng),它由BackType團隊開發(fā),是Apache基金會的孵化項目。它在Hadoop的基礎上提供了實時運算的特性,可以實時的處理大數(shù)據(jù)流。不同于Hadoop和Spark,Storm不進行數(shù)據(jù)的收集和存儲工作,它直接通過網絡實時的接受數(shù)據(jù)并且實時的處理數(shù)據(jù),然后直接通過網絡實時的傳回結果。

Hadoop,Spark和Storm是目前最重要的三大分布式計算系統(tǒng),Hadoop常用于離線的復雜的大數(shù)據(jù)處理,Spark常用于離線的快速的大數(shù)據(jù)處理,而Storm常用于在線的實時的大數(shù)據(jù)處理。
知名風險投資公司
紅杉資本|瑞華投資|同創(chuàng)偉業(yè)|達晨創(chuàng)投|深創(chuàng)投|IDG|創(chuàng)東方|君聯(lián)資本|中科招商|經緯中國|啟明創(chuàng)投|松禾資本|英特爾投資|優(yōu)勢資本|東方富海|天堂硅谷|九鼎投資|晨興創(chuàng)投|江蘇高科投|北極光創(chuàng)投|德同資本|凱雷投資|中國風投|天圖資本|真格基金|DCM|IFC|凱鵬華盈|高盛投資|啟迪創(chuàng)投|戈壁|荷多投資|紀源資本|鼎暉投資|華平投資|金沙江投資|海納亞洲|永宣創(chuàng)投|險峰華興創(chuàng)投|中投|海通開元|中信資本|力鼎資本|平安創(chuàng)新資本|天使灣創(chuàng)投|和君資本|祥峰集團|招商湘江投資|元禾控股|力合創(chuàng)投|復星創(chuàng)富|陜西高投|光速創(chuàng)投|富達亞洲|成為資本|中信產業(yè)基金|GIC|基石資本|金茂資本|富坤創(chuàng)投|盈富泰克|重慶科投|鼎暉創(chuàng)投|北工投資|海富投資|招商局資本|新天域資本|中路集團|摩根士丹利|青云創(chuàng)投|建銀國際|德豐杰|弘毅投資|CVC|藍馳創(chuàng)投|寬帶資本|秉鴻資本|金石投資|天創(chuàng)資本|證大投資|中經合|信中利|蘭馨亞洲|淡馬錫|浙商創(chuàng)投|華睿投資|景林資產|摯信資本|高特佳|清科創(chuàng)投|華登國際|山東高新投|集富亞洲|騰訊|無錫創(chuàng)投|創(chuàng)新工場|智基創(chuàng)投|策源創(chuàng)投|軟銀中國|
Copyright©創(chuàng)業(yè)聯(lián)合網 ALL Rights Reserved
滬ICP備2024089025號-2
商務與客服聯(lián)系微信
孙吴县| 济宁市| 荆门市| 大竹县| 无极县| 凤庆县| 镇安县| 金乡县| 昔阳县| 江安县| 阿鲁科尔沁旗| 渭源县| 禹州市| 北安市| 来宾市| 克什克腾旗| 宽甸| 德州市| 尉犁县| 泽库县| 铜山县| 本溪市| 招远市| 宁津县| 广昌县| 定结县| 乡城县| 壤塘县| 澄城县| 中卫市| 南江县| 泰宁县| 通许县| 仙居县| 海盐县| 垦利县| 依兰县| 察哈| 安乡县| 怀仁县| 济宁市|