決策樹算法

機器學習中,決策樹是一個預測模型;它代表的是對象屬性值與對象值之間的一種映射關系。樹中每個節(jié)點表示某個對象,每個分叉路徑則代表的某個可能的屬性值,而每個葉結點則對應具有上述屬性值的子對象。決策樹僅有單一輸出;若需要多個輸出,可以建立獨立的決策樹以處理不同輸出。
從數(shù)據(jù)產(chǎn)生決策樹的機器學習技術叫做決策樹學習, 通俗說就是決策樹。
關于決策樹,幾乎是數(shù)據(jù)挖掘分類算法中最先介紹到的。
決策樹,顧名思義就是用來做決定的樹,一個分支就是一個決策過程。
每個決策過程中涉及一個數(shù)據(jù)的屬性,而且只涉及一個。然后遞歸地,貪心地直到滿足決策條件(即可以得到明確的決策結果)。
決策樹算法:顧名思義,以二分類問題為例,即利用自變量構造一顆二叉樹,將目標變量區(qū)分出來,所有決策樹算法的關鍵點如下:
1.分裂屬性的選擇:選擇哪個自變量作為樹叉,也就是在n個自變量中,優(yōu)先選擇哪個自變量進行分叉。而采用何種計算方式選擇樹叉,決定了決策樹算法的類型,即ID3、c4.5、CART三種決策樹算法選擇樹叉的方式是不一樣的。
2.樹剪枝:在構建樹叉時,由于數(shù)據(jù)中的噪聲和離群點,許多分支反映的是訓練數(shù)據(jù)中的異常,而樹剪枝則是處理這種過分擬合的數(shù)據(jù)問題,常用的剪枝方法為先剪枝和后剪枝。
決策樹是一種十分常用的分類方法。他是一種監(jiān)管學習,所謂監(jiān)管學習說白了很簡單,就是給定一堆樣本,每個樣本都有一組屬性和一個類別,這些類別是事先確定的,那么通過學習得到一個分類器,這個分類器能夠對新出現(xiàn)的對象給出正確的分類。這樣的機器學習就被稱之為監(jiān)督學習。
構建一棵決策樹,關鍵問題就在于,如何選擇一個合適的分裂屬性來進行一次分裂,以及如何制定合適的分裂謂詞來產(chǎn)生相應的分支。各種決策樹算法的主要區(qū)別也正在于此。
利用決策樹算法構建一個初始的樹之后,為了有效地分類,還要對其進行剪枝。這是因為,由于數(shù)據(jù)表示不當、有噪音等原因,會造成生成的決策樹過大或過度擬合。因此為了簡化決策樹,尋找一顆最優(yōu)的決策樹,剪枝是一個必不可少的過程。
決策樹學習也是數(shù)據(jù)挖掘中一個普通的方法。在管理學中,每個決策樹都表述了一種樹型結構,它由它的分支來對該類型的對象依靠屬性進行分類。每個決策樹可以依靠對源數(shù)據(jù)庫的分割進行數(shù)據(jù)測試。這個過程可以遞歸式的對樹進行修剪。當不能再進行分割或一個單獨的類可以被應用于某一分支時,遞歸過程就完成了。另外,隨機森林分類器將許多決策樹結合起來以提升分類的正確率。
行業(yè)分析發(fā)現(xiàn),決策樹越小,就越容易理解,其存儲與傳輸?shù)拇鷥r也就越小,但決策樹過小會導致錯誤率較大。反之,決策樹越復雜,節(jié)點越多,每個節(jié)點包含的訓練樣本個數(shù)越少,則支持每個節(jié)點樣本數(shù)量也越少,可能導致決策樹在測試集上的分類錯誤率越大。因此,剪枝的基本原則就是,在保證一定的決策精度的前提下,使樹的葉子節(jié)點最少,葉子節(jié)點的深度最小。要在樹的大小和正確率之間尋找平衡點。
在生成一棵最優(yōu)的決策樹之后,就可以根據(jù)這棵決策樹來生成一系列規(guī)則。這些規(guī)則采用“If...,Then...”的形式。從根節(jié)點到葉子節(jié)點的每一條路徑,都可以生成一條規(guī)則。這條路徑上的分裂屬性和分裂謂詞形成規(guī)則的前件(If部分),葉子節(jié)點的類標號形成規(guī)則的后件(Then部分)。
相對于其他數(shù)據(jù)挖掘算法,決策樹在以下幾個方面擁有優(yōu)勢:
決策樹易于理解和實現(xiàn),人們在通過解釋后都有能力去理解決策樹所表達的意義。
對于決策樹,數(shù)據(jù)的準備往往是簡單或者是不必要的,其他的技術往往要求先把數(shù)據(jù)一般化,比如去掉多余的或者空白的屬性;
能夠同時處理數(shù)據(jù)型和常規(guī)型屬性;
是一個白盒模型如果給定一個觀察的模型,那么根據(jù)所產(chǎn)生的決策樹很容易推出相應的邏輯表達式;
易于通過靜態(tài)測試來對模型進行評測。 表示有可能測量該模型的可信度;
在相對短的時間內(nèi)能夠對大型數(shù)據(jù)源做出可行且效果良好的結果。
知名風險投資公司
紅杉資本|瑞華投資|同創(chuàng)偉業(yè)|達晨創(chuàng)投|深創(chuàng)投|IDG|創(chuàng)東方|君聯(lián)資本|中科招商|經(jīng)緯中國|啟明創(chuàng)投|松禾資本|英特爾投資|優(yōu)勢資本|東方富海|天堂硅谷|九鼎投資|晨興創(chuàng)投|江蘇高科投|北極光創(chuàng)投|德同資本|凱雷投資|中國風投|天圖資本|真格基金|DCM|IFC|凱鵬華盈|高盛投資|啟迪創(chuàng)投|戈壁|荷多投資|紀源資本|鼎暉投資|華平投資|金沙江投資|海納亞洲|永宣創(chuàng)投|險峰華興創(chuàng)投|中投|海通開元|中信資本|力鼎資本|平安創(chuàng)新資本|天使灣創(chuàng)投|和君資本|祥峰集團|招商湘江投資|元禾控股|力合創(chuàng)投|復星創(chuàng)富|陜西高投|光速創(chuàng)投|富達亞洲|成為資本|中信產(chǎn)業(yè)基金|GIC|基石資本|金茂資本|富坤創(chuàng)投|盈富泰克|重慶科投|鼎暉創(chuàng)投|北工投資|海富投資|招商局資本|新天域資本|中路集團|摩根士丹利|青云創(chuàng)投|建銀國際|德豐杰|弘毅投資|CVC|藍馳創(chuàng)投|寬帶資本|秉鴻資本|金石投資|天創(chuàng)資本|證大投資|中經(jīng)合|信中利|蘭馨亞洲|淡馬錫|浙商創(chuàng)投|華睿投資|景林資產(chǎn)|摯信資本|高特佳|清科創(chuàng)投|華登國際|山東高新投|集富亞洲|騰訊|無錫創(chuàng)投|創(chuàng)新工場|智基創(chuàng)投|策源創(chuàng)投|軟銀中國|
創(chuàng)業(yè)聯(lián)合網(wǎng)是創(chuàng)業(yè)者和投資人的交流平臺。平臺擁有5000+名投資人入駐。幫助創(chuàng)業(yè)企業(yè)對接投資人和投資機構,同時也是創(chuàng)業(yè)企業(yè)的媒體宣傳和交流合作平臺。
熱門標簽
精華文章
