




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、CART分類與回歸樹本文結(jié)構(gòu):CART算法有兩步回歸樹的生成分類樹的生成剪枝CART-ClassificationandRegressionT分類與回歸樹,是二叉樹,可以用于分類,也可以用于回歸問題,最先由Breiman等提出。分類樹的輸出是樣本的類別,回歸樹的輸出是一個實數(shù)。CART算法有兩步:決策樹生成和剪枝。決策樹生成:遞歸地構(gòu)建二叉決策樹的過程,基于訓(xùn)練數(shù)據(jù)集生成決策樹,生成的決策樹要盡量大;自上而下從根開始建立節(jié)點,在每個節(jié)點處要選擇一個最好的屬性來分裂,使得子節(jié)點中的訓(xùn)練集盡量的純。不同的算法使用不同的指標來定義最好:分類問題,可以選擇GINI,雙化或有序雙化;回歸問題,可以使用最
2、小二乘偏差(LSD)或最小絕對偏差(LAD)。決策樹剪枝:用驗證數(shù)據(jù)集對已生成的樹進行剪枝并選擇最優(yōu)子樹,這時損失函數(shù)最小作為剪枝的標準。這里用代價復(fù)雜度剪枝Cost-ComplexityPruning(CCP)回歸樹的生成回歸樹模型表示為:其中,數(shù)據(jù)空間被劃分成了R1Rm單元,每個單元上有一個固定的輸出值cm。這樣就可以計算模型輸出值與實際值的誤差:我們希望每個單元上的cm,可以使得這個平方誤差最小化,易知當cm為相應(yīng)單元上的所有實際值的均值時,可以達到最優(yōu):那么如何生成這些單元劃分?假設(shè),我們選擇變量xj為切分變量,它的取值s為切分點,那么就會得到兩個區(qū)域:W町=找10W科和&4巧=XI工
3、J當j和s固定時,我們要找到兩個區(qū)域的代表值c1,c2使各自區(qū)間上的平方差最小,minmin工+min(y.-Cj)2L片曲】*前面已經(jīng)知道c1,c2為區(qū)間上的平均,&-ve(ytl咼e尺(人切和c;=ave(j(|x,場(/)那么對固定的j只需要找到最優(yōu)的S,然后通過遍歷所有的變量,我們可以找到最優(yōu)的j,這樣我們就可以得到最優(yōu)對(j,S),并得到兩個區(qū)間。上述過程表示的算法步驟為:輸人iiiitMft掲集zh輸出I回歸W/(X).莊訓(xùn)練數(shù)據(jù)集所務(wù)怖輸入空間中,翅歸地將毎個區(qū)城創(chuàng)分為兩個子區(qū)壊井決定帚個子區(qū)域上的輸出值,構(gòu)建二叉決門)選祥矗憂切分變it,與切分點求解氐工3-*+価工(Vj-cJ
4、追歷變燉八對同定的切分變Sjfi描切分點乩選擇便式(5.21)達到股小值的對U/)*用選定的對GU)劃分區(qū)域并決定相應(yīng)的輸出値;耳(7翼|日)5*卻(M)匕中j竹)継續(xù)對兩個子區(qū)域調(diào)用步W(i).(2),H5W足秤止條件.將輸入空間劃分為個區(qū)域知&嚴,心*生成決AW:即:(1) 考慮數(shù)據(jù)集D上的所有特征j,遍歷每一個特征下所有可能的取值或者切分點s,將數(shù)據(jù)集D劃分成兩部分D1和D2(2) 分別計算上述兩個子集的平方誤差和,選擇最小的平方誤差對應(yīng)的特征與分割點,生成兩個子節(jié)點。(3) 對上述兩個子節(jié)點遞歸調(diào)用步驟(1)(2),直到滿足停止條件。分類樹的生成(1) 對每個特征A,對它的所有可能取值
5、a,將數(shù)據(jù)集分為A=a,和A!=a兩個子集,計算集合D的基尼指數(shù):(2) 遍歷所有的特征A,計算其所有可能取值a的基尼指數(shù),選擇D的基尼指數(shù)最小值對應(yīng)的特征及切分點作為最優(yōu)的劃分,將數(shù)據(jù)分為兩個子集。(3) 對上述兩個子節(jié)點遞歸調(diào)用步驟(1)(2),直到滿足停止條件。(4) 生成CART決策樹。其中GINI指數(shù):1、是一種不等性度量;2、是介于01之間的數(shù),0-完全相等,1-完全不相等;3、總體內(nèi)包含的類別越雜亂,GINI指數(shù)就越大(跟熵的概念很相似)定義:分類問題中,假設(shè)有K個類,樣本屬于第k類的概率為pk,則概率分布的基尼指數(shù)為:1樣本集合D的基尼指數(shù)為:IGI其中Ck為數(shù)據(jù)集D中屬于第k
6、類的樣本子集。如果數(shù)據(jù)集D根據(jù)特征A在某一取值a上進行分割,得到D1,D2兩部分后,那么在特征A下集合D的基尼指數(shù)為:其中算法的停止條件有:1、節(jié)點中的樣本個數(shù)小于預(yù)定閾值,2、樣本集的Gini系數(shù)小于預(yù)定閾值(此時樣本基本屬于同一類)3、或沒有更多特征。下面來看一下例子:最后一列是我們要分類的目標。名禰表面惡益治生鏈飛水生有腿拱標記Aa早0甫乳至例如,按照“體溫為恒溫和非恒溫”進行劃分,計算如下:恒溫時包含哺乳類5個、鳥類2個非恒溫時包含爬行類3個、魚類3個、兩棲類2個4264得到特征體溫下數(shù)據(jù)集的GINI指數(shù):GINI_G1611216162-1st2的小,所以剪掉t2:并且令a(3)=1/8最后剩下t1,計算后gt=1/4,所以a(4)=1/4。如此我們得到:a(0)=
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 職業(yè)技能培訓(xùn)學(xué)校品牌加盟及師資輸出人才培養(yǎng)合作協(xié)議
- 心理咨詢專業(yè)保密協(xié)議補充內(nèi)容
- 家族信托資產(chǎn)非物質(zhì)文化遺產(chǎn)保護合同
- 供應(yīng)鏈商業(yè)方法專利合作開發(fā)與應(yīng)用合同
- 智能交通認證補充協(xié)議
- 民宿短租平臺智能客服系統(tǒng)用戶協(xié)議
- 藥品MAH委托生產(chǎn)生產(chǎn)質(zhì)量追溯與召回服務(wù)協(xié)議
- DB42-T 2033.1-2023 景觀花海植物種植技術(shù)規(guī)程 第1部分:百日菊
- 置業(yè)顧問季度個人總結(jié)模版
- 下關(guān)第一中學(xué)2025年高三二模沖刺(六)數(shù)學(xué)試題含解析
- 2023年08月甘肅省農(nóng)業(yè)科學(xué)院公開招聘30人筆試歷年難易錯點考題薈萃附帶答案詳解
- 應(yīng)用翻譯-華東交通大學(xué)中國大學(xué)mooc課后章節(jié)答案期末考試題庫2023年
- JGJ142-2004《地面輻射供暖技術(shù)規(guī)程》條文說明
- 大學(xué)生性健康教育智慧樹知到答案章節(jié)測試2023年南昌大學(xué)
- 2、圓口綱完整版課件
- JB/T 20173-2016輥壓干法制粒機
- 外科護理學(xué)題庫(中專)
- DB2110T 0004-2020 遼陽地區(qū)主要樹種一元、二元立木材積表
- 建設(shè)工程施工項目每日“防高墜三檢”檢查記錄表
- 住建部《建筑業(yè)10項新技術(shù)(2017版)》解讀培訓(xùn)課件
- 基于深度學(xué)習(xí)的問題鏈講座課件(44張PPT)
評論
0/150
提交評論