集成學(xué)習(xí)基礎(chǔ)通俗入門(mén)_第1頁(yè)
集成學(xué)習(xí)基礎(chǔ)通俗入門(mén)_第2頁(yè)
集成學(xué)習(xí)基礎(chǔ)通俗入門(mén)_第3頁(yè)
集成學(xué)習(xí)基礎(chǔ)通俗入門(mén)_第4頁(yè)
集成學(xué)習(xí)基礎(chǔ)通俗入門(mén)_第5頁(yè)
已閱讀5頁(yè),還剩4頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

集成學(xué)習(xí)基礎(chǔ)通俗入門(mén)編者按】集成建模是一種提高模型性能的強(qiáng)大方式。本文作為通俗入門(mén)教程,首先通過(guò)一個(gè)例子快速引入集成學(xué)習(xí)的基礎(chǔ)知識(shí),介紹如何真正得到不同的學(xué)習(xí)模塊,并著重討論了幾種在行業(yè)內(nèi)廣泛使用的集成技術(shù),包括Bagging、Boosting、Stacking等。導(dǎo)論集成建模是一種提高模型性能的強(qiáng)大方式。在你可能構(gòu)建的各種模型上使用集成學(xué)習(xí)通常卓有成效。一次又一次,人們?cè)贙aggle這樣的比賽中使用集成模型,并且從中受益。集成學(xué)習(xí)是一個(gè)廣泛的話題,廣到超出你的想象力。對(duì)于本文,我將涵蓋集成建模的基本概念和思想。這應(yīng)該足以讓你在自己的機(jī)器上開(kāi)始建立集成模型。像往常一樣,我們?cè)噲D讓事情盡可能的簡(jiǎn)單。讓我們通過(guò)一個(gè)例子來(lái)快速了解集成學(xué)習(xí)的基礎(chǔ)知識(shí)。這個(gè)例子將會(huì)帶出我們每天是如何在毫無(wú)察覺(jué)的情況下使用集成學(xué)習(xí)的。案例:我想投資一家公司XYZ。我還不知道它的業(yè)績(jī)。所以我想有人給我些意見(jiàn),看看這家公司的股票價(jià)格是否會(huì)每年增加6%以上。我打算與具有不同領(lǐng)域經(jīng)驗(yàn)的專家交流。1、 XYZ公司職員:此人知道公司內(nèi)部運(yùn)作方式,并且知道該公司的內(nèi)部消息。但是他并不了解競(jìng)爭(zhēng)對(duì)手的創(chuàng)新情況,技術(shù)將如何發(fā)展,并且這種發(fā)展會(huì)對(duì)XYZ公司產(chǎn)品有何影響。在過(guò)去,他有70%的時(shí)候判斷是正確的。2、 XYZ公司的財(cái)務(wù)顧問(wèn):此人非常了解在激烈競(jìng)爭(zhēng)環(huán)境下公司的戰(zhàn)略將會(huì)得到怎樣的效果。但是,他對(duì)公司內(nèi)部政策會(huì)有何結(jié)果并不了解。在過(guò)去,他有75%的時(shí)候判斷是正確的。3、 股市操盤(pán)手:此人過(guò)去三年一直在關(guān)注該公司的股票。他知道周期性趨勢(shì),以及整體股市的表現(xiàn)。他還形成了關(guān)于股票可能會(huì)如何隨時(shí)間推移而變化的強(qiáng)烈直覺(jué)。在過(guò)去,他有70%的時(shí)候判斷是正確的。4、 競(jìng)爭(zhēng)對(duì)手的職員:此人知道該競(jìng)爭(zhēng)公司的內(nèi)部運(yùn)作方式,并且意識(shí)到已經(jīng)發(fā)生的變化。他對(duì)公司缺乏焦點(diǎn)認(rèn)識(shí),并且對(duì)于競(jìng)爭(zhēng)對(duì)手相關(guān)的外部因素認(rèn)識(shí)不佳。在過(guò)去,他有60%的時(shí)候判斷是正確的。5、 同一領(lǐng)域的市場(chǎng)研究團(tuán)隊(duì):這個(gè)團(tuán)隊(duì)會(huì)分析XYZ公司產(chǎn)品與其他公司產(chǎn)品的用戶體驗(yàn)差異,并且這一情況隨著時(shí)間如何改變。因?yàn)樗麄兣c客戶打交道,并且基于他們自己的目標(biāo),他們不知道XYZ公司將會(huì)發(fā)生什么樣的變化。在過(guò)去,他們有75%的時(shí)候判斷是正確的。6、 社交媒體專家:此人可以幫助我們了解XYZ公司對(duì)它們產(chǎn)品市場(chǎng)定位如何。并且了解隨著時(shí)間推移客戶對(duì)此公司看法如何。除了數(shù)字營(yíng)銷領(lǐng)域,其它領(lǐng)域的細(xì)節(jié)他不太關(guān)注。在過(guò)去,他有65%的時(shí)候判斷是正確的。通過(guò)各方面的了解,我們可以結(jié)合所有的信息,并作出明智的決定。如果所有的6位專家/團(tuán)隊(duì)都認(rèn)為這是個(gè)很好的決定(假設(shè)所有預(yù)測(cè)都是相互獨(dú)立的),我們將得到組合準(zhǔn)確率:1-30%*25%*30%*40%*25%*35%=1-0.07875=99.92125%假設(shè):這里使用的所有預(yù)測(cè)是完全獨(dú)立的假設(shè)略微極端,因?yàn)樗鼈冾A(yù)期相關(guān)。但是,我們可以看出將不同預(yù)測(cè)結(jié)合起來(lái)我們會(huì)對(duì)問(wèn)題有多大把握?,F(xiàn)在來(lái)改變下場(chǎng)景。這一次,我們有6個(gè)專家,它們都是XYZ公司的員工,并且都在同一個(gè)部門(mén)工作。每個(gè)人都有差不多70%正確率。如果我們將這些建議結(jié)合起來(lái),還會(huì)得到99%以上的準(zhǔn)確率嗎?很明顯不會(huì),因?yàn)檫@次的預(yù)測(cè)都是在相似的信息集上做出的。他們都會(huì)受到相似信息集的影響,并且他們建議中唯一的不同是每個(gè)人對(duì)公司有不同的看法。停下來(lái)思考:你從這個(gè)案例中得到什么結(jié)論?是不是很深?yuàn)W?在評(píng)論欄中寫(xiě)下你的看法。什么是集成學(xué)習(xí)?集成是結(jié)合不同的學(xué)習(xí)模塊(單個(gè)模型)來(lái)加強(qiáng)模型的穩(wěn)定性和預(yù)測(cè)能力。在上面的例子中,我們將所有預(yù)測(cè)結(jié)合在一起的方式被稱為集成學(xué)習(xí)。在這篇文章中,我們將討論幾種在行業(yè)內(nèi)廣泛使用的集成技術(shù)。在我們講述技術(shù)之前,讓我們先來(lái)了解如何真正得到不同的學(xué)習(xí)模塊。模型會(huì)因?yàn)楦鞣N原因而彼此不同,從訓(xùn)練模型的樣本數(shù)據(jù)集到模型的構(gòu)造方法都會(huì)導(dǎo)致差異。下面是導(dǎo)致模型不同的4個(gè)主要因素。這些因素的組合也可能會(huì)造成模型不同:1、不同種類2、不同假設(shè)

3、不同建模技術(shù)4、初始化參數(shù)不同

集成建模中的誤差(方差vs偏置)任何模型中出現(xiàn)的誤差都可以在數(shù)學(xué)上分解成三個(gè)分量。如下:Err(x)^E[f(x)]- +E[f(x)-E[f(x)]\+邛Err(x)=Bias3+Variance+IrreducibleError在目前的情況下這為什么很重要?為了了解集成模型背后發(fā)生的情況,我們首先要了解模型中是什么造成了誤差。我們會(huì)簡(jiǎn)要介紹這些誤差,然后對(duì)每一個(gè)集成學(xué)習(xí)模塊進(jìn)行分析。偏置誤差是用來(lái)度量預(yù)測(cè)值與實(shí)際值差異的平均值,高偏置誤差意味著我們的模型表現(xiàn)欠佳,不斷丟失重要的趨勢(shì)。方差則是度量基于同一觀測(cè)值,預(yù)測(cè)值之間的差異。高方差模型在你的訓(xùn)練集上會(huì)過(guò)擬合,并且在訓(xùn)練之外的任何觀察表現(xiàn)都不佳。下圖會(huì)讓你更明白(假設(shè)紅點(diǎn)是真實(shí)值,藍(lán)點(diǎn)是預(yù)測(cè)值):LowVariai'ice HighVariance圖自:ScottFortman通常情況下,當(dāng)你增加模型的復(fù)雜性時(shí),由于模型的低偏置,你會(huì)發(fā)現(xiàn)錯(cuò)誤減少。但是,這只在某個(gè)特定點(diǎn)才發(fā)生。當(dāng)你繼續(xù)增加模型復(fù)雜性時(shí),模型最終會(huì)過(guò)擬合,因此模型開(kāi)始出現(xiàn)高方差。一個(gè)優(yōu)良的模型應(yīng)該在這兩種誤差之間保持平衡。這被稱為偏置方差的折衷管理。集成學(xué)習(xí)就是執(zhí)行折衷權(quán)衡的一種方法。 4 ModelComplexity圖自:ScottFortman一些常用的集成學(xué)習(xí)技術(shù)1、Bagging:Bagging試圖在小樣本集上實(shí)現(xiàn)相似的學(xué)習(xí)模塊,然后對(duì)預(yù)測(cè)值求平均值。對(duì)于Bagging一般來(lái)說(shuō),你可以在不同數(shù)據(jù)集上使用不同學(xué)習(xí)模塊。正如你所期望的那樣,這樣可以幫助我們減少方差。

Original

DTrainingdataStep1:

CreateMultiple

DataSets叫 D??…Step1:

CreateMultiple

DataSets叫 D??…Dm DtStep2:

BuildMultiple

ClassifiersStep3;

Combine

Classifiers2、Boosting2、Boosting:Boosting是一項(xiàng)迭代技術(shù),它在上一次分類的基礎(chǔ)上調(diào)整觀測(cè)值的權(quán)重。如果觀測(cè)值被錯(cuò)誤分類,它就會(huì)增加這個(gè)觀測(cè)值的權(quán)重,反之亦然。Boosting一般會(huì)減少偏置誤差然后構(gòu)建強(qiáng)大的預(yù)測(cè)模型。但是,有些時(shí)候它們也會(huì)在訓(xùn)練數(shù)據(jù)上過(guò)擬合。3、Stacking:用它來(lái)結(jié)合模型是種有趣的方式。下面我們用一個(gè)學(xué)習(xí)模塊與來(lái)自不同學(xué)習(xí)模塊的輸出結(jié)合起來(lái)。取決于我們使用的學(xué)習(xí)模塊。這樣做可以減少偏置誤差和方差。結(jié)束語(yǔ)集成技術(shù)正被用于每一個(gè)Kaggle問(wèn)題之中。選擇合適的集成模

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論