不平衡數(shù)據(jù)實(shí)驗(yàn)報(bào)告_第1頁(yè)
不平衡數(shù)據(jù)實(shí)驗(yàn)報(bào)告_第2頁(yè)
不平衡數(shù)據(jù)實(shí)驗(yàn)報(bào)告_第3頁(yè)
不平衡數(shù)據(jù)實(shí)驗(yàn)報(bào)告_第4頁(yè)
不平衡數(shù)據(jù)實(shí)驗(yàn)報(bào)告_第5頁(yè)
全文預(yù)覽已結(jié)束

付費(fèi)下載

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

實(shí)驗(yàn)報(bào)告:不平衡數(shù)據(jù)分類23020102203966宿玥不平衡數(shù)據(jù)的概況:不平衡數(shù)據(jù)集在現(xiàn)實(shí)生活中廣泛存在。在不平衡數(shù)據(jù)集中,數(shù)量少處于劣勢(shì)的小類的識(shí)別往往是分類的重點(diǎn)。不平衡數(shù)據(jù)集中,小類樣本的分布比較稀疏,并且往往被大量的大類樣本所包圍。這為小類特征的學(xué)習(xí)帶來了極大的挑戰(zhàn)。不平衡數(shù)據(jù)集分類難的原因與大樣本相比,小類樣本數(shù)量上稀少。僅有很少的少數(shù)類樣本數(shù)據(jù)。僅有很少的少數(shù)類樣本分兩種情況:少數(shù)類樣本絕對(duì)缺乏和少數(shù)類樣本相對(duì)缺乏。對(duì)情況1,因少數(shù)類所包含的信息就會(huì)很有限,從而難以確定少數(shù)類數(shù)據(jù)的分布,即在其內(nèi)部難以發(fā)現(xiàn)規(guī)律,進(jìn)而造成少數(shù)類的識(shí)別率低。對(duì)情況2,少數(shù)類樣本數(shù)據(jù)相對(duì)缺乏不同于少數(shù)類樣本數(shù)據(jù)的絕對(duì)缺乏,相對(duì)缺乏是指少數(shù)類樣本在絕對(duì)數(shù)量上并不少,但相對(duì)于多數(shù)類來說它的樣本數(shù)目很少。在樣本相對(duì)缺少的情況下,同樣不利于少數(shù)類的判別,這是因?yàn)槎鄶?shù)類樣本會(huì)模糊少數(shù)類樣本的邊界,且使用貪心搜索法難以把少數(shù)類樣本與多數(shù)類區(qū)分開來,而更全局性的方法通常難以處理。解決策略:從數(shù)據(jù)層面上:采用的是過采樣?;舅枷刖褪峭ㄟ^改變訓(xùn)練數(shù)據(jù)的分布來消除或減小數(shù)據(jù)的不平衡,過抽樣方法通過增加少數(shù)類樣本來提高少數(shù)類的分類性能。從算法層面上:采用代價(jià)敏感學(xué)習(xí)與集成學(xué)習(xí)方法結(jié)合代價(jià)敏感學(xué)習(xí):在傳統(tǒng)的分類算法的基礎(chǔ)上引入代價(jià)敏感因子,設(shè)計(jì)出代價(jià)敏感的分類算法.代價(jià)敏感的學(xué)習(xí)中不同類的錯(cuò)分代價(jià)是不同的,通常多數(shù)類的代價(jià)比少數(shù)類大得多,對(duì)小樣本賦予較高的代價(jià),大樣本賦予較小的代價(jià),期望以此來平衡樣本之間的數(shù)目差異。集成學(xué)習(xí)方法:使用各種不同的分類器進(jìn)行集成,異態(tài)集成學(xué)習(xí)的每個(gè)基本算法都有獨(dú)到之處,因而某種基本算法會(huì)對(duì)某類特定數(shù)據(jù)樣本比其余的基本算法更為有效。實(shí)驗(yàn)過程:選用集成分類器為:AdaBoostM1和J48選用AdaBoostM1的思路:AdaBoostM1是二元分類算法,思想與AdaBoost相似。AdaBoost主要思想:如圖圖1所示,我們需要用一些線段把紅色的球與深藍(lán)色的球分開,然而如果僅僅畫一條線的話,是分不開的。圖1根據(jù)Adaboost算法來進(jìn)行劃分,如圖2,先畫出一條錯(cuò)誤率最小的線段,但是左下腳的深藍(lán)色球被錯(cuò)誤劃分到紅色區(qū)域,因此增加被錯(cuò)誤球的權(quán)重。再下一次劃分時(shí),將更加考慮那些權(quán)重大的球,如圖3所示,再畫一條線段,仍然有錯(cuò)分的,再增加錯(cuò)分的權(quán)重。再下一次劃分時(shí),將更加考慮那些權(quán)重大的球,最終得到了一個(gè)準(zhǔn)確的劃分,如下圖所示3、根據(jù)AdaboostM1思想,設(shè)置反例與正例的權(quán)值比,進(jìn)行以下幾組的實(shí)驗(yàn):反例與正例的權(quán)值比為1:2反例與正例的權(quán)值比為1:4反例與正例的權(quán)值比為1:64、實(shí)驗(yàn)結(jié)果及分析:實(shí)驗(yàn)所用數(shù)據(jù)為cmc數(shù)據(jù)實(shí)驗(yàn)結(jié)果:第(1)組:===DetailedAccuracyByClass===TPRateFPRatePrecisionRecallF-MeasureROCAreaClass0.3150.0980.4840.3150.3820.60910.9020.6850.8180.9020.8580.609-1WeightedAvg.0.7690.5520.7430.7690.750.609-----------------------CorrectlyClassifiedInstances113376.9179%IncorrectlyClassifiedInstances34023.0821%Kappastatistic0.2476Meanabsoluteerror0.2308Rootmeansquarederror0.4804Relativeabsoluteerror65.9153%Rootrelativesquarederror114.859%TotalNumberofInstances1473----------------------===ConfusionMatrix===ab<--classifiedas105228|a=11121028|b=-1第(2)組:===DetailedAccuracyByClass===TPRateFPRatePrecisionRecallF-MeasureROCAreaClass0.3360.0960.5050.3360.4040.6210.9040.6640.8230.9040.8620.62-1WeightedAvg.0.7750.5350.7510.7750.7580.62-----------------------CorrectlyClassifiedInstances114277.5289%IncorrectlyClassifiedInstances33122.4711%Kappastatistic0.2719Meanabsoluteerror0.2247Rootmeansquarederror0.474Relativeabsoluteerror64.1705%Rootrelativesquarederror113.3286%TotalNumberofInstances1473----------------------===ConfusionMatrix===ab<--classifiedas112221|a=11101030|b=-1第(3)組===DetailedAccuracyByClass===TPRateFPRatePrecisionRecallF-MeasureROCAreaClass0.3150.0840.5220.3150.3930.61610.9160.6850.8210.9160.8660.616-1WeightedAvg.0.780.5490.7530.780.7590.616-----------------------CorrectlyClassifiedInstances114978.0041%IncorrectlyClassifiedInstances32421.9959%Kappastatistic0.2688Meanabsoluteerror0.22Rootmeansquarederror0.469Relativeabsoluteerror62.8134%Rootrelativesquarederror112.1238%TotalNumberofInstances1473----------------------===ConfusionMatrix===ab<--classifiedas105228|a=1961044|b=-1五、實(shí)驗(yàn)總結(jié):通過以上的策略的實(shí)驗(yàn)結(jié)果與原本的數(shù)據(jù)進(jìn)行比較。提高反例權(quán)重和過抽樣方法可以提高不平衡分類的精度。不平衡數(shù)據(jù)的存在是妨礙機(jī)器學(xué)習(xí)被廣泛使用的一個(gè)重要原因,不平衡問題普遍存在于許多實(shí)際應(yīng)用領(lǐng)域中,如何有效地提高

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論