




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、精選優(yōu)質文檔-傾情為你奉上題 目 數(shù)據挖掘評估技術 學院名稱 信息科學與技術學院 專業(yè)名稱 計算機科學與技術 學生姓名 何東升 學生學號 9 指導教師 實習地點 成都理工大學 實習成績 二 一六年 9月 專心-專注-專業(yè)評估有指導學習模型第1章 、實驗目的及內容1.1 實習目的 模型的評估是對數(shù)據挖掘而過程非常重要的步驟,是模型是否能夠最終投入實際應用的重要環(huán)節(jié)。在抽取某些數(shù)據實例和屬性,選擇某種數(shù)據挖掘技術,設置某些參數(shù)進行有指導的學習訓練和無指導的聚類分析之后,所建立在性能上差強人意,不能滿足解決問題的需求,此時,需要對這個過程所有可能對模型性能產生的因素進行檢查和評估,找出可能的問題所在
2、加以調整,重復試驗,直到模型性能能達到預期的標準。1.2 算法的核心思想使用混淆矩陣和分類正確率以及假設檢驗比較模型。在機器學習領域,混淆矩陣(confusion matrix),又稱為可能性表格或是錯誤矩陣。它是一種特定的矩陣用來呈現(xiàn)算法性能的可視化效果,通常是監(jiān)督學習(非監(jiān)督學習,通常用匹配矩陣:matching matrix)。其每一列代表預測值,每一行代表的是實際的類別。這個名字來源于它可以非常容易的表明多個類別是否有混淆(也就是一個class被預測成另一個class)。假設檢驗(Hypothesis Testing)是數(shù)理統(tǒng)計學中根據一定假設條件由樣本推斷總體的一種方法。具體作法是:
3、根據問題的需要對所研究的總體作某種假設,記作H0;選取合適的統(tǒng)計量,這個統(tǒng)計量的選取要使得在假設H0成立時,其分布為已知;由實測的樣本,計算出統(tǒng)計量的值,并根據預先給定的顯著性水平進行檢驗,作出拒絕或接受假設H0的判斷。常用的假設檢驗方法有u檢驗法、t檢驗法、2檢驗法(卡方檢驗)、F檢驗法,秩和檢驗等。 1.3 實驗工具實驗軟件:Weka3.9數(shù)據集來源:配套數(shù)據集cardiologynumerical.csv第2章、實驗過程 2.1數(shù)據準備cardiologynumerical.csv數(shù)據集說明屬性名稱數(shù)值類型說明AgeNumeric年齡Sex1,0性別Chest Pain Type1,2,
4、3,4胸痛類型(絞痛,異常絞痛,無絞痛,無癥狀)Blood PressureNumeric靜息血壓CholesterolNumeric血清膽固醇Fasting Blood Suager0,1空腹血糖低于120?Resting ECG0,1,2靜息心電圖(正常,異常,左心室肥大)Maxium Hert RateNumeric最大心率Induced Angina?1,0誘發(fā)心絞痛?Old Peak Numeric峰值Slope1,2,3斜度Number Colored Vessels0,1,2,3,4有色導管編號Thal3,6,7地中海缺血Concept ClassYes,No概念類2.2 實驗過
5、程 2.2.1.建模 1.將數(shù)據集導入Weka中2.打開Classfy選項選擇不同的算法在Test Option 選項中選擇Precentage Split,值為50%(150個為訓練集剩下的為驗證)(1)J48算法算法的混淆矩陣如下患病不患病患病5617不患病1365= Summary =Correctly Classified Instances 121 80.1325 %Incorrectly Classified Instances 30 19.8675 %Kappa statistic 0.6015Mean absolute error 0.2326Root mean squared
6、 error 0.4367Relative absolute error 46.746 %Root relative squared error 86.8754 %Total Number of Instances 151 可以看出結果的分類確率到了80.1325 %,已經還不錯了。(2)ZeroR算法算法的混淆矩陣如下患病不患病患病073不患病078= Summary =Correctly Classified Instances 78 51.6556 %Incorrectly Classified Instances 73 48.3444 %Kappa statistic 0 Mean a
7、bsolute error 0.4976Root mean squared error 0.5027Relative absolute error 100 %Root relative squared error 100 %Total Number of Instances 151 可以看出正確率才51.6556 %,僅一半的正確率,非常不盡人意。而這個與J48(3)LMT算法算法的混淆矩陣如下患病不患病患病5716不患病969Correctly Classified Instances 126 83.4437 %Incorrectly Classified Instances 25 16.5
8、563 %Kappa statistic 0.6675Mean absolute error 0.2263Root mean squared error 0.3403Relative absolute error 45.4768 %Root relative squared error 67.6917 %Total Number of Instances 151 該算法的正確率也到達了83.4437 %第三章 實驗結果及分析3.1 結果分析三種模型的混淆矩陣如下J48:算法的混淆矩陣如下患病不患病患病5617不患病1365Correctly Classified Instances 121 8
9、0.1325 %Incorrectly Classified Instances 30 19.8675 %ZeroR算法患病不患病患病073不患病078Correctly Classified Instances 78 51.6556 %Incorrectly Classified Instances 73 48.3444 %LMT算法患病不患病患病5716不患病969Correctly Classified Instances 126 83.4437 %Incorrectly Classified Instances 25 16.5563 %以上三種模型中 J48和LMT的算法正確率達到了80%以上,比較可信,而ZeroR算法只有50%左右非常不盡人意。 利用假設檢驗檢驗這三種模型算法的假設檢驗Z=|E1-E2|q(1-q)(1/n1+1/n2)1按照上述公式計算J48與ZeroR q=(0.+0.)/2=0.q(1-q)= 0.帶入公式可得Z=|0.-0.|0.×(1151+1151)=-5.22設置信區(qū)間為0.05 Z>1.96 故存在顯著性差異2計算J48 與LMTq=(0.+0. )/2=0.q(1-q)= 0.帶入公式可得Z=|0.-0. |0.×(1151+1151)=0.745設置信區(qū)間為0.05 Z=
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 公司高管管理職責證明書(5篇)
- 學校食堂供應管理協(xié)議
- 能源資源節(jié)約和綜合利用協(xié)議
- 電商行業(yè)網絡購物退換貨免責合同
- 全面理解2025年行政管理中的公文處理試題答案
- 2025行政管理中市政學的重要性試題及答案
- 現(xiàn)代管理者的決策典型案例分析試題及答案
- 解析2025年市政學考試試題及答案的技巧
- 2025年合同將滿到期后員工能否獲得年終獎
- 2025年湖南省國有企業(yè)土地使用權轉讓合同書
- 北京市通州區(qū)2025年初中學業(yè)水平模擬考試(一模)英語試卷(含答案)
- 手術中大出血搶救流程
- 2025重慶武工工業(yè)技術研究院有限公司招聘15人筆試參考題庫附帶答案詳解
- 輸液導管相關靜脈血栓形成中國專家共識 課件
- 國企崗位筆試題目及答案
- 光伏電站面試題庫及答案
- 2024年泉州實驗中學初一新生入學考試數(shù)學試卷
- 車間技能矩陣管理制度
- 陶藝店管理制度
- 2025-2030中國儲能電站行業(yè)市場深度分析及前景趨勢與投資研究報告
- 2025年標準租房合同范本
評論
0/150
提交評論