


版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、IRIS數(shù)據(jù)集的Bayes分類實(shí)驗(yàn)一、實(shí)驗(yàn)原理1)概述模式識別中的分類問題是根據(jù)對象特征的觀察值將對象分到 某個(gè)類別中去。統(tǒng)計(jì)決策理論是處理模式分類問題的基本理論之 一,它對模式分析和分類器的設(shè)計(jì)有著實(shí)際的指導(dǎo)意義。 貝葉斯(Bayes)決策理論方法是統(tǒng)計(jì)模式識別的一個(gè)基本方法, 用這個(gè)方法進(jìn)行分類時(shí)需要具備以下條件:各類別總體的分布情況是己知的。要決策分類的類別數(shù)是一定的。其基本思想是:以Bayes公式為基礎(chǔ),利用測量到的對象特征 配合必要的先驗(yàn)信息,求岀各種可能決策情況(分類情況)的后 驗(yàn)概率,選取后驗(yàn)概率最大的,或者決策風(fēng)險(xiǎn)最小的決策方式(分 類方式)作為決策(分類)的結(jié)果。也就是說選取
2、最有可能使得對 象具有現(xiàn)在所測得特性的那種假設(shè),作為判別的結(jié)果。常用的Bayes判別決策準(zhǔn)則有最大后驗(yàn)概率準(zhǔn)則(MAP),極大 似然比準(zhǔn)則(ML),最小風(fēng)險(xiǎn)Bayes準(zhǔn)則,Neyman-Pearson準(zhǔn)則 (N-P)等。2)分類器的設(shè)計(jì)對于一個(gè)一般的c類分類問題,其分類空間:O = vv1,vv2,-,vv.表特性的向量為:其判別函數(shù)有以下幾種等價(jià)形式:a)P(w店)P(旳任)tw G Wp j = 2、心印 H j叱,b)p(x|w.)F(vvf) )F(wJ J = 1,2,c,且/知 T w ec)心)=牛嗎牛,) = 1,2,C,印知TWM;d)In /?(x|vv.) + In P(
3、vv ) In J J = 1,2,心 hj 工 i t w e w;3)IRIS數(shù)據(jù)分類實(shí)驗(yàn)的設(shè)計(jì)> IRIS數(shù)據(jù)集:一共具有三組數(shù)據(jù),每一組都是一個(gè)單獨(dú)的類別,每組 有50個(gè)數(shù)據(jù),每個(gè)數(shù)據(jù)都是一個(gè)四維向量。其分類空間為: 表特性的向量為:x = (xx2,xx4)>實(shí)驗(yàn)?zāi)康模豪肂ayes判別準(zhǔn)則對三組數(shù)據(jù)進(jìn)行分類,希望能夠盡 量準(zhǔn)確的判斷岀從IRIS數(shù)據(jù)集中選取的樣本所屬的類別。 >實(shí)驗(yàn)設(shè)計(jì)思路:將每個(gè)數(shù)據(jù)看作是一個(gè)具有4維特征的觀察樣木Xi =(兀,Xi2,忑3,兀4丿=1,2,350其中,) = 1234 = 123.假設(shè)每類數(shù)據(jù)的每維都的分別服從正態(tài)分布即 廠“;
4、町 20-/2并且兩兩獨(dú)立。由數(shù)理統(tǒng)計(jì)理論可知,樣木均值和修正方差分別為和 ,的無偏估計(jì)量,故可近似為求得“和/為:“;卩=%yj = l,2,3,4.p = l,2,3.2 =_!_y (xy - Xf y J = 1,2,3,4." = 1,2,3.貝葉斯決策規(guī)則選?。盒模? '¥1”丿 = 123, M/HiTwew血旳丿P(叱)由于不同維度數(shù)據(jù)兩兩獨(dú)立,故其中:1()="伸叫)_ /(駟)_仟九(入帆)A ”龜)人Lb)1喬exp3-/<7)2=n-g ib;另讓門限值:P(wJ N.-/< = - j、i = 123 j 式 iPM
5、M 其中:Nj和M為所選待分類樣本j類數(shù)據(jù)和i類的個(gè)數(shù), 屬于先驗(yàn)知識。比較心)與門限值的大小判斷樣本所屬類別 最后計(jì)算分類的正確率>二、實(shí)驗(yàn)過程1) 求取每類數(shù)據(jù)的每個(gè)分量的均值和修正方差數(shù)代碼如 下:sum=zeros(3,4); sd=zeros(3,4); for j=l:l:4 for i=l:1:50$ for i=l:l:20 $sum(1,j)=sum(1,j)+samplel(iz j);sum(2z j)=sum(2,j)+sample2(iz j);sum(3,j)=sum(3,j)+sample3(iz j);endend sum=sum/50;$sum=sum/
6、20;$for j=l:l:4for i=l:1:50sd(lz j)=sd(lz j) + (samplel(i,j)-sum(lz j)A2; sd(2,j)=sd(2z j) + (sample2(i,j)-sum(2,j)A2; sd(3zj)=sd(3zj) + (sample3(i z j)-sum(3 z j)A2; end endsd=sd/49;$ sd=sd/19; $其中每類數(shù)據(jù)都有4組均值和修正方差,3類數(shù)據(jù)總共12組,分 別存放在sum和sd這兩個(gè)3X4的矩陣中。2) 用一個(gè)函數(shù)來實(shí)現(xiàn)分類器的功能,代碼如下 function elfresult accuracyrat
7、e = bayesclassifier(samples,dimen,sum,sdz modelz mode2) elfresult=zeros(dimenz 2);if ( (model (1,1) -=0) && (mod" (1,2) -=0) && (mod" (l,3)=0) compare=1,2;endif (model(1,1)-=0)&&(mod“(l,2)=0)&&(mod“(lz3)-=0) compare=1,3;endif ( (model (1, l)=0) && (m
8、od“ (1,2) -=0) && (mod" (1,3) =0) compare=2,3;endcomparel=compare(1z1);compare2=compare(lz 2); class=zeros(1,3);la=zeros(1,4);lb=zeros(1,4);for i=l:1:dimenif samples(iz 5)=1class (1,1)=class(1z1)+1;endif samples(i,5)=2 class (1f 2)=class(1,2)+1;endif samples(iz 5)=3 class (1,3)=class(1z
9、 3)+1;endendn=class(1,compare2)/class(1,comparel)for i=l:1:dimenla (1 z 1)=1/sqrt (sd (comparel z 1) ) *e:-:p (- (samples (iz 1) -sum (comparel z1)A2/ (2*sd(comparel,1);la(lz2)=l/sqrt(sd(comparelz 2)*exp(-(samples(i z 2)-sum(comparel ,2)A2/ (2*sd(comparel,2);la(lz3)=l/sqrt(sd (comparel z 3) ) *e:-:p
10、 (- (samples (iz 3) -sum (comparel z3)A2/(2*sd(comparelz3);la(14)=l/sqrt(sd(comparelr 4)*exp(-(samples(i,4)-sum(comparel z4)A2/(2*sd(comparel,4);lb (1 z 1)=1/sqrt (sd (compare2,1) ) *e:-:p (- (samples (iz 1) -sum (compare2 z1)A2/ (2*sd(compare2,1);lb(lz2)=l/sqrt(sd(compare2,2)*exp(-(samples(i z 2)-s
11、um(compare2 ,2)A2/ (2*sd(compare2,2);lb(lz3)=l/sqrt(sd(compare2 r 3)*exp(-(samples(iz 3)-sum(compare2 z3) ) A2/(2*sd(compare2,3);lb(14)=l/sqrt(sd(compare2,4)*exp(-(samples(i,4)-sum(compare2 z4) )A2/(2*sd(compare2z4);for j=l:l:4if(mode2(1,j)=0)la(l,j)=l;lb(l,j)=l;endendlx=la(lzl)*la(lz2)*la(lz3)*la(l
12、z4)/(lb(lz1)*lb(lz2)*lb(lz3)*lb(1,4)elfresult(iz1)=i;if lx>=nelfresult(i,2)=comparel;else elfresult(i,2)=compare2;endendaccuracyrate=O;for i=l:1:dimenif elfresult(iz 2)=samples(iz 5) accuracyrate=accuracyrate+l;endendaccuracyrate=accuracyrate/dimen;end該函數(shù)有共有兩個(gè)輸出量,六個(gè)輸入?yún)?shù)。其中各個(gè)參數(shù)的規(guī)定如下:Samples: 一個(gè)Dim
13、enX 5的矩陣,Dimen是選取樣本的 數(shù)量,矩陣前4列存放樣本的4維數(shù)據(jù),最后一列存 放相應(yīng)行樣本真實(shí)的類別數(shù)(1, 2, 3)。Dimen:選取樣本的數(shù)量。Sum:數(shù)據(jù)集的均值參數(shù)陣。Sd:數(shù)據(jù)集的修正方差參數(shù)陣。Model:模式選擇參數(shù)1,它是一個(gè)3維的行向量:mod e =,a29a3)其中曲= 1,2,3分別對應(yīng)數(shù)據(jù)集的三個(gè)類別,當(dāng)曲= 1,2,3 不為零時(shí),就在決策域中添加第i類??偣灿腥N模 式:n«d H = (1,1,0)在第一類和第二類中進(jìn)行判別n«dH =(L0,l)在第一類和第三類中進(jìn)行判別 檢心(0,1,1)在第二類和第二類中進(jìn)行判別Mode2:
14、模式選擇參數(shù)2,它是一個(gè)4維德行向量:mod e2 =(01,02,民,04)其中0J = 1,2,3,4分別對應(yīng)數(shù)據(jù)集的4個(gè)維度分量,當(dāng) «,-,/ = 1,2,3不為零時(shí),第i個(gè)維度的分量就作為判別分 類的依據(jù)進(jìn)行考慮,匕,山1,2,3為零時(shí),則第i個(gè)維度的 分量忽略。Mode2共有多種模式15種模式。例如: nx)de2 = (1,0,14)表示第二維的數(shù)據(jù)特征不參與分類。 對于兩個(gè)輸出參數(shù):Clfresult:是一個(gè)3XDimen的矩陣,輸出對每個(gè)數(shù)據(jù) 的分類結(jié)果,并顯示其真實(shí)所屬類別和在Samples中 的序號。Accuracyrate:輸出Bayes分類的正確率。3) 選
15、定不同的樣本組合與特征的組合,調(diào)用 bayesclassifier函數(shù)進(jìn)行分類。三. 實(shí)驗(yàn)結(jié)果與分析1)實(shí)驗(yàn)結(jié)果:利用每類50個(gè)數(shù)據(jù)求出相應(yīng)的均值和修正方差作為正態(tài)分布參數(shù)。并將每類中所有的50個(gè)數(shù)據(jù)全部 拿來分類,dimen=100結(jié)果為(分類的正確率):一類(50)一類(50)二類(50)Mode2二類(50)三類(50)三類(50)(1,0, 0, 0)0. 890.950. 70(0, 1,0, 0)0. 830. 750. 58(0, 0, 1,0)110.93(0, 0, 0, 1)110. 94(1, 1,0, 0)0. 990.990. 68(1,0, 1,0)110. 87(
16、1,0,0, 1)110. 94(0, 1, 1, 0)110. 88(0, 1,0, 1)110. 92(0, 0, 1, 1)110. 94(1, 1, 1,0)110. 82(1, 1,0, 1)110. 92(1,0, 1, 1)110. 95(0, 1, 1, 1)110. 94(1,1,1,1)110. 94利用每類的20個(gè)數(shù)據(jù)求岀相應(yīng)的均值和修正方差 作為正態(tài)分布參數(shù)。并將每類中另外的30個(gè)數(shù)據(jù)拿 來分類,dimen=60結(jié)果為(分類的止確率):Model一類(30)一類(30)二類(30)Mode2二類(30)三類(30)三類(30)(1,0, 0, 0)0.91670. 98
17、330.7167(0, 1, 0, 0)0. 86670. 750.60(0, 0, 1, 0)110.9167(0, 0, 0, 1)110.9167(1, 1,0, 0)0. 983310. 70(1,0, 1,0)110. 8667(1,0, 0, 1)110. 9333(0, 1, 1, 0)110. 8667(0, 1,0, 1)110. 9000(0, 0, 1, 1)110. 9333(1, 1, 1,0)110.8167(1, 1,0, 1)110. 9333(1,0, 1, 1)110. 9500(0, 1, 1, 1)110. 9333(1,1,1,1)110. 9500利
18、用每類的20個(gè)數(shù)據(jù)求出相應(yīng)的均值和修正方差 作為正態(tài)分布參數(shù)。分別在第二類中取20個(gè),10 個(gè)和5個(gè)數(shù)據(jù),在第三類中固定取30個(gè)數(shù)據(jù),放在 一起進(jìn)行分類,結(jié)果為(第二類數(shù)據(jù)分類的正確率):ModelMode2二類(20)三類(30)二類(10)三類(30)二類(5) 三類(30)(1,0, 0, 0)0. 650000(0, 1, 0, 0)0. 300000(0, 0, 1, 0)0. 85000. 50000. 4000(0, 0, 0, 1)0. 90000. 80000. 6000(1, 1, 1, 1)0. 90000. 80000. 80002)分析:實(shí)驗(yàn)結(jié)果反映出鶯尾花數(shù)據(jù)集:第一類數(shù)據(jù)和第二類數(shù)據(jù)的第一和第二維比較相 似,第三和第四維數(shù)據(jù)差別很大。第一類數(shù)據(jù)和第三類數(shù)據(jù)的第一和第二維比較
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 特色餐廳廚師聘用及藝術(shù)創(chuàng)作合同模板
- 北京鐵路局新入職本科生培養(yǎng)計(jì)劃書
- 郴州保安綜合服務(wù)合同-綜合安保服務(wù)協(xié)議
- 礦產(chǎn)資源并購項(xiàng)目合同書
- 老人與海英語課件
- 汽車事故交警處理流程
- 消防安全重點(diǎn)單位監(jiān)管
- 下學(xué)期安全工作計(jì)劃
- 安全隱患排除方案
- 美術(shù)介紹自己課件
- 2023秸稈類生物質(zhì)能源原料儲存規(guī)范第1部分:存放
- 2025-2030全球及中國電源行業(yè)市場現(xiàn)狀供需分析及市場深度研究發(fā)展前景及規(guī)劃可行性分析研究報(bào)告
- 工程款結(jié)清證明
- DB11 T 212-2009 園林綠化工程施工及驗(yàn)收規(guī)范
- 《SLT 377-2025水利水電工程錨噴支護(hù)技術(shù)規(guī)范》知識培訓(xùn)
- 屋面瓦拆除及安裝施工方案
- 全球高凈值人群的財(cái)富增長策略
- 2023年1月國家開放大學(xué)漢語言文學(xué)本科《古代詩歌散文專題》期末紙質(zhì)考試試題及答案
- 2024-2025學(xué)年廣東省惠州市惠城區(qū)七年級(下)期末英語試卷
- 2025年房東租房合同模板電子版
- 2025年中國智能城市軌道交通行業(yè)市場發(fā)展監(jiān)測及投資戰(zhàn)略咨詢報(bào)告
評論
0/150
提交評論