模式識別筆記.docx_第1頁
模式識別筆記.docx_第2頁
模式識別筆記.docx_第3頁
模式識別筆記.docx_第4頁
模式識別筆記.docx_第5頁
已閱讀5頁,還剩26頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

模式識別(Pattern Recognition):確定一個樣本的類別屬性(模式類)的過程,即把某一樣本歸屬于多個類型中的某個類型。樣本(Sample):一個具體的研究(客觀)對象。如患者,某人寫的一個漢字,一幅圖片等。模式(Pattern):對客體(研究對象)特征的描述(定量的或結(jié)構(gòu)的描述),是取自客觀世界的某一樣本的測量值的集合(或綜合)。特征(Features):能描述模式特性的量(某一模式的測量值集合中的同一量)。在統(tǒng)計模式識別方法中,通常用一個矢量表示,稱之為特征矢量,記為。(一個特征矢量描述一種模式)模式類(Class):具有某些共同特性的模式的集合。模式識別的三大任務(wù)模式采集:從客觀世界(對象空間)到模式空間的過程稱為模式采集。特征提取和特征選擇:由模式空間到特征空間的變換和選擇。類型判別:特征空間到類型空間所作的操作。模式識別系統(tǒng)的主要環(huán)節(jié)特征提取:符號表示,如長度、波形、。特征選擇:選擇有代表性的特征,能夠正確分類學習和訓(xùn)練:利用已知樣本建立分類和識別規(guī)則分類識別:對所獲得樣本按建立的分類規(guī)則進行分類識別一、 統(tǒng)計模式識別模式描述方法: 特征向量 模式判定:模式類用條件概率分布P(X/wi)表示,m類就有m個分布,然后判定未知模式屬于哪一個分布。主要方法:線性、非線性分類、Bayes決策、聚類分析主要優(yōu)點: 1)比較成熟 2)能考慮干擾噪聲等影響 3)識別模式基元能力強主要缺點: 1)對結(jié)構(gòu)復(fù)雜的模式抽取特征困難2)不能反映模式的結(jié)構(gòu)特征,難以描述模式的性質(zhì)3)難以從整體角度考慮識別問題二、句法模式識別模式描述方法:符號串,樹,圖模式判定:是一種語言,用一個文法表示一個類,m類就有m個文法,然后判定未知模式遵循哪一個文法。主要方法:自動機技術(shù)、CYK剖析算法、Early算法、轉(zhuǎn)移圖法主要優(yōu)點:1)識別方便,可以從簡單的基元開始,由簡至繁。2)能反映模式的結(jié)構(gòu)特征,能描述模式的性質(zhì)。3)對圖象畸變的抗干擾能力較強。主要缺點:當存在干擾及噪聲時,抽取特征基元困難,且易失誤三、模糊模式識別模式描述方法: 模糊集合 A=(ua,a), (ub,b),. (un,n)模式判定: 是一種集合運算。用隸屬度將模糊集合劃分為若干子集, m類就有m個子集,然后根據(jù)擇近原則分類。主要方法:模糊統(tǒng)計法、二元對比排序法、推理法、模糊集運算規(guī)則、模糊矩陣主要優(yōu)點:由于隸屬度函數(shù)作為樣本與模板間相似程度的度量,故往往能反映整體的與主體的特征,從而允許樣本有相當程度的干擾與畸變。主要缺點:準確合理的隸屬度函數(shù)往往難以建立,故限制了它的應(yīng)用。四、人工神經(jīng)網(wǎng)絡(luò)法模式描述方法: 以不同活躍度表示的輸入節(jié)點集(神經(jīng)元)模式判定: 是一個非線性動態(tài)系統(tǒng)。通過對樣本的學習建立起記憶,然后將未知模式判決為其最接近的記憶。主要方法:BP模型、HOP模型、高階網(wǎng)主要優(yōu)點:可處理一些環(huán)境信息十分復(fù)雜,背景知識不清楚,推理規(guī)則不明確的問題。允許樣本有較大的缺損、畸變。主要缺點:模型在不斷豐富與完善中,目前能識別的模式類還不夠多。五、邏輯推理法(人工智能法)模式描述方法: 字符串表示的事實模式判定: 是一種布爾運算。從事實出發(fā)運用一系列規(guī)則,推理得到不同結(jié)果,m個類就有m個結(jié)果。主要方法:產(chǎn)生式推理、語義網(wǎng)推理、框架推理主要優(yōu)點:已建立了關(guān)于知識表示及組織,目標搜索及匹配的完整體系。對需要眾多規(guī)則的推理達到識別目標確認的問題,有很好的效果。主要缺點:當樣本有缺損,背景不清晰,規(guī)則不明確甚至有歧義時,效果不好。特征矢量:設(shè)一個研究對象的N個特征量測量值分別為,將它們作為一個整體來考慮,讓他們構(gòu)成一個N維特征向量特征空間:各種不同的特征矢量構(gòu)成了N維特征空間。特征矢量是特征空間中的一點,隨機矢量:對許多對象而言,各個特征分量都是隨機變量,即許多對象的特征向量在n維空間中呈隨機性分布,稱為隨機矢量。設(shè)為隨機矢量,為確定性矢量。隨機矢量的聯(lián)合概率分布函數(shù)定義為:隨機矢量的聯(lián)合概率密度函數(shù)定義為:當?shù)趇類為類的情況下,則他的概率分布和概率密度函數(shù)如下在模式識別中,經(jīng)常以類別作為條件,在這種情況下隨機矢量的條件期望矢量定義為隨機矢量的自協(xié)方差矩陣表征各分量圍繞其均值的散布情況及各分量間的相關(guān)關(guān)系,其定義為:式中是第i個分量與第j個分量的協(xié)方差 正態(tài)分布隨機矢量的概率密度函數(shù)定義為:正態(tài)分布隨機矢量性質(zhì):分布函數(shù)完全由和確定等概率密度點的軌跡為一超球面對正態(tài)分布,不相關(guān)等價于獨立其邊緣密度和條件密度仍然是正態(tài)分布正態(tài)分布隨機矢量的線性變化仍然是正態(tài)分布隨機矢量聚類分析的基本思想 相似的歸為一類。 模式相似性的度量和聚類算法。無監(jiān)督分類(Unsupervised)。特征量的類型 物理量-(重量、長度、速度) 次序量-(等級、技能、學識)名義量-(性別、狀態(tài)、種類)分類無效時的情況1. 特征選取不當使分類無效2. 特征選取不足可能使不同類別的模式判為一類3. 特征選取過多可能無益反而有害,增加分析負擔并使分析效果變差4. 量綱選取不當對分類結(jié)果會產(chǎn)生極大影響的問題選擇什么特征?選擇多少個特征?選擇什么樣的量綱?選擇什么樣的距離測度?聚類過程的基本步驟一、特征選擇(feature selection)盡可能多地包含任務(wù)關(guān)心的信息二、近鄰測度(proximity measure) 定量測定兩特征如何“相似”或“不相似”三、聚類準則(clustering criterion) 以蘊涵在數(shù)據(jù)集中類的類型為基礎(chǔ)四、聚類算法(clustering algorithm) 按近鄰測度和聚類準則揭示數(shù)據(jù)集的聚類結(jié)構(gòu)五、結(jié)果驗證(validation of the results) 常用逼近檢驗驗證聚類結(jié)果的正確性六、結(jié)果判定(interpretation of the results) 由專家用其他方法判定結(jié)果的正確性聚類的應(yīng)用(四個基本方向)一、 減少數(shù)據(jù)二、假說生成三、假說檢驗四、基于分組的預(yù)測模式相似性測度用于描述各模式之間特征的相似程度一、 距 離 測 度(差值測度)測度基礎(chǔ):兩個矢量矢端的距離測度數(shù)值:兩矢量各相應(yīng)分量之差的函數(shù)。常用的距離測度有:1. 歐氏(Euclidean)距離2. 絕對值距離(街坊距離或Manhattan距離)3. 切氏(Chebyshev)距離4. 明氏(Minkowski)距離5. 馬氏距離馬氏距離對一切非奇異線性變換都是不變的,這說明它不受特征量綱選擇的影響,并且是平移不變的。V的含義是這個矢量集的協(xié)方差陣的統(tǒng)計量,故馬氏距離加入了對特征的相關(guān)性的考慮。二、相 似 測 度測度基礎(chǔ):以兩矢量的方向是否相近作為考慮的基礎(chǔ),矢量長度并不不重要。1. 角度相似系數(shù)(夾角余弦) 2. 相關(guān)系數(shù) 3. 指數(shù)相似系數(shù)三、匹 配 測 度當特征只有兩個狀態(tài)(0,1)時,常用匹配測度。0表示無此特征 1表示有此特征。故稱之為二值特征。 對于給定的x和y中的某兩個相應(yīng)分量xi與yj若xi=1,yj=1 ,則稱 xi與yj是 (1-1)匹配;a代表1-1匹配特征數(shù)目若xi=0,yj=1 ,則稱 xi與yj是 (0-1)匹配;b代表0-1匹配特征數(shù)目若xi=1,yj=0 ,則稱 xi與yj是 (1-0)匹配;c代表1-0匹配特征數(shù)目若xi=0,yj=0 ,則稱 xi與yj是 (0-0)匹配。;e代表0-0匹配特征數(shù)目1. Tanimoto測度等于共同具有的特征數(shù)目與分別具有的特征種類總數(shù)之比。這里只考慮(1-1)匹配而不考慮(0-0)匹配。2. Rao測度(1-1)匹配特征數(shù)目和所選用的特征數(shù)目之比。3. 簡單匹配系數(shù)(1-1)匹配特征數(shù)目與(0-0)匹配特征數(shù)目之和與特征總數(shù)目之比。4. Dice系數(shù)(1-1)匹配總個數(shù)與x,y矢量中1的總個數(shù)之比。5. Kulzinsky系數(shù)(1-1)匹配總個數(shù)與(1-0)匹配和(0-1)匹配總個數(shù)之比。模式類定義之1 設(shè)特征矢量集合S中任意元素與間的距離(距離測度)有其中h為給定的閥值,稱集合S對于閥值h組成一模式類。類間距離測度方法兩個模式類的類間距離。1 最近距離法表示與之間的距離。表示兩模式類中模式距離測度的最小值。2 最遠距離法表示與之間的距離。表示兩模式類中模式距離測度的最大值。3 中間距離法其中(模式類L中的特征矢量是模式類p和模式類q中特征矢量的集合)。4 重心距離法其中(模式類L中的特征矢量是模式類p和模式類q中特征矢量的集合)。分別為模式類中特征矢量的個數(shù)。5 平均距離法表示與之間的距離。6 離差平方和法類內(nèi)離差平方和法其中是模式類的重心。其中。則其中分別為模式類的重心。聚類的準則函數(shù)判別分類結(jié)果好壞的一般標準:類內(nèi)距離小,類間距離大。如果聚類準則函數(shù)選擇得好,聚類質(zhì)量就會高。聚類準則往往是和類的定義有關(guān)的,是類的定義的某種體現(xiàn)。一、 類內(nèi)距離準則類內(nèi)距離準則函數(shù)定義為:其中為待分類的模式集合,表示將該模式劃分在類中。是分入模式類的均值矢量。分類的目標是使得 最小,這種方法也稱作誤差平方和準則。加權(quán)類內(nèi)距離準則:其中N為待分類模式的總數(shù)。為分入模式類的模式的個數(shù)。表示類內(nèi)兩模式間的均方距離。二、類間距離準則其中為分入模式類的模式的均值。是待分模式的均值。加權(quán)類間距離準則:三、基于類內(nèi)距離類間距離的準則函數(shù)分入類的類內(nèi)離差陣定義為總的類內(nèi)離差陣定義為類間離差陣定義為類內(nèi)類間離差陣則為可以證明四個聚類準則,為了得到更好的聚類效果,應(yīng)該使他們的值足夠大。聚類分析的算法歸納起來就是三大類:1、 按最小距離原則簡單聚類方法針對具體問題確定相似性閾值,將模式到各聚類中心間的距離與閾值比較,當大于閾值時該模式就作為另一類的類心,小于閾值時按最小距離原則將其分劃到某一類中。這類算法運行中模式的類別及類的中心一旦確定將不會改變。2、 按最小距離原則進行兩類合并的方法首先視各模式自成一類,然后將距離最小的兩類合并成一類,不斷地重復(fù)這個過程,直到成為兩類為止。這類算法運行中,類心不斷地修正,但模式類別一旦指定后就不再改變,就是模式一旦劃為一類后就不再被分劃開,這類算法也稱為譜系聚類法。3、依據(jù)準則函數(shù)動態(tài)聚類方法設(shè)定一些分類的控制參數(shù),定義一個能表征聚類結(jié)果優(yōu)劣的準則函數(shù),聚類過程就是使準則函數(shù)取極值的優(yōu)化過程。算法運行中,類心不斷地修正,各模式的類別的指定也不斷地更改。這類方法有C均值法、ISODATA法等。聚類的算法一 簡單聚類算法(1) 取任意一個模式特征矢量作為第一個聚類中心。例如令類的中心 (2) 計算下一個模式特征矢量到的距離,若則建立新類,類的中心;否則,將歸入類(3) 假設(shè)已有類,其中心分別為,計算尚未確定模式到各類中心的距離,如果有則建立新類,類的中心;否則如果,則模式歸入類中。檢查所有模式是否劃分結(jié)束,如果沒有結(jié)束,重復(fù)步驟3。算法特點:這類算法的突出優(yōu)點是算法簡單。但聚類過程中,類的中心一旦確定將不會改變,模式一旦指定類后也不再改變。二、 最大最小距離法(1) 取任意一個模式特征矢量作為第一個聚類中心。例如令類的中心 (2) 從待分類模式特征矢量集中選距離最遠的特征矢量作為第二個類的中心 (3) 計算未被作為聚類中心的各模式特征矢量與的距離(4) 若,則模式特征矢量作為第三個聚類中心;否則,轉(zhuǎn)至最后一步(6)(5) 假設(shè)已有類,其中心分別為,計算尚未確定模式到各類中心的距離,并計算出,若,則模式特征矢量作為第 個聚類中心,然后轉(zhuǎn)至步驟(5);否則轉(zhuǎn)至步驟(6)(6) 當判斷出不再有新的聚類中心產(chǎn)生之后,將未分類的模式特征矢量按照最小距離原則分到各類中去。計算,當則把特征矢量描述的模式劃分到類中。這種算法的聚類結(jié)果與參數(shù)以及第一個聚類心的選取有關(guān)。三、 譜系聚類法(1) 初始分類。摸個模式自成一類,其中表示第K次合并時的第i類。(2) 計算各類間的距離,生成一個對稱的距離矩陣,m為類的個數(shù)(初始m=N)。(3) 找出矩陣中的最小元素,假設(shè)是與間的距離,將與合并成一類,令(4) 檢查類的個數(shù),如果個數(shù)大于2,則轉(zhuǎn)至步驟(2);否則停止。四、 動態(tài)聚類算法動態(tài)聚類算法要點1、 確定模式和聚類的距離測度。當采用歐氏距離時,是計算此模式和該類中心的歐氏距離;為能反映出類的模式分布結(jié)構(gòu),應(yīng)采用馬氏距離2、 確定評估聚類質(zhì)量的準則函數(shù)。3、 確定模式分劃及聚類合并或分裂的規(guī)則。動態(tài)聚類算法基本步驟1、 建立初始聚類中心,進行初始聚類;2、 計算模式和類的距離,調(diào)整模式的類別;3、 計算各聚類的參數(shù),刪除、合并或分裂一些聚類;4、 從初始聚類開始,運用迭代算法動態(tài)地改變模式的類別和聚類的中心使準則函數(shù)取得極值或設(shè)定的參數(shù)達到設(shè)計要求時停止。(1) C-均值法第一步:選取C個初始聚類中心第二步:計算各個模式到各個類的中心的距離測度,選取將模式歸入類中。第三步:根據(jù)新建的類更新聚類中心。,若存在,則重復(fù)第二步;否則結(jié)束。當模式分布呈現(xiàn)類內(nèi)團聚狀,C-均值算法是能達到很好的聚類結(jié)果,故應(yīng)用較多。C-均值算法是能使各模式到其所判屬的類別中心距離(平方)之和為最小的最佳聚類。 C的調(diào)整:作一條C一J曲線,其曲率變化的最大點對應(yīng)的類數(shù)是比較接近最優(yōu)的類數(shù)。在類別數(shù)未知的情況下,可使類數(shù)C由較小值逐步增加,對于每個選定的C分別使用該算法。初始聚類中心的選?。?憑經(jīng)驗選擇初始類心。 將模式隨機地分成C類,計算每類中心,以其作為初始類心。 (最大密度),求以每個特征點為球心、某一正數(shù)d0為半徑的球形域中特征點個數(shù),這個數(shù)稱為該點的密度。選取密度最大的特征點作為第一個初始類心Z1,然后在與Z1大于某個距離d的那些特征點中選取具有“最大”密度的特征點作為第二個初始類心Z2 ,如此進行,選取C個初始聚類中心。 用相距最遠的C個特征點作為初始類心。具體地講,是按前述的最大最小距離算法求取C個初始聚類中心。 當N較大時,先隨機地從N個模式中取出一部分模式用譜系聚類法聚成C類,以每類的重心作為初始類心。 設(shè)已標準化的待分類模式集為希望將它們分為C類。,若最接近整數(shù),則把分劃至類中,通過初始劃分的類計算類中心。用類核代替類中心:當類的分布不是球狀或近似球狀時,這種算法很難有較好的效果。類核可以是一個函數(shù)、一個點集或其他適當?shù)哪P?。比如馬式距離。(2) IOSDATA法第一步:設(shè)定聚類分析控制參數(shù):-預(yù)期的類數(shù),-初始聚類中心個數(shù)(可以不等于),-每一類中允許的最少模式數(shù)目和分裂時判定,-類內(nèi)各分量分布的距離標準差上界(分裂用),-兩類中心間的最小距離下界(合并用),-在每次迭代中可以合并的類的最多對數(shù),-允許的最多迭代次數(shù)。選定初始聚類中心 :可隨機選擇待分類模式集合中的個模式為類中心。第二步:按照最小距離原則將模式集中的每一個模式分到某一個類中。,模式分入類中。第三步:依據(jù)判斷合并。如果類中的模式個數(shù),則取消該類,取消類中心,轉(zhuǎn)至第二步第四步:計算分類后的參數(shù):各類中心、類內(nèi)平均距離及總體平均距離。 計算各類的中心: 計算各類中模式到類心的平均距離 計算各個模式到其類內(nèi)中心的總體平均距離第五步:依據(jù)判斷停止、分裂或合并。 若迭代次數(shù)達到 ,則轉(zhuǎn)第十一步(準備停止) 若,則轉(zhuǎn)到第六步(進行分裂) 若,則轉(zhuǎn)到第九步(進行合并) 若,當為奇數(shù)時轉(zhuǎn)至第六步(進行分裂),當為偶數(shù)時轉(zhuǎn)至第九步(進行合并)第六步:計算各類類內(nèi)距離的標準差矢量。代表類的類內(nèi)距離標準差的第分量。第七步:對每一聚類求出類內(nèi)距離標準差矢量的最大分量第八步:在中,對每一個,同時又滿足下列條件之一:1)(類中模式到類心的平均距離大于所有類的模式到類心的總體平均距離)并且(類中模式超過閾值)2)。則將該類分裂為兩類, ,新類的中心 計算規(guī)則:在原來的類中心的分量上對應(yīng)加減,并且使得新的類中心仍然在老的類域空間且,新的類中心與類域模式近,與其他類域模式較遠。當所有進行判斷過,并且進行過類分裂,則,然后轉(zhuǎn)至第二步;否則轉(zhuǎn)至第九步。第九步:計算各類間距離第十步:依據(jù)進行合并判斷。取出中小于的值,進行遞增排序,若個數(shù)超過則取前個值。對每個值,從最小的開始合并,若沒有進行過合并,則將相應(yīng)的兩類合并(注意一個類只能被合并一次,假如存在,則不能與合并),合并后,新的類中心,。第十一步:迭代次數(shù),則停止計算。否則,若需要調(diào)整參數(shù),轉(zhuǎn)至第一步;不需要調(diào)整參數(shù),轉(zhuǎn)至第二步。判別域代數(shù)界面方程法(有監(jiān)督分類)用判別域界面方程分類的概念分類原理:不同模式對應(yīng)不同特征點在空間中散部。運用已知類別的訓(xùn)練樣本進行學習,產(chǎn)生若干代數(shù)界面,將代數(shù)空間劃分成一些互不重疊的子區(qū)域。又稱判別函數(shù)。線性可分的定義:對于來自兩類的一組模式,如果能用一個線性判別函數(shù)將其分為兩類,則稱他們是線性可分的。線性判別函數(shù) 稱為增廣權(quán)矢量,稱為增廣特征矢量兩類處理設(shè)判別函數(shù)為,判別準則如下多類處理方法一:兩分法將屬于與不屬于的模式分劃開。將劃分成C個類的問題分解為劃分成C-1個類的問題??梢越個判別函數(shù)。經(jīng)過訓(xùn)練,使判別函數(shù)具有以下性質(zhì)判決規(guī)則:對于C個判別函數(shù)如果有,則模式。注意:如果存在兩個及以上判別函數(shù),那么無法判斷模式屬于哪個類。如果所有判別函數(shù),那么無法判斷模式屬于哪個類。方法二:存在不確定區(qū)的兩分法對C個類中的兩個類建立一個判別函數(shù)。此函數(shù)不提供其他類的信息,需要提供個判別函數(shù)。經(jīng)過訓(xùn)練,得到區(qū)分兩類的判別函數(shù)具有以下性質(zhì)判決規(guī)則:對于個判別函數(shù)如果有,則模式(所有含有類判別的判別函數(shù)都判別為)。注意:當不存在一個能夠滿足上面的條件,則為不確定區(qū)域。方法三:沒有不確定區(qū)的兩分法取判定函數(shù)。當則,此時模式屬于類。因此只需要對每一個類建立一個判別函數(shù)。C類問題有C個判別函數(shù)。判決規(guī)則:若,則該模式屬于類。判別函數(shù)值的大小、正負的數(shù)學意義線性判別界面方程是一個超平面。那么其存在一下性質(zhì):1) 系數(shù)矢量為其法向量。2) 判別函數(shù)的值正比于到超平面的距離。(定理:所確定的空間中的平面,空間中任意一點到界面的距離為,同時為平面的法向量)3) 若等價于,則位于法向量指向的半空間;否則,位于法向量背向的半空間權(quán)空間增廣特征矢量與增廣權(quán)矢量是相對的。當進行樣本訓(xùn)練時,應(yīng)視為的權(quán),判別函數(shù)記為 。若等價于,則位于法向量指向的半空間;否則,位于法向量背向的半空間。權(quán)空間為以為坐標系的n+1維空間。權(quán)空間中任意一點到界面的距離為。解矢量當模式根據(jù)已知類,進行訓(xùn)練時,判別函數(shù)記為,。當訓(xùn)練模式時,;當訓(xùn)練模式時,這時的稱為解矢量。解空間N個訓(xùn)練模式將有N個界面(解矢量界面),每一個界面將權(quán)控件分成兩個半空間,N個正的半子空間的交空間是一個以原點為頂點的凸多面錐。滿足(為矢量(各訓(xùn)練模式,1)的所有都在該錐內(nèi)部。解矢量不是唯一的,凸多面錐包含了全部解矢量,稱其為解區(qū),解空間,解錐。每一個訓(xùn)練模式都對解區(qū)提供一個約束,訓(xùn)練模式越多,解區(qū)的限制就越多,解區(qū)就越小,就越靠近解區(qū)的中心,解矢量就越可靠,由它構(gòu)造的判別函數(shù)錯分的可能性就越小。余量為了使解矢量更可靠,可以通過增加訓(xùn)練模式數(shù)以及引入余量。使得,從而達到更好的效果。引入余量后界面方程變?yōu)?,此時權(quán)空間中任意一點到界面的距離為,而該點到界面的距離為,因此由確定的凸面錐在確定的凸面錐內(nèi)部,邊界距離為。引入了余量可有效地避免量測的誤差、引入的誤差以及某些算法求得的解矢量收斂于解區(qū)的邊界上,從而提高了解的可靠性。Fisher線性判別思想:將N維模式投影到一維空間方法:根據(jù)訓(xùn)練確定最佳投影方向(根據(jù)使準則函數(shù)獲取最大值),確定判別規(guī)則假設(shè)給定已經(jīng)分類的訓(xùn)練模式集,分屬于C個類,每個類中的模式集合為, 代表某個類,代表模式集中的某個模式。則各類的模式均值矢量,全部模式均值矢量,總的類內(nèi)離差陣,類間離差陣。(1) 確定最佳投影方向模式經(jīng)過投影后。經(jīng)過投影變換后的各類的模式均值矢量,全部模式均值矢量,總的類內(nèi)離差度,類間離差度。定義目標準則函數(shù),確定能夠使得目標準則函數(shù)取得最大值的,即為投影方向。,此時,由于都為標量,我們只關(guān)心的方向,因此將標量都置1,得,因此Fisher變換函數(shù)為(2) 確定判別規(guī)則根據(jù)訓(xùn)練模式確定閾值,判別閾值可取兩個類心在方向上軸的投影連線的中點作為閾值。兩類問題中確定權(quán)值的感知器算法給定符合規(guī)范化(若,則保持不變,若,則取反,保證規(guī)范化后的訓(xùn)練集中所有模式屬于同一個類)后的增廣訓(xùn)練集,屬于兩個類(1) 置步數(shù),令增量為一正的常數(shù),賦值權(quán)值分量為任一較小值(2) 輸入訓(xùn)練模式,計算判別函數(shù)值(3) 調(diào)整權(quán)值,規(guī)則如下若,則(增大判別函數(shù)值)若,則(4) 若,則,轉(zhuǎn)(2)。否則檢驗判別函數(shù)對所有能否正確分類。若正確則停止;否則令,轉(zhuǎn)(2)。兩類問題中確定權(quán)值的梯度下降法構(gòu)造準則函數(shù),的最小值0,當且僅當。我們的目標是,對于已經(jīng)符號規(guī)范化后的增廣訓(xùn)練集,尋找使得所有,即對構(gòu)造的準則函數(shù),尋找使取得最小值的。令k = 1/2,求得準則函數(shù)梯度。增廣權(quán)矢量的修正迭代公式為(最速下降法:為時性能指標函數(shù)達到最小值,迭代時):當為正常數(shù)時,梯度下降法與感知器算法相同。若較小,則收斂慢,若較大,則會引起震蕩??墒闺S變化而變化。多類問題中感知器算法判決規(guī)則:若,則該模式屬于類。算法步驟:(1) 賦初值,分別給C個權(quán)矢量賦任意的初值, 選擇正常數(shù),置步數(shù)。(2) 輸入已知類別的增廣訓(xùn)練模式,計算C個判別函數(shù)(3) 若,將每個判別函數(shù)與進行比較:若,則,繼續(xù)比較若,則,跳出比較(4) 若,則,轉(zhuǎn)(2)。否則檢驗判別函數(shù)對所有能否正確分類。若正確則停止;否則令,轉(zhuǎn)(2)。二次準則函數(shù)一次準則函數(shù)及其算法(如感知器算法)只適用于線性可分的情況,如果是線性不可分的,分類過程將不收斂!二次準則函數(shù)能夠測試出模式樣本集是否線性可分,并且對線性不可分的情況也能給出“次最優(yōu)”的解。最小錯分模式數(shù)目準則:對于兩類問題,設(shè)已經(jīng)符號規(guī)范化后的N+1維增廣訓(xùn)練集,如果訓(xùn)練模式是線性可分的,則存在權(quán)矢量使不等式組成立,若線性可分,不等式組有解,線性不可分,不等式無解。引入N維余量,則不等式方程組變?yōu)?,其中。對?gòu)造方差準則函數(shù),當取最小時,都在附近,因此,被錯分的模式數(shù)目可達到最小。求對的梯度,。1)偽逆法求解 令,可得,當存在的時候,當不存在的時候,為的廣義逆矩陣。2)梯度法求解由于廣義逆矩陣計算量比較大,因此常采用梯度下降法。由梯度可得,對于任意初值的增廣權(quán)矢量的修正迭代公式為:,當時,該算法使得權(quán)矢量序列收斂于,該稱為MES解。為了減少計算量和存儲量,可以仿照單樣本修正法:由于,迭代式可以修正為。此算法通常稱為WH(WidrowHoff)算法。W-H算法有兩個性質(zhì):1、 當時,MES解等價于Fisher解。2、 當時,當樣本書,MES解以最小均方誤差逼近貝葉斯判決函數(shù)。3)HK算法在之前的算法中,為取定的常量,這將影響的求取。HK算法通過求解使趨向于最小值的,來獲取最佳分類器。 的迭代公式為。記誤差矢量,若,則(當小于,此時足夠大,不需要調(diào)整);若,則(當小于,此時太小,余量不夠,加大余量)。可統(tǒng)一記為。由得到。HK算法步驟:1、 將訓(xùn)練樣本規(guī)范化,求2、 置初值,3、 計算,4、 執(zhí)行判斷:若各分量連續(xù)兩次都為負值,沒有可行解,退出;若,則輸出可行解,退出;否則,執(zhí)行下一步5、 更新。6、 ,轉(zhuǎn)至步驟3廣義線性判別函數(shù)原理:將n維模式特征集映射到m維模式特征級,其中,為對應(yīng)的映射,為不同的映射函數(shù),經(jīng)過映射之后的能夠線性可分。經(jīng)變化后的線性判別函數(shù),其中。典型的(1)為二次多項式 變換后的特征的維數(shù)為(2)為次多項式,1項,項,項,項的項數(shù)為:變換后的特征的維數(shù)為-1二次判別函數(shù)在 n 維特征空間中,二次判別函數(shù)的一般表示式為:一般的判別規(guī)則是:計算訓(xùn)練模式,構(gòu)造判別函數(shù):對未知模式:位勢函數(shù)分類法特點:( 1)可直接確定判決函數(shù)(位勢函數(shù)) ( 2)適用于非線性和線性可分的情況對于兩類問題認為:如果,則帶正電荷;如果,則帶負電荷。定義模式位勢函數(shù),表示模式在的勢場中的位勢或模式在的勢場中的位勢。有如下性質(zhì):;連續(xù)光滑;與相距越遠,位勢越趨近于0,當,位勢最高。兩種模式位勢函數(shù)(1) 設(shè)是一組正交函數(shù)集,則(2) 取關(guān)于距離的對稱函數(shù),例如確定判別函數(shù)步驟設(shè)訓(xùn)練集,分屬于,定義一個模式位勢函數(shù)。通過以下步驟確定位勢函數(shù)中的值。(1) 令初始位勢函數(shù),判錯標記,步數(shù) (2) ,調(diào)整位勢函數(shù):若,則若,則若,則,若,則,(3) 若,轉(zhuǎn)(2)。否則判斷判錯標記是否為0,為0,退出;否則,轉(zhuǎn)(2)。位勢函數(shù)分類法與感知器算法有其相似點:在訓(xùn)練時,當判別函數(shù)錯誤時,對判別函數(shù)進行修正(若,但,則向增加正值;若,但,則向增加負值)。對于多類問題,位勢函數(shù)分類法確定判別函數(shù)步驟:(1) 令初始位勢函數(shù),判錯標記,步數(shù) (2) ,假設(shè),對每一個位勢函數(shù)與進行比較若,則,繼續(xù)比較若,則, ,跳出比較(3) 若,轉(zhuǎn)(2)。否則判斷判錯標記是否為0,為0,退出;否則,轉(zhuǎn)(2)。統(tǒng)計判決隨機模式分類識別,通常稱為Bayes(貝葉斯)判決。主要依據(jù)類的概率、概密,按照某種準則使分類結(jié)果從統(tǒng)計上講是最佳的。準則函數(shù)不同,所導(dǎo)出的判決規(guī)則就不同,分類結(jié)果也不同?;A(chǔ)知識:先驗概率:表示類出現(xiàn)的先驗概率,簡稱類的概率。后驗概率:表示在出現(xiàn)條件下類出現(xiàn)的概率,稱其為類別的后驗概率,對于模式識別來講可理解為來自類的概率。類概密: 表示在類條件下的概率密度,即類模式的概率分布密度,簡稱為類概密。(由于可以在空間中取任意值,因此代表其概率)。根據(jù)后驗概率進行判決若,則若,則根據(jù)Bayes公式,后驗概率可表示為:因此判決也為:若,則若,則最小誤判概率準則

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論