大數(shù)據(jù)十大經(jīng)典算法Navie-Bayes講解課件_第1頁(yè)
大數(shù)據(jù)十大經(jīng)典算法Navie-Bayes講解課件_第2頁(yè)
大數(shù)據(jù)十大經(jīng)典算法Navie-Bayes講解課件_第3頁(yè)
大數(shù)據(jù)十大經(jīng)典算法Navie-Bayes講解課件_第4頁(yè)
大數(shù)據(jù)十大經(jīng)典算法Navie-Bayes講解課件_第5頁(yè)
已閱讀5頁(yè),還剩21頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、樸素貝葉斯算法Nave Bayes簡(jiǎn)介貝葉斯定理分類(lèi)算法概念樸素貝葉斯算法樸素貝葉斯算法原理樸素貝葉斯算法流程算法實(shí)例購(gòu)買(mǎi)電腦實(shí)例總結(jié)算法優(yōu)缺點(diǎn)算法相關(guān)擴(kuò)展貝葉斯定理:關(guān)于分類(lèi):關(guān)于分類(lèi):重點(diǎn)是,分類(lèi)問(wèn)題采用的是經(jīng)驗(yàn)性的方法來(lái)構(gòu)造映射規(guī)則,所以分類(lèi)問(wèn)題缺少足夠的信息來(lái)構(gòu)造100%正確的映射規(guī)則。通過(guò)對(duì)已有數(shù)據(jù)的學(xué)習(xí)實(shí)現(xiàn)一定概率意義上的正確分類(lèi)。所以構(gòu)造出的分類(lèi)器不能把每個(gè)待分類(lèi)項(xiàng) 正確的歸類(lèi)。分類(lèi)器的質(zhì)量也與分類(lèi)器的構(gòu)造方法、待分類(lèi)數(shù)據(jù)的特性以及訓(xùn)練樣本數(shù)量等諸多因素有關(guān)系。關(guān)于分類(lèi):醫(yī)生教育方式(構(gòu)造方法)病人癥狀(待分類(lèi)數(shù)據(jù)特性)醫(yī)生經(jīng)驗(yàn)(訓(xùn)練樣本數(shù))樸素貝葉斯算法原理:樸素貝葉斯算法原理

2、:樸素貝葉斯算法原理:樸素貝葉斯算法原理:樸素貝葉斯算法原理:貝葉斯算法處理流程:貝葉斯算法的處理流程:第一階段準(zhǔn)備階段: 該階段為樸素貝葉斯分類(lèi)做必要的準(zhǔn)備。主要是依據(jù)具體情況確定特征屬性,并且對(duì)特征屬性進(jìn)行適當(dāng)劃分。然后就是對(duì)一部分待分類(lèi)項(xiàng)進(jìn)行人工劃分,以確定訓(xùn)練樣本。 這一階段的輸入是所有的待分類(lèi)項(xiàng),輸出時(shí)特征屬性和訓(xùn)練樣本。分類(lèi)器的質(zhì)量很大程度上依賴(lài)于特征屬性及其劃分以及訓(xùn)練樣本的質(zhì)量。貝葉斯算法處理流程:第二階段分類(lèi)器訓(xùn)練階段: 主要工作是計(jì)算每個(gè)類(lèi)別在訓(xùn)練樣本中出現(xiàn)頻率以及每個(gè)特征屬性劃分對(duì)每個(gè)類(lèi)別的條件概率估計(jì)。輸入是特征屬性和訓(xùn)練樣本,輸出是分類(lèi)器。第三階段應(yīng)用階段: 這個(gè)階段

3、的任務(wù)是使用分類(lèi)器對(duì)待分類(lèi)項(xiàng)進(jìn)行分類(lèi),其輸入是分類(lèi)器和待分類(lèi)項(xiàng),輸出是待分類(lèi)項(xiàng)與類(lèi)別的映射關(guān)系。購(gòu)買(mǎi)電腦實(shí)例:購(gòu)買(mǎi)電腦實(shí)例:購(gòu)買(mǎi)電腦實(shí)例:(2)計(jì)算每個(gè)特征屬性對(duì)于每個(gè)類(lèi)別的條件概率:P(age=“30”|buys_computer=“yes”)=2/9=0.222P(age=“30”|buys_computer=“no”)=3/5=0.600 P(income=“medium”|buys_computer=“yes”)=4/9=0.444P(income=“medium”|buys_computer=“no”)=2/5=0.400P(student=“yes”|buys_computer=“

4、yes”)=6/9=0.667P(student=“yes”|buys_computer=“no”)=1/5=0.2P(credit_rating=“fair”|buys_computer=“yes”)=6/9=0.667P(credit_rating=“fair”|buys_computer=“no”)=2/5=0.400購(gòu)買(mǎi)電腦實(shí)例:購(gòu)買(mǎi)電腦實(shí)例: P(X | buys_computer = “no”) P(buys_computer = “no”) = 0.0190.357 = 0.007 因此,對(duì)于樣本X,樸素貝葉斯分類(lèi)預(yù)測(cè)buys_computer =” yes”總結(jié)樸素貝葉斯算法的

5、優(yōu)點(diǎn): a. 算法邏輯簡(jiǎn)單,易于實(shí)現(xiàn); b. 分類(lèi)過(guò)程中時(shí)空開(kāi)銷(xiāo)??; c. 算法穩(wěn)定,對(duì)于不同的數(shù)據(jù)特點(diǎn)其分類(lèi)性能 差別不大,健壯性比較好??偨Y(jié)那么“貝葉斯分類(lèi)法的效率如何呢?” 該分類(lèi)法與決策樹(shù)和神經(jīng)網(wǎng)絡(luò)分類(lèi)法的各種比較試驗(yàn)表明,在某些領(lǐng)域,貝葉斯分類(lèi)法足以與它們相媲美。理論上講,與其他所有分類(lèi)算法相比,貝葉斯分類(lèi)具有最小的錯(cuò)誤率,然而,實(shí)踐中并非總是如此。這是因?yàn)閷?duì)其使用的假定(如類(lèi)條件獨(dú)立性)的不正確性,以及缺乏可用的概率數(shù)據(jù)造成的。 貝葉斯分類(lèi)法還可以用來(lái)為不直接使用貝葉斯定理的其他分類(lèi)法提供理論判定。例如,在某些假定下,可以證明:與樸素貝葉斯分類(lèi)法一樣,許多神經(jīng)網(wǎng)絡(luò)和曲線擬合算法輸出的最大的后驗(yàn)假定??偨Y(jié):擴(kuò)展:擴(kuò)展:對(duì)于第二個(gè)問(wèn)題:樸素貝葉斯算法是在假定各個(gè)特征屬性相互獨(dú)立的情況下提出來(lái),這在現(xiàn)實(shí)生活中是很難實(shí)現(xiàn)的,所以針對(duì)這個(gè)問(wèn)題人們做了大量工作解決這個(gè)缺點(diǎn)。 (1)如果特征屬性之間是有聯(lián)系的,并且是一個(gè)有向 無(wú)環(huán)圖,可以采用另一個(gè)相關(guān)的貝葉斯分類(lèi)算法貝葉斯網(wǎng)絡(luò)。在此不再介紹。 (2)除了貝葉斯網(wǎng)絡(luò)還有kononenko提出的semi-nave bayesian 算法,稱(chēng)為半樸素貝葉斯算法,擴(kuò)展:該算法就是將特征相關(guān)的屬性分成一組,然后假設(shè)不同組中的屬性是相互獨(dú)立的,同一組中的屬性是相互關(guān)聯(lián)的。(3)還有一種具有樹(shù)結(jié)構(gòu)的TAN(tree augmented

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論