




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、精選優(yōu)質(zhì)文檔-傾情為你奉上最近發(fā)現(xiàn)很多公司招聘數(shù)據(jù)挖掘的職位都提到貝葉斯分類,其實(shí)我不太清楚他們是要求理解貝葉斯分類算法,還是要求只需要通過(guò)工具(SPSS,SAS,Mahout)使用貝葉斯分類算法進(jìn)行分類。反正不管是需求什么都最好是了解其原理,才能知其然,還知其所以然。我盡量簡(jiǎn)單的描述貝葉斯定義和分類算法,復(fù)雜而有全面的描述參考“數(shù)據(jù)挖掘:概念與技術(shù)”。貝葉斯是一個(gè)人,叫(Thomas Bayes),下面這哥們就是。本文介紹了貝葉斯定理,樸素貝葉斯分類算法及其使用MapReduce實(shí)現(xiàn)。貝葉斯定理首先了解下貝葉斯定理PHX=PXHP(H)P(X)是不是有感覺(jué)都是符號(hào)看起來(lái)真復(fù)雜,我們根據(jù)下圖理
2、解貝葉斯定理。這里D是所有顧客(全集),H是購(gòu)買H商品的顧客,X是購(gòu)買X商品的顧客。自然XH是即購(gòu)買X又購(gòu)買H的顧客。P(X) 指先驗(yàn)概率,指所有顧客中購(gòu)買X的概率。同理P(H)指的是所有顧客中購(gòu)買H的概率,見(jiàn)下式。PX= XDPH= HDP(H|X) 指后驗(yàn)概率,在購(gòu)買X商品的顧客,購(gòu)買H的概率。同理P(X|H)指的是購(gòu)買H商品的顧客購(gòu)買X的概率,見(jiàn)下式。PH|X= XHXPX|H= XHH將這些公式帶入上面貝葉斯定理自然就成立了。樸素貝葉斯分類分類算法有很多,基本上決策樹(shù),貝葉斯分類和神經(jīng)網(wǎng)絡(luò)是齊名的。樸素貝葉斯分類假定一個(gè)屬性值對(duì)給定分類的影響?yīng)毩⒂谄渌麑傩灾?。描述:這里有個(gè)例子假定我們
3、有一個(gè)顧客X(age = middle,income=high,sex =man):· 年齡(age)取值可以是:?。▂oung),中(middle),大(old)· 收入(income)取值可以是:低(low),中(average),高(high)· 性別(sex)取值可以是:男(man),女(woman)其選擇電腦顏色的分類標(biāo)號(hào)H:白色(white),藍(lán)色(blue),粉色(pink)問(wèn)題:用樸素貝葉斯分類法預(yù)測(cè)顧客X,選擇哪個(gè)顏色的分類標(biāo)號(hào),也就是預(yù)測(cè)X屬于具有最高后驗(yàn)概率的分類。解答:Step 1也就是說(shuō)我們要分別計(jì)算X選擇分類標(biāo)號(hào)為白色(white),藍(lán)
4、色(blue),粉色(pink)的后驗(yàn)概率,然后進(jìn)行比較取其中最大值。根據(jù)貝葉斯定理PHwhiteX=PXHwhiteP(Hwhite)P(X)同理PHblueX=PXHblueP(Hblue)P(X)PHpinkX=PXHpinkP(Hpink)P(X)Step 2其中P(X)為常數(shù)。D為全集元組數(shù),Hwhite,D為全集中分類標(biāo)號(hào)為white的元組數(shù)。PHwhite= Hwhite,DD同理PHblue= Hblue,DDPHpink= Hpink,DDStep 3那么只需計(jì)算PXHwhite就可以了。PXHblue,PXHpink同理就不在進(jìn)行闡述。對(duì)于許多屬性的集,PXHwhite有可
5、能是缺失的,對(duì)于多個(gè)X的計(jì)算開(kāi)銷可能非常大,那么根據(jù)樸素貝葉斯分類假定一個(gè)屬性值對(duì)給定類的影響?yīng)毩⒂谄渌麑傩灾怠XHwhite=k=13Px1Hwhite=Pxage=middleHwhite×Pxincome=highHwhite×Pxsex=manHwhite可以很容易的由訓(xùn)練元組得出:Pxage=middleHwhitePxincome=highHwhitePxsex=manHwhiteStep 4PHwhiteX,, PHblueX,,PHpinkX后驗(yàn)概率中最大的,那么它的分類標(biāo)號(hào)就是X的分類標(biāo)號(hào)。改進(jìn)1, 目前X(年齡 = 中,收入 = 高,性別 = 男)中的
6、屬性都是分類屬性,而不是連續(xù)值屬性,我們要處理連續(xù)值屬性可以使用如下方法:Pxage=middleHwhite=gxage=middle,white,white=12e-(x-)222連續(xù)值屬性xage=middle服從均值為,標(biāo)準(zhǔn)差為的高斯分布。2, 如果遇到零概率值怎么辦?比如在訓(xùn)練元組中Pxsex=manHwhite為零,可以使用拉普拉斯校準(zhǔn)的方法避免該問(wèn)題。樸素貝葉斯分類的MapReduce實(shí)現(xiàn)我們通過(guò)MapReduce計(jì)算X(age = middle,income=high,sex =man)的分類標(biāo)號(hào)。根據(jù)上面的推導(dǎo),P(X)為常數(shù)只需計(jì)算PXHwhiteP(Hwhite),PXH
7、blueP(Hblue),PXHpinkP(Hpink)最大值即可。源文件為old:low:man:bluemiddle:high:man:whiteold:low:man:blueyonng:high:woman:whiteyoung:low:woman:pink那么如何使用一次MapReduce就計(jì)算出P(Hwhite),PxageHwhite,PxincomeHwhite,PxsexHwhite等等MapClass為 public static class MapClass extends MapReduceBase implements Mapper<LongWritable,
8、Text, Text, IntWritable> private final static IntWritable one = new IntWritable(1); private Text word = new Text(); public void map(LongWritable key, Text value, OutputCollector<Text, IntWritable> output, Reporter reporter) throws IOException String line = value.toString(); String words = l
9、ine.split(":"); word.set("SUM"); output.collect(word, one); word.set(words3); output.collect(word, one); word.set(words0 + "-" + words3); output.collect(word, one); word.set(words1 + "-" + words3); output.collect(word, one); word.set(words2 + "-" + w
10、ords3); output.collect(word, one); ReduceClass為: public static class Reduce extends MapReduceBase implements Reducer<Text, IntWritable, Text, IntWritable> public void reduce(Text key, Iterator<IntWritable> values, OutputCollector<Text, IntWritable> output, Reporter reporter) throws
11、 IOException int sum = 0; while (values.hasNext() sum += values.next().get(); output.collect(key, new IntWritable(sum); 計(jì)算結(jié)果為:SUM5blue2high-white2low-blue2low-pink1man-blue2man-white1middle-white1old-blue2pink1white2woman-pink1woman-white1yonng-white1young-pink1根據(jù)樸素貝葉斯分類法那么有PXHwhitePHwhite=Pxage=middleHwhite×Pxincome=highHwhite×P
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 【正版授權(quán)】 ISO/IEC 22602:2019 FR Information technology - Learning,education and training - Competency models expressed in MLR
- 【正版授權(quán)】 IEC 61340-4-6:2025 EN-FR Electrostatics - Part 4-6: Standard test methods for specific applications - Wrist straps
- 2025至2030中國(guó)電焊帽行業(yè)產(chǎn)業(yè)運(yùn)行態(tài)勢(shì)及投資規(guī)劃深度研究報(bào)告
- 2025至2030中國(guó)電子壓力計(jì)行業(yè)產(chǎn)業(yè)運(yùn)行態(tài)勢(shì)及投資規(guī)劃深度研究報(bào)告
- 2025至2030中國(guó)瑜伽工作室系統(tǒng)行業(yè)市場(chǎng)深度研究及發(fā)展前景投資可行性分析報(bào)告
- 高等教育科研成果轉(zhuǎn)化管理機(jī)制研究
- 酒店安全生培訓(xùn)
- 施工項(xiàng)目資源管理(培訓(xùn))
- 心理健康教育培訓(xùn)實(shí)施總結(jié)
- 探尋教育心理學(xué)掌握學(xué)生心靈鑰匙
- 湖北武漢洪山區(qū)招考聘用社區(qū)干事235人模擬檢測(cè)試卷【共1000題含答案解析】
- 14 《中國(guó)胰島素泵治療指南(2021年版)》要點(diǎn)解讀
- 12J4-2 《專用門窗》標(biāo)準(zhǔn)圖集
- 膩?zhàn)訉?shí)驗(yàn)方法
- GB/T 18487.1-2015電動(dòng)汽車傳導(dǎo)充電系統(tǒng)第1部分:通用要求
- GB 30603-2014食品安全國(guó)家標(biāo)準(zhǔn)食品添加劑乙酸鈉
- 2023年義烏市雙江湖開(kāi)發(fā)集團(tuán)有限公司招聘筆試題庫(kù)及答案解析
- 通信建設(shè)工程質(zhì)量和安全生產(chǎn)監(jiān)督檢查表最新文檔
- 醫(yī)學(xué)高級(jí)職稱評(píng)審答辯報(bào)告PPT模板
- 肺栓塞的診斷和治療
- DB4451-T 1-2021《地理標(biāo)志產(chǎn)品+鳳凰單叢(樅)茶》-(高清現(xiàn)行)
評(píng)論
0/150
提交評(píng)論