



下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、俗話說:“物以類聚,人以群分”在自然科學(xué)和社會(huì)科學(xué)中,存在著大量的分類問題。聚類(Cluster)分析是由若干模式(Pattern)組成的。通常,模式是一個(gè)度量(Measurement)的向量,或者是多維空間中的一個(gè)點(diǎn)。聚類分析以相似性為基礎(chǔ),在一個(gè)聚類中的模式之間比不在同一聚類中的模式之間具有更多的相似性。所以,聚類分析依賴于對(duì)觀測(cè)間的接近程度(距離)或相似程度的理解,定義不同的距離量度和相似性量度就可以產(chǎn)生不同的聚類結(jié)果。所謂類,通俗地說,就是指相似元素的集合。聚類就是按照事物間的相似性進(jìn)行區(qū)分和分類的過程。聚類分析又稱群分析,它是研究(樣品或指標(biāo))分類問題的一種統(tǒng)計(jì)分析方法。聚類分析起源
2、于分類學(xué),聚類分析也可以作為其他分析算法的一個(gè)預(yù)處理步驟。Clustering中文翻譯作“聚類”,簡(jiǎn)單地說就是把相似的東西分到一組,同Classification(分類)不同,理想情況下,一個(gè)classifier會(huì)從它得到的訓(xùn)練集中進(jìn)行“學(xué)習(xí)”,從而具備對(duì)未知數(shù)據(jù)進(jìn)行分類的能力,這種提供訓(xùn)練數(shù)據(jù)的過程通常叫做supervisedlearning(監(jiān)督學(xué)習(xí)),而在聚類的時(shí)候,我們并不關(guān)心某一類是什么,我們需要實(shí)現(xiàn)的目標(biāo)只是把相似的東西聚到一起,因此,一個(gè)聚類算法通常只需要知道如何計(jì)算相似度就可以開始工作了,稱作unsupervisedlearning(無監(jiān)督學(xué)習(xí))。無監(jiān)督分類最常用的方法之一是K
3、均值或ISODATA、模糊C均值和EM(Expectation-Maximization)。K-MEANS有其缺點(diǎn):產(chǎn)生類的大小相差不會(huì)很大,對(duì)于臟數(shù)據(jù)很敏感。不得不承認(rèn)這并不是很好的結(jié)果。不過其實(shí)大多數(shù)情況下k-means給出的結(jié)果都還是很令人滿意的,算是一種簡(jiǎn)單高效應(yīng)用廣泛的clustering方法。選定K個(gè)中心的這個(gè)過程通常是針對(duì)具體的問題有一些啟發(fā)式的選取方法,或者大多數(shù)情況下采用隨機(jī)選取的辦法。因?yàn)榍懊嬲f過k-means并不能保證全局最優(yōu),而是否能收斂到全局最優(yōu)解其實(shí)和初值的選取有很大的關(guān)系,所以有時(shí)候我們會(huì)多次選取初值跑k-means,并取其中最好的一次結(jié)果因?yàn)槊康淮尉托枰闅v
4、所有數(shù)據(jù),盡量減少迭代次數(shù),初值很重要,可先用K-Means求初始聚類中心。易于陷入局部最小,對(duì)初始值較敏感。K-means算法結(jié)束條件:1)給定一個(gè)迭代次數(shù),達(dá)到這個(gè)次數(shù)就停止,這好像不是一個(gè)好建議。2)k個(gè)質(zhì)心應(yīng)該達(dá)到收斂,即第n次計(jì)算出的n個(gè)質(zhì)心在第n+1次迭代時(shí)候位置不變。3)n個(gè)文檔達(dá)到收斂,即第n次計(jì)算出的n個(gè)文檔分類和在第n+1次迭代時(shí)候文檔分類結(jié)果相同。4)RSS值小于一個(gè)閥值,實(shí)際中往往把這個(gè)條件結(jié)合條件1使用模糊參數(shù)m可以取大于或等于1的任何值,但當(dāng)m=2時(shí),聚類結(jié)果最滿意(Equihua1990),所以一般取m=2。模糊C-均值聚類(Fuzzyc-meanscluster
5、ing)也叫模糊IS0-DATA聚類(Fuzzyiterativeself-orgnizingdataclustering)(Bezdek1981,1987;Equihua1990)。該方法的結(jié)果是用隸屬度(membership)表示,表明屬于某種類型的程度。它是目前唯一的重疊分類方法。1.設(shè)定聚類數(shù)號(hào)k,最大執(zhí)行”一?很4啲容忍誤差wo-計(jì)算數(shù)據(jù)點(diǎn)厲于哪隈類(隸屬度矩陣沖二1.(C)計(jì)算收斂準(zhǔn)則,若砂)=;成立則停止運(yùn)轟r否血進(jìn)行下一輕戢Et)=|G護(hù))II_1.設(shè)定聚類數(shù)號(hào)疋最大執(zhí)行步驟血,Y很4啲容忍誤豊丸決定聚類中心起始位置womfort=lf站氐vWvV(A)fi)rj=l!,N,-(i)計(jì)算各數(shù)據(jù)點(diǎn)到聚類中譏的距離必J|X廠二Largmin/;0.otherwise2.3.決定聚類中心起始位置q蝕0勺冬疋fort=(A)forj=lN計(jì)算隸屬
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 農(nóng)業(yè)種植區(qū)域技術(shù)承包協(xié)議
- 供水管網(wǎng)消隱改造工程實(shí)施方案
- 《電磁波譜及其應(yīng)用:高中物理進(jìn)階課程教案》
- 化學(xué)無機(jī)化學(xué)知識(shí)點(diǎn)梳理與練習(xí)
- 《羅馬法的起源與影響:大學(xué)法律專業(yè)教案》
- 電競(jìng)行業(yè)賽事組織流程
- 企業(yè)間技術(shù)咨詢顧問協(xié)議
- 2025年氣候變化對(duì)水資源管理的影響及應(yīng)對(duì)能力測(cè)試卷及答案
- 2025年可持續(xù)發(fā)展與環(huán)境政策考試試題及答案
- 2025年機(jī)械設(shè)計(jì)與制造考試試題及答案
- 低壓電工證考試試題及答案
- 2025年大學(xué)生學(xué)術(shù)研究洞察報(bào)告
- T/CTRA 01-2020廢輪胎/橡膠再生油
- 可信數(shù)據(jù)空間解決方案星環(huán)科技
- 2025廣西專業(yè)技術(shù)人員公需科目培訓(xùn)考試答案
- 鉗工安全測(cè)試題及答案
- 2023年北京西城區(qū)初一(下)期末數(shù)學(xué)試題及答案
- 連續(xù)壓機(jī)生產(chǎn)刨花板熱壓質(zhì)量控制初探.pdf
- 發(fā)電廠的電氣部分課程設(shè)計(jì)
- (自己編)絲網(wǎng)除沫器計(jì)算
- 負(fù)壓氣力輸送系統(tǒng)
評(píng)論
0/150
提交評(píng)論