



下載本文檔
版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、WEK聚類算法wine數(shù)據(jù)集分析研究1實(shí)驗(yàn)?zāi)康南Mㄟ^(guò)實(shí)驗(yàn)研究葡萄酒的差異化,并分析造成這種差異化的原因,可以更深刻的掌握聚類分析的原理;進(jìn)一步熟悉聚類分析問(wèn)題的提出、解決問(wèn)題的思路、方法和技能;達(dá)到能綜合運(yùn)用所學(xué)基本理論和專業(yè)知識(shí);鍛煉收集、整理、運(yùn)用資料的能力的目的;希望能會(huì)調(diào)用WEKA軟件聚類分析有關(guān)過(guò)程命令,并且可以對(duì)數(shù)據(jù)處理結(jié)果進(jìn)行正確判斷分析,作出綜合評(píng)價(jià)。2實(shí)驗(yàn)數(shù)據(jù)Wine這份數(shù)據(jù)集包含來(lái)自3種不同起源的葡萄酒的共178條記錄。13個(gè)屬性是葡萄酒的13種化學(xué)成分。通過(guò)化學(xué)分析可以來(lái)推斷葡萄酒的起源。值得一提的是所有屬性變量都是連續(xù)變量。數(shù)據(jù)集特征:多變量記錄數(shù):178領(lǐng)域:物理屬
2、性特征:整數(shù),實(shí)數(shù)屬性數(shù)目:13捐贈(zèng)日期1991-07-01相關(guān)應(yīng)用:分類缺失值?無(wú)網(wǎng)站點(diǎn)擊數(shù):337319該實(shí)驗(yàn)的數(shù)據(jù)集是MostPopularDataSets(hitssince2007)中的wine數(shù)據(jù)集,這是是對(duì)在意大利同一地區(qū)生產(chǎn)的三種不同品種的酒,做大量分析所得出的數(shù)據(jù)。這些數(shù)據(jù)包括了三種酒中13種不同成分的數(shù)量。經(jīng)過(guò)幾天對(duì)數(shù)據(jù)集以及分類算法的研究,詳細(xì)研究了樸素貝葉斯分類器和其他學(xué)習(xí)算法,包括決策樹(shù)和神經(jīng)網(wǎng)絡(luò)等等。同時(shí)由于這個(gè)數(shù)據(jù)集有13個(gè)屬性,用決策樹(shù)實(shí)現(xiàn)起來(lái)會(huì)很復(fù)雜。我最終選擇了用貝葉斯分類算法來(lái)實(shí)現(xiàn)。我將178個(gè)樣本分成118個(gè)訓(xùn)練樣本和60個(gè)測(cè)試樣本,采用樸素貝葉斯分類算
3、法,計(jì)算出先驗(yàn)概率和后驗(yàn)概率,通過(guò)比較概率的最大值,判別出測(cè)試樣本所屬于的酒的類型,同時(shí)輸出測(cè)試樣本計(jì)算的正確率和錯(cuò)誤率。這些數(shù)據(jù)包括了三種酒中13種不同成分的數(shù)量。13種成分分別為:Alcohol,Malicacid,Ash,Alcalinityofash,Magnesium,Totalphenols,Flavanoids,Nonflavanoidphenols,ProanthocyaninsColorintensity,Hue,OD280/OD315ofdilutedwines,Proline。在“wine.data”文件中,每行代表一種酒的樣本,共有178個(gè)樣本;一共有14歹1,其中,第
4、一列為類標(biāo)志屬性,共有三類,分別記為“1”,“2”,“3”;后面的13列為每個(gè)樣本的對(duì)應(yīng)屬性的樣本值。其中第1類有59個(gè)樣本,第2類有71個(gè)樣本,第3類有48個(gè)樣本。3實(shí)驗(yàn)方法聚類是對(duì)數(shù)據(jù)對(duì)象進(jìn)行劃分的一種過(guò)程,與分類不同的是,它所劃分的類是未知的,故此,這是一個(gè)“無(wú)指導(dǎo)的學(xué)習(xí)”過(guò)程,它傾向于數(shù)據(jù)的自然劃分。其中聚類算法常見(jiàn)的有基于層次方法、基于劃分方法、基于密度以及網(wǎng)格等方法。本文中對(duì)近年來(lái)聚類算法的研究現(xiàn)狀與新進(jìn)展進(jìn)行歸納總結(jié)。一方面對(duì)近年來(lái)提出的較有代表性的聚類算法,從算法思想。關(guān)鍵技術(shù)和優(yōu)缺點(diǎn)等方面進(jìn)行分析概括;另一方面選擇一些典型的聚類算法和一些知名的數(shù)據(jù)集,主要從正確率和運(yùn)行效率兩
5、個(gè)方面進(jìn)行模擬實(shí)驗(yàn),并分別就同一種聚類算法、不同的數(shù)據(jù)集以及同一個(gè)數(shù)據(jù)集、不同的聚類算法的聚類情況進(jìn)行對(duì)比分析。最后通過(guò)綜合上述兩方面信息給出聚類分析的研究熱點(diǎn)、難點(diǎn)、不足和有待解決的一些問(wèn)題等。實(shí)驗(yàn)中主要選擇了K均值聚類算法、FCM模糊聚類算法并以UCIMachineLearningRepos計(jì)ory網(wǎng)站下載的WINE數(shù)據(jù)集為基礎(chǔ),然后以WINE數(shù)據(jù)集在學(xué)習(xí)了解Weka軟件接口方面的基礎(chǔ)后作聚類分析,使用最常見(jiàn)的K均值(即K-means)聚類算法和FCM模糊聚類算法。下面簡(jiǎn)單描述一下K均值聚類的步驟。K均值算法首先隨機(jī)的指定K個(gè)類中心。然后:(1)將每個(gè)實(shí)例分配到距它最近的類中心,得到K個(gè)類
6、;(2)計(jì)分別計(jì)算各類中所有實(shí)例的均值,把它們作為各類新的類中心。重復(fù)(1)和(2),直到K個(gè)類中心的位置都固定,類的分配也固定。在實(shí)驗(yàn)過(guò)程中通過(guò)利用Weka軟件中提供的simpleKmeans(也就是K均值聚類算法對(duì)WINE數(shù)據(jù)集進(jìn)行聚類分析,更深刻的理解k均值算法,并通過(guò)對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行觀察分析,找出實(shí)驗(yàn)中所存在的問(wèn)題。然后再在學(xué)習(xí)了解Weka軟件接口方面的基礎(chǔ)上對(duì)Weka軟件進(jìn)行一定的擴(kuò)展以加入新的聚類算法來(lái)實(shí)現(xiàn)基于Weka平臺(tái)的聚類分析。3.1.1 K均值聚類算法K均值聚類算法理論K均值算法是一種硬劃分方法,簡(jiǎn)單流行但其也存在一些問(wèn)題諸如其劃分結(jié)果并不一定完全可信。K均值算法的劃分理論基
7、礎(chǔ)是cmin££keAlxk-vil(1)i3其中c是劃分的聚類數(shù),A是已經(jīng)屬于第i類的數(shù)據(jù)集Vi是相應(yīng)的點(diǎn)到第i類的平均距離,即N'、k/kVi=",XkwAi2Ni其中Ni表示在數(shù)據(jù)集A中的對(duì)象數(shù)。3.1.2 算法的基本過(guò)程step1:任意選擇K個(gè)對(duì)象作為初始的類的中心;step2:repeat;step3:根據(jù)類中的平均值,將每個(gè)數(shù)據(jù)點(diǎn)(重新)賦給最相近的類;step4:更新類的平均值;3.2 step5:until不再發(fā)生變化,即沒(méi)有對(duì)象進(jìn)行被重新分配時(shí)過(guò)程結(jié)束FCM莫糊聚類算法FCM算法也是一種基于劃分的聚類算法,它的思想就是使得被劃分到同一類的
8、對(duì)象之間相似度最大,而不同類之間的相似度最小。模糊C均值算法是普通C均值算法的改進(jìn),普通C均值算法對(duì)于數(shù)據(jù)的劃分是硬性的,而FCM則是一種柔性的模糊劃分。在介紹FCM具體算法之前我們先介紹一些模糊集合的基本知識(shí)。FCM真糊聚類算法的理論1)理論基礎(chǔ)-模糊集基本知識(shí)首先說(shuō)明隸屬度函數(shù)的概念。隸屬度函數(shù)是表示一個(gè)對(duì)象x隸屬于集合A的程度的函數(shù),通常記做U(x),其自變量范圍是所有可能屬于集合A的對(duì)象(即集合A所在空間中的所有點(diǎn)),取值范圍是0,1,即0ENA(x)W1。NA(x)=1表示x完全隸屬于集合A,相當(dāng)于傳統(tǒng)集合概念上的x-Ao一個(gè)定義在空間X=x上的隸屬度函數(shù)就定義了一個(gè)模糊集合A,或者
9、叫定義在論域X=x上的模糊子集。在聚類的問(wèn)題中,可以把聚類生成的類看成模糊集合,因此每個(gè)樣本點(diǎn)隸屬于每個(gè)類的隸屬度就是011區(qū)間里面的值。2)FCM的算法理論1973年,Bezdek提出了該算法,并作為早期硬C均值聚類(HCM)方法的一種改進(jìn),命名為模糊C均值聚類簡(jiǎn)稱FCM是一種目標(biāo)函數(shù)法。假設(shè)將樣本空問(wèn)X要分為k個(gè)類,則類中心集C=(G,C2,C3,lll,Ck)使下式的目標(biāo)函數(shù)值最小nk2minJm=££町卜cj(3)iWjWk工%=1(4)j1且有%0,1i=1,2,HI,n;j=1,2,IH,k其中U=('ij)被稱為模糊隸屬度矩陣。5表示的是數(shù)據(jù)x隸屬于類
10、中心Cj的隸屬度。m是模糊加權(quán)參數(shù),用于控制在模糊類間的程度依據(jù)參考的文獻(xiàn)中一般取值為15應(yīng)用拉格朗日乘法并基于上述約束可得到如下式1.、%二工(5)ct4Dtj且1<i<c,1<j<NNV;XjG=jN1<i<c(6)一mj1其中Dj是Xi到第j類中心Cj的歐氏距離,即3.2.2 FCM真糊聚類算法的過(guò)程step1:置初始化參數(shù)值,包含模糊加權(quán)參數(shù)值m和聚類數(shù)k,以及迭代的次數(shù)s和算法終止誤差30step2:隨機(jī)化置初始化聚類的中心C0,t=0。step3:計(jì)算隸屬度矩陣U可通過(guò)(5)式計(jì)算Us得來(lái)step4:依據(jù)(6)式迭代計(jì)算聚類的中心Cs書(shū)。step
11、5:檢當(dāng)UjUs*-Us|<8是否成立,成立則算法結(jié)束否則gotostep3。3.2.3 實(shí)驗(yàn)配置實(shí)驗(yàn)配置過(guò)程與K均值算法的實(shí)驗(yàn)配置過(guò)程基本相同,只是在FCM模糊聚類算法實(shí)驗(yàn)中要用到模糊隸屬度參數(shù),一般將其設(shè)置在15之間在實(shí)驗(yàn)中設(shè)置如下param.m=2也可以根據(jù)需要對(duì)其進(jìn)行修改。3.2.4 FCM真糊聚類算法特點(diǎn)FCM算法需要兩個(gè)參數(shù)一個(gè)是聚類數(shù)目c,另一個(gè)是參數(shù)m0一般來(lái)講c要遠(yuǎn)遠(yuǎn)小于聚類樣本的總個(gè)數(shù),同時(shí)要保證c>1o對(duì)于m,它是一個(gè)控制算法的柔性的參數(shù),如果m過(guò)大,則聚類效果會(huì)很次,而如果m過(guò)小則算法會(huì)接近K均值聚類算法。算法的輸出是c個(gè)聚類中心點(diǎn)向量和c*N的一個(gè)模糊劃分
12、矩陣,這個(gè)矩陣表示的是每個(gè)樣本點(diǎn)屬于每個(gè)類的隸屬度。根據(jù)這個(gè)劃分矩陣按照模糊集合中的最大隸屬原則就能夠確定每個(gè)樣本點(diǎn)歸為哪個(gè)類。聚類中心表示的是每個(gè)類的平均特征,可以認(rèn)為是這個(gè)類的中心代表。FCM算法是圖像分割使用最多的方法之一,它的成功主要?dú)w功于為解決每個(gè)圖像像素的隸屬需要引入了模糊性。與K均值聚類相比較來(lái)說(shuō)FCM能夠保留初始圖像的更多信息。FCM對(duì)孤立點(diǎn)和其他人造圖像非常敏感。3.4.1 3.3基于weka的聚類分析數(shù)據(jù)的預(yù)處理從網(wǎng)站下載的WINE原始數(shù)據(jù)集wine.data文件,而Weka軟件需要的是ARFF文件格式的數(shù)據(jù)。因此需要將數(shù)據(jù)轉(zhuǎn)換成Weka支持的ARFF文件格式的。轉(zhuǎn)換過(guò)程如下首先用記事本方式打開(kāi)文件發(fā)現(xiàn)文件中的數(shù)據(jù)之間是以逗號(hào)來(lái)劃分的,因此可以將數(shù)據(jù)文件的名稱改為wine.csv。然后,打開(kāi)Wek
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年短視頻平臺(tái)內(nèi)容監(jiān)管與平臺(tái)經(jīng)濟(jì)報(bào)告
- 2025年文化遺產(chǎn)數(shù)字化保護(hù)與文化遺產(chǎn)旅游市場(chǎng)的營(yíng)銷策略報(bào)告
- 教育大數(shù)據(jù)在教育資源優(yōu)化配置中的應(yīng)用實(shí)踐報(bào)告
- 2025年云計(jì)算服務(wù)模式演進(jìn)與行業(yè)應(yīng)用市場(chǎng)前景研究報(bào)告
- 2025年元宇宙社交平臺(tái)游戲化設(shè)計(jì):用戶體驗(yàn)與互動(dòng)體驗(yàn)報(bào)告
- 2025年元宇宙社交平臺(tái)用戶互動(dòng)性與社交價(jià)值研究報(bào)告
- 2025年元宇宙社交平臺(tái)虛擬現(xiàn)實(shí)設(shè)備兼容性與用戶體驗(yàn)研究
- 2025年元宇宙社交平臺(tái)虛擬社交活動(dòng)策劃與用戶體驗(yàn)優(yōu)化報(bào)告
- 2025年醫(yī)院信息化建設(shè)醫(yī)院圖書(shū)館管理系統(tǒng)初步設(shè)計(jì)評(píng)估報(bào)告
- 零售行業(yè)私域流量運(yùn)營(yíng)數(shù)據(jù)分析與效果評(píng)估報(bào)告
- 新交際英語(yǔ)(2024新版)一年級(jí)上冊(cè)Unit 1~6全冊(cè)教案
- 三家比價(jià)合同范例
- 2025年慢性阻塞性肺疾病全球創(chuàng)議GOLD指南修訂解讀課件
- GB/T 19077-2024粒度分析激光衍射法
- GB/T 44481-2024建筑消防設(shè)施檢測(cè)技術(shù)規(guī)范
- 風(fēng)險(xiǎn)評(píng)估培訓(xùn)課件x
- 代牧牛羊合同模板
- 感術(shù)行動(dòng)專項(xiàng)考核試題及答案
- DB34∕T 3468-2019 民用建筑樓面保溫隔聲工程技術(shù)規(guī)程
- 《西蘭花先生的理發(fā)店》幼兒園小學(xué)少兒美術(shù)教育繪畫(huà)課件創(chuàng)意教程教案
- 江蘇省淮安市2023-2024學(xué)年八年級(jí)下學(xué)期期末數(shù)學(xué)試卷(含答案詳解)
評(píng)論
0/150
提交評(píng)論