利用sas做譜系聚類的介紹.doc_第1頁(yè)
利用sas做譜系聚類的介紹.doc_第2頁(yè)
利用sas做譜系聚類的介紹.doc_第3頁(yè)
利用sas做譜系聚類的介紹.doc_第4頁(yè)
利用sas做譜系聚類的介紹.doc_第5頁(yè)
已閱讀5頁(yè),還剩5頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

聚類分析.轉(zhuǎn)載自網(wǎng)站 /teachers/lidf/docs/statsoft/html/statsoft.html作者:北京大學(xué)概率統(tǒng)計(jì)系 李東風(fēng)聚類分析和判別分析有相似的作用,都是起到分類的作用。但是,判別分析是已知分類然后總結(jié)出判別規(guī)則,是一種有指導(dǎo)的學(xué)習(xí);而聚類分析則是有了一批樣本,不知道它們的分類,甚至連分成幾類也不知道,希望用某種方法把觀測(cè)進(jìn)行合理的分類,使得同一類的觀測(cè)比較接近,不同類的觀測(cè)相差較多,這是無(wú)指導(dǎo)的學(xué)習(xí)。所以,聚類分析依賴于對(duì)觀測(cè)間的接近程度(距離)或相似程度的理解,定義不同的距離量度和相似性量度就可以產(chǎn)生不同的聚類結(jié)果。SAS/STAT中提供了譜系聚類、快速聚類、變量聚類等聚類過(guò)程。譜系聚類方法介紹譜系聚類是一種逐次合并類的方法,最后得到一個(gè)聚類的二叉樹(shù)聚類圖。其想法是,對(duì)于個(gè)觀測(cè),先計(jì)算其兩兩的距離得到一個(gè)距離矩陣,然后把離得最近的兩個(gè)觀測(cè)合并為一類,于是我們現(xiàn)在只剩了個(gè)類(每個(gè)單獨(dú)的未合并的觀測(cè)作為一個(gè)類)。計(jì)算這個(gè)類兩兩之間的距離,找到離得最近的兩個(gè)類將其合并,就只剩下了個(gè)類直到剩下兩個(gè)類,把它們合并為一個(gè)類為止。當(dāng)然,真的合并成一個(gè)類就失去了聚類的意義,所以上面的聚類過(guò)程應(yīng)該在某個(gè)類水平數(shù)(即未合并的類數(shù))停下來(lái),最終的類就取這些未合并的類。決定聚類個(gè)數(shù)是一個(gè)很復(fù)雜的問(wèn)題。設(shè)觀測(cè)個(gè)數(shù)為,變量個(gè)數(shù)為,為在某一聚類水平上的類的個(gè)數(shù),為第個(gè)觀測(cè),是當(dāng)前(水平)的第類,為中的觀測(cè)個(gè)數(shù),為均值向量,為類中的均值向量(中心),為歐氏長(zhǎng)度,為總離差平方和,為類的類內(nèi)離差平方和,為聚類水平對(duì)應(yīng)的各類的類內(nèi)離差平方和的總和。假設(shè)某一步聚類把類和類合并為下一水平的類,則定義為合并導(dǎo)致的類內(nèi)離差平方和的增量。用代表兩個(gè)觀測(cè)之間的距離或非相似性測(cè)度,為第水平的類和類之間的距離或非相似性測(cè)度。進(jìn)行譜系聚類時(shí),類間距離可以直接計(jì)算,也可以從上一聚類水平的距離遞推得到。觀測(cè)間的距離可以用歐氏距離或歐氏距離的平方,如果用其它距離或非相似性測(cè)度得到了一個(gè)觀測(cè)間的距離矩陣也可以作為譜系聚類方法的輸入。根據(jù)類間距離的計(jì)算方法的不同,有多種不同的聚類方法。其中幾種介紹如下:一、類平均法(METHOD=AVERAGE)測(cè)量?jī)深惷繉?duì)觀測(cè)間的平均距離,即在時(shí)若類和類合并為下一水平的類類,則類和類的距離的遞推公式為二、重心法(METHOD=CENTROID)重心法測(cè)量?jī)蓚€(gè)類的重心(均值)之間的(平方)歐氏距離。即當(dāng)觀測(cè)間距離為平方歐氏距離時(shí)有遞推公式三、最長(zhǎng)距離法(METHOD=COMPLETE)計(jì)算兩類觀測(cè)間最遠(yuǎn)一對(duì)的距離,即遞推公式為。四、最短距離法(METHOD=SINGLE)計(jì)算兩類觀測(cè)間最近一對(duì)的距離,即遞推公式為。五、密度估計(jì)法(METHOD=DENSITY)密度估計(jì)法按非參數(shù)密度來(lái)定義兩點(diǎn)間的距離。如果兩個(gè)點(diǎn)和是近鄰(兩點(diǎn)距離小于某指定常數(shù)或在距離最近的若干點(diǎn)內(nèi))則距離是兩點(diǎn)密度估計(jì)的倒數(shù)的平均,否則距離為正無(wú)窮。密度估計(jì)有最近鄰估計(jì)(K=)、均勻核估計(jì)(R=)和Wong 混合法(HYBRID)。六、Ward最小方差法(或稱Ward離差平方和法,METHOD=WARD)當(dāng)觀測(cè)間距離為時(shí)遞推公式為Ward方法并類時(shí)總是使得并類導(dǎo)致的類內(nèi)離差平方和增量最小。其它的聚類方法還有EML法、可變類平均法(FLEXIBLE)、McQuitty相似分析法(MCQUITTY )、中間距離法(MEDIAN)、兩階段密度估計(jì)法(TWOSTAGE)等。譜系聚類類數(shù)的確定譜系聚類最終得到一個(gè)聚類樹(shù),可以把所有觀測(cè)聚為一類。到底應(yīng)該把觀測(cè)分為幾類是一個(gè)比較困難的問(wèn)題,因?yàn)榉诸悊?wèn)題本身就是沒(méi)有一定標(biāo)準(zhǔn)的,關(guān)于這一點(diǎn)實(shí)用多元統(tǒng)計(jì)分析(王學(xué)仁、王松桂,上海科技出版社)第十章給出了一個(gè)很好的例子,即撲克牌的分類。我們可以把撲克牌按花色分類,按大小點(diǎn)分類,按橋牌的高花色低花色分類,等等。決定類數(shù)的一些方法來(lái)自統(tǒng)計(jì)的方差分析的思想,我們?cè)谶@里作一些介紹。一、統(tǒng)計(jì)量其中為分類數(shù)為個(gè)類時(shí)的總類內(nèi)離差平方和,為所有變量的總離差平方和。越大,說(shuō)明分為個(gè)類時(shí)每個(gè)類內(nèi)的離差平方和都比較小,也就是分為個(gè)類是合適的。但是,顯然分類越多,每個(gè)類越小,越大,所以我們只能取使得足夠大,但本身比較小,而且不再大幅度增加。二、半偏相關(guān)在把類和類合并為下一水平的類時(shí),定義半偏相關(guān)半偏其中為合并類引起的類內(nèi)離差平方和的增量,半偏相關(guān)越大,說(shuō)明這兩個(gè)類越不應(yīng)該合并,所以如果由類合并為類時(shí)如果半偏相關(guān)很大就應(yīng)該取類。三、雙峰性系數(shù)其中是偏度,是峰度。大于0.555的值(這時(shí)為均勻分布)可能指示有雙峰或多峰邊緣分布。最大值1.0(二值分布)從僅取兩值的總體得到。四、偽F統(tǒng)計(jì)量偽F統(tǒng)計(jì)量評(píng)價(jià)分為個(gè)類的效果。如果分為個(gè)類合理,則類內(nèi)離差平方和(分母)應(yīng)該較小,類間平方和(分子)相對(duì)較大。所以應(yīng)該取偽F統(tǒng)計(jì)量較大而類數(shù)較小的聚類水平。五、偽統(tǒng)計(jì)量用此統(tǒng)計(jì)量評(píng)價(jià)合并類和類的效果,該值大說(shuō)明不應(yīng)合并這兩個(gè)類,所以應(yīng)該取合并前的水平。用CLUSTER過(guò)程和TREE過(guò)程進(jìn)行譜系聚類一、CLUSTER過(guò)程用法CLUSTER過(guò)程的一般格式為:PROC CLUSTER DATA=輸入數(shù)據(jù)集 METHOD=聚類方法 選項(xiàng);VAR 聚類用變量;COPY 復(fù)制變量;RUN;其中的VAR語(yǔ)句指定用來(lái)聚類的變量。COPY語(yǔ)句把指定的變量復(fù)制到OUTTREE的數(shù)據(jù)集中。 PROC CLUSTER語(yǔ)句的主要選項(xiàng)有: METHOD=選項(xiàng),這是必須指定的,此選項(xiàng)決定我們要用的聚類方法,主要由類間距離定義決定。方法有AVERAGE、CENTROID、COMPLETE、SINGLE、DENSITY、WARD、EML、FLEXIBLE、MCQUITTY 、MEDIAN、TWOSTAGE等,其中DENSITY、TWOSTAGE等方法還要額外指定密度估計(jì)方法(K=、R= 或HYBRID)。 輸入DATA數(shù)據(jù)集,可以是原始觀測(cè)數(shù)據(jù)集,也可以是距離矩陣數(shù)據(jù)集。 OUTTREE=輸出譜系聚類樹(shù)數(shù)據(jù)集,把譜系聚類樹(shù)輸出到一個(gè)數(shù)據(jù)集,可以用TREE過(guò)程繪圖并實(shí)際分類。 STANDARD選項(xiàng),把變量標(biāo)準(zhǔn)化為均值0,標(biāo)準(zhǔn)差1。 PSEUDO選項(xiàng)和CCC選項(xiàng)。PSEUDO選項(xiàng)要求計(jì)算偽F和偽統(tǒng)計(jì)量,CCC選項(xiàng)要求計(jì)算、半偏和CCC統(tǒng)計(jì)量。其中CCC統(tǒng)計(jì)量也是一種考察聚類效果的統(tǒng)計(jì)量,CCC較大的聚類水平是較好的。二、TREE過(guò)程用法TREE過(guò)程可以把CLUSTER過(guò)程產(chǎn)生的OUTTREE數(shù)據(jù)集作為輸入,畫出譜系聚類的樹(shù)圖,并按照用戶指定的聚類水平(類數(shù))產(chǎn)生分類結(jié)果數(shù)據(jù)集。一般格式如下:PROC TREE DATA輸入聚類結(jié)果數(shù)據(jù)集 OUT=輸出數(shù)據(jù)集 GRAPHICS NCLUSTER=類數(shù) 選項(xiàng);COPY 復(fù)制變量;RUN;其中COPY語(yǔ)句把輸入數(shù)據(jù)集中的變量復(fù)制到輸出數(shù)據(jù)集(實(shí)際上這些變量也必須在CLUSTER 過(guò)程中用COPY語(yǔ)句復(fù)制到OUTTREE數(shù)據(jù)集)。PROC TREE語(yǔ)句的重要選項(xiàng)有: DATA數(shù)據(jù)集,指定從CLUSTER過(guò)程生成的OUTTREE數(shù)據(jù)集作為輸入。 OUT數(shù)據(jù)集,指定包含最后分類結(jié)果(每一個(gè)觀測(cè)屬于哪一類,用一個(gè)CLUSTER變量區(qū)分)的輸出數(shù)據(jù)集。 NCLUSTERS選項(xiàng),由用戶指定最后把樣本觀測(cè)分為多少個(gè)類。 GRAPHICS,這是指定畫譜系聚類的樹(shù)圖時(shí)使用高分辨率圖形(要求有SAS/GRAPH模塊)。 HORIZONTAL,畫樹(shù)圖時(shí)橫向畫。三、例子我們以多元分析中一個(gè)經(jīng)典的數(shù)據(jù)作為例子,這是Fisher分析過(guò)的鳶尾花數(shù)據(jù),有三種不同鳶尾花(Setosa、Versicolor、Virginica),種類信息存入了變量SPECIES,并對(duì)每一種測(cè)量了50棵植株的花瓣長(zhǎng)(PETALLEN)、花瓣寬(PETALWID)、花萼長(zhǎng)(SEPALLEN)、花萼寬(SEPALWID)。這個(gè)數(shù)據(jù)已知分類,并不屬于聚類分析的研究范圍。這里我們?yōu)榱耸纠?,假裝不知道樣本的分類情況(既不知道類數(shù)也不知道每一個(gè)觀測(cè)屬于的類別),讓SAS取進(jìn)行聚類分析,如果得到的類數(shù)和分類結(jié)果符合真實(shí)的植物分類,我們就可以知道聚類分析產(chǎn)生了好的結(jié)果。這里我們假定數(shù)據(jù)已輸入SASUSER.IRIS中(見(jiàn)系統(tǒng)幫助菜單的“Sample Programs | SAS/STAT | Documentation Example 3 from Proc Cluster”)。為了進(jìn)行譜系聚類并產(chǎn)生幫助確定類數(shù)的統(tǒng)計(jì)量,使用如下過(guò)程:proc cluster data=sasuser.iris method=ward outtree=otree pseudo ccc; var petallen petalwid sepallen sepalwid; copy species;run;可以顯示如下的聚類過(guò)程(節(jié)略): T Pseudo Pseudo i NCL -Clusters Joined- FREQ SPRSQ RSQ ERSQ CCC F t*2 e 149 OB16 OB76 2 0.000000 1.0000 . . . . 148 OB2 OB58 2 0.000007 1.0000 . . 1854.1 . T 147 OB96 OB107 2 0.000007 1.0000 . . 1400.1 . T 146 OB89 OB113 2 0.000007 1.0000 . . 1253.1 . T 145 OB65 OB126 2 0.000007 1.0000 . . 1182.9 . T 25 CL50 OB57 7 0.000634 0.9824 0.973335 6.446 291.0 5.6 24 CL78 CL62 7 0.000742 0.9817 0.972254 6.430 293.5 9.8 23 CL68 CL38 9 0.000805 0.9809 0.971101 6.404 296.0 6.9 22 CL30 OB137 6 0.000896 0.9800 0.969868 6.352 298.3 5.1 21 CL70 CL33 4 0.000976 0.9790 0.968545 6.290 300.7 3.2 20 CL36 OB25 10 0.001087 0.9779 0.967119 6.206 302.9 9.8 19 CL40 CL22 19 0.001141 0.9768 0.965579 6.146 306.1 7.7 18 CL25 CL39 10 0.001249 0.9755 0.963906 6.082 309.5 6.2 17 CL29 CL45 16 0.001351 0.9742 0.962081 6.026 313.5 8.2 16 CL34 CL32 15 0.001462 0.9727 0.960079 5.984 318.4 9.0 15 CL24 CL28 15 0.001641 0.9711 0.957871 5.929 323.7 9.8 14 CL21 CL53 7 0.001873 0.9692 0.955418 5.850 329.2 5.1 13 CL18 CL48 15 0.002271 0.9669 0.952670 5.690 333.8 8.9 12 CL16 CL23 24 0.002274 0.9647 0.949541 4.632 342.4 9.6 11 CL14 CL43 12 0.002500 0.9622 0.945886 4.675 353.3 5.8 10 CL26 CL20 22 0.002694 0.9595 0.941547 4.811 368.1 12.9 9 CL27 CL17 31 0.003060 0.9564 0.936296 5.018 386.6 17.8 8 CL35 CL15 23 0.003095 0.9533 0.929791 5.443 414.1 13.8 7 CL10 CL47 26 0.005811 0.9475 0.921496 5.426 430.1 19.1 6 CL8 CL13 38 0.006042 0.9414 0.910514 5.806 463.1 16.3 5 CL9 CL19 50 0.010532 0.9309 0.895232 5.817 488.5 43.2 4 CL12 CL11 36 0.017245 0.9137 0.872331 3.987 515.1 41.0 3 CL6 CL7 64 0.030051 0.8836 0.826664 4.329 558.1 57.2 2 CL4 CL3 100 0.111026 0.7726 0.696871 3.833 502.8 115.6 1 CL5 CL2 150 0.772595 0.0000 0.000000 0.000 . 502.8偽F圖形CCC圖形偽圖形半偏圖形這個(gè)輸出列出了把150個(gè)觀測(cè)每次合并兩類,共合并149次的過(guò)程。NCL列指定了聚類水平G (即這一步存在的單獨(dú)的類數(shù))?!?Clusters Joined-”為兩列,指明這一步合并了哪兩個(gè)類。其中OBxxx表示哪一個(gè)原始觀測(cè),而CLxxx表示在哪一個(gè)聚類水平上產(chǎn)生的類。比如,NCL為149時(shí)合并的是OB16和OB76,即16 號(hào)觀測(cè)和76號(hào)觀測(cè),NCL為1(最后一次合并)合并的是CL5和CL2,即類水平為5時(shí)得到的類和類水平為2時(shí)得到的類,CL5又是由CL9和CL19合并得到的,CL2是由CL4和CL3合并得到的,等等。FREQ表示這次合并得到的類有多少個(gè)觀測(cè)。SPRSQ是半偏,RSQ是,ERSQ是在均勻零假設(shè)下的的近似期望值,CCC為CCC統(tǒng)計(jì)量,Pseudo F 為偽F統(tǒng)計(jì)量,Pseudo t*2為偽統(tǒng)計(jì)量,Norm RMS Dist是正規(guī)化的的兩類元素間距離的均方根,Tie指示距離最小的候選類對(duì)是否有多對(duì)。因?yàn)槲覀兗傺b不知道數(shù)據(jù)的實(shí)際分類情況,所以我們必須找到一個(gè)合理的分類個(gè)數(shù)。為此,考察CCC、偽F、偽和半偏統(tǒng)計(jì)量。我們打開(kāi)INSIGHT界面,調(diào)入上面產(chǎn)生的OTREE數(shù)據(jù)集,繪制各統(tǒng)計(jì)量的圖形。因?yàn)轭愃教髸r(shí)的信息沒(méi)有多少用處,所以我們對(duì)OTREE數(shù)據(jù)集取其類水平不超過(guò)30的觀測(cè),即:data ot; set otree; where _ncl_ = 30;run;各統(tǒng)計(jì)量的圖形見(jiàn)圖2圖5。CCC統(tǒng)計(jì)量建議取5類或3類(局部最大值),偽F建議3類(局部最大值),偽建議3類(局部最大值處是不應(yīng)合并的,即局部最大值處的類數(shù)加1),半偏建議3類。由這些指標(biāo)看比較一致的是3類,其次是5類。為了看為什么不能明顯地分為三類,我們對(duì)四個(gè)變量求主分量,畫出前兩個(gè)主分量的散點(diǎn)圖(見(jiàn)圖6)??梢钥闯鯯etosa(紅色)與其它兩類分得很開(kāi),而Versicolor(綠色)與Virginica(藍(lán)色)則不易分開(kāi)。因?yàn)槲覀冎酪殖?類,所以我們用如下的TREE過(guò)程繪制樹(shù)

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論