




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、第十一章第十一章 聚類(lèi)分析聚類(lèi)分析n一、聚類(lèi)分析概述一、聚類(lèi)分析概述n二、相似性的衡量二、相似性的衡量n三、層次聚類(lèi)分析三、層次聚類(lèi)分析n四、非層次聚類(lèi)分析四、非層次聚類(lèi)分析n五、聚類(lèi)分析的五、聚類(lèi)分析的SPSS過(guò)程過(guò)程一、聚類(lèi)分析概述一、聚類(lèi)分析概述n(一)什么是聚類(lèi)分析(一)什么是聚類(lèi)分析n(二)聚類(lèi)分析的目的與原則(二)聚類(lèi)分析的目的與原則n(三)聚類(lèi)分析的性質(zhì)(三)聚類(lèi)分析的性質(zhì)n(四)聚類(lèi)分析要解決的基本問(wèn)題(四)聚類(lèi)分析要解決的基本問(wèn)題n(五)聚類(lèi)分析的基本流程(五)聚類(lèi)分析的基本流程什么是聚類(lèi)分析?什么是聚類(lèi)分析?n1、聚類(lèi)分析,又稱(chēng)集群分析(、聚類(lèi)分析,又稱(chēng)集群分析(Clust
2、er Analysis),是一種常用的多元統(tǒng)計(jì)方法,是根據(jù)),是一種常用的多元統(tǒng)計(jì)方法,是根據(jù)事物之間的相似性和相異性,將事物歸入到不同的事物之間的相似性和相異性,將事物歸入到不同的“類(lèi)類(lèi)”中去的過(guò)程。中去的過(guò)程。n 這里的這里的“類(lèi)類(lèi)”,數(shù)學(xué)上也叫,數(shù)學(xué)上也叫“集群集群”,是指由某方面性質(zhì)相同或相似的事物組成的集,是指由某方面性質(zhì)相同或相似的事物組成的集合。合。n2、“物以類(lèi)聚,人以群分物以類(lèi)聚,人以群分”。在科學(xué)研究工作中,最基礎(chǔ)的一項(xiàng)工作就是對(duì)研究對(duì)象進(jìn)行。在科學(xué)研究工作中,最基礎(chǔ)的一項(xiàng)工作就是對(duì)研究對(duì)象進(jìn)行分類(lèi),以便更好地把握對(duì)象的實(shí)質(zhì)規(guī)律。聚類(lèi)分析能夠很好地幫助人們對(duì)研究對(duì)象進(jìn)行數(shù)分
3、類(lèi),以便更好地把握對(duì)象的實(shí)質(zhì)規(guī)律。聚類(lèi)分析能夠很好地幫助人們對(duì)研究對(duì)象進(jìn)行數(shù)值分類(lèi)。值分類(lèi)。n3、在心理學(xué)研究中、在心理學(xué)研究中, 經(jīng)常遇到的分類(lèi)包括兩種情況:一是對(duì)研究樣本或個(gè)案的分類(lèi)經(jīng)常遇到的分類(lèi)包括兩種情況:一是對(duì)研究樣本或個(gè)案的分類(lèi), 即根即根據(jù)每個(gè)個(gè)案的一系列觀測(cè)指標(biāo),將那些在這些觀測(cè)量方面表現(xiàn)相近的個(gè)案歸為一類(lèi)據(jù)每個(gè)個(gè)案的一系列觀測(cè)指標(biāo),將那些在這些觀測(cè)量方面表現(xiàn)相近的個(gè)案歸為一類(lèi), 將那將那些在這些觀測(cè)量方面的表現(xiàn)很不相同的個(gè)案歸為不同類(lèi);二是對(duì)觀測(cè)量的分類(lèi),即將一系些在這些觀測(cè)量方面的表現(xiàn)很不相同的個(gè)案歸為不同類(lèi);二是對(duì)觀測(cè)量的分類(lèi),即將一系列的觀測(cè)量歸類(lèi)合并為性質(zhì)明顯不同的少
4、數(shù)幾個(gè)方面。列的觀測(cè)量歸類(lèi)合并為性質(zhì)明顯不同的少數(shù)幾個(gè)方面。 也就是說(shuō),在也就是說(shuō),在SPSS的聚類(lèi)分析功能中,可以對(duì)數(shù)據(jù)文件的的聚類(lèi)分析功能中,可以對(duì)數(shù)據(jù)文件的“行行”進(jìn)行分類(lèi),也可以對(duì)進(jìn)行分類(lèi),也可以對(duì)數(shù)據(jù)文件的數(shù)據(jù)文件的“列列”進(jìn)行分類(lèi)。進(jìn)行分類(lèi)。聚類(lèi)分析的目的與原則聚類(lèi)分析的目的與原則n聚類(lèi)分析的聚類(lèi)分析的是:辨認(rèn)在某些特性上相似的事物,是:辨認(rèn)在某些特性上相似的事物,并將這些事物按照這些特性劃分成幾個(gè)并將這些事物按照這些特性劃分成幾個(gè)“類(lèi)類(lèi)”,使得使得同一類(lèi)中的事物具有高度的同質(zhì)性,不同類(lèi)之間的事同一類(lèi)中的事物具有高度的同質(zhì)性,不同類(lèi)之間的事物具有高度的異質(zhì)性。物具有高度的異質(zhì)性。n
5、上述紅色字體部分體現(xiàn)了聚類(lèi)分析的基本上述紅色字體部分體現(xiàn)了聚類(lèi)分析的基本。聚類(lèi)分析的性質(zhì)聚類(lèi)分析的性質(zhì)n1、一種數(shù)值分類(lèi)法。它與傳統(tǒng)分類(lèi)方法的不同之處在于,傳統(tǒng)的一種數(shù)值分類(lèi)法。它與傳統(tǒng)分類(lèi)方法的不同之處在于,傳統(tǒng)的分類(lèi)方法的分類(lèi)準(zhǔn)則是事先決定的,而聚類(lèi)分析是按照分類(lèi)方法的分類(lèi)準(zhǔn)則是事先決定的,而聚類(lèi)分析是按照“自然類(lèi)別自然類(lèi)別”將分布于某一數(shù)量空間的點(diǎn)予以分類(lèi),使分類(lèi)后的將分布于某一數(shù)量空間的點(diǎn)予以分類(lèi),使分類(lèi)后的“類(lèi)類(lèi)”(集群)具(集群)具有同質(zhì)性。有同質(zhì)性。n2、一種統(tǒng)計(jì)推論技術(shù)。而是將一組觀察值的結(jié)構(gòu)特性予以數(shù)量一種統(tǒng)計(jì)推論技術(shù)。而是將一組觀察值的結(jié)構(gòu)特性予以數(shù)量化的一種客觀方法。因此
6、,在推論統(tǒng)計(jì)中非常重要的正態(tài)性、線性和化的一種客觀方法。因此,在推論統(tǒng)計(jì)中非常重要的正態(tài)性、線性和方差齊性等要求,對(duì)聚類(lèi)分析幾乎沒(méi)什么作用。但如果變量間有方差齊性等要求,對(duì)聚類(lèi)分析幾乎沒(méi)什么作用。但如果變量間有多重多重共線性共線性,則會(huì)影響聚類(lèi)分析的結(jié)果。,則會(huì)影響聚類(lèi)分析的結(jié)果。多重共線性是指特征變量之間存在精確的相關(guān)關(guān)系或高度相關(guān)關(guān)系。IdX1X2X31a2420252b2017223c2019244d2520245e2218236f2117217g2119258h2217229i21182310j24202511k22192312l211722聚類(lèi)分析要解決的基本問(wèn)題聚類(lèi)分析要解決的基本
7、問(wèn)題n主要解決三個(gè)基本問(wèn)題:n1、我們?nèi)绾魏饬扛魇挛镏g的相似性?n2、假設(shè)我們能衡量每一個(gè)事物與其他事物的相對(duì)相似性,我們又要如何將相似的事物歸入同一“類(lèi)”內(nèi)?n3、當(dāng)聚類(lèi)完成后,如何來(lái)描述這些“類(lèi)”?同時(shí)又如何知道所得到的類(lèi)別(集群)是真實(shí)的,而不是某種統(tǒng)計(jì)上的加工品?聚類(lèi)分析的基本流程聚類(lèi)分析的基本流程n(一)研究問(wèn)題(探索性的還是驗(yàn)證性的?)n(二)變量的選擇n(三)相似性的衡量n(四)聚類(lèi)方法的選擇n(五)“類(lèi)數(shù)” 的決定n(六)“類(lèi)”的解釋n(七)“類(lèi)”的驗(yàn)證(二)變量的選擇n 不論研究的目的是探索性的還是驗(yàn)證性的,進(jìn)行聚類(lèi)分析,首先應(yīng)建立由某些事物屬性不論研究的目的是探索性的還是
8、驗(yàn)證性的,進(jìn)行聚類(lèi)分析,首先應(yīng)建立由某些事物屬性構(gòu)成的指標(biāo)體系,或者說(shuō)是一個(gè)變量組合。入選的每個(gè)指標(biāo)必須能刻畫(huà)事物屬性的某個(gè)側(cè)構(gòu)成的指標(biāo)體系,或者說(shuō)是一個(gè)變量組合。入選的每個(gè)指標(biāo)必須能刻畫(huà)事物屬性的某個(gè)側(cè)面,所有指標(biāo)組合起來(lái)形成一個(gè)完備的指標(biāo)體系,它們互相配合可以共同刻畫(huà)事物的特征。面,所有指標(biāo)組合起來(lái)形成一個(gè)完備的指標(biāo)體系,它們互相配合可以共同刻畫(huà)事物的特征。n 所謂完備的指標(biāo)體系,是說(shuō)入選的指標(biāo)是充分的,其他任何新增變量對(duì)辨別事物差異所謂完備的指標(biāo)體系,是說(shuō)入選的指標(biāo)是充分的,其他任何新增變量對(duì)辨別事物差異無(wú)顯著性貢獻(xiàn)。如果所選指標(biāo)不完備,則導(dǎo)致分類(lèi)偏差。比如要對(duì)家庭教養(yǎng)方式進(jìn)行分類(lèi),無(wú)顯
9、著性貢獻(xiàn)。如果所選指標(biāo)不完備,則導(dǎo)致分類(lèi)偏差。比如要對(duì)家庭教養(yǎng)方式進(jìn)行分類(lèi),就要有描述家庭教育方式的一系列變量,這些變量能夠充分地反映不同家庭對(duì)子女的教養(yǎng)就要有描述家庭教育方式的一系列變量,這些變量能夠充分地反映不同家庭對(duì)子女的教養(yǎng)方式。方式。n 簡(jiǎn)單地說(shuō),聚類(lèi)分析的結(jié)果取決于變量的選擇和變量值獲取的兩個(gè)方面。變量選擇越簡(jiǎn)單地說(shuō),聚類(lèi)分析的結(jié)果取決于變量的選擇和變量值獲取的兩個(gè)方面。變量選擇越準(zhǔn)確、測(cè)量越可靠,得到的分類(lèi)結(jié)果越是能描述事物各類(lèi)間的本質(zhì)區(qū)別。準(zhǔn)確、測(cè)量越可靠,得到的分類(lèi)結(jié)果越是能描述事物各類(lèi)間的本質(zhì)區(qū)別。(三)相似性的衡量n各事物間相似程度的衡量方法有好多種,大致可分成兩大類(lèi):n
10、1、距離衡量(distance measures)。n2、關(guān)聯(lián)衡量(association measures) 。距離衡量n很多相似性的衡量是以點(diǎn)與點(diǎn)間的距離為代表。點(diǎn)與點(diǎn)間距離的計(jì)算方法有很多,根據(jù)數(shù)據(jù)的不同類(lèi)很多相似性的衡量是以點(diǎn)與點(diǎn)間的距離為代表。點(diǎn)與點(diǎn)間距離的計(jì)算方法有很多,根據(jù)數(shù)據(jù)的不同類(lèi)型,可以選擇不同的計(jì)算距離:型,可以選擇不同的計(jì)算距離:n1、連續(xù)的等距數(shù)據(jù):、連續(xù)的等距數(shù)據(jù):n 歐幾里得距離歐幾里得距離:n n 歐氏距離平方:公式略。歐氏距離平方:公式略。n 絕對(duì)值距離:兩個(gè)體在每一個(gè)變量上取值之差的絕對(duì)值的總和。絕對(duì)值距離:兩個(gè)體在每一個(gè)變量上取值之差的絕對(duì)值的總和。n 切
11、比雪夫距離:兩個(gè)體在任意一個(gè)變量上取值之差的絕對(duì)值的最大值。切比雪夫距離:兩個(gè)體在任意一個(gè)變量上取值之差的絕對(duì)值的最大值。n 等等;等等;n2、計(jì)數(shù)數(shù)據(jù):、計(jì)數(shù)數(shù)據(jù):n 卡方相似性測(cè)度:公式略??ǚ较嗨菩詼y(cè)度:公式略。n 等等;等等;n3、二分變量:、二分變量:n 二值二值 歐氏距離、二值歐氏距離平方歐氏距離、二值歐氏距離平方n 等等。等等。mkjkikijXXd12)(mkjkikijXXd1jkikijXXd max關(guān)聯(lián)衡量n1、個(gè)案之間的相似性:如果事物的屬性全部以名義變量來(lái)表示時(shí),則兩事物之間的相似性可、個(gè)案之間的相似性:如果事物的屬性全部以名義變量來(lái)表示時(shí),則兩事物之間的相似性可以用
12、配合系數(shù)(以用配合系數(shù)(matching coefficient)或相似比()或相似比(similarity ratio)來(lái)衡量。)來(lái)衡量。n配合系數(shù):配合系數(shù):n相似比:相似比: n、變量之間的相似性:如果要描述測(cè)量指標(biāo)之間的親疏程度,則可用相似性系數(shù)來(lái)表示。、變量之間的相似性:如果要描述測(cè)量指標(biāo)之間的親疏程度,則可用相似性系數(shù)來(lái)表示。其取值范圍為(,)。最常用的相似性系數(shù)為積差相關(guān)系數(shù)。其次有其取值范圍為(,)。最常用的相似性系數(shù)為積差相關(guān)系數(shù)。其次有cosine向量夾向量夾角余弦等。角余弦等。為屬性總數(shù)。,共同不具有的屬性數(shù)目和為屬性數(shù)目,這兩個(gè)事物共同具有的和為式中,mjibjia,m
13、baSij屬性數(shù)目至少有一個(gè)事物擁有的或都擁有的屬性數(shù)目和事物jijibmaSRij歐氏距離平方圖解1. 1. 聚類(lèi)分析的前期準(zhǔn)備工作聚類(lèi)分析的前期準(zhǔn)備工作 聚類(lèi)分析是以完備的數(shù)據(jù)文件為基礎(chǔ)的,一般還要求各個(gè)觀聚類(lèi)分析是以完備的數(shù)據(jù)文件為基礎(chǔ)的,一般還要求各個(gè)觀測(cè)變量的量綱一致,即各變量取值的數(shù)量級(jí)一致。測(cè)變量的量綱一致,即各變量取值的數(shù)量級(jí)一致。 所以,聚類(lèi)分析前要檢查各變量的量綱是否一致,不一致則所以,聚類(lèi)分析前要檢查各變量的量綱是否一致,不一致則需進(jìn)行轉(zhuǎn)換,如將各變量均作標(biāo)準(zhǔn)化轉(zhuǎn)換就可保證量綱一致。需進(jìn)行轉(zhuǎn)換,如將各變量均作標(biāo)準(zhǔn)化轉(zhuǎn)換就可保證量綱一致。2. 2. 聚類(lèi)分析的主要方法聚類(lèi)分
14、析的主要方法 Q Q聚類(lèi)分析:聚類(lèi)分析: 對(duì)個(gè)案進(jìn)行分類(lèi)。使具有共同特征的個(gè)案對(duì)個(gè)案進(jìn)行分類(lèi)。使具有共同特征的個(gè)案 聚集在一起。聚集在一起。 層次聚類(lèi)分析層次聚類(lèi)分析 R R聚類(lèi)分析:聚類(lèi)分析:對(duì)觀察變量進(jìn)行分類(lèi)。對(duì)觀察變量進(jìn)行分類(lèi)。聚類(lèi)分析聚類(lèi)分析 非層次聚類(lèi)分析:非層次聚類(lèi)分析:它先對(duì)數(shù)據(jù)進(jìn)行初始分類(lèi),然后逐步調(diào)整,得到最后分類(lèi)。它先對(duì)數(shù)據(jù)進(jìn)行初始分類(lèi),然后逐步調(diào)整,得到最后分類(lèi)。 以快速聚類(lèi)法(以快速聚類(lèi)法(K- Means methodsK- Means methods)應(yīng)用最廣泛,是由研究者)應(yīng)用最廣泛,是由研究者 指定類(lèi)別數(shù)的大樣本資料的逐步聚類(lèi)分析,指定類(lèi)別數(shù)的大樣本資料的逐步聚
15、類(lèi)分析, 。 類(lèi)數(shù)的決定n“類(lèi)類(lèi)”數(shù)目的決定是聚類(lèi)分析的一項(xiàng)重要決策。但尚無(wú)一個(gè)客觀的標(biāo)準(zhǔn)程數(shù)目的決定是聚類(lèi)分析的一項(xiàng)重要決策。但尚無(wú)一個(gè)客觀的標(biāo)準(zhǔn)程序可供遵循,通常,以各連續(xù)分類(lèi)步驟下序可供遵循,通常,以各連續(xù)分類(lèi)步驟下“類(lèi)類(lèi)”間的距離作為參考。例如,間的距離作為參考。例如,可以事先設(shè)定一個(gè)距離,一旦可以事先設(shè)定一個(gè)距離,一旦“類(lèi)類(lèi)”間的實(shí)際距離超過(guò)此一預(yù)定的距離時(shí)間的實(shí)際距離超過(guò)此一預(yù)定的距離時(shí)就停止繼續(xù)聚類(lèi);或是當(dāng)兩個(gè)聚類(lèi)步驟間的就停止繼續(xù)聚類(lèi);或是當(dāng)兩個(gè)聚類(lèi)步驟間的“類(lèi)類(lèi)”距離劇增時(shí)就停止聚類(lèi)。距離劇增時(shí)就停止聚類(lèi)。n有時(shí)也可基于實(shí)際考量而設(shè)定某些決定有時(shí)也可基于實(shí)際考量而設(shè)定某些決定
16、“類(lèi)類(lèi)”數(shù)目的準(zhǔn)則,例如:數(shù)目的準(zhǔn)則,例如:“如果如果“類(lèi)類(lèi)”數(shù)介于數(shù)介于3-6之間,則研究發(fā)現(xiàn)將較易處理和溝通之間,則研究發(fā)現(xiàn)將較易處理和溝通”。等等。等等。“類(lèi)”的解釋n一旦經(jīng)由聚類(lèi)分析而找出一旦經(jīng)由聚類(lèi)分析而找出“類(lèi)類(lèi)”后,我們應(yīng)設(shè)法來(lái)描述這些后,我們應(yīng)設(shè)法來(lái)描述這些“類(lèi)類(lèi)”。n常用的一種方法是以常用的一種方法是以“類(lèi)類(lèi)”的重心的重心即即“類(lèi)類(lèi)”內(nèi)的各事物點(diǎn)在各變量上的平均內(nèi)的各事物點(diǎn)在各變量上的平均數(shù)值,來(lái)描述該數(shù)值,來(lái)描述該“類(lèi)類(lèi)”。(條件:等距資料,在原始變量的空間上進(jìn)行聚類(lèi)。)。(條件:等距資料,在原始變量的空間上進(jìn)行聚類(lèi)。) 此外,我們還可以計(jì)算此外,我們還可以計(jì)算“類(lèi)類(lèi)”的變
17、異情形,如的變異情形,如“類(lèi)類(lèi)”內(nèi)各點(diǎn)間的平均距離或各點(diǎn)內(nèi)各點(diǎn)間的平均距離或各點(diǎn)與重心間的平均距離,來(lái)輔助描述該與重心間的平均距離,來(lái)輔助描述該“類(lèi)類(lèi)”?!邦?lèi)”的驗(yàn)證n聚類(lèi)分析將各事物分別歸入聚類(lèi)分析將各事物分別歸入“類(lèi)類(lèi)”之后,還需要就聚類(lèi)的結(jié)果對(duì)一般總體之后,還需要就聚類(lèi)的結(jié)果對(duì)一般總體的代表性如何加以驗(yàn)證,這樣才能使聚類(lèi)的結(jié)果適用到其他的事物。的代表性如何加以驗(yàn)證,這樣才能使聚類(lèi)的結(jié)果適用到其他的事物。n最直接的方法就是對(duì)不同的樣本進(jìn)行聚類(lèi)分析,比較其結(jié)果并估計(jì)其一致性;最直接的方法就是對(duì)不同的樣本進(jìn)行聚類(lèi)分析,比較其結(jié)果并估計(jì)其一致性;不過(guò),由于時(shí)間或成本的限制,或找不到所需的事物供多
18、次聚類(lèi)分析之用,上不過(guò),由于時(shí)間或成本的限制,或找不到所需的事物供多次聚類(lèi)分析之用,上述方法往往是不切實(shí)際的。常用的一種方法是將樣本分成兩群,分別做聚類(lèi)分述方法往往是不切實(shí)際的。常用的一種方法是將樣本分成兩群,分別做聚類(lèi)分析,然后比較其結(jié)果。析,然后比較其結(jié)果。距離矩陣n如前所述,相似性的衡量方法有兩種:距離衡量和關(guān)聯(lián)衡量。如前所述,相似性的衡量方法有兩種:距離衡量和關(guān)聯(lián)衡量。n相似性衡量的結(jié)果可以表現(xiàn)為相似性衡量的結(jié)果可以表現(xiàn)為“距離矩陣距離矩陣”。其形如下表。聚類(lèi)分析以距離矩陣為。其形如下表。聚類(lèi)分析以距離矩陣為基礎(chǔ)進(jìn)行?;A(chǔ)進(jìn)行。0111086e0357d096c02b0aedcba的距
19、離矩陣如下:設(shè)有一包含五個(gè)事物點(diǎn)三、層次聚類(lèi)分析n將成對(duì)事物間的相似性加以衡量后,接著應(yīng)利用聚類(lèi)方法將各事物歸入將成對(duì)事物間的相似性加以衡量后,接著應(yīng)利用聚類(lèi)方法將各事物歸入“類(lèi)類(lèi)”中。聚類(lèi)的方法有好多種,常見(jiàn)的有層次聚類(lèi)和非層次聚類(lèi)兩大類(lèi),后者以中。聚類(lèi)的方法有好多種,常見(jiàn)的有層次聚類(lèi)和非層次聚類(lèi)兩大類(lèi),后者以K平平均數(shù)法(均數(shù)法(K-Means methods)應(yīng)用較廣,又稱(chēng)快速聚類(lèi)法。)應(yīng)用較廣,又稱(chēng)快速聚類(lèi)法。n層次聚類(lèi)方法:層次聚類(lèi)方法:n通常是把觀測(cè)樣本中的每一個(gè)個(gè)案或指標(biāo)體系中的每一個(gè)變量看作是一個(gè)獨(dú)通常是把觀測(cè)樣本中的每一個(gè)個(gè)案或指標(biāo)體系中的每一個(gè)變量看作是一個(gè)獨(dú)立的小類(lèi),計(jì)算
20、它們所有的兩兩之間的距離,在比較這些距離后把距離最小的兩立的小類(lèi),計(jì)算它們所有的兩兩之間的距離,在比較這些距離后把距離最小的兩個(gè)聚為一個(gè)小類(lèi)。然后計(jì)算這個(gè)新類(lèi)與其他各類(lèi)之間的距離,再把其中距離最小個(gè)聚為一個(gè)小類(lèi)。然后計(jì)算這個(gè)新類(lèi)與其他各類(lèi)之間的距離,再把其中距離最小的聚為一類(lèi),如此不斷地進(jìn)行下去,直到所有個(gè)體或所有變量聚為一個(gè)大類(lèi)為止。的聚為一類(lèi),如此不斷地進(jìn)行下去,直到所有個(gè)體或所有變量聚為一個(gè)大類(lèi)為止。 當(dāng)然,也可以用相反的過(guò)程,即,先把所有的事物視為一個(gè)大類(lèi),然后再依據(jù)相當(dāng)然,也可以用相反的過(guò)程,即,先把所有的事物視為一個(gè)大類(lèi),然后再依據(jù)相似性的準(zhǔn)則把各事物劃分成較不相似的兩個(gè)類(lèi),如此繼
21、續(xù)下去直到所有的事物都似性的準(zhǔn)則把各事物劃分成較不相似的兩個(gè)類(lèi),如此繼續(xù)下去直到所有的事物都自成一個(gè)類(lèi)為止。自成一個(gè)類(lèi)為止。 這兩種過(guò)程,前者稱(chēng)為這兩種過(guò)程,前者稱(chēng)為“集結(jié)式層次聚類(lèi)方法集結(jié)式層次聚類(lèi)方法”,后者稱(chēng)為,后者稱(chēng)為“區(qū)分式層次聚類(lèi)方法區(qū)分式層次聚類(lèi)方法”n 層次聚類(lèi)不僅可以將個(gè)案或變量分為若干類(lèi),而且可以形成一個(gè)類(lèi)屬間的層次聚類(lèi)不僅可以將個(gè)案或變量分為若干類(lèi),而且可以形成一個(gè)類(lèi)屬間的層次關(guān)系,還可以依據(jù)分類(lèi)的過(guò)程繪制個(gè)體或變量的譜系關(guān)系圖。層次關(guān)系,還可以依據(jù)分類(lèi)的過(guò)程繪制個(gè)體或變量的譜系關(guān)系圖。集結(jié)式層次聚類(lèi)方法的演算步驟n1、設(shè)有、設(shè)有n個(gè)事物,首先每個(gè)事物均自成一個(gè)個(gè)事物,首
22、先每個(gè)事物均自成一個(gè)“類(lèi)類(lèi)”,并列成一個(gè),并列成一個(gè)nn的對(duì)稱(chēng)的對(duì)稱(chēng)距離(或相似)矩陣距離(或相似)矩陣D=ddikik 。n2 2、從距離矩陣中找出最近的(最相似的)兩個(gè)、從距離矩陣中找出最近的(最相似的)兩個(gè)“類(lèi)類(lèi)”u u和和v v,設(shè)其距離為,設(shè)其距離為d duvuv。n3 3、將、將u u和和v v 這兩個(gè)這兩個(gè)“類(lèi)類(lèi)”合并,成為合并,成為“類(lèi)類(lèi)”(uvuv)。將原距離矩陣中相對(duì)應(yīng)于)。將原距離矩陣中相對(duì)應(yīng)于“類(lèi)類(lèi)”u u 和和“類(lèi)類(lèi)”v v的行和列刪除,然后加上一個(gè)新的行和列,表明的行和列刪除,然后加上一個(gè)新的行和列,表明“類(lèi)類(lèi)”(uvuv)和其他)和其他“類(lèi)類(lèi)”之間的距離。之間的距
23、離。n4 4、重復(fù)第、重復(fù)第2 2步和第步和第3 3步驟步驟n-1n-1次,直到所有的事物并入同一次,直到所有的事物并入同一“類(lèi)類(lèi)”為止。為止。集結(jié)式層次聚類(lèi)方法之連鎖法(連鎖法(linkage methods)n1、單一連鎖法。、單一連鎖法。n 以最小的點(diǎn)際距離作為以最小的點(diǎn)際距離作為“類(lèi)類(lèi)”間的距離,故又稱(chēng)為最小距離法或最間的距離,故又稱(chēng)為最小距離法或最近鄰法。近鄰法。n2、完全連鎖法。、完全連鎖法。n 以最大的點(diǎn)際距離為以最大的點(diǎn)際距離為“類(lèi)類(lèi)”間的距離,故又稱(chēng)為最大距離法或最遠(yuǎn)間的距離,故又稱(chēng)為最大距離法或最遠(yuǎn)鄰法。鄰法。n3、平均連鎖法。、平均連鎖法。n 以平均點(diǎn)際距離作為以平均點(diǎn)際
24、距離作為“類(lèi)類(lèi)”間的距離,故又稱(chēng)為平均距離法。間的距離,故又稱(chēng)為平均距離法。單一連鎖法舉例:得一新的距離矩陣如下距離:)到其他“類(lèi)”的最小,)。然后計(jì)算(,一“類(lèi)”(最小,故得合并,因?yàn)槭紫葘⒆罱膬蓚€(gè)事物的距離矩陣如下:設(shè)有一包含五個(gè)事物點(diǎn)6)6 , 8(min)d, 5d(mind5)7 , 5(min)d,d(mind6)6 , 9(min)d,d(mindaba2d0111086e0357d096c02b0aedcbaaebea)e(b,adbd a)d(b,acbc a)c(b,babdDik0106e05)cd(0)(ecd)(10)11,10(min)d,d(mind5)5 ,
25、6(min)d,d(mindd, cd, cdc3d011106035060)()(deced)e(c,d(ba)c(ba) a)d)(b,(c,cdbabadDedcbaedcbadDikik)(下:可得一新的距離矩陣如距離:)到其他“類(lèi)”的最小再計(jì)算(),合并得一“類(lèi)”(與為最小,故將因?yàn)樵诖艘恍碌木嚯x矩陣,樹(shù)形圖表示如下:上述聚類(lèi)的結(jié)果,可用又可得一新的矩陣:的最小距離:)到“類(lèi)”),再計(jì)算(“類(lèi)”()合并成)與(最小,故將(在此一新的矩陣中,06e0)cdba(e)cdba(D6)10, 6(mind,dmindecd,bacd,bacdba5de)cd(ba)ee)cd,ba()cd
26、)(ba(單一連鎖法的樹(shù)形圖 2 1 3 4 5 0 1 2 3 4 5 6冰柱圖冰柱圖類(lèi)的類(lèi)的數(shù)目數(shù)目個(gè)案?jìng)€(gè)案a b c d e 1234x x x x x x x x xx x x x x x x xx x x x x x x x x x x x x 集結(jié)式層次聚類(lèi)方法之最小方差法(最小方差法(minimum variance methodn此法先將每一個(gè)事物看作一個(gè)此法先將每一個(gè)事物看作一個(gè)“類(lèi)類(lèi)”,然后將各,然后將各“類(lèi)類(lèi)”依序合并,合并依序合并,合并之順序視合并后之順序視合并后“類(lèi)類(lèi)”之組內(nèi)總變異數(shù)的大小而定。凡使組內(nèi)總變異數(shù)之組內(nèi)總變異數(shù)的大小而定。凡使組內(nèi)總變異數(shù)產(chǎn)生最小增量的事
27、物即予優(yōu)先合并,越早合并之事物表示其間的相似性產(chǎn)生最小增量的事物即予優(yōu)先合并,越早合并之事物表示其間的相似性越高。越高。四、非層次聚類(lèi)分析以“快速聚類(lèi)法”為例n在層次聚類(lèi)方法中,如前所述,在層次聚類(lèi)方法中,如前所述,“類(lèi)類(lèi)”一旦形成,便不再打散。而非層次聚一旦形成,便不再打散。而非層次聚類(lèi)方法則在各階段分類(lèi)過(guò)程中,將原有的類(lèi)方法則在各階段分類(lèi)過(guò)程中,將原有的“類(lèi)類(lèi)”予以打散,并重新形成新的予以打散,并重新形成新的“類(lèi)類(lèi)”。n快速聚類(lèi)法作為采用最廣的非層次聚類(lèi)方法,其演算步驟如下:快速聚類(lèi)法作為采用最廣的非層次聚類(lèi)方法,其演算步驟如下:n1、將各事物點(diǎn)分割成個(gè)原始、將各事物點(diǎn)分割成個(gè)原始“類(lèi)類(lèi)”
28、;n2、計(jì)算某一事物點(diǎn)到各、計(jì)算某一事物點(diǎn)到各“類(lèi)類(lèi)”重心(平均數(shù))的距離(通常采用歐幾里得重心(平均數(shù))的距離(通常采用歐幾里得距離),然后將一些事物點(diǎn)分派到距離最近的那個(gè)距離),然后將一些事物點(diǎn)分派到距離最近的那個(gè)“類(lèi)類(lèi)”。重新計(jì)算得到新。重新計(jì)算得到新事物點(diǎn)的那個(gè)事物點(diǎn)的那個(gè)“類(lèi)類(lèi)”和喪失該事物點(diǎn)的那個(gè)和喪失該事物點(diǎn)的那個(gè)“類(lèi)類(lèi)”的重心。的重心。n3、重復(fù)第、重復(fù)第2個(gè)步驟,直到各事物點(diǎn)都不必重新分派到其他個(gè)步驟,直到各事物點(diǎn)都不必重新分派到其他“類(lèi)類(lèi)”為止。為止。n我們也可以不必先將各事物點(diǎn)分割成我們也可以不必先將各事物點(diǎn)分割成k個(gè)原始的個(gè)原始的“類(lèi)類(lèi)”(步驟步驟1),而可先設(shè),而可先
29、設(shè)定定k個(gè)重心(種子點(diǎn)),然后進(jìn)行步驟個(gè)重心(種子點(diǎn)),然后進(jìn)行步驟2。n注意:快速聚類(lèi)只能對(duì)個(gè)案進(jìn)行聚類(lèi)。注意:快速聚類(lèi)只能對(duì)個(gè)案進(jìn)行聚類(lèi)。舉例分析快速聚類(lèi)方法n表表11-1 n=12個(gè)個(gè)案、個(gè)個(gè)案、m=3個(gè)特征變量的數(shù)據(jù)文件(個(gè)特征變量的數(shù)據(jù)文件(Id為個(gè)案的標(biāo)識(shí)變量)為個(gè)案的標(biāo)識(shí)變量)IdX1X2X31a2420252b2017223c2019244d2520245e2218236f2117217g2119258h2217229i21182310j24202511k22192312l211722用于K-Means 聚類(lèi)分析的資料,必須滿足的條件n1、至少具有一個(gè)特征變量,即、至少具有一個(gè)
30、特征變量,即m1;n2、每一個(gè)特征變量的數(shù)據(jù)都是等距計(jì)量(可以求平均數(shù)的);、每一個(gè)特征變量的數(shù)據(jù)都是等距計(jì)量(可以求平均數(shù)的);n3、具有一個(gè)諸如姓名或編號(hào)等能夠用來(lái)辨別個(gè)案的標(biāo)識(shí)變量,以便了解某、具有一個(gè)諸如姓名或編號(hào)等能夠用來(lái)辨別個(gè)案的標(biāo)識(shí)變量,以便了解某一個(gè)案最終被劃歸與哪一類(lèi)屬;一個(gè)案最終被劃歸與哪一類(lèi)屬;n4、類(lèi)屬數(shù)目、類(lèi)屬數(shù)目K=2,是由研究者根據(jù)需要選定的,但是類(lèi)屬數(shù)目必須少于,是由研究者根據(jù)需要選定的,但是類(lèi)屬數(shù)目必須少于個(gè)案的數(shù)目,也就是樣本容量必須大于類(lèi)屬數(shù)目,即個(gè)案的數(shù)目,也就是樣本容量必須大于類(lèi)屬數(shù)目,即K=4時(shí)的時(shí)的m 維空間就比較抽象了,對(duì)它的理解就維空間就比較抽
31、象了,對(duì)它的理解就比較地困難。比較地困難。 K-Means 聚類(lèi)分析的基本過(guò)程n1、根據(jù)、根據(jù)“類(lèi)與類(lèi)之間有盡可能大的差異類(lèi)與類(lèi)之間有盡可能大的差異”的原則,選擇的原則,選擇k 個(gè)個(gè)案作為聚類(lèi)的個(gè)個(gè)案作為聚類(lèi)的“種子種子”(它(它們又被稱(chēng)為初始類(lèi)中心),可以由研究者經(jīng)驗(yàn)地指定們又被稱(chēng)為初始類(lèi)中心),可以由研究者經(jīng)驗(yàn)地指定k個(gè)特征突出的個(gè)案,也可以是缺省地個(gè)特征突出的個(gè)案,也可以是缺省地由由SPSS代為選定。代為選定。n2、根據(jù)與初始類(lèi)中心、根據(jù)與初始類(lèi)中心“距離最小距離最小”的原則,將的原則,將m維空間中的維空間中的n個(gè)點(diǎn)子(個(gè)案)分別個(gè)點(diǎn)子(個(gè)案)分別“就近就近”劃歸于劃歸于k個(gè)初始類(lèi)之中。
32、個(gè)初始類(lèi)之中。n3、在每一個(gè)初始類(lèi)中求它的、在每一個(gè)初始類(lèi)中求它的m個(gè)特征變量的平均數(shù),并且把以個(gè)特征變量的平均數(shù),并且把以m個(gè)平均數(shù)為坐標(biāo)的點(diǎn)作為個(gè)平均數(shù)為坐標(biāo)的點(diǎn)作為新的類(lèi)中心。新的類(lèi)中心。n4、再根據(jù)與類(lèi)中心、再根據(jù)與類(lèi)中心“距離最小距離最小”的原則,將的原則,將m 維空間中的維空間中的 n個(gè)點(diǎn)子(個(gè)案)重新分別個(gè)點(diǎn)子(個(gè)案)重新分別“就就近近”劃歸于劃歸于k個(gè)新的類(lèi)屬之中。個(gè)新的類(lèi)屬之中。n5、再在每一個(gè)類(lèi)屬中求、再在每一個(gè)類(lèi)屬中求m個(gè)特征變量的平均數(shù),并且把以個(gè)特征變量的平均數(shù),并且把以m個(gè)平均數(shù)為坐標(biāo)的點(diǎn)作為更新個(gè)平均數(shù)為坐標(biāo)的點(diǎn)作為更新一代的類(lèi)重心,再根據(jù)與類(lèi)中心一代的類(lèi)重心,再
33、根據(jù)與類(lèi)中心“距離最小距離最小”的原則重新劃歸各個(gè)個(gè)案的原則重新劃歸各個(gè)個(gè)案. 如此反復(fù)迭代如此反復(fù)迭代下去,直至達(dá)成了預(yù)先設(shè)定的(盡可能小的類(lèi)內(nèi)差異,盡可能大的類(lèi)間差別)下去,直至達(dá)成了預(yù)先設(shè)定的(盡可能小的類(lèi)內(nèi)差異,盡可能大的類(lèi)間差別)“收斂收斂”指標(biāo),指標(biāo),或者是完成了預(yù)先設(shè)定的迭代次數(shù),聚類(lèi)工作結(jié)束?;蛘呤峭瓿闪祟A(yù)先設(shè)定的迭代次數(shù),聚類(lèi)工作結(jié)束。一、一、Q Q聚類(lèi)分析的聚類(lèi)分析的SPSSSPSS過(guò)程過(guò)程第一步:第一步:數(shù)據(jù)文件的準(zhǔn)備。數(shù)據(jù)文件的準(zhǔn)備。Q聚類(lèi)分析是根據(jù)一系列觀測(cè)變聚類(lèi)分析是根據(jù)一系列觀測(cè)變量的測(cè)量值對(duì)個(gè)案進(jìn)行分類(lèi),分類(lèi)的依據(jù)是個(gè)案之間的量的測(cè)量值對(duì)個(gè)案進(jìn)行分類(lèi),分類(lèi)的依據(jù)
34、是個(gè)案之間的“距距離離”。聚類(lèi)之前的數(shù)據(jù)文件包括:。聚類(lèi)之前的數(shù)據(jù)文件包括:n個(gè)個(gè)案的個(gè)個(gè)案的k個(gè)觀測(cè)值。個(gè)觀測(cè)值。第二步:第二步:點(diǎn)擊點(diǎn)擊“Analyze”菜單選中菜單選中“Classify”的的“HierarchicalCluster Analysis”,打開(kāi)對(duì)話框。將參與聚類(lèi)分析的觀測(cè)變量打開(kāi)對(duì)話框。將參與聚類(lèi)分析的觀測(cè)變量置入置入“Variable(s)”下的方框中,同時(shí)在下的方框中,同時(shí)在 Cluster 之下選擇之下選擇Cases。然后選中。然后選中“Statistics”和和“Plots”。第三步:第三步:點(diǎn)擊點(diǎn)擊“Method”打開(kāi)聚類(lèi)分析的距離計(jì)算方法設(shè)置對(duì)打開(kāi)聚類(lèi)分析的距離
35、計(jì)算方法設(shè)置對(duì)話框話框 ,以實(shí)現(xiàn)對(duì)小類(lèi)間距離,以實(shí)現(xiàn)對(duì)小類(lèi)間距離 、個(gè)案間距離計(jì)算方法的設(shè)置、個(gè)案間距離計(jì)算方法的設(shè)置 ,同時(shí)對(duì)量綱不一致情況下的變量觀測(cè)值進(jìn)行轉(zhuǎn)換:同時(shí)對(duì)量綱不一致情況下的變量觀測(cè)值進(jìn)行轉(zhuǎn)換:(1) 小類(lèi)間距離計(jì)算:默認(rèn)方式是類(lèi)間平均鏈鎖法(小類(lèi)間距離計(jì)算:默認(rèn)方式是類(lèi)間平均鏈鎖法(Between-Groups linkage) ,這種方法最充分地使用了數(shù)據(jù)資料;,這種方法最充分地使用了數(shù)據(jù)資料;(2) 個(gè)案間距離計(jì)算:個(gè)案間距離計(jì)算: 觀測(cè)變量為連續(xù)變量,默認(rèn)方法:歐氏距離平方;觀測(cè)變量為連續(xù)變量,默認(rèn)方法:歐氏距離平方; 觀測(cè)變量為順序或名義變量,默認(rèn)方法:卡方測(cè)量方法;
36、觀測(cè)變量為順序或名義變量,默認(rèn)方法:卡方測(cè)量方法; 觀測(cè)變量為二項(xiàng)選擇變量觀測(cè)變量為二項(xiàng)選擇變量, 默認(rèn)方法:二元?dú)W氏距離平方。默認(rèn)方法:二元?dú)W氏距離平方。(3) 如果觀測(cè)變量的量綱不一致,還需設(shè)置對(duì)不同量綱變量進(jìn)如果觀測(cè)變量的量綱不一致,還需設(shè)置對(duì)不同量綱變量進(jìn)標(biāo)準(zhǔn)化處理。默認(rèn)狀態(tài)是標(biāo)準(zhǔn)化處理。默認(rèn)狀態(tài)是“none”,需要時(shí)可以選擇需要時(shí)可以選擇“Z-scores”,這是使用最廣泛、最直觀的轉(zhuǎn)換方法這是使用最廣泛、最直觀的轉(zhuǎn)換方法 。在進(jìn)行量綱轉(zhuǎn)換時(shí)。在進(jìn)行量綱轉(zhuǎn)換時(shí) ,要選擇要選擇“By cases”表明是屬于表明是屬于Q聚類(lèi)分析中的量綱轉(zhuǎn)換。聚類(lèi)分析中的量綱轉(zhuǎn)換。第四步:第四步:指定圖形
37、輸出。層次聚類(lèi)分析的圖形結(jié)果有兩種形指定圖形輸出。層次聚類(lèi)分析的圖形結(jié)果有兩種形式式(1)樹(shù)形圖()樹(shù)形圖(Dendrogram),它可以展現(xiàn)聚類(lèi)分析的每一它可以展現(xiàn)聚類(lèi)分析的每一次合并過(guò)程,次合并過(guò)程,SPSS首先將各類(lèi)之間的距離重新轉(zhuǎn)換到首先將各類(lèi)之間的距離重新轉(zhuǎn)換到 025之間之間 ,然后表現(xiàn)在圖上,然后表現(xiàn)在圖上 。此圖可以粗略地表現(xiàn)聚類(lèi)的過(guò)程。此圖可以粗略地表現(xiàn)聚類(lèi)的過(guò)程 ;(2)冰柱圖()冰柱圖(Icicle), 包括縱向冰柱圖(包括縱向冰柱圖(Vertical) 和橫向和橫向冰柱圖冰柱圖(Horizontal) 。冰柱圖用。冰柱圖用X符號(hào)來(lái)表示聚類(lèi)過(guò)程符號(hào)來(lái)表示聚類(lèi)過(guò)程 , 其選
38、其選擇包括:全部、部分、無(wú)。擇包括:全部、部分、無(wú)。第五步:第五步:顯示凝聚狀態(tài)表。點(diǎn)擊層次聚類(lèi)分析對(duì)話框中的顯示凝聚狀態(tài)表。點(diǎn)擊層次聚類(lèi)分析對(duì)話框中的“statistics”可以打開(kāi)設(shè)置凝聚狀態(tài)對(duì)話框??梢源蜷_(kāi)設(shè)置凝聚狀態(tài)對(duì)話框。(1) 選中選中“Agglomeration schedule”,可以輸出聚類(lèi)分析,可以輸出聚類(lèi)分析詳細(xì)過(guò)程,即每一階段完成的是哪些個(gè)案或小類(lèi)間的聚集;詳細(xì)過(guò)程,即每一階段完成的是哪些個(gè)案或小類(lèi)間的聚集;(2)選中)選中“Proximity matrix”,可以輸出各個(gè)案的距離矩陣;可以輸出各個(gè)案的距離矩陣;(3)設(shè)置個(gè)案歸屬結(jié)果顯示狀態(tài):)設(shè)置個(gè)案歸屬結(jié)果顯示狀態(tài)
39、: 選中選中none,不顯示個(gè)案歸屬情況;,不顯示個(gè)案歸屬情況; 選中選中Single solution,則顯示聚集成指定的,則顯示聚集成指定的n類(lèi)時(shí)個(gè)案類(lèi)時(shí)個(gè)案 歸屬情況;歸屬情況; 選中選中Range of solutions,則顯示聚集成,則顯示聚集成n1到到n2范圍內(nèi)范圍內(nèi) 的各種情況下的個(gè)案歸屬情況。的各種情況下的個(gè)案歸屬情況。第六步:第六步:設(shè)定保存層次聚類(lèi)分析的結(jié)果。點(diǎn)擊層次聚類(lèi)分析設(shè)定保存層次聚類(lèi)分析的結(jié)果。點(diǎn)擊層次聚類(lèi)分析對(duì)話框中的對(duì)話框中的“save”可以打開(kāi)設(shè)置保存分類(lèi)結(jié)果的對(duì)話框。在可以打開(kāi)設(shè)置保存分類(lèi)結(jié)果的對(duì)話框。在“Cluster membership”下邊:下邊:
40、 選中選中None,不保存聚類(lèi)結(jié)果到數(shù)據(jù)編輯窗口;,不保存聚類(lèi)結(jié)果到數(shù)據(jù)編輯窗口; 選中選中Single solution,則保存聚集成指定的,則保存聚集成指定的n類(lèi)時(shí)個(gè)案類(lèi)時(shí)個(gè)案 歸屬結(jié)果;歸屬結(jié)果; 選中選中Range of solutions,則顯示聚集成,則顯示聚集成n1到到n2范圍內(nèi)范圍內(nèi) 的各種情況下的個(gè)案歸屬結(jié)果。的各種情況下的個(gè)案歸屬結(jié)果。 OK! 實(shí)例分析:根據(jù)實(shí)例分析:根據(jù)20名被試在不同色光刺激下選擇反應(yīng)時(shí)間的反名被試在不同色光刺激下選擇反應(yīng)時(shí)間的反應(yīng)模式,對(duì)其進(jìn)行類(lèi)型劃分。實(shí)驗(yàn)數(shù)據(jù)如下表所示:應(yīng)模式,對(duì)其進(jìn)行類(lèi)型劃分。實(shí)驗(yàn)數(shù)據(jù)如下表所示:IDREDGREENBLUEYE
41、LLOW1 14104103893894504504904902 23563563603603913914064063 34124124224224804804654654 43203203503504004004204205 53803803903904254254604606 63903904564564554554334337 74124124504504404404554558 83563563833834004004104109 940540539039049049045045010103883884104104264264104101111378378410410426426409
42、409121230030035035040040042042013134124124204204904905235231414420420430430451451480480151536836839039038938940340316163903904004004204205095091717405405380380510510489489181839039039039042842847647619194004003803805005004554552020420420400400486486505505SPSSSPSS過(guò)程演示過(guò)程演示二、二、R R聚類(lèi)分析的聚類(lèi)分析的SPSSSPSS過(guò)程過(guò)程
43、 R 層次聚類(lèi)分析對(duì)研究對(duì)象的觀察變量進(jìn)行分類(lèi),它使得層次聚類(lèi)分析對(duì)研究對(duì)象的觀察變量進(jìn)行分類(lèi),它使得具有共同特征的變量聚集在一起,以便選擇其中具有代表性的具有共同特征的變量聚集在一起,以便選擇其中具有代表性的變量,實(shí)現(xiàn)用較少變量刻畫(huà)研究對(duì)象的目的。變量,實(shí)現(xiàn)用較少變量刻畫(huà)研究對(duì)象的目的。 R聚類(lèi)分析的過(guò)程與聚類(lèi)分析的過(guò)程與Q 聚類(lèi)分析的過(guò)程是一致的聚類(lèi)分析的過(guò)程是一致的 ,只是在,只是在打開(kāi)打開(kāi)“Hierarchical Cluster Analysis” 的對(duì)話框中選的對(duì)話框中選“Variables”的聚類(lèi)。在變量間距離的計(jì)算方法上選的聚類(lèi)。在變量間距離的計(jì)算方法上選“Pearson Co
44、rrelation” ,其他操作與,其他操作與Q聚類(lèi)相同。聚類(lèi)相同。三、快速聚類(lèi)分析的三、快速聚類(lèi)分析的SPSSSPSS過(guò)程過(guò)程 快速聚類(lèi)分析是由研究者指定類(lèi)別數(shù)的大樣本資料逐步聚類(lèi)分快速聚類(lèi)分析是由研究者指定類(lèi)別數(shù)的大樣本資料逐步聚類(lèi)分析。它先對(duì)數(shù)據(jù)進(jìn)行初始分類(lèi),然后逐步調(diào)整,得到最終分類(lèi)??煳?。它先對(duì)數(shù)據(jù)進(jìn)行初始分類(lèi),然后逐步調(diào)整,得到最終分類(lèi)??焖倬垲?lèi)分析一般是對(duì)個(gè)案來(lái)進(jìn)行的。對(duì)于變量分類(lèi)來(lái)說(shuō),當(dāng)變量較速聚類(lèi)分析一般是對(duì)個(gè)案來(lái)進(jìn)行的。對(duì)于變量分類(lèi)來(lái)說(shuō),當(dāng)變量較少時(shí)可以使用層次聚類(lèi)分析中的少時(shí)可以使用層次聚類(lèi)分析中的R聚類(lèi)分析;當(dāng)變量數(shù)比較多時(shí)則聚類(lèi)分析;當(dāng)變量數(shù)比較多時(shí)則可以使用因素分析
45、??梢允褂靡蛩胤治?。 快速聚類(lèi)分析也是以個(gè)案的距離為基礎(chǔ)的,與層次聚類(lèi)分析不快速聚類(lèi)分析也是以個(gè)案的距離為基礎(chǔ)的,與層次聚類(lèi)分析不同的是:快速聚類(lèi)分析要指定分類(lèi)的類(lèi)別數(shù)??焖倬垲?lèi)分析的邏輯同的是:快速聚類(lèi)分析要指定分類(lèi)的類(lèi)別數(shù)??焖倬垲?lèi)分析的邏輯程序是:程序是:第一步:第一步:數(shù)據(jù)文件的準(zhǔn)備??焖倬垲?lèi)分析的數(shù)據(jù)文件往往比數(shù)據(jù)文件的準(zhǔn)備。快速聚類(lèi)分析的數(shù)據(jù)文件往往比較大,主要是包括的個(gè)案數(shù)較多,而且可以包括一個(gè)個(gè)案的較大,主要是包括的個(gè)案數(shù)較多,而且可以包括一個(gè)個(gè)案的標(biāo)識(shí)變量。當(dāng)數(shù)據(jù)文件中數(shù)據(jù)量綱不一致時(shí),則需要對(duì)數(shù)據(jù)標(biāo)識(shí)變量。當(dāng)數(shù)據(jù)文件中數(shù)據(jù)量綱不一致時(shí),則需要對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化轉(zhuǎn)換或其他轉(zhuǎn)換。進(jìn)行標(biāo)準(zhǔn)化轉(zhuǎn)換或其他轉(zhuǎn)換。第二步:第二步:點(diǎn)擊點(diǎn)擊 “Analyze” 菜單選中菜單選中 “Classify” 的的 “K-MeansCluster”打開(kāi)快速聚類(lèi)分析對(duì)話框,將參與聚類(lèi)分析的觀測(cè)打開(kāi)快速聚類(lèi)分析對(duì)話框,將參與聚類(lèi)分析的觀測(cè)變量置入變量置入 “Va
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 學(xué)校生物室管理制度
- 學(xué)生會(huì)設(shè)備管理制度
- 學(xué)生項(xiàng)目部管理制度
- 安保部綜合管理制度
- 安全管理與管理制度
- 定向井公司管理制度
- 實(shí)訓(xùn)室水電管理制度
- 客戶保證金管理制度
- 客運(yùn)包車(chē)牌管理制度
- 家裝業(yè)務(wù)員管理制度
- 社區(qū)工作者心理健康培訓(xùn)大綱
- 《分子動(dòng)力學(xué)模擬》課件
- 新生兒重癥監(jiān)護(hù)病房捐贈(zèng)人乳應(yīng)用與管理專(zhuān)家共識(shí)(2025)解讀
- 皮膚科進(jìn)修心得分享
- 2025年上半年廣東省廣州市白云區(qū)委宣傳部政府雇員招聘5人重點(diǎn)基礎(chǔ)提升(共500題)附帶答案詳解
- 項(xiàng)目經(jīng)理講安全課件
- 《休閑農(nóng)業(yè)》課件 項(xiàng)目二 休閑農(nóng)業(yè)分類(lèi)及模式分析
- 2025年安徽省省情試題及答案
- 2025年消控室考核試題及答案
- 江西省吉安市遂川縣2024-2025學(xué)年數(shù)學(xué)三下期末達(dá)標(biāo)檢測(cè)試題含解析
- 衛(wèi)健系統(tǒng)2025年上半年安全生產(chǎn)工作總結(jié)
評(píng)論
0/150
提交評(píng)論