精選總結(jié)-spss使用教程 聚類分析與判別分析_第1頁
精選總結(jié)-spss使用教程 聚類分析與判別分析_第2頁
精選總結(jié)-spss使用教程 聚類分析與判別分析_第3頁
精選總結(jié)-spss使用教程 聚類分析與判別分析_第4頁
精選總結(jié)-spss使用教程 聚類分析與判別分析_第5頁
已閱讀5頁,還剩127頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

SPSS16實用教程 第8章聚類分析與判別分析 1 2 本章介紹統(tǒng)計學(xué)中經(jīng)常使用的分類統(tǒng)計分析方法 聚類分析與判別分析 主要內(nèi)容有層次聚類分析 快速聚類分析和判別分析 其中層次聚類分析根據(jù)聚類的對象不同分成Q型聚類和R型聚類 3 8 1聚類分析與判別分析的基本概念 統(tǒng)計學(xué)研究這類問題的常用分類統(tǒng)計方法主要有聚類分析 clusteranalysis 與判別分析 discriminantanalysis 其中聚類分析是統(tǒng)計學(xué)中研究這種 物以類聚 問題的一種有效方法 它屬于統(tǒng)計分析的范疇 聚類分析的實質(zhì)是建立一種分類方法 它能夠?qū)⒁慌鷺颖緮?shù)據(jù)按照他們在性質(zhì)上的親密程度在沒有先驗知識的情況下自動進(jìn)行分類 這里所說的類就是一個具有相似性的個體的集合 不同類之間具有明顯的區(qū)別 4 聚類分析是一種探索性的分析 在分類的過程中 人們不必事先給出一個分類的標(biāo)準(zhǔn) 聚類分析能夠從樣本數(shù)據(jù)出發(fā) 自動進(jìn)行分類 聚類分析所使用方法的不同 常常會得到不同的結(jié)論 不同研究者對于同一組數(shù)據(jù)進(jìn)行聚類分析 所得到的聚類數(shù)未必一致 因此我們說聚類分析是一種探索性的分析方法 5 對個案的聚類分析類似于判別分析 都是將一些觀察個案進(jìn)行分類 聚類分析時 個案所屬的群組特點還未知 也就是說 在聚類分析之前 研究者還不知道獨立觀察組可以分成多少個類 類的特點也無所得知 6 變量的聚類分析類似于因素分析 兩者都可用于辨別變量的相關(guān)組別 不同在于 因素分析在合并變量的時候 是同時考慮所有變量之間的關(guān)系 而變量的聚類分析 則采用層次式的判別方式 根據(jù)個別變量之間的親疏程度逐次進(jìn)行聚類 7 聚類分析的方法 主要有兩種 一種是 快速聚類分析方法 K MeansClusterAnaly sis 另一種是 層次聚類分析方法 HierarchicalClusterAnalysis 如果觀察值的個數(shù)多或文件非常龐大 通常觀察值在200個以上 則宜采用快速聚類分析方法 因為觀察值數(shù)目巨大 層次聚類分析的兩種判別圖形會過于分散 不易解釋 8 判別分析是一種有效的對個案進(jìn)行分類分析的方法 和聚類分析不同的是 判別分析時 組別的特征已知 如銀行為了對貸款進(jìn)行管理 需要預(yù)測哪些類型的客戶可能不會按時歸還貸款 已知過去幾年中 900個客戶的貸款歸還信譽(yù)度 據(jù)此可以將客戶分成兩組 可靠客戶和不可靠客戶 9 再通過收集客戶的一些資料 如年齡 工資收入 教育程度 存款等 將這些資料作為自變量 通過判別分析 建立判別函數(shù) 那么 如果有150個新的客戶提交貸款請求 就可以利用創(chuàng)建好的判別函數(shù) 對新的客戶進(jìn)行分析 從而判斷新的客戶是屬于可靠客戶類 還是不可靠客戶類 10 8 2層次聚類分析中的Q型聚類 層次聚類分析是根據(jù)觀察值或變量之間的親疏程度 將最相似的對象結(jié)合在一起 以逐次聚合的方式 AgglomerativeClustering 它將觀察值分類 直到最后所有樣本都聚成一類 11 層次聚類分析有兩種形式 一種是對樣本 個案 進(jìn)行分類 稱為Q型聚類 它使具有共同特點的樣本聚齊在一起 以便對不同類的樣本進(jìn)行分析 另一種是對研究對象的觀察變量進(jìn)行分類 稱為R型聚類 它使具有共同特征的變量聚在一起 以便從不同類中分別選出具有代表性的變量作分析 從而減少分析變量的個數(shù) 12 本節(jié)講述Q型聚類的原理和SPSS的實現(xiàn)過程 下一節(jié)將講述R型聚類的實現(xiàn)過程 13 定義 層次聚類分析中的Q型聚類 它使具有共同特點的樣本聚齊在一起 以便對不同類的樣本進(jìn)行分析 8 2 1統(tǒng)計學(xué)上的定義和計算公式 14 層次聚類分析中 測量樣本之間的親疏程度是關(guān)鍵 聚類的時候會涉及到兩種類型親疏程度的計算 一種是樣本數(shù)據(jù)之間的親疏程度 一種是樣本數(shù)據(jù)與小類 小類與小類之間的親疏程度 下面講述這兩種類型親疏程度的計算方法和公式 15 計算公式如下 樣本數(shù)據(jù)之間的親疏程度主要通過樣本之間的距離 樣本間的相關(guān)系數(shù)來度量 SPSS根據(jù)變量數(shù)據(jù)類型的不同 采用不同的測定親疏程度的方法 16 樣本若有k個變量 則可以將樣本看成是一個k維的空間的一個點 樣本和樣本之間的距離就是k維空間點和點之間的距離 這反映了樣本之間的親疏程度 聚類時 距離相近的樣本屬于一個類 距離遠(yuǎn)的樣本屬于不同類 1 連續(xù)變量的樣本距離測量方法 17 1 歐氏距離 EuclideanDistance 兩個樣本之間的歐氏距離是樣本各個變量值之差的平方和的平方根 計算公式為 18 2 歐氏距離平方 SquaredEuclideanDistance 兩個樣本之間的歐氏距離平方是各樣本每個變量值之差的平方和 計算公式為 19 3 Chebychev距離兩個樣本之間的Chebychev距離是各樣本所有變量值之差絕對值中的最大值 計算公式為 20 4 Block距離兩個樣本之間的Block距離是各樣本所有變量值之差絕對值的總和 計算公式為 21 5 Minkowski距離兩個樣本之間的Minkowski距離是各樣本所有變量值之差絕對值的p次方的總和 再求p次方根 計算公式為 22 6 Customized距離 用戶自定義距離 兩個樣本之間的Customized距離是各樣本所有變量值之差絕對值的p次方的總和 再求q次方根 計算公式為 23 連續(xù)變量親疏程度的度量 除了上面的各種距離外 還可以計算其他統(tǒng)計指標(biāo) 如Pearson相關(guān)系數(shù) Sosine相似度等 2 連續(xù)變量的樣本親疏程度的其他測量方法 24 25 3 順序或名義變量的樣本親疏程度測量方法 對于此類變量 可以計算一些有關(guān)相似性的統(tǒng)計指標(biāo)來測定樣本間的親疏程度 也可以通過下面兩個計算公式來得到 26 27 28 4 樣本數(shù)據(jù)與小類 小類與小類之間的親疏程度測量方法 SPSS默認(rèn)的變量為Var00001 Var00002等 用戶也可以根據(jù)自己的需要來命名變量 SPSS變量的命名和一般的編程語言一樣 有一定的命名規(guī)則 具體內(nèi)容如下 29 所謂小類 是在聚類過程中根據(jù)樣本之間親疏程度形成的中間類 小類和樣本 小類與小類繼續(xù)聚合 最終將所有樣本都包括在一個大類中 在SPSS聚類運算過程中 需要計算樣本與小類 小類與小類之間的親疏程度 SPSS提供了多種計算方法 計算規(guī)則 30 1 最短距離法 NearestNeighbor 以當(dāng)前某個樣本與已經(jīng)形成小類中的各樣本距離的最小值作為當(dāng)前樣本與該小類之間的距離 31 2 最長距離法 FurthestNeighbor 以當(dāng)前某個樣本與已經(jīng)形成小類中的各樣本距離的最大值作為當(dāng)前樣本與該小類之間的距離 32 3 類間平均鏈鎖法 Between groupsLinkage 兩個小類之間的距離為兩個小類內(nèi)所有樣本間的平均距離 33 4 類內(nèi)平均鏈鎖法 Within groupsLinkage 與小類間平均鏈鎖法類似 這里的平均距離是對所有樣本對的距離求平均值 包括小類之間的樣本對 小類內(nèi)的樣本對 34 5 重心法 CentroidClustering 將兩小類間的距離定義成兩小類重心間的距離 每一小類的重心就是該類中所有樣本在各個變量上的均值代表點 35 6 離差平方和法 Ward sMethod 小類合并的方法 在聚類過程中 使小類內(nèi)各個樣本的歐氏距離總平方和增加最小的兩小類合并成一類 36 研究問題對一個班同學(xué)的數(shù)學(xué)水平進(jìn)行聚類 聚類的依據(jù)是第一次數(shù)學(xué)考試的成績和入學(xué)考試的成績 數(shù)據(jù)如表8 1所示 8 2 2SPSS中實現(xiàn)過程 37 表8 1學(xué)生的數(shù)學(xué)成績 38 實現(xiàn)步驟 圖8 1在菜單中選擇 HierarchicalCluster 命令 39 圖8 2 HierarchicalClusterAnalysis 對話框 一 40 圖8 3 HierarchicalClusterAnalysis Method 對話框 一 41 圖8 4 HierarchicalClusterAnalysis Plots 對話框 一 42 圖8 5 HierarchicalClusterAnalysis Statistics 對話框 一 43 圖8 6 HierarchicalClusterAnalysis SaveNewVar 對話框 44 由于本例中選中的選項較多 這里按照各個結(jié)果分別解釋 1 首先是層次聚類分析的概要結(jié)果 該結(jié)果是SPSS輸出結(jié)果文件中的第一個表格 如下表所示 8 2 3結(jié)果和討論 45 2 輸出的結(jié)果文件中第二個表格如下表所示 46 3 輸出的結(jié)果文件中第三個表格為層次聚類分析的凝聚狀態(tài)表 包括 47 4 輸出的結(jié)果文件中第四個表格如下表所示 48 5 輸出的結(jié)果文件中第五個表格如下表所示 49 6 輸出的結(jié)果文件中第六部分如圖8 7所示 50 7 由于對圖8 6 HierarchicalClusterAnalysis SaveNewVar 對話框進(jìn)行了設(shè)置 將聚類成三類時 各個樣本的類歸屬情況保存為一個變量 因此在SPSS數(shù)據(jù)編輯窗口中就新增了一個變量的值 如圖8 8所示 51 圖8 8層次聚類分析結(jié)果保存 52 8 3層次聚類分析中的R型聚類 8 3 1統(tǒng)計學(xué)上的定義和計算公式 定義 層次聚類分析中的R型聚類是對研究對象的觀察變量進(jìn)行分類 它使具有共同特征的變量聚在一起 以便可以從不同類中分別選出具有代表性的變量作分析 從而減少分析變量的個數(shù) 53 計算公式 R型聚類的計算公式和Q型聚類的計算公式是類似的 不同的是R型聚類是對變量間進(jìn)行距離的計算 Q型聚類則是對樣本間進(jìn)行距離的計算 54 研究問題對一個班同學(xué)的各科成績進(jìn)行聚類 分析哪些課程是屬于一個類的 聚類的依據(jù)是4門功課的考試成績 數(shù)據(jù)如表8 2所示 8 3 2SPSS中實現(xiàn)過程 55 表8 2學(xué)生的四門課程的成績 56 實現(xiàn)步驟 圖8 9在菜單中選擇 HierarchicalCluster 命令 57 圖8 10 HierarchicalClusterAnalysis 對話框 二 58 圖8 11 HierarchicalClusterAnalysis Method 對話框 二 59 圖8 12 HierarchicalClusterAnalysis Plots 對話框 二 60 圖8 13 HierarchicalClusterAnalysis Statistics 對話框 二 61 1 首先是層次R型聚類分析的結(jié)果 該結(jié)果是SPSS輸出結(jié)果文件中的第一個表格 8 3 3結(jié)果和討論 62 2 輸出的結(jié)果文件中第二個表格如下表所示 63 3 輸出的結(jié)果文件中第三個表格如下表所示 64 4 輸出的結(jié)果文件中第四個表格如下表所示 65 5 輸出的結(jié)果文件中第五個表格如下表所示 66 6 輸出的結(jié)果文件中第六部分如下 67 8 4快速聚類分析 SPSS層次聚類分析對計算機(jī)的要求比較高 在大樣本的情況下 可以采用快速聚類分析的方法 采用快速聚類分析 得到的結(jié)果比較簡單易懂 對計算機(jī)的性能要求也不高 因此應(yīng)用也比較廣 68 定義 快速聚類分析是由用戶指定類別數(shù)的大樣本資料的逐步聚類分析 它先對數(shù)據(jù)進(jìn)行初始分類 然后逐步調(diào)整 得到最終分類 快速聚類分析的實質(zhì)是K Mean聚類 8 4 1統(tǒng)計學(xué)上的定義和計算公式 69 和層次聚類分析一致 快速聚類分析也以距離為樣本間親疏程度的標(biāo)志 但兩者的不同在于 層次聚類可以對不同的聚類類數(shù)產(chǎn)生一系列的聚類解 而快速聚類只能產(chǎn)生固定類數(shù)的聚類解 類數(shù)需要用戶事先指定 70 另外 在快速聚類分析中 用戶可以自己指定初始的類中心點 如果用戶的經(jīng)驗比較豐富 則可以指定比較合理的初始類中心點 否則 需要增加迭代的次數(shù) 以保證最終聚類結(jié)果的準(zhǔn)確性 71 計算公式如下 快速聚類分析計算過程如下 首先需要用戶指定聚類成多少類 比如k類 然后SPSS確定k個類的初始類中心點 SPSS會根據(jù)樣本數(shù)據(jù)的實際情況 選擇k個由代表性的樣本數(shù)據(jù)作為初始類中心 初始類中心也可以由用戶自行指定 需要指定K組樣本數(shù)據(jù)作為初始類中心點 72 計算所有樣本數(shù)據(jù)點到k個類中心點的歐氏距離 SPSS按照距k個類中心點距離最短原則 把所有樣本分派到各中心點所在的類中 形成一個新的k類 完成一次迭代過程 其中歐氏距離 EuclideanDistance 的計算公式為 73 74 SPSS重新確定k個類的中心點 SPSS計算每個類中各個變量的變量值均值 并以均值點作為新的類中心點 重復(fù)上面的兩步計算過程 直到達(dá)到指定的迭代次數(shù)或終止迭代的判斷要求為止 75 研究問題為研究不同公司的運營特點 調(diào)查了15個公司的組織文化 組織氛圍 領(lǐng)導(dǎo)角色和員工發(fā)展4方面的內(nèi)容 現(xiàn)要將這15個公司按照其各自的特點分成4種類型 數(shù)據(jù)如表8 3所示 8 4 2SPSS中實現(xiàn)過程 76 表8 3不同公司的特點 77 實現(xiàn)步驟 圖8 15在菜單中選擇 K MeansCluster 命令 78 圖8 16 K MeansClusterAnalysis 對話框 79 圖8 17 K MeansClusterAnalysis Options 對話框 80 圖8 18 K MeansClusterAnalysis Iterate 對話框 81 圖8 19 K MeansCluster SaveNewVariable 對話框 82 圖8 20指定初始類中心點 83 本例中選中的選項較多 這里按照各個結(jié)果分別解釋 1 SPSS輸出結(jié)果文件中的第一部分如下表所示 8 4 3結(jié)果和討論 84 2 輸出的結(jié)果文件中第二部分如下表所示 85 3 輸出的結(jié)果文件中第三部分是快速聚類分析后的各個類包含樣本的情況 86 4 輸出的結(jié)果文件中第四部分如下表所示 87 5 輸出的結(jié)果文件中第五個部分如下表所示 88 6 輸出的結(jié)果文件中第六個部分如下表所示 89 7 輸出結(jié)果的最后一個表格列出了4個類中分別包括的樣本數(shù) 如下表所示 90 8 在步驟5中曾指定了將樣本所屬類以及樣本和類中心點的距離 作為樣本的2個新變量保存到SPSS的數(shù)據(jù)編輯窗口中 SPSS運行后 數(shù)據(jù)編輯窗口如圖8 21所示 其中我們可以看到新增加了兩個變量 圖中加深的兩列 分別表示樣本所屬類以及樣本和類中心點的距離 91 92 8 5判別分析 前面3節(jié)講述了不同種聚類分析的方法 不論是哪種方法 聚類分析都是直接比較各事物之間的性質(zhì) 將性質(zhì)相近的歸為一類 將性質(zhì)差別較大的歸入不同的類 93 本節(jié)講述的判別分析 也是一種比較常用的分類分析方法 判別分析先根據(jù)已知類別的事物的性質(zhì) 利用某種技術(shù)建立函數(shù)式 然后對未知類別的新事物進(jìn)行判斷以將之歸入已知的類別中 94 有學(xué)者在研究中提出 可以利用判別分析來對聚類分析結(jié)果的準(zhǔn)確性進(jìn)行檢驗 聚類分析分成幾類后 即可以作為判別分析的類別輸入 進(jìn)行判斷 95 定義 判別分析先根據(jù)已知類別的事物的性質(zhì) 自變量 建立函數(shù)式 自變量的線性組合 即判別函數(shù) 然后對未知類別的新事物進(jìn)行判斷以將之歸入已知的類別中 8 5 1統(tǒng)計學(xué)上的定義和計算公式 96 判別分析有如下的假定 預(yù)測變量服從正態(tài)分布 預(yù)測變量之間沒有顯著的相關(guān) 預(yù)測變量的平均值和方差不相關(guān) 預(yù)測變量應(yīng)是連續(xù)變量 因變量 類別或組別 是間斷變量 兩個預(yù)測變量之間的相關(guān)性在不同類中是一樣的 97 在分析的各個階段應(yīng)把握如下的原則 事前組別 類 的分類標(biāo)準(zhǔn) 作為判別分析的因變量 要盡可能準(zhǔn)確和可靠 否則會影響判別函數(shù)的準(zhǔn)確性 從而影響判別分析的效果 所分析的自變量應(yīng)是因變量的重要影響因素 應(yīng)該挑選既有重要特性又有區(qū)別能力的變量 達(dá)到以最少變量而有高辨別能力的目標(biāo) 初始分析的數(shù)目不能太少 98 99 100 101 這些判別函數(shù)是各個獨立預(yù)測變量的線性組合 程序自動選擇第一個判別函數(shù) 以盡可能多地區(qū)別各個類 然后再選擇和第一個判別函數(shù)獨立的第二個判別函數(shù) 盡可能多地提供判別能力 程序?qū)凑者@種方式 提供剩下的判別函數(shù) 判別函數(shù)的個數(shù)為k 102 圖8 22判別分析的示意圖 103 研究問題調(diào)查了15個公司的組織文化 領(lǐng)導(dǎo)角色和員工發(fā)展3個方面內(nèi)容作為預(yù)測變量 因變量為公司對員工的吸引力 為符合研究問題 將公司對員工的吸引力根據(jù)被測的實際填答情形 劃分為高吸引力組 group 1 中吸引力組 group 2 和低吸引力組 group 3 數(shù)據(jù)如表8 4所示 8 5 2SPSS中實現(xiàn)過程 104 表8 4不同類的不同公司特點 105 實現(xiàn)步驟 圖8 23在菜單中選擇 Discriminant 命令 106 圖8 24 DiscriminantAnalysis 對話框 107 圖8 25 DiscriminantAnalysis Define 對話框 108 圖8 26 DiscriminantAnalysis StepwiseMethod 對話框 109 圖8 27 DiscriminantAnalysis Statistics 對話框 110 圖8 28 DiscriminantAnalysis Classification 對話框 111 圖8 29 DiscriminantAnalysis Save 對話框 112 1 SPSS輸出結(jié)果文件中的第一部分如下表所示 8 5 3結(jié)果和討論 113 2 輸出的結(jié)果文件中第二部分如下表所示 114 3 輸出的結(jié)果文件中第三部分如下表所示 115 4 輸出的

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論