實驗5數(shù)理統(tǒng)計實驗主成份分析_第1頁
實驗5數(shù)理統(tǒng)計實驗主成份分析_第2頁
實驗5數(shù)理統(tǒng)計實驗主成份分析_第3頁
實驗5數(shù)理統(tǒng)計實驗主成份分析_第4頁
實驗5數(shù)理統(tǒng)計實驗主成份分析_第5頁
已閱讀5頁,還剩5頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、統(tǒng)計軟件實驗報告 實驗序號: 5 日期:2012年6月3日班級數(shù)理基礎(chǔ)科學姓名李強學號20091050080實驗名稱主成份分析問題背景描述: 在研究實際問題時,往往需要收集多個變量。但這樣會使多個變量間存在較強的相關(guān)關(guān)系,即這些變量間存在較多的信息重復,直接利用它們進行分析,不但模型復雜,還會因為變量間存在多重共線性而引起較大的誤差。為能夠充分利用數(shù)據(jù),通常希望用較少的新變量代替原來較多的舊變量,同時要求這些新變量盡可能反映原變量的信息。主成分分析正是解決這類問題的有效方法。它們能夠提取信息,使變量簡化降維,從而使問題更加簡單直觀。尤其是在社會經(jīng)濟統(tǒng)計綜合評價中主成分分析是常被使用的統(tǒng)計分析方

2、法。實驗目的:1. 運用主成份分析法對我國31個省市自治區(qū)經(jīng)濟發(fā)展基本情況進行綜合分析和評價。2.掌握主成分分析的思想和具體步驟。掌握SPSS實現(xiàn)主成分分析的具體操作,并對處理結(jié)果做出解釋。實驗原理與數(shù)學模型:實驗原理: 主成分分析是設(shè)法將原來眾多具有一定相關(guān)性(比如P個指標),重新組合成一組新的互相無關(guān)的綜合指標來代替原來的指標。 通常數(shù)學上的處理就是將原來P個指標作線性組合,作為新的綜合指標。最經(jīng)典的做法就是用F1 (選取的第一個線性組合,即第一個綜合指標)的方差來表達,即Var(F1)越大,表示F1 包含的信息越多。因此在所有的線性組合中選取的 F1 應該是方差最打的,故稱 F1為第一主

3、成分。如果第一主成分不足以代表原來 P 個指標的信息,再考慮選取F2 即選第二個線性組合,為了有效地反映原來信息,F(xiàn)1 已有的信息就不需要再出現(xiàn)再 F2 中,用數(shù)學語言表達就是要求 Cov(F1, F2)=0,則稱 F2 為第二主成分,依此類推可以構(gòu)造出第三、第四,第P個主成分。 數(shù)學模型: 要求方程組滿足以下條件:1. 每個主成分系數(shù)平方和為1即:2. 主成分之前互不相關(guān) 即:3. 主成分方差依次遞減,即實驗所用軟件及版本:SPSS 16.0主要內(nèi)容(要點): 對2007年全國31個省市自治區(qū)經(jīng)濟發(fā)展基本情況的九項指標作主成分分析分析模型(數(shù)據(jù)如表1)。這九項指標分別為:x1-GDP,x2-

4、年末總?cè)丝?,x3-財政收入,x4-固定資產(chǎn)投資,x5-居民消費水平,x6-居民消費價格指數(shù),x7-商品零售價格指數(shù),x8-職工平均工資,x9-工業(yè)總產(chǎn)值。在分析過程中,提取因子的方法為“主成分”法,并以數(shù)據(jù)的“相關(guān)陣”為分析矩陣,并且提取2個因子,采用“最大方差旋轉(zhuǎn)法”進行因子旋轉(zhuǎn)。實驗過程記錄(含:基本步驟、主要程序清單及異常情況記錄等):1、 實驗基本步驟:1.錄入數(shù)據(jù)。2.按照analyze->Data Reduction->Factor的順序打開。3.選擇參與因子分析的變量到Variables框。4.單擊“Discriptive”,打開Factor Analysis:Des

5、criptives對話框,選擇Statistics框中的選項Initial solution和Correlation Matrix框中Coefficients選項、Anti-image選項、KMO and Bartletts test of sphericity選項,最后選擇Continue;5.單擊“Extraction”, 打開 Factor Analysis: Extraction對話框,選擇Analyze框中的Correlation matrix選項、Display框中的Unrotated factor solution選項及Scree plot選項、Extract框中Nunber o

6、f factors選項處填入2,最后選擇Continue;6.單擊”Rotation”,打開Factor Analysis: Rotation對話框,選擇Method框中的Varimax選項、Display框中的Rotated solution選項及Loading plot(s), 最后選擇Continue;7.單擊“Scores”,打開Factor Analysis: Scores對話框,選擇Save as variables選項、Display factor score coefficient matrix選項,同時在Method框中選擇Regression選項,最后選擇Continue;

7、8.單擊“Options”,打開Factor Analysis: Options對話框,選擇Missing Values框中的Exclude cases pairwise選項、Coefficient Display Format框中的Sorted by size選項,最后選擇Continue;9.單擊“OK”,即可輸出結(jié)果。二、實驗主要現(xiàn)象,清單數(shù)據(jù)及結(jié)果如下:表1 各變量之間的相關(guān)系數(shù)矩陣 表2 KMO和Bartlett檢驗 表 3 逆圖像矩陣 表 4公因子方差表 表 5 總方差分解表 表 6(1)、主成分因子荷載矩陣表 表6(2)、旋轉(zhuǎn)后的因子載荷矩陣 圖 1 因子碎石圖 表 7 因子協(xié)方

8、差矩陣 圖 2 旋轉(zhuǎn)后的因子載荷圖 表 8 因子得分系數(shù)矩陣 表 9 因子得分協(xié)方差矩陣 實驗結(jié)果報告與實驗總結(jié):1、 實驗現(xiàn)象,數(shù)據(jù)及結(jié)果分析:1.由表1知,據(jù)此九個原始變量之間的相關(guān)系數(shù)矩陣,可見許多變量之間直接的相關(guān)系數(shù)較強,其中最高達到了0.976。而且存在信息上的重疊,可知原始變量之間相關(guān)程度比較高,變量之間影響較大,能夠從中提取公共因子,適合作主成分分析。2.由表2知,Bartlett's Test得出的Sig.=0.000,所以應該拒絕零假設(shè)即各變量獨立的假設(shè),即變量間具有較強的相關(guān)性,同時Kaiser-Meyer-Olkin統(tǒng)計量為0.718,大于0.7,說明各變量間信

9、息的重疊程度是比較高的,根據(jù)Kaiser給出了KMO度量標準可知原有變量適合進行主因子分析。3.表3是逆圖像矩陣。4.在Communalities(公因子方差)中,給出了因子載荷陣的初始公因子方差(Initial)和提取公因子方差(Extraction),提取出兩個公因子后,計算出各變量的共同度即各變量中所含原始信息能被提取出的公因子所表示的程度。從上圖可知除居民消費水平、商品零售價格指數(shù)的共同度外,其他四個變量的共同度都在80%以上,因此在指定條件下提取特征值的變量共同度很大,各個變量的信息丟失都較少。本次因子提取的總體效果較理想。5.由表5可知,由相關(guān)系數(shù)矩陣計算得到特征值、方差貢獻率,第

10、一個因子的特征根值為5.081,對方差的貢獻率為56.459%左右;第二個因子的特征根值為2.889,對方差的貢獻率為32.104%;之后的因子的貢獻率為0.05371。前兩個因子的累積貢獻率達到了88.563%,因此,對第三因子及以后的完全可以忽略不計,用前兩個因子就可以很好地概括這組數(shù)據(jù)。而第二組數(shù)據(jù)項描述了因子解的情況,可以看到,由于指定提取兩個因子,兩個因子共同解釋了原有變量總方差的88.563%??傮w上原有變量的信息丟失較少,因子分析效果較理想。又第三組數(shù)據(jù)項描述了最終因子解的情況,表中得因子旋轉(zhuǎn)后累計方差并沒有改變,也就是沒有影響原有變量的共同度,但卻重新分配了各個因子解釋原有變量

11、的方差,改變了各個因子的方差貢獻,使得因子更易于解釋。6. 由圖1因子碎石圖也可以看出,橫坐標為因子數(shù)目,縱坐標為特征根。第一個因子特征根很大,對解釋原有變量的貢獻率最大;第二個因子特征根較大,對解釋原有變量的貢獻率也很大;第三個及以后的因子特征根都很小,對解釋原有變量的貢獻率很小。雖然第三個點是明顯拐點,但是第三個及以后因子對應的特征根都小于1,故選擇拐點前兩個因子做主要成分。7. 表6(1)是主成分因子荷載矩陣表,其中的每一列表示一個主成分作為原來變量線性組合的系數(shù),也就是主成分分析模型中的系數(shù)aij。系數(shù)表示該因子對變量的影響程度。這里每一列代表一個主成分作為原來變量線性組合的系數(shù)(比例

12、)。比如第一主成分作為x1-GDP,x2-年末總?cè)丝冢瑇3-財政收入,x4-固定資產(chǎn)投資,x5-居民消費水平,x6-居民消費價格指數(shù),x7-商品零售價格指數(shù),x8-職工平均工資,x9-工業(yè)總產(chǎn)值,九個原先變量的線性組合,系數(shù)(比例)為0.965,0.908,0.907,0.830,0.703,-0.693,0.496,0.538,-0.552。如用x1、x2、x3、x4、x5、x6、x7、x8、x9分別表示原先的9個變量,而用y1、y2表示新的變量,那么原先9個變量與第一、第二主成分y1、y2的關(guān)系為:X1= 0.965y1+0.081y2X2= 0.908y1+0.337y2X3= 0.90

13、7y1+0.405y2X4=-0.830y1+0.494y2X5= 0.703y1-0.520y2X6= -0.693y1+0.620y2X7= 0.496y1-0.791y2X8= 0.538y1+0.767y2X9= -0.552y1+0.702y2相關(guān)系數(shù)(絕對值)越大,主成分對該變量的代表性也越大。由表6(2)可知旋轉(zhuǎn)后的因子載荷矩陣,利用正交因子模型得出結(jié)果。從上表可見,每個因子只有少數(shù)幾個指標因子載荷較大,因此根據(jù)上述進行分類,將9個指標的因子載荷分成兩類,列于下表: 公共因子高載荷指標x1GDPF1x4固定資產(chǎn)投資x9工業(yè)總產(chǎn)值x8職工平均工資F2x6居民消費價格指數(shù)8.旋轉(zhuǎn)后的

14、因子載荷圖,直觀顯示主成分對原始9變量的解釋情況.圖中橫軸表示第一個主成分與原始變量間的相關(guān)系數(shù);縱軸表示第二個主成分與原始變量之間的相關(guān)系數(shù);每一個變量對應的主成分載荷就對應坐標系中的一個點,比如,GDP變量對應的點是(0.973,0.200)。9.由表 8 因子得分系數(shù)矩陣,可寫出因子得分函數(shù):F1=0.227GDP+0.241年末總?cè)丝?0.171財政收入+0.232固定資產(chǎn)投資+0.007居民消費水平+0.014居民消費價格指數(shù)+0.054商品零售價格指數(shù)-0.08職工平均工資+0.213工業(yè)總產(chǎn)值;F2=-0.01GDP-0.154年末總?cè)丝?0.088財政收入-0.044固定資產(chǎn)投資+0.227居民消費水平-0.254居民消費價格指數(shù)-0.261商品零售價格指數(shù)+0.279職工平均工資+0.009工業(yè)總產(chǎn)值。10.由表9因子協(xié)方差陣知,各因子不相關(guān)。2、 實驗結(jié)果報告:由主成分得分系數(shù)矩陣知,我們通過主成分分析法,將9個評價指標轉(zhuǎn)化為具有典型經(jīng)濟價值的2個綜合評價指標。3、 實驗總結(jié): 通過本次實驗,了解SPSS軟件的運行管理

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論