主成分分析外文文獻_第1頁
主成分分析外文文獻_第2頁
主成分分析外文文獻_第3頁
主成分分析外文文獻_第4頁
主成分分析外文文獻_第5頁
已閱讀5頁,還剩2頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、 軟件第二次作業(yè) 基于軟件的主成分分析 學院:應(yīng)用科學學院 班級:統(tǒng)計11-1 姓名: 學號: 1、 主成分分析基本原理設(shè)對于某個問題的研究涉及到個指標,分別用表示,這個指標構(gòu)成的維隨機向量設(shè)為,對進行線性變換,可以通過線性組合的方式形成新的綜合變量,這里用表示。新的綜合變量和原來變量之間的關(guān)系可以用下面的公式表示: 上式中的線性組合可以是任意的,由不同的線性變換得到的綜合變量的統(tǒng)計特征也是不一樣的。為了使綜合變量可以比較好的描述原變量的特征,應(yīng)該要讓的方差盡可能的大,并且之間相互獨立。為此,上式要滿足以下的約束:1) ;2) 和互不相關(guān);3) 是所有滿足約束1的線性組合中方差最大的,是線性組

2、合中方差第二大的,其他的依次類推。以上三條約束確定的分別為稱為原始變量的第一,第二,第個主成分。各主成分對變量的總方差貢獻率的大小不同,在實際的研究過程中,一般挑選前面幾個方差最大的主成分(累計方差貢獻率在80%到90%之間)來分析問題,從而達到降低問題復(fù)雜程度,抓住主要矛盾矛盾的目的。二、主成分分析過程一般而言,用主成分分析對問題進行分析時,主要包括以下的基本過程:1) 為了消除不同變量在數(shù)量級和量綱上的差異,將收集的原始數(shù)據(jù)進行標準化;2) 求標準化后數(shù)據(jù)的相關(guān)矩陣;3) 求相關(guān)矩陣的特征值和特征向量;4) 根據(jù)特征值計算方差貢獻率大于80%的原則,確定主成分為;5) 構(gòu)建綜合評價函數(shù),其

3、數(shù)學形式為: 6) 根據(jù)綜合評價函數(shù)計算總得分,然后排序并評價。 三、R在主成分分析中的應(yīng)用為了說明R軟件是如何應(yīng)用于因子分析中的,現(xiàn)以2004年城市綜合發(fā)展水平為例。首先收集能反映我國2008年城市綜合發(fā)展水平的12個指標和數(shù)據(jù),這些指標分包括8個社會經(jīng)濟指標:非農(nóng)業(yè)人口數(shù)(萬人)(),工業(yè)總產(chǎn)值(萬元)(),貨運總量(萬噸)(),批發(fā)零售住宿餐飲業(yè)從業(yè)人數(shù)(萬人)(),地方政府預(yù)算內(nèi)收入(萬元)(),城鄉(xiāng)居民年底儲蓄余額(萬元)(),在崗職工人數(shù)(萬人)(),在崗職工工資總額(萬元)(),4個城市公共設(shè)施水平的指標:人均居住面積(平方米)(),每萬人擁有公共汽車數(shù)(輛)(),人均擁有鋪裝道

4、路面積(平方米)(),人均公共綠地面積(平方米)()。為了讓R軟件可以順利讀取數(shù)據(jù),先將原數(shù)據(jù)整理到文本文檔中,保存,并命名為sj。打開R軟件,在其命令板中輸入下列的命令:> sj<-read.table("sj.txt") #讀取數(shù)據(jù)> names(sj)=c("非農(nóng)業(yè)人口數(shù)","工業(yè)總產(chǎn)值","貨運總量","批發(fā)零售住宿餐飲業(yè)從業(yè)人數(shù)","地方政府預(yù)算內(nèi)收入","城鄉(xiāng)居民年底儲蓄余額","在崗職工人數(shù)","

5、;在崗職工工資總額","人均居住面積","每萬人擁有公共汽車數(shù)","人均擁有鋪裝道路面積","人均公共綠地面積")>sjt<-scale(sj)#將數(shù)據(jù)進行標準化> door<=cor(sjt)#求相關(guān)矩陣> dcor#輸出的結(jié)果不是很清晰,故我們對結(jié)果做改善> symnum(dcor)#改善相關(guān)矩陣的結(jié)果 xb7 xb9 xbb xc5 xb5 xb3 在崗職工xc8非農(nóng)業(yè)人口數(shù) 1 工業(yè)總產(chǎn)值 , 1 貨運總量 + , 1 批發(fā)零售住宿餐飲業(yè)從業(yè)人數(shù) , . . 1

6、 地方政府預(yù)算內(nèi)收入 , * + , 1 城鄉(xiāng)居民年底儲蓄余額 . . . + . 1 在崗職工人數(shù) , , , , 1 在崗職工工資總額 + , , + * + . 人均居住面積 每萬人擁有公共汽車數(shù) . 人均擁有鋪裝道路面積 . 人均公共綠地面積 . . 在崗職工xb9 人均xbe xc3 人均xd3 人均xb9非農(nóng)業(yè)人口數(shù) 工業(yè)總產(chǎn)值 貨運總量 批發(fā)零售住宿餐飲業(yè)從業(yè)人數(shù) 地方政府預(yù)算內(nèi)收入 城鄉(xiāng)居民年底儲蓄余額 在崗職工人數(shù) 在崗職工工資總額 1 人均居住面積 1 每萬人擁有公共汽車數(shù) . 1 人均擁有鋪裝道路面積 . * 1 人均公共綠地面積 . , 1 attr(,"le

7、gend")1 0 0.3 . 0.6 , 0.8 + 0.9 * 0.95 B 1從輸出的改善后的相關(guān)矩陣,我們可以看出原始變量之間有較強的相關(guān)性,進行因子分析是合適的。> deig<-eigen(dcor)#求相關(guān)矩陣的特征值個特征向量> deig$values#輸出特征值 1 5.835828048 2.631830267 1.571951260 0.795023759 0.498043334 0.342064539 0.131256401 0.083296816 0.066330219 0.030039927 0.011617891 0.002717538s

8、creeplot(psjt,type="line",main='碎石圖',lwd=2)#對數(shù)據(jù)做碎石圖從碎石圖上可以看出,前三個因子波動幅度較大說明他們攜帶的信息較多,而三個因子以后幅度明顯較緩,故提取三個因子最為合適,下面驗算一下前三個主成分的累計方差貢獻率是否超過80%。> psjt<-princomp(sjt,cor=T)#對數(shù)據(jù)做主成分分析> psjt#輸出結(jié)果,進行觀察Call:princomp(x = sjt, cor = T)Standard deviations: Comp.1 Comp.2 Comp.3 Comp.4 Co

9、mp.5 Comp.6 Comp.7 2.41574586 1.62229167 1.25377480 0.89164105 0.70572185 0.58486284 0.36229325 Comp.8 Comp.9 Comp.10 Comp.11 Comp.12 0.28861188 0.25754654 0.17332030 0.10778632 0.05213002 12 variables and 35 observations.> summary(psjt)#對主成分分析做描述性統(tǒng)計Importance of components: Comp.1 Comp.2 Comp.3

10、Comp.4 Comp.5Standard deviation 2.415746 1.6222917 1.2537748 0.89164105 0.70572185Proportion of Variance 0.486319 0.2193192 0.1309959 0.06625198 0.04150361Cumulative Proportion 0.486319 0.7056382 0.8366341 0.90288611 0.94438972 Comp.6 Comp.7 Comp.8 Comp.9Standard deviation 0.58486284 0.36229325 0.28

11、8611877 0.257546538Proportion of Variance 0.02850538 0.01093803 0.006941401 0.005527518Cumulative Proportion 0.97289510 0.98383313 0.990774535 0.996302054 Comp.10 Comp.11 Comp.12Standard deviation 0.173320302 0.1077863208 0.0521300153Proportion of Variance 0.002503327 0.0009681576 0.0002264615Cumula

12、tive Proportion 0.998805381 0.9997735385 1.0000000000從上述結(jié)果中,我們可以看到前三個因子的累計方差貢獻率達到0.8366341,已超過80%,故我們提取前三個因子較為合適。> sum(deig$values1:3)/12#求前三個主成分的累計方差貢獻率1 0.8366341> psjt$loadings,1:3#輸出前三個主成分的載荷矩陣 Comp.1 Comp.2 Comp.3非農(nóng)業(yè)人口數(shù) -0.36317564 -0.237167376 -0.10576236工業(yè)總產(chǎn)值 -0.36269442 0.111161484 -0.

13、23816810貨運總量 -0.34957248 -0.176536929 -0.26818412批發(fā)零售住宿餐飲業(yè)從業(yè)人數(shù) -0.30469488 -0.120886589 0.45890060地方政府預(yù)算內(nèi)收入 -0.39056479 0.002106990 -0.07213339城鄉(xiāng)居民年底儲蓄余額 -0.29892092 0.001305779 0.46593112在崗職工人數(shù) -0.28980674 -0.088277781 -0.42805805在崗職工工資總額 -0.39319972 -0.043594016 0.21017732人均居住面積 -0.03667182 0.2697

14、31355 -0.40796468每萬人擁有公共汽車數(shù) -0.10284550 0.551653603 0.04633255人均擁有鋪裝道路面積 -0.11984753 0.563195991 -0.01790749人均公共綠地面積 -0.12141805 0.426204095 0.17598865 從上面輸出的結(jié)果可以看到,公共因子在(非農(nóng)業(yè)人口數(shù)),(工業(yè)總產(chǎn)值),(貨運總量),(批發(fā)零售住宿餐飲業(yè)從業(yè)人數(shù)),(地方政府預(yù)算內(nèi)收入),(城鄉(xiāng)居民年底儲蓄余額),(在崗職工人數(shù)),(在崗職工工資總額)上的載荷較大,因而為反映城市規(guī)模及經(jīng)濟發(fā)展水平的公共因子,在這個因子上的得分越高,城市經(jīng)濟發(fā)

15、展水平越高,城市規(guī)模越大。公共因子由于在(每萬人擁有公共汽車數(shù)),(人均擁有鋪裝道路面積),(人均公共綠的面積)上的載荷較大,是反映城市基礎(chǔ)設(shè)施水平的公共因子。公共因子在(批發(fā)零售住宿餐飲業(yè)從業(yè)人數(shù)),(城鄉(xiāng)居民年底儲蓄余額),(在崗職工人數(shù)),(人均居住面積)上有較大的載荷,是反映城市居民就業(yè)收入及住房條件的公共因子。> deig$values1/12;deig$values2/12;deig$values3/12;#計算三個主成分的系數(shù)1 0.4863191 0.21931921 0.1309959從上述結(jié)果,我們可以得出,城市綜合發(fā)展水平綜合得分函數(shù)為:> s=psjt$sc

16、ores,1:3#輸出前三個主成分的得分> c=s1:35,1*0.486319+s1:35,2*0.2193192+s1:35,2*0.1309959#計算綜合得分>cbind(s,c)#輸出綜合得分信息 Comp.1 Comp.2 Comp.3 c 1, -7.3063539 -1.59285912 5.3889398229 -4.11122135 2, -2.4208794 -0.98264856 -1.3134419871 -1.52155625 3, 0.6608709 -0.23440121 -0.2788203689 0.23927978 4, 1.1885022 -

17、0.56861421 -0.0238274380 0.37879708 5, 2.1697050 0.18341057 0.0219492201 1.11942024 6, 0.1046679 -0.87539161 0.3259247466 -0.25576092 7, 0.7012658 -0.62369653 0.2096171095 0.12254858 8, -0.3098989 -1.22257969 0.4772337230 -0.57899782 9, -8.3026537 -1.13042579 -3.8794314665 -4.4337434710, -0.5688471

18、0.92492891 0.4041626697 0.0473753911, -0.1877451 -0.35667567 -0.1031199675 -0.2162528912, 1.6854470 0.83773890 0.1893668436 1.1131374813, 0.9985722 0.12275853 -0.1731356205 0.5286287814, 1.7239800 -0.12368781 0.1563412468 0.7950745315, 0.5619209 0.09131037 -0.6760774028 0.3052602316, 0.8463146 0.011

19、34279 -0.3446086679 0.4155524217, -0.2787500 -1.21623560 -0.4287087536 -0.5616271418, 1.1624924 0.13896871 -0.0952202293 0.6140249619, -3.8691103 1.09028334 0.7416601900 -1.4996791320, 1.6513919 0.33014841 0.0009087863 0.9187592121, 2.2971475 0.29359265 -0.3438845664 1.2199964222, -0.5030572 -0.5459

20、3592 -0.4841206093 -0.4358958623, 1.5810234 0.25148044 0.6738822842 0.8569791324, 1.1432657 -0.59812286 0.4310515785 0.3464603825, 0.6051374 -1.16850189 0.4080433476 -0.1150540326, 1.7795905 -0.55262633 0.4853405467 0.6718553527, 2.4406328 -0.13032426 0.2822485028 1.1412715628, 2.2791390 0.22569185 0.7683433148 1.1874518629, 1.4869351 0.44873090 -0.3815166611 0.8803219830

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論