主成分分析PCA含有詳細推導(dǎo)過程以和案例分析matlab版_第1頁
主成分分析PCA含有詳細推導(dǎo)過程以和案例分析matlab版_第2頁
主成分分析PCA含有詳細推導(dǎo)過程以和案例分析matlab版_第3頁
主成分分析PCA含有詳細推導(dǎo)過程以和案例分析matlab版_第4頁
主成分分析PCA含有詳細推導(dǎo)過程以和案例分析matlab版_第5頁
已閱讀5頁,還剩6頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、主成分分析法(PCA)在實際問題中.我們經(jīng)常會遇到研究多個變量的問題.而且在多數(shù)情況下.多個變量之間常常存在一定的相關(guān)性。由于變量個數(shù)較多再加上變量之間的相關(guān)性.勢必增加了分析問題的復(fù)雜性。如何從多個變量中綜合為少數(shù)幾個代表性變量.既能夠代表原始變量的絕大多數(shù)信息.又互不相關(guān).并且在新的綜合變量基礎(chǔ)上.可以進一步的統(tǒng)計分析.這時就需要進行主成分分析。I.主成分分析法(PCA)模型(一)主成分分析的基本思想主成分分析是采取一種數(shù)學(xué)降維的方法.找出幾個綜合變量來代替原來眾多的變量.使這些綜合變量能盡可能地代表原來變量的信息量.而且彼此之間互不相關(guān)。這種將把多個變量化為少數(shù)幾個互相無關(guān)的綜合變量的統(tǒng)

2、計分析方法就叫做主成分分析或主分量分析。主成分分析所要做的就是設(shè)法將原來眾多具有一定相關(guān)性的變量.重新組合為一組新的相互無關(guān)的綜合變量來代替原來變量。通常.數(shù)學(xué)上的處理方法就是將原來的變量做線性組合.作為新的綜合變量.但是這種組合如果不加以限制.則可以有很多.應(yīng)該如何選擇呢?如果將選取的第一個線性組合即第一個綜合變量記為F1.自然希望它盡可能多地反映原來變量的信息.這里“信息”用方差來測量.即希望Var(F1)越大.表示F1包含的信息越多。因此在所有的線性組合中所選取的Fi應(yīng)該是方差最大的.故稱Fi為第一主成分。如果第一主成分不足以代表原來p個變量白M言息.再考慮選取F2即第二個線性組合.為了

3、有效地反映原來p個主成分。信息.Fi已有的信息就不需要再出現(xiàn)在F2中.用數(shù)學(xué)語言表達就是要求Cov(Fi下2)=0.稱F2為第二主成分.依此類推可以構(gòu)造出第三、四第(二)主成分分析的數(shù)學(xué)模型對于一個小本資料.觀測p個變量Xi,X2,Xp.n個樣品的數(shù)據(jù)資料陣為:XiiX21Xi2X22、XipX2p=Xi,X2,XpxniXn2Xij,x2j._其中:Xj=.j=1,2,pXnj)Fi二ailX1主成分分析就是將p個觀測變量綜合成為p個新的變量(綜合變量).即-ai2X2一.aipXpa22X2a2PxpFp=apiXiap2X2appXp簡寫為:Fj=jiXi.二.j2X2.一.二jpXpj

4、=i,2,p要求模型滿足以下條件:Fi,Fj互不相關(guān)(i盧j.i,j=i,2,,p)Fi的方差大于F2的方差大于F3的方差.依次類推222akiak2-akp=ik=i,2,p.于是.稱Fi為第一主成分.F2為第二主成分.依此類推.有第p個主成分。主成分又叫主分量。這里aj我們稱為主成分系數(shù)。上述模型可用矩陣表示為:F=AX.其中XiX2aipa2PappjA稱為主成分系數(shù)矩陣。(三)主成分分析的幾何解釋假設(shè)有n個樣品.每個樣品有二個變量.即在二維空間中討論主成分的幾何意義。設(shè)n個將坐標系進行正交旋轉(zhuǎn)一個角度6.使其橢圓長軸方向取坐標y1.標.旋轉(zhuǎn)公式為yij=Xijcos0+X2jsin8y

5、2j=Xij(sinH)+X2jcos寫成矩陣形式為:Y=y11ILy21cos1-sin?j=1,2ny12y1ny22y2n_sinuX11X12X1ncOsg幻1X22X2n其中U為坐標旋轉(zhuǎn)變換矩陣.它是正交矩陣.即有U=Usin2日+cse=1。經(jīng)過旋轉(zhuǎn)變換后.得到下圖的新坐標:在橢圓短軸方向取坐IX,UU=I.即滿足圖2主成分幾何解釋圖新坐標y1_y2有如下性質(zhì):(1)n個點的坐標y1和y2的相關(guān)幾乎為零。(2)二維平面上的n個點的方差大部分都歸結(jié)為yi軸上.而y軸上的方差較小。yi和y稱為原始變量xi和X2的綜合變量。由于n個點在y1軸上的方差最大.因而將二維空間的點用在yi軸上的

6、一維綜合變量來代替.所損失的信息量最小.由此稱yi軸為第一主成分.y2軸與y1軸正交.有較小的方差.稱它為第二主成分。II.主成分分析法(PCA雎導(dǎo)一、主成分的導(dǎo)出根據(jù)主成分分析的數(shù)學(xué)模型的定義.要進行主成分分析.就需要根據(jù)原始數(shù)據(jù).以及模型的三個條件的要求.如何求出主成分系數(shù).以便得到主成分模型。這就是導(dǎo)出主成分所要解決的問題。i、根據(jù)主成分數(shù)學(xué)模型的條件要求主成分之間互不相關(guān).為此主成分之間的協(xié)差陣應(yīng)該是一個對角陣。即.對于主成分.F=AX其協(xié)差陣應(yīng)為.Var(F)=Var(AX)=(AX)(AX)=AXXAApJ2、設(shè)原始數(shù)據(jù)的協(xié)方差陣為V.如果原始數(shù)據(jù)進行了標準化處理后則協(xié)方差陣等于相

7、關(guān)矩陣.即有.V=R=XX3、再由主成分數(shù)學(xué)模型條件和正交矩陣的性質(zhì).若能夠滿足條件最好要求A為正交矩陣.即滿足AA=I于是.將原始數(shù)據(jù)的協(xié)方差代入主成分的協(xié)差陣公式得Var(F)=AXXA=ARAARA=上RAA上展開上式得Firri2ripaiia2i上apir2i!r22r2P!ai2aa229aap2a1rpirp2rppjkaipa2Pw-appaiia2iapi%ai2ia22ap2a*八2+kaipa2Papp/%.p/.這里只根據(jù)第一列得出的方程為:展開等式兩邊.根據(jù)矩陣相等的性質(zhì)rii-ian.ri2a優(yōu)小2住=02iaii(r22-i)ai22paip=0rpiaii,rp

8、2a優(yōu).(rpp-,后作=00.即為了得到該齊次方程的解.要求其系數(shù)矩陣行列式為rll一1ri2ripriprp2rpp-11顯然.是相關(guān)系數(shù)矩陣的特征值ai=aii,ai2,aip)是相應(yīng)的特征向量。根據(jù)第二列、第三列等可以得到類似的方程%是方程R浦=0的p個根.為特征方程的特征根.aj是其特征向量的分量。4、下面再證明主成分的方差是依次遞減設(shè)相關(guān)系數(shù)矩陣R的p個特征卞為之至之九p.相應(yīng)的特征向量為aj相對于Fi的方差為aiiai2-aipAxa2ia22-a2Pa2A=aaa!1apiap2-appjVar(Fi)=aiXXai=aiRai=%同樣有:Var(Fi)=九.即主成分的方差依次

9、遞減。并且協(xié)方差為:Cov(aiX,ajX)=aiRajpaiC?a:.a?)ajp=%(aia:.)(a;.aj)=0,i二j綜上所述.根據(jù)證明有.主成分分析中的主成分協(xié)方差應(yīng)該是對角矩陣.其對角線上的元素恰好是原始數(shù)據(jù)相關(guān)矩陣的特征值.而主成分系數(shù)矩陣A的元素則是原始數(shù)據(jù)相關(guān)矩陣特征值相應(yīng)的特征向量。矩陣A是一一個正交矩陣。是.變量(x1,x2,xDp)經(jīng)過變換后得到新的綜合變量Fi=anXia12X2aipXpF2=a2iXi-a22X2a2Pxp新的隨機變量彼此不相關(guān)Fp=apiX-ap2X2appXp.且方差依次遞減。二、主成分分析的計算步驟假設(shè)樣本觀測數(shù)據(jù)矩陣為:XiiXi2Xip

10、X2iX22X2p-aaa:XniXn2Xnp/第一步:對原始數(shù)據(jù)進行標準化處理。*xjxj-xjva)(i=1,2,n;j=1,2,p)其中xjnxjnyvar(xj)=n-(xij-xj)i1(j=1,2,p)第二步:計算樣本相關(guān)系數(shù)矩陣。r12rp2r1pp為方便.假定原始數(shù)據(jù)標準化后仍用X表示.則經(jīng)標準化處理后的數(shù)據(jù)的相關(guān)系數(shù)為rijnyxtixtjt4(i,j=12,p)第三步:用雅克比方法求相關(guān)系數(shù)矩陣R的特征值(%,%和相應(yīng)的特征向量pai第四步:選擇重要的主成分.并寫出主成分表達式。主成分分析可以得到p個主成分.但是.由于各個主成分的方差是遞減的.包含的信息量也是遞減的.所以實

11、際分析時.一般不是選取p個主成分.而是根據(jù)各個主成分累計貢獻率的大小選取前k個主成分.這里貢獻率就是指某個主成分的方差占全部方差的比重.實際也就是某個特征值占全部特征值合計的比重。即貢獻率=ip-主成分個數(shù)k的選取.主要根85%上.這樣才能保證綜合變i1貢獻率越大.說明該主成分所包含的原始變量的信息越強。據(jù)主成分的累積貢獻率來決定.即一般要求累計貢獻率達到量能包括原始變量的絕大多數(shù)信息。另外.在實際應(yīng)用中.選擇了重要的主成分后.還要注意主成分實際含義解釋。主成分分析中一個很關(guān)鍵的問題是如何給主成分賦予新的意義.給出合理的解釋。一般而言.這個解釋是根據(jù)主成分表達式的系數(shù)結(jié)合定性分析來進行的。主成

12、分是原來變量的線性組合.在這個線性組合中個變量的系數(shù)有大有小.有正有負.有的大小相當(dāng).因而不能簡單地認為這個主成分是某個原變量的屬性的作用.線性組合中各變量系數(shù)的絕對值大者表明該主成分主要綜合了絕對值大的變量.有幾個變量系數(shù)大小相當(dāng)時.應(yīng)認為這一主成分是這幾個變量的總和.這幾個變量綜合在一起應(yīng)賦予怎樣的實際意義.這要結(jié)合具體實際問題和專業(yè).給出恰當(dāng)?shù)慕忉?進而才能達到深刻分析的目的。第五步:計算主成分得分。111112F21F2233F”根據(jù)標準化的原始數(shù)據(jù).按照各個樣品.分別代入主成分表達式.就可以得到各主成分下的各個樣品的新數(shù)據(jù).即為主成分得分。具體形式可如下。F2kaFnkJ第六步:依據(jù)

13、主成分得分的數(shù)據(jù).則可以進行進一步的統(tǒng)計分析。其中.常見的應(yīng)用有主成份回歸.變量子集合的選擇.綜合評價等。III.主成分分析法(PCA)案例為了系統(tǒng)的分析某IT類企業(yè)的經(jīng)濟效益.選擇統(tǒng)計了8個不同的利潤指標.15家企業(yè)關(guān)于這8個指標的統(tǒng)計數(shù)據(jù)如下所示.試對此進行主成分分析.并進行相關(guān)評價。量企業(yè)序號12345凈產(chǎn)值固定資總產(chǎn)值銷售收產(chǎn)品成物耗人均利流動利潤率產(chǎn)利潤利潤率入利潤本利潤利潤潤率資金(%率(%(%率(%率(%)率(%)(利潤Xi1Xi2Xi3Xi4Xi5Xi6/人)率(%)Xi7Xi840.424.77.26.18.38.72.44220.025.012.711.211.012.92

14、0.23.5429.113.23.33.94.34.45.50.5783.622.36.75.63.76.07.40.1767.334.311.87.17.18.08.91.72627.515家企業(yè)的利潤指標的統(tǒng)計數(shù)據(jù)635.612.516.416.722.829.33.01726.6722.07.89.910.212.617.60.84710.6848.413.410.99.910.913.91.77217.8940.619.119.819.029.739.62.44935.81024.88.09.88.911.916.20.78913.71112.59.74.24.24.66.50.874

15、3.9121.80.60.70.70.81.10.0561.01332.313.99.48.39.813.32.12617.11438.59.111.39.512.216.41.32711.61526.210.15.615.67.730.10.12625.9解:根據(jù)題目中的數(shù)據(jù).利用matlab軟件編程求解.對問題進行主成分分析求解結(jié)果如下:1.標準化結(jié)果如下:1.00232.3473-0.3410-0.5714-0.3496-0.65740.90300.4483-0.22860.30720.47740.38960.28350.43091.9108-0.6218-1.1718-1.2909-1

16、.0162-0.9244-0.8863-0.9603-0.8049-1.1617-0.4444-0.7129-0.6684-1.0421-0.6661-0.7805-1.1732-0.79850.51480.1541-0.3615-0.3752-0.3909-0.63850.24701.18460.61870.27321.54141.50751.64601.29221.42981.0963-0.4684-0.52590.21140.23270.24220.1849-0.5584-0.47451.64180.42620.41600.17390.0083-0.16530.28910.23231.0

17、1831.39522.23711.95862.59562.26700.90941.9995-0.2446-0.49190.1910-0.02220.14590.0524-0.6115-0.1702-1.2277-0.2029-0.9549-0.9440-0.8588-0.8656-0.5337-1.1323-2.0830-1.7500-1.6710-1.6304-1.3818-1.3767-1.2831-1.41700.35490.51120.1091-0.1399-0.1431-0.22210.61340.16360.8505-0.30490.49790.09540.18720.0713-0

18、.1186-0.3763-0.1327-0.1349-0.66841.2918-0.43211.3679-1.21901.02762.相關(guān)系數(shù)矩陣:std=1.00000.76300.70170.58680.59590.48960.59730.73000.76301.00000.55040.46670.51580.41960.70460.67170.70170.55041.00000.84070.97600.81610.69410.68250.58680.46670.84071.00000.86670.98230.49260.79380.59590.51580.97600.86671.0000

19、0.86670.62600.71530.48960.41960.81610.98230.86671.00000.42160.75050.59730.70460.69410.49260.62600.42161.00000.46560.73000.67170.68250.79380.71530.75050.46561.00003 .特征向量(vec)及特征值(val)vec=0.21820.1370-0.27810.22830.67270.31150.37880.3334-0.0745-0.1102-0.2276-0.5733-0.40460.18710.55620.3063-0.7186-0.0

20、5200.1186-0.22400.3874-0.3182-0.11480.39000.0386-0.6914-0.38080.2788-0.15470.0888-0.35080.37800.6385-0.06600.3451-0.41580.1518-0.2715-0.22540.3853-0.01230.6864-0.3738-0.0066-0.25540.0696-0.43370.36160.06750.10570.07160.5033-0.2816-0.61890.41470.3026-0.12860.04130.66920.2552-0.20550.5452-0.00310.3596

21、val=0.0027000000000.0060000000000.1369000000000.1456000000000.2858000000000.5896000000001.0972000000005.7361特征根從大到小排序:5.736141.097230.5896340.2857910.145620.1368830.005986810.002710844 .根據(jù)累計貢獻率.假設(shè)閾值為90%.選出主成分.計算如下:貢獻率:newrate=0.71700.13720.07370.03570.01820.01710.00070.0003主成分數(shù):3主成分載荷:0.79850.39680.23920.73360.

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論