多元統(tǒng)計(jì)分析教案0.doc_第1頁
多元統(tǒng)計(jì)分析教案0.doc_第2頁
多元統(tǒng)計(jì)分析教案0.doc_第3頁
多元統(tǒng)計(jì)分析教案0.doc_第4頁
多元統(tǒng)計(jì)分析教案0.doc_第5頁
免費(fèi)預(yù)覽已結(jié)束,剩余17頁可下載查看

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

第一章 緒論1 多元統(tǒng)計(jì)分析的概念多元統(tǒng)計(jì)分析就是利用統(tǒng)計(jì)學(xué)和數(shù)學(xué)方法,將隱沒在大規(guī)模原始數(shù)據(jù)群體中的重要信息集中提煉出來,簡明扼要的把握系統(tǒng)的本質(zhì)特征,分析數(shù)據(jù)系統(tǒng)中的內(nèi)在規(guī)律性。利用多元分析中不同的方法還可以對研究對象進(jìn)行分類和簡化。多元分析是實(shí)現(xiàn)做定量分析的有效工具。2 多元分析的起源和發(fā)展1)1928年,Wishart發(fā)表 多元正態(tài)總體樣本協(xié)差陣的精確分布,是多元統(tǒng)計(jì)分析的開端;2)20世紀(jì)30年代多元分析在理論上得到迅速發(fā)展;3)20世紀(jì)40年代應(yīng)用于心理、 教育 、生物等方面;但由于計(jì)算量太大,其發(fā)展受到影響;4)50年代中期,由于電子計(jì)算機(jī)的出現(xiàn)和發(fā)展,使多元分析方法得到廣泛應(yīng)用;5)60年代由于新理論、新方法不斷涌現(xiàn)使多元分析方法的應(yīng)用范圍更加擴(kuò)大;6) 多元統(tǒng)計(jì)在我國發(fā)展較晚,70年代初在我國才受到各個(gè)領(lǐng)域的極大關(guān)注,應(yīng)用日益廣泛。3 多元分析能解決的實(shí)際問題 多元分析在工業(yè)、農(nóng)業(yè)、醫(yī)學(xué)、經(jīng)濟(jì)學(xué)、教育學(xué)、體育科學(xué)、生態(tài)學(xué)、地質(zhì)學(xué)、社會(huì)學(xué)、考古學(xué)、環(huán)境保護(hù)、軍事科學(xué)、甚至文學(xué)中都有廣泛應(yīng)用,足見其應(yīng)用的深度和廣度。4 多元分析課程講授的主要內(nèi)容本課程重點(diǎn)介紹多元分析中常用的六種方法: 聚類分析;判別分析;主成分分析;因子分析;對應(yīng)分析;典型相關(guān)分析我們這門課重點(diǎn)在于應(yīng)用,參考課本中的公式推導(dǎo)為次要內(nèi)容,大致了解即可,對每一種分析方法我們要清楚掌握它解決哪類問題、前提條件和局限性,以及它們相互之間的區(qū)別與聯(lián)系;會(huì)用SAS、SPSS等數(shù)學(xué)軟件實(shí)現(xiàn)上述過程,對所研究的問題能做出合理推斷和科學(xué)評價(jià)。 5 原始資料陣及其標(biāo)準(zhǔn)化1)原始資料陣:設(shè)有個(gè)樣品,項(xiàng)指標(biāo)(變量),組成矩陣,2)第項(xiàng)指標(biāo)均值,3)指標(biāo)的協(xié)方差陣,其中4)原始指標(biāo)(變量)的標(biāo)準(zhǔn)化第二章 聚類分析1 什么是聚類分析1.1 聚類分析的概念聚類分析又稱群分析、點(diǎn)群分析,是定量研究樣品或指標(biāo)分類問題的一種多元統(tǒng)計(jì)方法。其中類指相似元素的集合。1.2 聚類分析的基本思想認(rèn)為所研究的樣品或指標(biāo)之間存在著程度不同的相似性,根據(jù)一批樣品的多個(gè)觀測指標(biāo),找出能夠度量樣品或變量之間相似程度的統(tǒng)計(jì)量,并以此為依據(jù),采用某種聚類法,將所有的樣品或變量分別聚合到不同的類中,使同一類中的個(gè)體有較大的相似性,不同類中的個(gè)體差異較大。2 距離與相似系數(shù)聚類分析的目的是將研究對象進(jìn)行分類。它是在事先不知類別的情況下對數(shù)據(jù)進(jìn)行分類的分析方法。分類的依據(jù)有兩類:距離與相似系數(shù)。2.1 變量的類型1)間隔尺度變量:連續(xù)量,如速度,重量等。2)間隔尺度變量:等級,有次序關(guān)系,如一級品、二級品等。3)間隔尺度變量:無等級也無數(shù)量關(guān)系,如性別,產(chǎn)品型號(hào)。2.2 常用的距離有以下幾種:1)明考夫斯基距離:2)絕對距離:3)歐氏距離:4)切比雪夫距離:5)馬氏距離:,其中,為協(xié)方差陣6)蘭氏距離:2.3 常用的相似系數(shù)有以下幾種:1)夾角余弦:2)相關(guān)系數(shù):聚類分析根據(jù)所用方法不同可分為系統(tǒng)聚類法、有序樣品聚類法、動(dòng)態(tài)聚類法、模糊聚類法等等;根據(jù)分類對象不同又分為對樣品聚類(又稱Q型聚類分析)以及對變量進(jìn)行聚類(又稱R型聚類分析)。對前者聚類多用距離,而后者聚類時(shí)多用相似系數(shù)。3 系統(tǒng)聚類法3.1 系統(tǒng)聚類法的基本思路就近原則:首先,將n個(gè)樣品看成n類,定義各樣品之間的距離(此時(shí)其亦為類間距離);其次,按照某種原則將最接近的兩類合并為一個(gè)新類,于是得到n-1類,定義并計(jì)算各類間距離,然后再從中找出最接近的兩類合并成一個(gè)新類,重復(fù)以上步驟,直到全部樣品合并成一類為止,將上述合并過程畫成聚類譜系圖,據(jù)此圖可將全部樣品分類。3.2 八種系統(tǒng)聚類方法正如樣品之間的距離可以有不同的定義方法一樣,類與類之間的距離也有各種定義。類與類之間用不同的方法定義距離,就產(chǎn)生了不同的系統(tǒng)聚類方法,系統(tǒng)聚類方法包括最短距離法最長距離法類平均法重心法WARD法等八種不同的方法,但這些方法聚類的步驟是完全一樣的。當(dāng)采用歐氏距離時(shí),八種并類方法可歸結(jié)為統(tǒng)一的遞推公式。設(shè),,1)最短距離法:;2)最長距離法:;3)類平均法:;4)WARD法(離差平方和):;3.3 譜系圖及利用譜系圖進(jìn)行分類根據(jù)譜系圖確定分類個(gè)數(shù)的準(zhǔn)則:Bemirmen于1972年提出了應(yīng)根據(jù)研究的目的來確定適當(dāng)?shù)姆诸惙椒?,并提出了一些根?jù)譜系圖來分析的準(zhǔn)則。準(zhǔn)則A:各類重心之間的距離必須很大;準(zhǔn)則B:確定的類中,各類所包含的元素都不要太多;準(zhǔn)則C:類的個(gè)數(shù)必須符合實(shí)用目的;準(zhǔn)則D:若采用幾種不同的聚類方法處理,則在各自的聚類圖中應(yīng)發(fā)現(xiàn)相同的類。應(yīng)該指出,關(guān)于類的個(gè)數(shù)如何確定的問題,至今還沒有一個(gè)合適的標(biāo)準(zhǔn),也就是說對任何觀測數(shù)據(jù)都沒有唯一正確的分類方法。3.4 分類個(gè)數(shù)的確定(統(tǒng)計(jì)量法)總離差平方和:,組內(nèi)離差平方和:,統(tǒng)計(jì)量;,越大聚類效果越好。當(dāng)在第類時(shí)迅速下降時(shí),確定為類。第三章 判別分析1 什么是判別分析1.1 判別分析的基本思想判別分析是用于判斷個(gè)體所屬類別的一種統(tǒng)計(jì)方法。根據(jù)已知觀測對象的分類和若干表明觀測對象特征的變量值,建立判別函數(shù)和判別準(zhǔn)則,并使其錯(cuò)判率最小,對于一個(gè)未知分類的樣本,將所測指標(biāo)代入判別方程,從而判斷它來自哪個(gè)總體。當(dāng)然,這種準(zhǔn)則在某種意義上是最優(yōu)的,如錯(cuò)判概率最小或錯(cuò)判損失最小等。其前提是總體均值有顯著差異,否則錯(cuò)分率大,判別分析無意義。1.2 判別分析與聚類分析的關(guān)系1.2.1區(qū)別判別分析是在研究對象分類已知的情況下,根據(jù)樣本數(shù)據(jù)推導(dǎo)出一個(gè)或一組判別函數(shù),同時(shí)指定一種判別準(zhǔn)則,用于確定待判樣品的所屬類別,使錯(cuò)判率最小。 聚類分析預(yù)先不知道分類,它要解決的問題,正是對給定的未知分類的樣品進(jìn)行分類,它是一種純統(tǒng)計(jì)技術(shù),只要有多指標(biāo)存在,就能根據(jù)各觀測的變量值近似程度排序,只是描述性的統(tǒng)計(jì),而判別分析能對未知分類觀測判別分類,帶有預(yù)測性質(zhì)。1.2.2 聯(lián)系兩者都是研究分類問題,兩種方法往往聯(lián)合起來使用。樣品聚類是進(jìn)行判別分析之前的必要工作,根據(jù)樣品聚類的結(jié)果進(jìn)行判別分析。2 距離判別法2.1 距離判別法的基本思想如果事先已有m類的先驗(yàn)知識(shí),將每一類視為一個(gè)總體,計(jì)算各樣品與各總體之間的距離,將各樣品分別歸入與其距離最近的類。2.2 兩總體距離判別設(shè)有兩個(gè)總體、為一樣品,定義到兩總體的距離分別為和判別準(zhǔn)則為:判別準(zhǔn)則的直觀表述即樣品離哪個(gè)總體最近,則判該樣品屬于哪個(gè)總體。與上述準(zhǔn)則等價(jià)的想法,就是算出樣品到各總體間距離的差,根據(jù)差值來判斷樣品的歸屬。2.3 多總體距離判別設(shè)有個(gè)總體(組)、它們的均值它們的協(xié)方差陣(均為正定),為一樣品,到總體的距離.判別準(zhǔn)則為:分為協(xié)方差陣相同和協(xié)方差陣不同兩種情況,它們的判別函數(shù)有差異,而判別準(zhǔn)則無差異。3費(fèi)歇判別法3.1 費(fèi)歇判別法的基本思想從類總體中抽取具有個(gè)指標(biāo)的樣品的觀測數(shù)據(jù),的原始資料陣,.其第個(gè)樣品的觀測值借助于方差分析的思想構(gòu)造一個(gè)判別函數(shù),即,其中系數(shù),的確定原則是使兩組間的區(qū)別達(dá)到最大,而使兩組內(nèi)部的離差達(dá)到最小。組間離差平方和:,,其中和依次為組內(nèi)平均和總平均組內(nèi)離差平方和:,選擇,使,由代數(shù)知的最大值,就是取的最大特征值所對應(yīng)的特征向量.3.2 判別函數(shù)費(fèi)歇準(zhǔn)則下的線性判別函數(shù)其中,.的解應(yīng)為方程的特征根所對應(yīng)的(單位)特征向量.,累計(jì)貢獻(xiàn)率第一判別式第二判別式.第判別式3.3 判別準(zhǔn)則,其中為第判別式在的樣本均值.為到前判別式在的樣本均值的(歐氏)距離平方.3.4 兩個(gè)總體(組)的判別1)判別函數(shù),稱為聯(lián)合協(xié)方差陣。2)判別規(guī)則,其中;3.5 誤判概率與誤判代價(jià)來自而誤判為的概率記為;誤判概率的估計(jì),其中為的個(gè)數(shù);為把的元素誤判為的元素的個(gè)數(shù).來自而誤判為的代價(jià)記為;特別的.4 貝葉斯判別法4.1 貝葉斯判別法的基本思想貝葉斯判別法是源于貝葉斯統(tǒng)計(jì)思想的一種判別分析法 。這種方法先假定對研究對象已有一定的認(rèn)識(shí),這種認(rèn)識(shí)以先驗(yàn)概率來描述,然后取得一個(gè)樣本,用樣本來修正已有的認(rèn)識(shí),得到后驗(yàn)概率分布,利用后驗(yàn)概率分布進(jìn)行統(tǒng)計(jì)推斷。4.2 判別規(guī)則4.2.1 后驗(yàn)概率最大設(shè)有個(gè)總體(組),的概率密度;來自的(先驗(yàn))概率為.后驗(yàn)概率:判別準(zhǔn)則為:4.2.2 錯(cuò)判的平均損失最小判別準(zhǔn)則為:5 逐步判別法從模型中沒有任何變量開始,每一步都對模型進(jìn)行檢驗(yàn),將模型外對模型的判別貢獻(xiàn)大的變量加入到模型中去,同時(shí)也檢驗(yàn)在模型中是否存在由于新變量的引入而對判別貢獻(xiàn)不太顯著的變量,如果有,將其從模型中刪除,直到模型中的所有變量都符合引入模型的條件,而模型外的變量都不符合引入模型的條件為止,整個(gè)過程結(jié)束。整個(gè)篩選過程實(shí)質(zhì)就是作假設(shè)檢驗(yàn),通過檢驗(yàn)引入顯著性變量,剔除不顯著變量。反映在輸出結(jié)果上,通常可以用F值的大小作為變量引入模型的標(biāo)準(zhǔn),即一個(gè)變量是否能進(jìn)入模型主要取決于協(xié)方差分析的F檢驗(yàn)的顯著水平。逐步判別過程本身并不建立判別函數(shù),篩選出重要變量后,可用前面所講的方法建立判別函數(shù)和判別準(zhǔn)則,對新樣品進(jìn)行判別歸類。第四章 主成分分析1 主成分分析及基本思想1.1主成分分析的概念主成分分析的工作對象是樣本點(diǎn)*定量變量類型的數(shù)據(jù)表。主成分分析的工作目標(biāo),就是要對這種多變量的平面數(shù)據(jù)表進(jìn)行最佳綜合簡化。也就是說,要在力保數(shù)據(jù)信息丟失最少的原則下,對高維變量空間進(jìn)行降維處理。很顯然,在一個(gè)低維空間分析問題要比在一個(gè)高維空間中分析容易的多。英國統(tǒng)計(jì)學(xué)家斯格特(scott)在1961年對157個(gè)英國城鎮(zhèn)發(fā)展水平進(jìn)行調(diào)查時(shí),原始測量的變量有57個(gè)。通過主成分分析發(fā)現(xiàn),只需5個(gè)新的綜合變量(他們是原變量的線性組合),就可以95%的精度表示原數(shù)據(jù)的變異情況,這樣,對問題的研究一下子從57維降到了5維??梢韵胂?,在5維空間對系統(tǒng)進(jìn)行任何分析,都比在57維中更加快捷和有效。另一項(xiàng)十分著名的工作是美國的統(tǒng)計(jì)學(xué)家斯通(STONE)在1947年關(guān)于國民經(jīng)濟(jì)的研究。他曾利用美國1929-1938年各年的數(shù)據(jù),得到了17個(gè)反映國民收入與支出的變量要素,例如雇主補(bǔ)貼消費(fèi)資料和生產(chǎn)資料純公共支出凈增庫存股息利息和外貿(mào)平衡等。在進(jìn)行主成分分析后,竟以97.4%的精度,用3個(gè)新變量就取代了原17個(gè)變量。根據(jù)經(jīng)濟(jì)學(xué)知識(shí),斯通給這三個(gè)新變量分別命名為總收入總收入變化率和經(jīng)濟(jì)發(fā)展或衰退的趨勢。這樣,用3個(gè)綜合變量取代了原來的17個(gè)變量,問題得到了極大的簡化。一個(gè)多變量的高維系統(tǒng)如何進(jìn)行降維處理,可以用幾個(gè)最直觀的例子來說明主成分分析的工作思路。假設(shè)有一個(gè)二維數(shù)據(jù)表,表中數(shù)據(jù)點(diǎn)的分布如圖所示,重心為g,很顯然,在長軸方向上,數(shù)據(jù)的離差最大,因此,所反映的數(shù)據(jù)信息也最多,這個(gè)方向被稱為數(shù)據(jù)變異的最大方向。如果將原點(diǎn)平移到g,并且做旋轉(zhuǎn)變換,便得到一個(gè)正交坐標(biāo)系??梢钥闯觯羰÷远梯S,將數(shù)據(jù)點(diǎn)在長軸上投影,就會(huì)得到一個(gè)簡化的一維數(shù)據(jù)系統(tǒng)。因此,降維處理的核心思想,就是省卻變異不大的變量方向。又如,一個(gè)三維數(shù)據(jù)群點(diǎn)的分布是球形的,假若這個(gè)球是餅狀的,其變異較大的方向?yàn)閡1和u2,而u3方向的變異很小,即在該方向上各樣本點(diǎn)取值沒有很大的差別,就可以不考慮u3方向,三維空間的數(shù)據(jù)點(diǎn)就可以在二維平面圖上得以顯示。達(dá)到降維的目的。從中也可以看出主成分分析從幾何上看是尋找p維空間中橢球體的主軸問題。主成分分析是考察多個(gè)定量(數(shù)值)變量間相關(guān)性的一種多元統(tǒng)計(jì)方法。它是研究如何通過少數(shù)幾個(gè)主成分來解釋多變量的方差協(xié)方差結(jié)構(gòu),其功能在于簡化原有的變量群。具體地說,就是設(shè)法將原來多個(gè)指標(biāo)重新組合成一組新的相互無關(guān)的綜合指標(biāo),來代替原來指標(biāo),同時(shí)根據(jù)實(shí)際需要從中可取幾個(gè)較少的綜合指標(biāo)盡可能多的反映原來指標(biāo)的信息。這些綜合指標(biāo)是原來指標(biāo)的線性組合,我們稱之為主成分。通過這種方法可以降低數(shù)據(jù)維數(shù),消除原始變量之間的相關(guān)性以便進(jìn)一步利用其他方法對數(shù)據(jù)進(jìn)行分析。1.2 主成分分析的基本思想各指標(biāo)間既然有一定的相關(guān)性,就必然存在著起支配作用的共同因素,根據(jù)這一點(diǎn),通過對原始變量相關(guān)矩陣內(nèi)部結(jié)構(gòu)關(guān)系的研究,找出影響某一過程的幾個(gè)綜合指標(biāo),使綜合指標(biāo)為原來變量的線性組合,并使其盡可能多的反映原來指標(biāo)的信息,綜合指標(biāo)反映的信息量用其方差來表達(dá),即綜合指標(biāo)的方差越大,表示其包含的信息越多。在所有的線性組合中方差最大的稱為第一主成分,如果第一主成分不足以代表原來P個(gè)指標(biāo)的信息,再選取第二個(gè)線性組合作為第二主成分,第一主成分已有的信息就不需要再出現(xiàn)在第二主成分中,依次可造出P個(gè)主成分。這些主成分之間不僅不相關(guān),而且它們的方差依次遞減。在解決實(shí)際問題時(shí),一般不是取P個(gè)主成分,而是根據(jù)累計(jì)貢獻(xiàn)率的大小取前幾個(gè)最大主成分,既保留了原指標(biāo)大部分的信息,又達(dá)到降維的目的。2 主成分分析模型及幾何解釋2.1 主成分分析的數(shù)學(xué)模型設(shè)原始變量為考慮它們的線性變換(或),即其中滿足以下條件:(1)c;(2)即是的一切線性組合中方差最大者,2是方差次大者,依此類推,稱為的第一主成分,為第二主成分,為第個(gè)主成分。2.2 主成分的幾何意義主成分分析從幾何上看是尋找維空間中橢球體的主軸問題。3 主成分的計(jì)算3.1主成分的概念主成分其實(shí)就是原來指標(biāo)的一些特殊的線性組合,這些線性組合的系數(shù)就是原指標(biāo)協(xié)方差矩陣特征值所對應(yīng)的特征向量。3.2 主成分的確定用數(shù)學(xué)語言來描述即:設(shè),的特征根,所對應(yīng)的(單位)特征向量.則隨機(jī)向量的第個(gè)主成分,(),即為的第大特征根對應(yīng)的單位特征向量。求主成分關(guān)鍵在于求出協(xié)方差陣V的特征向量,但實(shí)際中V是未知的,一般可用S作為V的估計(jì)求出S的特征值和特征向量作為V的特征值和特征向量的估計(jì)。通常,在進(jìn)行數(shù)據(jù)分析之前,為了消除量綱影響要先將數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化,而對于標(biāo)準(zhǔn)化數(shù)據(jù)來說,其S與R相同,故在實(shí)際中常由樣本相關(guān)陣去估計(jì)V的特征值和特征向量。3.2 貢獻(xiàn)率和累計(jì)貢獻(xiàn)率第個(gè)主成分的貢獻(xiàn)率為在特征值總和中所占的比重,即;前個(gè)主成分的累計(jì)貢獻(xiàn)率為前個(gè)特征值在特征值總和中所占的比重,即。累計(jì)貢獻(xiàn)率表達(dá)了前個(gè)主成分對原始變量的信息提取率。通常取使得前個(gè)主成分的累計(jì)貢獻(xiàn)率達(dá)到70至80即可。4 主成分分析計(jì)算步驟1)將原始數(shù)據(jù)標(biāo)準(zhǔn)化,仍記為2)求相關(guān)系數(shù)陣,(或)3)求相關(guān)系數(shù)陣的特征根,所對應(yīng)的(單位)特征向量.4)求第個(gè)主成分即根據(jù)累計(jì)貢獻(xiàn)率確定個(gè)主成分個(gè)數(shù),選擇前個(gè)主成分第五章 因子分析1 因子分析及基本思想1.1 因子分析的概念因子分析是主成分分析的推廣和發(fā)展,它也是多元統(tǒng)計(jì)分析中降維的一種方法。因子分析從研究相關(guān)矩陣內(nèi)部的依賴關(guān)系出發(fā),把一些具有錯(cuò)綜復(fù)雜關(guān)系的變量歸結(jié)為少數(shù)幾個(gè)綜合因子,以再現(xiàn)原始變量和因子之間的相關(guān)關(guān)系。它是多元分析中一種降維和分析、簡化數(shù)據(jù)結(jié)構(gòu)的方法。因子分析的形成和早期發(fā)展一般認(rèn)為是從Charles Spearman在1904年發(fā)表的文章對智力測驗(yàn)得分進(jìn)行統(tǒng)計(jì)分析開始的。因子分析的形成和發(fā)展有相當(dāng)長的歷史,最早用于研究解決心理學(xué)和教育學(xué)方面的問題,由于計(jì)算量大,又缺少高速計(jì)算的設(shè)備使因子分析的應(yīng)用和發(fā)展受到很大的限制,甚至停滯了很長時(shí)間。后來由于電子計(jì)算機(jī)的出現(xiàn),才使因子分析的理論研究和計(jì)算問題,有了很大的進(jìn)展。目前因子分析在心理學(xué)社會(huì)學(xué)經(jīng)濟(jì)學(xué)等學(xué)科都有成功的應(yīng)用。 1.2 因子分析的基本思想根據(jù)相關(guān)性大小把變量分組,使得同組內(nèi)的變量間相關(guān)關(guān)系強(qiáng),不同組的變量間相關(guān)性較低,每組變量代表一個(gè)基本結(jié)構(gòu),這個(gè)基本結(jié)構(gòu)稱為公共因子,可用最少個(gè)數(shù)的不可測的所謂公共因子的線性函數(shù)與特殊因子之和來描述原來觀測的每一變量。1.3 因子分析與主成分分析的區(qū)別與聯(lián)系區(qū)別:主成分分析不能作為一個(gè)模型來描述,它只是通常的變量變換,因子分析可構(gòu)造因子模型;主成分分析中主成分的個(gè)數(shù)和變量個(gè)數(shù)相同,它是將一組具有相關(guān)性的變量變換為一組獨(dú)立的變量(實(shí)際應(yīng)用時(shí)一般只取前m個(gè)主成分),而因子分析的目的是要用盡可能少的公共因子,以構(gòu)造一個(gè)結(jié)構(gòu)簡單的因子模型;主成分表示為原變量的線性組合,而因子分析中是將原變量表示為公共因子和特殊因子的線性組合。聯(lián)系:都為降維的方法;可用主成分法來提取因子。2 因子分析的數(shù)學(xué)模型2.1 數(shù)學(xué)模型設(shè)為維隨機(jī)向量,其均值為,協(xié)方差陣為 ,若能表示成為,其中為隨機(jī)向量,稱為公共因子,為隨機(jī)向量,稱為特殊因子,未知常數(shù)矩陣,稱為因子載荷陣.通常假定1) ,2) ,3 2.2 因子載荷陣的統(tǒng)計(jì)意義設(shè)因子載荷陣,稱為因子載荷,是連接觀測變量和公共因子之間的紐帶,其統(tǒng)計(jì)意義就是第個(gè)變量與第個(gè)公共因子的相關(guān)系數(shù),即表示變量依賴公共因子的分量,反映了第個(gè)變量在第個(gè)公共因子上的相對重要性。3 因子載荷矩陣的求解建立因子模型的關(guān)鍵是要求出因子載荷矩陣,估計(jì)因子載荷矩陣的方法很多,有主成分法,極大似然法等,其中主成分法的使用較普遍。計(jì)算因子載荷陣可以從樣本的協(xié)方差陣出發(fā),也可以從樣本相關(guān)陣出發(fā)。當(dāng)相關(guān)變量所取單位不同時(shí),先對變量進(jìn)行標(biāo)準(zhǔn)化。標(biāo)準(zhǔn)化變量的樣本協(xié)差陣就是原始變量的樣本相關(guān)陣.3.1 主成分法設(shè)為維隨機(jī)向量,(可假設(shè)已作了標(biāo)準(zhǔn)化變換)1)均值為與協(xié)方差陣 (即為相關(guān)系數(shù)陣)的估計(jì)分別為2)因子載荷陣的估計(jì),稱為第個(gè)變量在第個(gè)因子上的載荷取,的特征根,所對應(yīng)的正交(單位)特征向量.取較小的因子數(shù),使累計(jì)貢獻(xiàn)率較大.則 3)特殊方差陣的估計(jì):,4)共性方差當(dāng)已了標(biāo)準(zhǔn)化則3.2 主因子法 主因子法是主成分法的修正,取.以下同主成分法.4 因子模型的旋轉(zhuǎn)在因子分析模型中,公共因子與因子載荷陣的解不是唯一的。進(jìn)行因子分析的目的不僅是找出主因子,更重要的是知道每個(gè)主因子的意義,以利于對公共因子命名和解釋結(jié)果。若每個(gè)公共因子的涵義不清,難以找到合理的解釋,可對因子載荷矩陣實(shí)行旋轉(zhuǎn),使每個(gè)變量僅在一個(gè)公共因子上有較大的載荷,而在其他公共因子上的載荷較小。最常用的旋轉(zhuǎn)變換是正交旋轉(zhuǎn)變換。1)時(shí),對因子軸進(jìn)行旋轉(zhuǎn),取旋轉(zhuǎn)變換,則旋轉(zhuǎn)后的因子載荷陣,由決定,其中,.,其2個(gè)列元素平方的相對方差,2)時(shí),對因子軸進(jìn)行旋轉(zhuǎn),共進(jìn)行次旋轉(zhuǎn),即完成第一輪旋轉(zhuǎn).記旋轉(zhuǎn)后的因子載荷陣記為,相應(yīng)的相對方差為如此繼續(xù)旋轉(zhuǎn)得到一系列因子載荷陣記為相應(yīng)的.有極限.實(shí)際中當(dāng)變化不大時(shí),可停止.5 因子命名利用在同一個(gè)因子有較大荷陣的幾個(gè)變量的共同特性對該因子進(jìn)行命名,即如果個(gè)因子在有較大的載荷,可用的特性對進(jìn)行命名.6 因子得分在得到因子載荷陣和公共因子后,反過來要考察每個(gè)樣品的因子表現(xiàn),即通過已知的樣品觀察值來計(jì)算相應(yīng)的公因子值,稱之為因子得分。利用因子得分可對各個(gè)樣品進(jìn)行評價(jià)。5.1 加權(quán)最小二乘法因子分析模型即尋找使公共因子的得分,用的估計(jì)及代人,則第個(gè)公共因子的得分,5.2 回歸法公共因子的得分用的估計(jì)(當(dāng)已標(biāo)準(zhǔn)化時(shí))代替,則第個(gè)公共因子的得分,.7 因子分析計(jì)算步驟1)將原始數(shù)據(jù)標(biāo)準(zhǔn)化,仍記為2)求相關(guān)系數(shù)陣,(或)3)求相關(guān)系數(shù)陣的特征根,所對應(yīng)的(單位)特征向量.4)求因子載荷陣:根據(jù)累計(jì)貢獻(xiàn)率確定因子數(shù),則5)對因子載荷陣進(jìn)行旋轉(zhuǎn)得到新的載荷陣,根據(jù)載荷陣的數(shù)據(jù)對因子進(jìn)行命名.6)計(jì)算因子的得分,表5 旋轉(zhuǎn)后的因子載荷陣指標(biāo)因子1234學(xué)習(xí)態(tài)度X10.05441-0.383120.754850.46323實(shí)踐能力X2-0.169600.399830.77292-0.10509創(chuàng)新能力X30.102360.90720-0.02515-0.31875社會(huì)責(zé)任X40.63835-0.090900.59393-0.19913身心健康X50.13237-0.260540.002290.92050集體觀念X60.66756-0.66036-0.226380.09516人際關(guān)系X70.905720.09767-0.053670.19432第一個(gè)因子中指標(biāo)X4, X6 , X7有較大的載荷,這些是從社會(huì)責(zé)任,集體觀念,人際關(guān)系三個(gè)方面反映學(xué)生的素質(zhì)的,因此稱為道德因子第二個(gè)因子中指標(biāo)X3有較大的載荷,這是從創(chuàng)新能力反映學(xué)生的素質(zhì)的,因此稱為創(chuàng)新因子第三個(gè)因子中指標(biāo)X1 , X2有較大的載荷,這是從學(xué)習(xí)態(tài)度和實(shí)踐能力這兩方面反映學(xué)生的素質(zhì)的,因此稱為學(xué)習(xí)與實(shí)踐因子第四個(gè)因子中指標(biāo)X5有較大的載荷,這是從身心健康方面反映學(xué)生素質(zhì)的,因此稱為身心健康因子第六章 對應(yīng)分析1對應(yīng)分析及其基本思想1.1對應(yīng)分析的概念型對指標(biāo)的統(tǒng)計(jì)分析;型對樣品的統(tǒng)計(jì)分析對應(yīng)分析是主成分分析的拓廣,其特征是它所研究的變量可以是定性變量。通常意義下的對應(yīng)分析,是指對兩個(gè)定性變量的多種狀態(tài)進(jìn)行對應(yīng)性研究。對多維定性變量的研究,稱為多元對應(yīng)分析。對應(yīng)分析問題在1933年就由希查德松(Richardson)和居代(Kuder)提出。但直到1973年,才由法國統(tǒng)計(jì)學(xué)家本澤柯瑞(Benzecri)給予圓滿的解決。對應(yīng)分析依靠主成分分析中的降維手段,可以更直觀明了的觀察和分析定性變量多種狀態(tài)間的相互關(guān)系。它在社會(huì)調(diào)查和專家評議調(diào)查中的使用最為廣泛。對應(yīng)分析又稱為相應(yīng)分析,是在型和型因子分析基礎(chǔ)上發(fā)展起來的一種多元統(tǒng)計(jì)方法,它從型因子分析出發(fā),而直接獲得型因子分析的結(jié)果。根據(jù)型和型因子分析的內(nèi)在聯(lián)系,可將指標(biāo)(變量)和樣品同時(shí)反映到相同坐標(biāo)軸(因子軸)的一張圖形上,便于對問題的分析。對應(yīng)分析可提供三方面的信息即指標(biāo)之間的關(guān)系,樣品之間的關(guān)系,指標(biāo)與樣品之間的關(guān)系。對應(yīng)分析(Correspondence analysis) 是一種在低維度空間(Low-dimensional Space)中描述兩個(gè)變量之間相對關(guān)系的分析方法,是一種研究定性變量間相互關(guān)系的有效方法,通過對由兩個(gè)定性或類別變量構(gòu)成的交互表進(jìn)行分析,揭示同一變量的各個(gè)類別之間的差異、不同變量的各個(gè)類別之間的對應(yīng)關(guān)系。用對應(yīng)分析法,可將兩兩指標(biāo)不同分類間的關(guān)系在二維坐標(biāo)圖上給出直觀、形象的表達(dá)。對應(yīng)分析的優(yōu)點(diǎn):(1)提供了將定性資料進(jìn)行定量分析的途徑,從數(shù)量的角度揭示了交叉列表行列間的關(guān)系;(2)對應(yīng)分析圖將不同屬性的指標(biāo)反映在同一坐標(biāo)系下,有利于研究不同屬性指標(biāo)間的關(guān)系。1.2 對應(yīng)分析的基本思想通過一個(gè)過渡矩陣將型因子分析和型因子分析有機(jī)地結(jié)合起來。首先給出變量點(diǎn)的協(xié)差陣和樣品點(diǎn)的協(xié)差陣,由于和有相同的非零特征根,這些特征根又正是各個(gè)公共因子的方差,因此可以用相同的因子軸同時(shí)表示變量點(diǎn)和樣品點(diǎn),即把變量點(diǎn)和樣品點(diǎn)同時(shí)反映在具有相同坐標(biāo)軸的因子平面上,以便對變量點(diǎn)和樣品點(diǎn)一起考慮進(jìn)行分類。2對應(yīng)分析的基本原理由原始資料陣出發(fā),計(jì)算規(guī)格化的概率矩陣,使變量與樣品具有相同比例大小,在空間定義兩兩樣品點(diǎn)或兩兩變量點(diǎn)之間的距離,定義樣品點(diǎn)和變量點(diǎn)的協(xié)差陣分別為和。和的非0特征根相同,而特征根又表示各個(gè)公共因子所提供的方差,因此變量空間中的公共因子與樣品空間中對應(yīng)的各個(gè)公共因子在總方差中所占的百分比完全相同,從幾何意義來看,即諸樣品點(diǎn)與樣品空間中各因子軸的距離和諸變量點(diǎn)與變量空間中相對應(yīng)的各因子軸的距離完全相同,因此,可以把變量點(diǎn)和樣品點(diǎn)同時(shí)反映在同一個(gè)因子軸所確定的平面上(即取同一個(gè)坐標(biāo)系),根據(jù)接近的程度,將變量點(diǎn)與樣品點(diǎn)一起考慮進(jìn)行分類。3 對應(yīng)分析的計(jì)算步驟1) 由原始資料陣出發(fā),計(jì)算規(guī)格化的概率矩陣;相當(dāng)于改變了測度尺度,使變量與樣品具有相同比例大小;,2)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論