




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
數(shù)理統(tǒng)計(jì)BSY1001243第17頁北京航空航天大學(xué)研究生課程《數(shù)理統(tǒng)計(jì)B》論文地區(qū)生產(chǎn)總值的聚類分析與判別分析姓名:王青云學(xué)號:SY1001243授課教師:馮偉日期:2011-1-2地區(qū)生產(chǎn)總值的聚類分析與判別分析姓名:王青云學(xué)號:SY1001243摘要:為了了解全國各地區(qū)的經(jīng)濟(jì)類型,需要對地區(qū)進(jìn)行分類,可以利用社會(huì)科學(xué)統(tǒng)計(jì)軟件包(簡稱SPSS)對地區(qū)經(jīng)濟(jì)情況進(jìn)行聚類分析和判別分析。該工作依據(jù)地區(qū)生產(chǎn)總值、第一產(chǎn)業(yè)、工業(yè)、建筑業(yè)、交通運(yùn)倉儲及郵電通訊業(yè)、批發(fā)零售貿(mào)易及餐飲業(yè)、金融保險(xiǎn)業(yè)、房地產(chǎn)業(yè)八個(gè)指標(biāo)對2009年全國31個(gè)省和直轄市的經(jīng)濟(jì)類型進(jìn)行了聚類分析,將不同地區(qū)的經(jīng)濟(jì)類型劃分類別;并隨機(jī)抽取了北京、福建、山東三省進(jìn)行判別分析。關(guān)鍵詞:經(jīng)濟(jì)類型,聚類分析,判別分析,SPSS一引言人們認(rèn)識事物時(shí)往往先把被認(rèn)識的對象進(jìn)行分類,以便尋找其中同與不同的特征,因而分類學(xué)是人們認(rèn)識世界的基礎(chǔ)科學(xué)。統(tǒng)計(jì)學(xué)中常用的分類統(tǒng)計(jì)方法主要是聚類分析與判別分析。聚類分析是直接比較各事物之間的性質(zhì),將性質(zhì)相近的歸為一類,將性質(zhì)差別較大的歸入不同的類。判別分析則先根據(jù)已知類別的事物的性質(zhì),利用某種技術(shù)建立函數(shù)式,然后對未知類別的新事物進(jìn)行判斷以將之歸入已知的類別中。聚類分析與判別分析有很大的不同,聚類分析事先并不知道對象類別的面貌,甚至連共有幾個(gè)類別也不確定;判別分析事先已知對象的類別和類別數(shù),它正是從這樣的情形下總結(jié)出分類方法,用于對新對象的分類[1]。二分析方法問題:根據(jù)地區(qū)各行業(yè)收入對全國各地區(qū)經(jīng)濟(jì)類型進(jìn)行分類。方法:先進(jìn)行聚類分析,再進(jìn)行判別分析,采用SPSS軟件進(jìn)行。2009年全國31個(gè)省市的地區(qū)總產(chǎn)值、第一產(chǎn)業(yè)、工業(yè)、建筑業(yè)、交通運(yùn)倉儲及郵電通訊業(yè)、批發(fā)零售貿(mào)易及餐飲業(yè)、金融保險(xiǎn)業(yè)、房地產(chǎn)業(yè)、其他行業(yè)表1所示[2]。2.1聚類分析在SPSS數(shù)據(jù)編輯窗口中輸入表1中數(shù)據(jù):表12009年地區(qū)生產(chǎn)收入地區(qū)地區(qū)生產(chǎn)總值第一產(chǎn)業(yè)第二產(chǎn)業(yè)第三產(chǎn)業(yè)工業(yè)建筑業(yè)交通運(yùn)輸和郵政業(yè)批發(fā)和零售業(yè)住宿和餐飲業(yè)金融業(yè)房地產(chǎn)業(yè)其他北京12153.03118.292303.08552.47556.641525.03262.511603.631062.474168.91天津7521.85128.853622.11365.73471.01836.84131.84461.2308.731195.54河北17235.482207.347983.86975.971491.921157.8247.14525.67612.42033.38山西7358.31477.593518.88474.92523.38557.86203.58361.64173.311067.15內(nèi)蒙古9740.25929.64503.33610.67773.29915.89294.73291.1286.651134.99遼寧15212.491414.96925.63980.71790.561410.33318.8560.2605.272206.09吉林7278.75980.573054.6487.32341.76673.12157.73180.83200.141202.68黑龍江85871154.333549.73510.99433.55757.36211227.54301.181441.32上海15046.45113.825408.75593.03635.012183.85238.361804.281237.562831.79江蘇34457.32261.8616464.942101.431423.253579.81678.361596.982025.394325.28浙江22990.351163.0810518.211390.28888.022119.39416.841899.331316.833278.36安徽10062.821495.454064.72840.5467.92733.19157.14359.6497.941446.36福建12236.531182.745106.38898.92751.421043.42235.98612.2656.611748.86江西7655.181098.663196.56722.89394.9553.89167.59165.1305.91049.69山東33896.653226.6416896.142005.691742.333106.24594.51044.91329.593950.63河南19480.462769.059900.271110.23823.571057.81526.51499.92622.982170.12湖北12961.11795.95183.68854.4642.72979.14337.81479.11546.112142.23湖南13059.691969.694819.4867.79704.831221.2304.93402.57400.112369.17廣東39482.562010.2718091.561328.141595.343907.43945.762283.292470.636850.14廣西7759.161458.492863.84517.7378.75551.14208336.82348.981095.45海南1654.21462.19300.63142.888.68168.7560.2265.73121.76243.45重慶6530.01606.82917.4531.37347.98524.36132.88389.97229.09850.16四川14151.282240.615678.241033.63520.71868.98405.45524.63548.142330.89貴州3912.68550.271252.67223.95399.77293.53153.41194.44136.15708.49云南6169.751067.62088.17494.36179.45571.03162.1351.74205.141050.16西藏441.3663.8833.11103.5221.1927.0614.723.1713.28141.45陜西8169.8789.643501.25735.17423.24707.39175.01336.21239.921261.97甘肅3387.56497.051203.7323.54213.64231.2188.5288.27101.37640.26青海1081.27107.4470.3310549.3266.1314.5445.6323.05199.87寧夏1353.31127.25520.38141.94114.7774.5225.5975.5447.56225.76新疆4277.05759.741555.84373.75209.095253.662.25198.87115.23748.67(2)定義聚類類型:在“Analyze”菜單“Classify”中選擇Hierarchical命令,在彈出的HierarchicalClusterAnalysis對話框中,從對話框左側(cè)的變量列表中選擇地區(qū)變量,使之添加到LableCasesby框中,同樣將指標(biāo)第一產(chǎn)業(yè),工業(yè),建筑業(yè),交通運(yùn)倉儲及郵電通訊業(yè),批發(fā)零售貿(mào)易及餐飲業(yè),金融保險(xiǎn)業(yè),房地產(chǎn)業(yè),其他行業(yè)添加到Variable(s)框中。在Cluster欄中選擇聚類類型“Cases”,在Display中選擇顯示內(nèi)容,為系統(tǒng)默認(rèn)選項(xiàng)。(3)設(shè)置統(tǒng)計(jì)量的值:單擊Statistics按鈕,打開Statistics對話框,同時(shí)選中對話框上方的聚類進(jìn)度“Agglomerationschedule”和相似性矩陣“Proximitymatrix”選項(xiàng),同時(shí)選中ClusterMembership中的Rangeofsolutions,選擇3到5。(4)設(shè)置輸出圖表:單擊Plots按鈕,打開Plots對話框,選中樹枝圖。(5)選擇聚類方法:單擊Method按鈕,打開Method對話框,選擇默認(rèn)的Between-groupslinkage(即組間連接法),Interval中也選擇默認(rèn)選項(xiàng)(二元變量歐氏距離)。TransformValues中的Standardize選擇z-cores。(6)單擊OK,即可得到SPSS聚類分析的分析結(jié)果。表2為數(shù)據(jù)匯總表,是Processing過程中的輸出信息,即數(shù)據(jù)的基本信息。31個(gè)樣本參與分析,沒有缺失值。表2數(shù)據(jù)匯總表案例處理摘要a案例有效缺失合計(jì)N百分比N百分比N百分比31100.0%00.0%31100.0%a.平方Euclidean距離已使用表3是使用兩組間的連接統(tǒng)計(jì)量進(jìn)行聚類的詳細(xì)過程。有31個(gè)樣本,經(jīng)30步聚類。Stage:聚類步驟;Cluster1,Cluster2:該步被合并的兩類中的樣品號或類號,合并結(jié)果取小的序號。StageClusterfirstappears:非零數(shù)值表示合并兩項(xiàng)前一次出現(xiàn)的聚類步序號,而0表示第一次出現(xiàn)。NextStage:表示合并結(jié)果在下一步合并時(shí)的步序號[2]。表4、5為聚類結(jié)果,分別為分類表(表4)和樹狀圖(表5)。由以上樹狀圖可以看出,如若將全國各省和直轄市的經(jīng)濟(jì)類型分為三類,則分類如下:(Ⅰ)北京、上海、浙江;(Ⅱ)遼寧、湖北、湖南、福建、四川、青海、寧夏、海南、西藏、貴州、甘肅、重慶、新疆、云南、安徽、黑龍江、山西、內(nèi)蒙古、吉林、江西、陜西、廣西、天津、河北、河南;(Ⅲ)江蘇、山東、廣東。若將全國各省和直轄市的經(jīng)濟(jì)類型分為四類,則分類如下:(Ⅰ)北京、上海、浙江;(Ⅱ)遼寧、湖北、湖南、福建、四川、青海、寧夏、海南、西藏、貴州、甘肅、重慶、新疆、云南、安徽、黑龍江、山西、內(nèi)蒙古、吉林、江西、陜西、廣西、天津、河北、河南;(Ⅲ)江蘇、山東;(Ⅳ)廣東。而若將全國各省和直轄市的經(jīng)濟(jì)類型分為五類,則分類如下:(Ⅰ)北京、上海、浙江;(Ⅱ)青海、寧夏、海南、西藏、貴州、甘肅、重慶、新疆、云南、安徽、黑龍江、山西、內(nèi)蒙古、吉林、江西、陜西、廣西、天津;(Ⅲ)河北、遼寧、福建、河南、湖南、湖北、四川;(Ⅳ)江蘇、山東;(Ⅴ)廣東。表3數(shù)據(jù)聚類表聚類表階群集組合系數(shù)首次出現(xiàn)階群集下一階群集1群集2群集1群集212629.02000222630.06010732831.1690010478.23400951718.256001561427.28100972126.28902178422.35900139714.4024612102428.4490317112025.554001212720.580911161324.621081814613.6690019151723.7645019167121.055120181721241.1307102218271.443131620196171.49314152320251.6871802221191.9490026222213.635201727236164.0881902424364.543023272510154.5640028261118.09821029272310.35522242928101914.49825030291218.5382627303011061.97829280表4分類表群集成員案例5群集4群集3群集1:北京市1112:天津市2223:河北省3224:山西省2225:內(nèi)蒙古自治區(qū)2226:遼寧省3227:吉林省2228:黑龍江省2229:上海市11110:江蘇省43311:浙江省11112:安徽省22213:福建省32214:江西省22215:山東省43316:河南省32217:湖北省32218:湖南省32219:廣東省54320:廣西壯族自治區(qū)22221:海南省22222:重慶市22223:四川省32224:貴州省22225:云南省22226:西藏自治區(qū)22227:陜西省22228:甘肅省22229:青海省22230:寧夏回族自治區(qū)22231:新疆維吾爾自治區(qū)222表5樹枝圖2.2判別分析判別分析也是一種數(shù)據(jù)的分析方法。在生產(chǎn)活動(dòng)、經(jīng)濟(jì)管理、科學(xué)實(shí)驗(yàn)甚至日?;顒?dòng)中,人們常常需要判定所研究問題的歸屬問題。例如經(jīng)濟(jì)分析中根據(jù)一個(gè)國家或地區(qū)的若干經(jīng)濟(jì)指標(biāo),判斷該國家或地區(qū)經(jīng)濟(jì)發(fā)展的程度和狀態(tài)。在事先已經(jīng)建立了樣品分類,需要將新樣本歸入到已知分類的樣本組中時(shí),就可以使用判別分析。判別分析是先根據(jù)已知類別的事物的性質(zhì)(自變量),建立函數(shù)式(自變量的線性組合,即判別函數(shù)),然后對未知類別的新事物進(jìn)行判斷以將之歸入已知的類別中。通常使用的判別分析方法有:距離判別法、Bayes判別法以及Fisher判別法等方法。本文中將使用SPSS17.0的Classify→Discriminate程序隨機(jī)選取北京、福建、山東省份進(jìn)行判別分析,以確定這些地區(qū)所屬的經(jīng)濟(jì)類型。本文使用的Fisher判別法的函數(shù)系數(shù)列表如表6,從表6可列各類的Fisher判別函數(shù),輸入相關(guān)經(jīng)濟(jì)指標(biāo)就可以判別其它市的經(jīng)濟(jì)類型。表6Fisher判別函數(shù)(分類函數(shù)系數(shù)表)分類函數(shù)系數(shù)V121.002.003.004.00生產(chǎn)總值.014-.001.008.048第一產(chǎn)業(yè)-.003.002-.018-.058工??業(yè)-.012.000-.004-.027建筑業(yè)-.053.014-.011-.201交通運(yùn)輸和郵政業(yè)-.027.007-.030-.106批發(fā)和零售業(yè)-.027.005.023-.064住宿和餐飲業(yè)-.012.014-.064-.162金融業(yè).063.014-.055.016房地產(chǎn)業(yè)-.081-.001.024.010(常量)-100.574-4.267-57.196-216.965Fisher的線性判別式函數(shù)設(shè):地區(qū)生產(chǎn)總值=X1,第一產(chǎn)業(yè)=X2,工業(yè)=X3,建筑業(yè)=X4,交通運(yùn)輸和郵政業(yè)=X5,批發(fā)和零售業(yè)=X6,住宿和餐飲業(yè)=X7,金融業(yè)=X8,房地產(chǎn)業(yè)=X9。Y1=0.014X1-0.003X2-0.012X3-0.053X4-0.027X5-0.027X6-0.012X7+0.163X8-0.081X9-100.574Y2=-0.001X1+0.002X2+0.014X4+0.007X5+0.005X6+0.014X7+0.014X8-0.011X9-4.267Y3=0.008X1-0.018X2-0.004X3-0.011X4-0.030X5+0.023X6-0.064X7-0.055X8+0.024X9-57.196Y4=0.048X1-0.058X2-0.027X3-0.201X4-0.106X5-0.064X6-0.162X7-0.016X8+0.010X9-216.965將北京、福建、山東省份的指標(biāo)代入四個(gè)判別函數(shù),判別函數(shù)值最大函數(shù)所屬類別即為這個(gè)省份的分類。經(jīng)判別可知北京屬于第一類,福建屬于第二類,山東屬于第三類。表7為分類結(jié)果表,圖1為分類散點(diǎn)圖。表7分類結(jié)果表分類結(jié)果b,cV12預(yù)測組成員合計(jì)1.002.003.004.00初始計(jì)數(shù)1.00200022.0002400243.00001014.0000011%1.00.0100.02.00.0100.03.00.0.0100.0.0100.04.0100.0100.0交叉驗(yàn)證a計(jì)數(shù)1.00200022.0002400243.00100014.0010001%1.00.0100.02.00.0100.03.00.0100.04.00.0100.0a.僅對分析中的案例進(jìn)行交叉驗(yàn)證。在交叉驗(yàn)證中,每個(gè)案例都是按照從該案例以外的所有其他案例派生的函數(shù)來分類的。b.已對初始分組案例中的100.0%個(gè)進(jìn)行了正確分類。c.已對交叉驗(yàn)證分組案例中的92.9%個(gè)進(jìn)行了正確分類。圖1分類散點(diǎn)圖從表8判別結(jié)果可見,9、14分別是江蘇和湖北出現(xiàn)錯(cuò)判,從2.2聚類分析可以看出,北京,福建和山東是比較有代表性的省份,所以在缺少的情況下進(jìn)行判別分類,造成的誤判也是可能的。分析與結(jié)論:將全國各省和直轄市的經(jīng)濟(jì)類型分為四類,則分類如下:(Ⅰ)北京、上海、浙江;(Ⅱ)遼寧、湖北、湖南、福建、四川、青海、寧夏、海南、西藏、貴州、甘肅、重慶、新疆、云南、安徽、黑龍江、山西、內(nèi)蒙古、吉林、江西、陜西、廣西、天津、河北、河南;(Ⅲ)江蘇、山東;(Ⅳ)廣東。表8判別結(jié)果按照案例順序的統(tǒng)計(jì)量案例數(shù)目最高組第二最高組判別式得分P(D>d|G=g)實(shí)際組預(yù)測組pdfP(G=g|D=d)到質(zhì)心的平方Mahalanobis距離組P(G=g|D=d)到質(zhì)心的平方Mahalanobis距離函數(shù)1函數(shù)2函數(shù)3初始122.06731.0007.1611.000128.851-.039-.888-.362222.93131.000.4441.000206.8482.970-.630.058322.55331.0002.0971.000193.5452.496-1.605-.051422.07631.0006.8801.000238.4293.3891.6541.773522.07531.0006.9091.000147.418.4761.499-.137622.81131.000.9591.000222.3823.450.011.231722.94331.000.3881.000196.9372.452-.382.693811.72631.0001.3133.000160.071-12.153-1.102-2.5589331.00031.000.0001.000160.131-12.80411.089.7631011.72631.0001.3133.000162.819-10.035-.678-3.3231122.12631.0005.7271.000166.2811.4621.512-1.2491222.17331.0004.9821.000213.3333.0401.900-.5341322.00731.00012.0001.000219.9242.210-.0773.5611422.42731.0002.7811.000155.366.996-.899.0921522.47831.0002.4861.000231.4633.896-.732-.34116441.00031.000.0001.000238.882-24.869-5.3162.4941722.86731.000.7271.000198.0702.405.019.9371822.76731.0001.1421.000205.6672.655.569.8681922.85231.000.7891.000184.7692.277.110-.7062022.42531.0002.7901.000168.8431.575-1.541-.1262122.46231.0002.5771.000205.0242.729-1.633.7192222.88731.000.6391.000214.1223.250-.127-.1492322.97531.000.2171.000204.3082.891-.365-.0332422.35831.0003.2281.000206.0293.098.603-1.3982522.84731.000.8091.000210.6803.180-.552-.3272622.95831.000.3131.000202.6782.820-.618.0602722.96731.000.2651.000198.6222.704-.594-.0842822.38231.0003.0611.000216.8373.481-1.228-.870交叉驗(yàn)證a122.00181.00026.6641.000180.076222.00081.000243.3651.000553.934322.22181.00010.6681.000192.122422.00081.00044.9973.000351.415522.03681.00016.4581.000165.427622.65881.0005.9051.000233.412722.98181.0001.9921.000190.404811.00081.00066.1313.000166.874931**.00081.000160.1312.000361.15310
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 六一創(chuàng)新活動(dòng)方案
- 六一商場開業(yè)活動(dòng)方案
- 六一廣告活動(dòng)方案
- 六一活動(dòng)做餃子活動(dòng)方案
- 六一活動(dòng)吃喝玩樂活動(dòng)方案
- 六一活動(dòng)捉小雞活動(dòng)方案
- 六一活動(dòng)美容活動(dòng)方案
- 六一烹飪活動(dòng)方案
- 六一舞蹈趣味活動(dòng)方案
- 六一趣味撈魚活動(dòng)方案
- 5.2做自強(qiáng)不息的中國人(教學(xué)設(shè)計(jì))2024-2025學(xué)年七年級道德與法治下冊(統(tǒng)編版2024)
- 2025 年中職高考對口升學(xué)(幼兒教育學(xué))真題試卷附參考答案
- 2025承諾合同(個(gè)人承諾)
- 2025-2030中國智能視頻行業(yè)調(diào)研分析及發(fā)展趨勢預(yù)測研究報(bào)告
- 安徽省2024-2025學(xué)年八年級信息技術(shù)水平會(huì)考操作題
- 墓地征用協(xié)議書范本
- 2025年農(nóng)藝工(高級)職業(yè)技能鑒定參考試題庫(含答案)
- 臨床氣管插管拔管后吞咽障礙評估與干預(yù)實(shí)踐應(yīng)用
- 海南海虹化纖工業(yè)有限公司地塊第二階段土壤污染狀況調(diào)查報(bào)告
- 堅(jiān)持教育優(yōu)先發(fā)展
- 外研版三年級下冊英語全冊單元測試卷(含期中期末試卷及聽力音頻)
評論
0/150
提交評論