資料:多元統(tǒng)計(jì)分析SAS_第1頁
資料:多元統(tǒng)計(jì)分析SAS_第2頁
資料:多元統(tǒng)計(jì)分析SAS_第3頁
資料:多元統(tǒng)計(jì)分析SAS_第4頁
資料:多元統(tǒng)計(jì)分析SAS_第5頁
已閱讀5頁,還剩2頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、文柚媒板 I 密源共享多元統(tǒng)計(jì)分析SAS一、名詞(4*4=16)1.SAS數(shù)據(jù)集:指安排在長方形表中的數(shù)據(jù)集合,其基本要素為觀測(cè)值和變量。.參數(shù)檢驗(yàn):指總體的分布是已知的,而其總體的分布參數(shù)是未知的,需要根據(jù)樣本數(shù)據(jù)來推斷 出總體的未知參數(shù)。.假設(shè)檢驗(yàn):就是先對(duì)總體的參數(shù)或分布作出某種假設(shè),然后用適當(dāng)?shù)姆椒ǜ鶕?jù)樣本對(duì)總體提供 的信息推斷此假設(shè)應(yīng)當(dāng)拒絕或接受。具結(jié)果將有助于研究者作出決策,采取措施。.非參數(shù)檢驗(yàn):在總體分布未知的沒有任何限定的條件下,根據(jù)樣本數(shù)據(jù)推斷出總體具有某種分 布特征或參數(shù)間具有某種性質(zhì)的假設(shè)檢驗(yàn)。.相關(guān)關(guān)系:變量間所具有的密切關(guān)聯(lián)而又不能用函數(shù)關(guān)系精確表達(dá)的關(guān)系。.典型相

2、關(guān)分析:是研究兩組相關(guān)關(guān)系的一種統(tǒng)計(jì)方法,它能揭示兩組變量之間的內(nèi)在聯(lián)系,真 正反映兩組變量間的線性相關(guān)情況。.回歸分析:一般說來是研究隨機(jī)變量和非隨機(jī)變量之間的數(shù)量依存關(guān)系。.多元回歸分析:用以研究一個(gè)因變量與多個(gè)自變量之間的線性依存關(guān)系。根據(jù)較易測(cè)得的自變 量推算不易測(cè)得的因變量,用來進(jìn)行回顧、推斷、預(yù)測(cè)、預(yù)報(bào)和進(jìn)行輔助診斷等。.列聯(lián)表:是描述兩個(gè)分類變量的頻數(shù)分布表。.判別分析:通常是根據(jù)已知樣本的分類及所測(cè)的指標(biāo),篩選出能提供較多信息的指標(biāo),從而 建立判別方程,使其錯(cuò)判率最小。對(duì)于未知分類的樣本,可將所測(cè)指標(biāo)代入判別方程,判斷它所 屬的總體。.聚類分析:就是根據(jù)樣品或指標(biāo)的“相似”特征

3、進(jìn)行分類的一種多元統(tǒng)計(jì)分析方法。.系統(tǒng)聚類法:先將n個(gè)元素(樣品或變量)看成n類,然后將性質(zhì)最接近(或相似程度)的 2 類合并為1個(gè)新類,得到n-1類,再從中找出最接近的2類加以合并變成了 n-2類,如此下去, 最后所有元素全聚在一類之中。二、填空(各1分,共10分). SAS數(shù)據(jù)集包括臨時(shí)和永久。.卡方檢驗(yàn)選擇卡方方法。.正態(tài)分布完全由其 均值和標(biāo)準(zhǔn)差決定。.假設(shè)檢驗(yàn)包括參數(shù)假設(shè)檢驗(yàn)和非參數(shù)假設(shè)檢驗(yàn)。.參數(shù)檢驗(yàn)指總體的分布是已知的,而其 總體的分布參數(shù)是未知的,需要根據(jù)樣本數(shù)據(jù)來推斷 出總體的未知參數(shù)。.聚類分析可以分為 對(duì)變量聚類和對(duì)樣品聚類兩種。只有對(duì) 數(shù)值型變量可以進(jìn)行聚類分析。.聚類

4、分析實(shí)質(zhì)上是尋找一種能客觀反映元素之間親疏關(guān)系的統(tǒng)計(jì)量,然后根據(jù)這種統(tǒng)計(jì)量把元素分成若干類。常用的聚類統(tǒng)計(jì)量有 距離系數(shù)和相似系數(shù)兩類。.距離系數(shù)一般用于對(duì)樣品分類,而相似系數(shù)一般用于對(duì)變量聚類。.研究兩組變量間的相關(guān)性是許多實(shí)際問題的需要,假設(shè)一個(gè)變量從X1Xp,另一個(gè)變量從X1 Xq當(dāng)P=Q=1時(shí),就是兩個(gè)變量之間的簡單相關(guān)分析問題;當(dāng)P1, Q=1時(shí),就是一個(gè)因變量與多個(gè)自變量之間的多元相關(guān)分析問題;當(dāng)P、Q均大于1時(shí),就是研究兩組多變量之間的相關(guān)性,稱為典型相關(guān)性。. SAS語句的步驟包括數(shù)據(jù)步驟和過程步驟。.兩樣本均數(shù)差別的統(tǒng)計(jì)意義檢驗(yàn)判別標(biāo)準(zhǔn)是: 0.05,差別無統(tǒng)計(jì)意義模板資料資

5、源共享濟(jì)源拜享文移輯板濟(jì)源拜享1.96, P0 0.05,差別有統(tǒng)計(jì)意義 2.58 , P 0.01,差別有高度統(tǒng)計(jì)意義. TREE過程不是一個(gè)獨(dú)立的過程,它利用 VARCLUSCLUSTERi程建立的數(shù)據(jù)集繪制樹狀圖。. SAS系統(tǒng)提供的判別過程有 DISCRIM 過程(一般判別過程)、NEIGHBOR過程(一般判別 過程)、CANDIS3程(典型判別過程)、STEPDISC過程(逐步判別過程)。.投影軸的方向要求:使同一類的投影值所形成的類內(nèi)離差平方和盡可能小,而不同類的投影值 離差平方和盡可能大。.列聯(lián)表是描述兩個(gè)分類變量的 頻數(shù)分布表。.判別分析的主要任務(wù)是根據(jù)已掌握的 樣本資料,建立

6、判別函數(shù),進(jìn)而對(duì)給定的新觀察,判斷 他來自哪一個(gè)總體。判別分析 有兩總體判別 和多總體判別之分。. VARCLUS過程可以建立輸出數(shù)據(jù)集,其數(shù)據(jù)可以用TREE過程畫出樹狀圖。.非參數(shù)檢驗(yàn)是在總體分布未知的沒有任何限定的條件下,根據(jù)樣本數(shù)據(jù)推斷出總體具有某種 分布特征或參數(shù)間具有某種性質(zhì)的假設(shè)檢驗(yàn)。.當(dāng)因變量和自變量各有一個(gè)時(shí),若呈線性關(guān)系時(shí),稱 直線回歸,即簡單線性回歸;當(dāng)因變量 有一個(gè)時(shí),自變量有多個(gè)時(shí),則因變量與自變量之間的回歸,稱為 多重回歸;當(dāng)因變量也有多個(gè) 時(shí),則多個(gè)因變量與多個(gè)自變量之間的回歸關(guān)系稱為 多元(或多變量)回歸。三、判斷(2*10=20).在正態(tài)概率圖中同時(shí)用了 *號(hào)和

7、+號(hào)表示。+號(hào)構(gòu)成了一條直線,而*號(hào)則代表樣本點(diǎn)。如果一個(gè) 樣本來自于正態(tài)分布,則*構(gòu)成一條直線,因而將覆蓋大多數(shù)的 十號(hào),在正態(tài)概率圖中看到的十號(hào) 越多,則認(rèn)為樣本值的分布偏離正態(tài)分布的程度越大。.距離判別法的判別準(zhǔn)則:某一觀測(cè)屬于距離最短的那個(gè)總體。四、簡答(6*4=24).什么是正態(tài)性檢驗(yàn)?答:對(duì)于一個(gè)給定的樣本,需要判斷這種假定合理與否。因?yàn)橹挥幸粋€(gè)樣本,所以不能絕對(duì)肯定 這個(gè)假定是否合理。所能做的是檢驗(yàn)這個(gè)假定,再根據(jù)檢驗(yàn)結(jié)果來判斷這個(gè)假定是否合理。這個(gè) 檢驗(yàn)和判斷的過程叫正態(tài)性檢驗(yàn)。.正態(tài)分布的性質(zhì)有哪些?答:(1)正態(tài)分布完全由其均值和標(biāo)準(zhǔn)差決定。(2)正態(tài)分布的均值、眾數(shù)和中位

8、數(shù)相等。(3) 正態(tài)分布是對(duì)稱的(4)正態(tài)分布曲線是光滑的。(5)正態(tài)分布的峰度為00.假設(shè)檢驗(yàn)的一般步驟?答:(1)提出原假設(shè)和備擇假設(shè)。(2)確定檢驗(yàn)統(tǒng)計(jì)量。(3)規(guī)定顯著性水平。(4)計(jì)算檢驗(yàn)統(tǒng) 計(jì)量的值。(5)做出統(tǒng)計(jì)決策。.兩樣本均數(shù)差別的t檢驗(yàn)的前提條件有哪些?答:(1)觀測(cè)是獨(dú)立的(2)每組觀測(cè)是來自正態(tài)總體的樣本。(3)兩個(gè)獨(dú)立組的方差相等。.什么是統(tǒng)計(jì)學(xué)中的第一類錯(cuò)誤和第二類錯(cuò)誤?如何減少第二類錯(cuò)誤發(fā)生的概率?答:第一類錯(cuò)誤是在原假設(shè) h0為真時(shí),卻拒絕了 H0,接受了 H1,這種以真為假的錯(cuò)誤稱為第一類錯(cuò)誤,也稱為棄真錯(cuò)誤。第二類錯(cuò)誤是在原假設(shè) H0為假時(shí),卻接受了 h0,

9、這種以假為真的錯(cuò)誤稱為第二類錯(cuò)誤,也稱為取偽錯(cuò)誤。增大樣本容量可使第二類錯(cuò)誤的概率減少。.什么是相關(guān)分析和典型相關(guān)分析?答:變量間所具有的密切關(guān)聯(lián)而又不能用函數(shù)關(guān)系精確表達(dá)的關(guān)系稱為相關(guān)關(guān)系。典型相關(guān)分析 是研究兩組相關(guān)關(guān)系的一種統(tǒng)計(jì)方法,它能揭示兩組變量之間的內(nèi)在聯(lián)系,真正反映兩組變量問 的線性相關(guān)情況。模板資料資源共享丈枝 板 I 濟(jì)本共享.什么是回歸分析?如何區(qū)別簡單線性回歸和多元線性回歸?答:回歸分析一般說來是研究隨機(jī)變量和非隨機(jī)變量之間的數(shù)量依存關(guān)系。當(dāng)因變量和自變量各 有一個(gè)時(shí),若呈線性關(guān)系時(shí),稱直線回歸,即簡單線性回歸;當(dāng)自變量有多個(gè),因變量也有多個(gè) 時(shí),則多個(gè)因變量與多個(gè)自變量

10、之間的回歸關(guān)系稱為多元線性回歸。.方差分析的基本思想是什么?答:方差分析的基本思想是把全部數(shù)據(jù)關(guān)于總均值的離差平方和分解成幾個(gè)部分,每一部分表示 某因素交互作用所產(chǎn)生的效應(yīng),將各部分均方與誤差均方相比較,從而確認(rèn)或否認(rèn)某些因素或相 互交互作用的重要性。一般將總離均差平方和SS分為兩個(gè)部分,組內(nèi)部分和組間部分,并被相應(yīng)的自由度df的自由度df除,其比值稱為方差比即F值。公式為:SS且間dfiSS且內(nèi)df2當(dāng)F統(tǒng)計(jì)量值明顯大于1時(shí),應(yīng)當(dāng)拒絕假設(shè),判斷各組處理因素有不同的作用。.單因素方差分析的步驟?答:(1)建立假設(shè)(2)計(jì)算樣本均值(3)計(jì)算總樣本均值(4)計(jì)算樣本方差(5)計(jì)算總體方 差的組間

11、估計(jì)(6)計(jì)算總體方差的組內(nèi)估計(jì)(7)計(jì)算F統(tǒng)計(jì)量(8)編制方差分析表(9)做出 統(tǒng)計(jì)決策.雙因素方差分析的步驟?答:(1)建立假設(shè)(2)計(jì)算樣本均值和總樣本均值(3)計(jì)算離差平方和(4)計(jì)算均方值(5) 計(jì)算F統(tǒng)計(jì)量(6)編制雙因素方差分析表(7)做出統(tǒng)計(jì)決策.什么是距離判別法?其判別準(zhǔn)則是什么?答:距離判別法的思想是根據(jù)各觀測(cè)與總體之間的距離遠(yuǎn)近作出判別,即根據(jù)資料建立關(guān)于各總 體的距離判別函數(shù),再將各個(gè)觀測(cè)數(shù)據(jù)代入到判別函數(shù)中進(jìn)行計(jì)算,得出各觀測(cè)與各總體之間的 距離。判別準(zhǔn)則:某一觀測(cè)屬于距離最短的那個(gè)總體。.聚類分析的種類和方法有哪些?(填空)答:種類:對(duì)變量聚類、對(duì)樣品聚類。方法:(

12、1)系統(tǒng)聚類法(2)分解法(3)動(dòng)態(tài)聚類法(4) 有序樣品聚類法五、編程寫SAS程序(30分)正態(tài)性檢驗(yàn)、t檢驗(yàn)、相關(guān)分析過程-PROC CORR、回歸分析過程-PROC REG、相關(guān)圖、方差分 析過程-PROC ANOVA、屬性數(shù)據(jù)分析-PROC FREQ(卡方檢驗(yàn))、判別分析過程-PROC DISCRIM、 聚類分析過程-PROC CLUSTER.正態(tài)性檢驗(yàn).正態(tài)性檢驗(yàn)DATA AA ;INPUT HEIGHT ;CARDS;數(shù)據(jù)PROC UNIVARIATE NORMAL PLOT;VAR HEIGHT;RUN;. t 檢驗(yàn)D = X - 500 ;(2)配對(duì)樣本t檢驗(yàn)DATA A;IN

13、PUT X Y;D = Y - X ;CARDS;數(shù)據(jù)PROC MEANS MEAN STD T PRT;VAR D;RUN;(1)單樣本(1)單樣本t檢驗(yàn)DATA T;INPUT X ;(3)兩獨(dú)立樣本t檢驗(yàn)DATA TEMP;INPUT GROUP X;模板資料資源共享丈楮橫板 I 舜嫄共享CARDS;CARDS;500 490 510 498 480 512 505 504 510 500PROC MEANS T PRT;VAR D;RUN;3.相關(guān)分析、回歸分析、散點(diǎn)圖DATA AA ;INPUT SEX $ HEIGHT WEIGHT ;CARDS;數(shù)據(jù)PROC CORR ;RUN

14、;(相關(guān)分析)PROC REG;MODEL WEIGHT=HEIGHT ;RUN;(回歸分析)PROC PLOT ;PLOT WEIGHT (縱坐標(biāo))*HEIGHT (橫坐標(biāo));RUN ;(散點(diǎn)圖)4.方差分析(1)單因素方差分析DATA ANOVA;DO I =1 TO 4;DO A =1 TO 4;INPUT X;OUTPUT ;END;END;DROP I;CARDS;2.62 2.28 2.91 3.922.23 2.76 3.02 3.022.30 2.43 3.28 3.302.40 2.43 3.18 3,04PROC ANOVA;CLASS A ;MODEL X=A ;MEAN

15、S A/SNK;RUN;7.聚類分析DATA DISCRIM ;INPUT GROUP GPA GMAT;模板資料數(shù)據(jù)PROC TTEST;CLASS GROUP;VAR X;RUN;CARDS;數(shù)據(jù)PROC CLUSTER METHOD=SINGLE ;PROC TREE;RUN;(2)多因素方差分析DATA ANOVA;DO A =1 TO 4;DO B =1 TO 3;INPUT X ;OUTPUT;END;END;CARDS;106 116 14542 68 11570 111 13342 63 87PROC ANOVA;CLASS A B;MODEL X=A B;MEANS A B / SNK;RUN;5.屬性分析(卡方檢驗(yàn))DATA AA ;DO A=1 TO 2;DO B

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論