回歸分析實驗課 實驗8_第1頁
回歸分析實驗課 實驗8_第2頁
回歸分析實驗課 實驗8_第3頁
回歸分析實驗課 實驗8_第4頁
回歸分析實驗課 實驗8_第5頁
已閱讀5頁,還剩10頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、實驗報告八 實驗課程: 回歸分析實驗課 專業(yè): 統(tǒng)計學(xué) 年級: 姓名: 學(xué)號: 指導(dǎo)教師: 完成時間: 得分: 教師評語:學(xué)生收獲與思考:實驗八含定性變量的回歸模型(4學(xué)時)一、實驗?zāi)康?1掌握含定性變量的回歸模型的建模步驟3運用SAS計算含定性變量的各種回歸模型的各參數(shù)估計及相關(guān)檢驗統(tǒng)計量二、實驗理論與方法在實際問題的研究中,經(jīng)常會遇到一些非數(shù)量型的變量。如品質(zhì)變量;性別;戰(zhàn)爭與和平。我們把這些品質(zhì)變量也稱為定性變量,在建立回歸模型的時候我們需要考慮到這些定性變量。定性變量的回歸模型分為自變量含定性變量的回歸模型和因變量是定性變量的回歸模型。自變量含有定性變量的時候,我們一般引進虛擬變量,將

2、這些定性變量數(shù)量化。例如研究糧食產(chǎn)量問題,y為糧食產(chǎn)量,x為施肥量,另外考慮氣候問題,分為正常年份和干旱年份兩種情況,這個問題數(shù)量化方法就是引入一個0-1型變量D,令Di=1表示正常年份,Di=0表示干旱年份,糧食產(chǎn)量的回歸模型為:yi=0+1xi+2Di+i。因變量是定性變量時,一般用logistic回歸模型(分組數(shù)據(jù)的logistic回歸模型,未分組數(shù)據(jù)的logistic回歸模型,多類別的logistic回歸模型),probit回歸模型等。三. 實驗內(nèi)容1用DATA步建立一個永久SAS數(shù)據(jù)集,數(shù)據(jù)集名為xt103,數(shù)據(jù)見表21;對數(shù)據(jù)集xt103,建立y對公司規(guī)模和公司類型的回歸,并對所得

3、到的模型進行解釋。2研制一種新型玻璃,對其做耐沖實驗。用一個小球從不同的高度h對玻璃做自由落體撞擊,玻璃破碎記為y=1,玻璃未破碎記y=0.數(shù)據(jù)見表22.是對表中數(shù)據(jù)建立玻璃耐沖性對高度h的logistic回歸,并解釋回歸方程的含義。3某學(xué)校對本科畢業(yè)生的去向做了一個調(diào)查,分析影響畢業(yè)去向的相關(guān)因素,結(jié)果見表23.其中畢業(yè)去向“1”=工作,“2”=讀研,“3”=出國留學(xué)。性別“1”=男生,“0”=女生。用多類別的Logisitic回歸分析影響畢業(yè)去向的因素。四實驗儀器計算機和SAS軟件5. 實驗步驟和結(jié)果分析1用DATA步建立一個永久SAS數(shù)據(jù)集,數(shù)據(jù)集名為xt103,數(shù)據(jù)見表21;對數(shù)據(jù)集x

4、t103,建立y對公司規(guī)模和公司類型的回歸,并對所得到的模型進行解釋。R檢驗中R方為0.8951,可以認為回歸擬合效果較好。回歸方程通過F檢驗,說明模型是顯著成立的。由參數(shù)估計表,可以看出,全部變量都是顯著的,回歸方程為:其中,x2是虛擬變量,當(dāng)公司類型為“互助”時,x2為0,為“股份”時,x2為1。由方程可知,x2為1,即股份制公司的保險革新措施速度y會更大。股份制公司采取保險革新措施的積極性比互助型公司高,股份制公司建立在共同承擔(dān)風(fēng)險上,更愿意革新。公司規(guī)模越大,采取保險革新措施的傾向越大:大規(guī)模公司保險制度的更新對公司的影響程度比小規(guī)模公司大。SAS程序:data xt103;input

5、 y x1 x2 ;/*引入虛擬變量,將公司類型的互助設(shè)為0,股份設(shè)為1*/cards;171510269202117503031022104002770122100191200429001623802816411527211129513868131851212241201661133051301241142461;run;proc reg data=xt103;model y=x1 x2;run;2 研制一種新型玻璃,對其做耐沖實驗。用一個小球從不同的高度h對玻璃做自由落體撞擊,玻璃破碎記為y=1,玻璃未破碎記y=0.數(shù)據(jù)見表22.是對表中數(shù)據(jù)建立玻璃耐沖性對高度h的logistic回歸,并

6、解釋回歸方程的含義。模型信息:模型解出的是y=0的概率。由三個檢驗中,統(tǒng)計量的P值都小于0.05,可以認為模型是顯著的。由Wald檢驗的顯著性概率及其P值,可以看出,h變量對方程的影響是顯著的。由極大似然估計,各個參數(shù)系數(shù)也通過檢驗。因此模型有效。二元logit模型為模型意義為,小球掉落高度為h,則玻璃未破碎的概率為p,而y=0表示玻璃未破碎。也就是說,該種新型的玻璃,用小球?qū)ζ渥矒簦?dāng)小球的掉落高度為h時,玻璃未破碎的概率就是,那么,玻璃會破碎的概率就為1-p(y=0),這也可以看成是一種比例,就是大量實驗中,同個高度h,玻璃會被擊破的比例。SAS程序:data wjz;input h y

7、;/*引入虛擬變量,將公司類型的互助設(shè)為0,股份設(shè)為1*/cards;1.5001.5201.5401.5601.5811.6001.6201.6401.6601.6811.7001.7201.7401.7611.7801.8011.8201.8401.8611.8811.9001.9211.9401.9611.9812.001;run;proc logistic data=wjz;model y=h;run;proc logistic data=wjz;class h;model y=h/link=glogit aggregate scale=none;run;3 某學(xué)校對本科畢業(yè)生的去向做

8、了一個調(diào)查,分析影響畢業(yè)去向的相關(guān)因素,結(jié)果見表23.其中畢業(yè)去向“1”=工作,“2”=讀研,“3”=出國留學(xué)。性別“1”=男生,“0”=女生。用多類別的Logisitic回歸分析影響畢業(yè)去向的因素。專業(yè)課x1英語x2性別x3月生活費x4畢業(yè)去向y兩個統(tǒng)計量的P值均大于0.05,說明模型擬合的較好。檢驗全局零假設(shè): BETA=0 無效假設(shè)檢驗結(jié)果(似然比,評分)的結(jié)果P值均小于0.01,具有顯著統(tǒng)計學(xué)意義。三個變量中,有兩個是不顯著的變量,x3,x2,剔除x3:兩個統(tǒng)計量的P值均大于0.05,說明模型擬合的較好。檢驗全局零假設(shè): BETA=0 無效假設(shè)檢驗結(jié)果(似然比,評分,wald)的結(jié)果P

9、值均小于0.01,具有顯著統(tǒng)計學(xué)意義。三個變量都是顯著的。以x4=“1”,即參加工作,為參照。由模型可以看出:從參數(shù)估計表中,與參加工作的同學(xué)相比,讀研的(y=2)的同學(xué)相比,讀研的同學(xué)其專業(yè)課成績更好(x1的P值=0.003),而外語成績(x2的p值=0.356)和經(jīng)濟狀況(x4的P值=0.184)沒有顯著差異;出國留學(xué)的(y=3)學(xué)生其專業(yè)課成績和參加工作的沒有顯著差異,外語成績和經(jīng)濟狀況則更好。Sas程序:data a;input x1 x2 x3 x4 y;cards;9565.0160026362.0085018253.0070026088.0085037265.0175018585

10、.00100039595.00120029292.0195026363.0085017875.0190019078.0050018283.0175028065.0185038375.0060026090.0065037590.0180026383.0170018575.0075027386.0095028666.01150039363.00130027372.0085018660.0195027663.00110019686.0075027175.01100016372.0185026088.0065016795.0150018693.0055016376.0065018686.0075027

11、685.0165018292.0195037360.0080018285.0175027575.0075017263.0165018188.0085039296.019502;run;proc print;run;proc logistic;class x3;model y(ref='3')=x1 x2 x3 x4/link=glogit aggregate scale=none ;run;proc logistic;class x3;model y(ref='3')=x1 x2 x4/link=glogit aggregate scale=none ;run;

12、proc logistic;class x3;model y(ref='1')=x1 x2 x4/link=glogit aggregate scale=none ;run;六收獲與思考七. 思考題 當(dāng)自變量是定性變量的時候,我們需要引進虛擬變量進行數(shù)量化,當(dāng)定性變量有n個水平的時候,我們該引進多少的虛擬變量,否則會怎樣?不妨試試在sas中試試會出現(xiàn)什么問題。答:當(dāng)定性變量有n個水平時應(yīng)該引進n-1個虛擬變量。否則最后一個虛擬變量無法用最小二乘估計計算出來。例:X1-X3為虛擬變量。Data a;input x1 x2 x3 x y;cards;1 0 0 1.26 75 1

13、0 0 1.35 77 1 0 0 1.40 78 1 0 0 1.58 820 1 0 1.71 65 0 1 0 1.76 66 0 1 0 1.80 68 0 1 0 1.85 700 0 1 1.22 68 0 0 1 1.35 69 0 0 1 1.46 70 0 0 1 1.44 72;proc reg data=a;model y=x1-x3 x;run;X3沒有參數(shù)估計結(jié)果。因為x1 x2 x3出現(xiàn)完全共線性,x1 x2均為0時即代表了x3為1.表21iyx1公司類型117151互助22692互助321175互助43031互助522104互助60277互助712210互助819

14、120互助94290互助1016238互助1128164股份1215272股份1311295股份143868股份153185股份1621224股份1720166股份1813305股份1930124股份2014246股份表22序號h(m)y序號h(m)y11.500141.76121.520151.78031.540161.80141.560171.82051.581181.84061.600191.86171.620201.88181.640211.90091.660221.921101.681231.940111.700241.961121.720251.981131.740262.001表

15、23序號專業(yè)課x1英語x2性別x3月生活費x4畢業(yè)去向y19565.01600226362.00850138253.00700246088.00850357265.01750168585.001000379595.001200289292.01950296363.008501107875.019001119078.005001128283.017502138065.018503148375.006002156090.006503167590.018002176383.017001188575.007502197386.009502208666.0115003219363.0013002227372.00850

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論