數(shù)學實驗回歸分析_第1頁
數(shù)學實驗回歸分析_第2頁
數(shù)學實驗回歸分析_第3頁
數(shù)學實驗回歸分析_第4頁
數(shù)學實驗回歸分析_第5頁
已閱讀5頁,還剩20頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、大學數(shù)學實驗作業(yè)回歸分析班級: 姓名: 學號: 日期: 目錄【實驗目的】3【實驗內容】3題目1(課本習題第13章第1題)3【問題描述】3【問題求解】3【拓展實驗、思考、對比、分析】8【本題小結】9題目2(課本習題第13章第2題)9【問題描述】9【問題求解】9【拓展實驗、思考、對比、分析】12【本題小結】12題目3(課本習題第13章第10題)12【問題描述】12【問題求解】13【拓展實驗、思考、對比、分析】20【本題小結】23【實驗感想收獲】24注:本實驗作業(yè)腳本文件均以ex13_1_1形式命名,其中ex代表作業(yè),13_1_1表示第十三章第一題第一個程序。 【實驗目的】1. 了解回歸分析的基本原

2、理,掌握MATLAB實現(xiàn)的方法。2. 練習使用回歸分析解決實際問題?!緦嶒瀮热荨款}目1(課本習題第13章第1題) 【問題描述】用切削機床加工時,為實時地調整機床需測定刀具的磨損程度,每隔一小時測量刀具的厚度得到以下數(shù)據(jù)(見下表),建立刀具厚度對于切削時間的回歸模型,對模型和回歸系數(shù)進行檢驗,并預測7.5h和15h之后的刀具厚度,用(30)式和(31)式兩種辦法計算預測區(qū)間,解釋計算結果。時間/h012345678910刀具厚度/cm30.629.128.428.128.027.727.527.227.026.826.5【問題求解】先作出刀具厚度和時間的關系圖(代碼見下面部分):可見,刀具厚度和

3、切削時間大致成線性關系。故建立刀具厚度和時間的線性關系模型: 在Matlab中編寫代碼如下:%-作業(yè)題13_1腳本M文件源程序ex13_1_1-clear all;clc;%輸入數(shù)據(jù)x=0:10;y=30.6 29.1 28.4 28.1 28.0 27.7 27.5 27.2 27.0 26.8 26.5;figure(1)plot(x,y,'*')xlabel('切削時間/h')ylabel('刀具厚度/cm')title('刀具厚度與切削時間關系圖 ') % 加入X軸標記,Y軸標記和標題n=length(x);X=ones(

4、n,1),x'b,bint,r,rint,s=regress(y',X);b,bint,sfigure(2)rcoplot(r,rint)得到結果為:b = 29.5455 -0.3291bint = 28.9769 30.1140 -0.4252 -0.2330s = 0.8696 60.0018 0.0000 0.1985將上述結果列表,得到:表1 題1(刀具厚度與切削時間關系)的計算結果回歸系數(shù)回歸系數(shù)估計值回歸系數(shù)置信區(qū)間29.5455(28.9769,30.1140)-0.3291(-0.4252,-0.2330) 同時得到殘差與置信區(qū)間圖:圖1 題1(刀具厚度與切削

5、時間關系)殘差及其置信區(qū)間圖由殘差及其置信區(qū)間圖可以看出,第一個數(shù)據(jù)偏離較大,可以剔除它。剔除第一個數(shù)據(jù)后再次計算(代碼略),得到的結果為:b = 29.0533 -0.2588bint = 28.8334 29.2732 -0.2942 -0.2233s = 0.9726 283.5599 0.0000 0.0195表2 題1(刀具厚度與切削時間關系)剔除第一個數(shù)據(jù)后的計算結果回歸系數(shù)回歸系數(shù)估計值回歸系數(shù)置信區(qū)間29.0533(28.8334,29.2732)-0.2588(-0.2942,-0.2233) 圖2 題1剔除第一個數(shù)據(jù)后殘差及其置信區(qū)間圖由結果可見,模型的精度提高。但仍有一個

6、數(shù)據(jù)是新的異常點,可以再次進行剔除(結果不再列出。)下面取未剔除數(shù)據(jù)的模型進行分析。由前面的計算結果可得,刀具厚度對于切削時間的回歸模型為x=29.5455-0.3291tx為刀具厚度,t為切削時間。根據(jù):的置信區(qū)間均不包含零點; ;用MATLAB命令finv(0.95,1,n-2)計算得到F(1,n-2), ,可以得到模型檢驗是有效的。為求預測值和預測區(qū)間,運行如下代碼:%-作業(yè)題13_1腳本M文件源程序ex13_1_2-clear all;clc;%輸入原始數(shù)據(jù)x=0:10;y=30.6 29.1 28.4 28.1 28.0 27.7 27.5 27.2 27.0 26.8 26.5;n

7、=length(x);afa=0.05;yy=29.5455-0.3291*x;s=sqrt(sum(y-yy).*(y-yy)/(n-2);xbar=mean(x);sxx=sum(x-xbar).*(x-xbar);t=tinv(1-afa/2,n-2); x0=7.5,15;deday1=t*s*sqrt(x0-xbar).*(x0-xbar)/sxx+1/n+1);deday2=s*norminv(1-afa/2);y0=29.5455-0.3291*x0A=y0-deday1;y0+deday1B=y0-deday2;y0+deday2得t=7.5h時,刀具厚度預測值為27.0772

8、cm,預測區(qū)間為25.9974, 28.1571(按30式計算)和26.2039, 27.9506(按31式計算);t=15h時,刀具厚度預測值為24.6090cm,預測區(qū)間為23.1835, 26.0345 (按30式計算)和23.7357, 25.4823 (按31式計算)。從以上預測區(qū)間可以看出,31式預測結果區(qū)間比30式預測區(qū)間小。當n很大時,且x0接近均值xbar時,可以忽略30式根號內的前兩項,且近似于N(0,1)的1-/2分位數(shù),因此有了31式的計算結果。在誤差允許范圍內,31式的結果與30式的結果想接近,可以提高計算效率?!就卣箤嶒?、思考、對比、分析】關于異常點或離群點的思考:

9、由原始數(shù)據(jù)殘差置信區(qū)間圖發(fā)現(xiàn),第一個數(shù)據(jù)點為異常點。剔除前s = 0.8696 60.0018 0.0000 0.1985,剔除后s = 0.9726 283.5599 0.0000 0.0195,發(fā)現(xiàn)決定系數(shù)R2,F(xiàn)值顯著增大,殘差置信區(qū)間明顯減小,說明擬合的結果更加理想。剔除一個異常點后,發(fā)現(xiàn)在新的殘差置信區(qū)間圖中又發(fā)現(xiàn)第一個數(shù)據(jù)為異常點,再次剔除,得到s = 0.9959 1715.0000 0.0000 0.001904,發(fā)現(xiàn)R2,F(xiàn)值再次增大。新的異常點的產生是因為在原來的殘差圖中,異常點偏離0較大,其余點相對來說偏離0較小,是正常的。剔除第一個數(shù)據(jù)點后,殘差置信區(qū)間變小,相對于其余

10、數(shù)據(jù)點偏離0較大的點就成了新的異常點。針對本體的情況,認為在切削開始階段,用直線擬合刀具厚度與時間的關系不是很理想,可以考慮用其它模型進行擬合,比如二次函數(shù)??紤]用二項式回歸對前五個數(shù)據(jù)進行擬合。建立如下模型:在matlab中編寫如下程序:%-作業(yè)題13_1腳本M文件源程序ex13_1_3-clear all;clc;x=0:4;y=30.6 29.1 28.4 28.1 28.0;n=length(x);X=ones(n,1),x', x'.* x'b,bint,r,rint,s=regress(y',X);b,bint,srcoplot(r,rint)得到如

11、下結果:b = 30.5371 -1.5343 0.2286bint = 29.9896 31.0847 -2.1829 -0.8856 0.0731 0.3841s = 0.9921 125.1094 0.0079 0.0183根據(jù):和的置信區(qū)間均不包含零點; ;用MATLAB命令finv(0.95,1,n-2)計算得到F(1,n-2), ,可以得到模型檢驗是有效的?!颈绢}小結】1、 刀具厚度對于刀具的切削時間的模型為x=29.5455-0.3291t(沒有剔除異常點)。根據(jù):的置信區(qū)間均不包含零點; ;用MATLAB命令finv(0.95,1,n-2)計算得到F(1,n-2), ,可以得到

12、模型檢驗是有效的。2、 t=7.5h時,刀具厚度預測值為27.0772cm,預測區(qū)間為25.9974, 28.1571(按30式計算)和26.2039, 27.9506(按31式計算);t=15h時,刀具厚度預測值為24.6090cm,預測區(qū)間為23.1835, 26.0345 (按30式計算)和23.7357, 25.4823 (按31式計算)。3、本題目中前幾個數(shù)據(jù)點不宜用一元線性回歸模型進行擬合,用二項式模型擬合較好題目2(課本習題第13章第2題) 【問題描述】電影院調查電視廣告費用和報紙廣告費用對每周收入的影響,得到下面的數(shù)據(jù)(見下表),建立回歸模型并進行檢驗,診斷異常點的存在并進行處

13、理。每周收入9690959295959494電視廣告費用1.52.01.52.53.32.34.22.5報紙廣告費用5.02.04.02.53.03.52.53.0【問題求解】設電影院每周收入()和電視廣告費用()、報紙廣告費用()滿足模型:在Matlab中編寫代碼如下:%-作業(yè)題13_2腳本M文件源程序ex13_2_1-clear all;clc;y=96 90 95 92 95 95 94 94;x1=1.5 2.0 1.5 2.5 3.3 2.3 4.2 2.5;x2=5.0 2.0 4.0 2.5 3.0 3.5 2.5 3.0;n=length(y);X=ones(n,1),x1&#

14、39;,x2'b,bint,r,rint,s=regress(y',X);b,bint ,srcoplot(r,rint)得到的計算結果為:回歸系數(shù)回歸系數(shù)估計值回歸系數(shù)置信區(qū)間83.2116(78.8058,87.6174)1.2985(0.4007,2.1962)2.3372(1.4860,3.1883) 根據(jù):和的置信區(qū)間均不包含零點; ;用MATLAB命令finv(0.95,1,n-2)計算得到F(1,n-2), ,可以得到模型檢驗是有效的。但是和的置信區(qū)間較長,說明模型精度還不夠高。由圖可見,第一個數(shù)據(jù)為異常點,將其剔除之后,再用matlab計算得到結果如下:回歸系數(shù)

15、回歸系數(shù)估計值回歸系數(shù)置信區(qū)間81.4881(78.7878,84.1883)1.2877(0.7964,1.7790)2.9766(2.3281,3.6250) 可見,回歸系數(shù)、的置信區(qū)間變短,變大,變小,說明模型的精度提高。同時,和的置信區(qū)間不包含零點;。故模型是有效。綜上可得,異常點經過處理后最終得到的回歸模型為:其中y為每周收入;x1為電視廣告費用;x2為報紙廣告費用?!就卣箤嶒?、思考、對比、分析】考慮用matlab中二項式回歸rstool函數(shù)對題目中數(shù)據(jù)進行分析。在matlab中輸入rstool(x,y,'linear',0.05)%-作業(yè)題13_2腳本M文件源程序e

16、x13_2_2-clear all;clc;y=96 90 95 92 95 95 94 94;x1=1.5 2.0 1.5 2.5 3.3 2.3 4.2 2.5;x2=5.0 2.0 4.0 2.5 3.0 3.5 2.5 3.0;n=length(y);X=x1',x2'rstool(X,y,'linear',0.05)得到,s=0.6998,得到模型為與剔除異常點之前數(shù)據(jù)用regress得到的公式完全一樣?!颈绢}小結】1、 剔除異常點之前得到的模型為,根據(jù)和的置信區(qū)間均不包含零點; ;用MATLAB命令finv(0.95,1,n-2)計算得到F(1,n-

17、2), ,可以得到模型檢驗是有效的。但是和的置信區(qū)間較長,說明模型精度還不夠高。2、 剔除異常點之后得到的模型為,且回歸系數(shù)、的置信區(qū)間變短,變大,變小,說明模型的精度提高。同時,和的置信區(qū)間不包含零點;。故模型是有效。3、 用rstlool函數(shù)得到的結果與regress相同。題目3(課本習題第13章第10題) 【問題描述】下表列出了某城市18位3544歲經理的年平均收入(千元),風險偏好度和人壽保險額(千元)的數(shù)據(jù),其中風險偏好度是根據(jù)發(fā)給每個經歷的問卷調查表綜合評估得到的,它的數(shù)值越大,就越偏愛高風險。研究人員想研究此年齡段中的經歷所投保的人壽保險額與年均收入及風險偏好度之間的關系。研究者

18、預計,經理的年均收入和人壽保險額之間存在著二次關系,并有把握地認為風險偏好度對人壽保險額有線性效應,但對于風險偏好度對人壽保險額是否有二次效應以及兩個自變量是否對人壽保險額有交互效應,心中沒底。通過下表中的數(shù)據(jù)來建立一個合適的回歸模型,驗證上面的看法,并給出進一步的分析。序號序號119666.2907104937.408526340.96451110554.3762325272.99610129846.186748445.0106137746.1304512657.2044141430.366361426.8525155639.060574938.12241624579.380184935.8

19、4061713352.7668926675.79691813355.9166【問題求解】根據(jù)題中所給的條件,給出以下四種模型:模型1:.認為風險偏好對人壽保險額沒有二次效應,且兩個自變量沒有交互效應 y=0+1x1+2x123x2+模型2:認為風險偏好對人壽保險額有二次效應,但兩個自變量沒有交互效應 y=0+1x1+2x123x2+4x22+模型3:認為風險偏好對人壽保險額沒有二次效應,但兩個自變量有交互效應 y=0+1x1+2x123x2+4x1x2+模型4:認為風險偏好對人壽保險額有二次效應,且兩個自變量有交互效應 y=0+1x1+2x123x2+4x225x1x2+現(xiàn)在檢驗者四種模型中,

20、哪一種更加符合要求編寫程序進行檢驗:%-作業(yè)題13_10腳本M文件源程序ex13_10_1-clear;clc;y=196 63 252 84 126 14 49 49 266 49 105 98 77 14 56 245 133 133;x1=66.29 40.964 72.996 45.01 57.204 26.852 38.122 35.84 75.796 37.408 54.376 46.186 46.13 30.366 39.06 79.38 52.766 55.916;x2=7 5 10 6 4 5 4 6 9 5 2 7 4 3 5 1 8 6;n=length(y);對于模型1

21、,程序主要語句如下:X=ones(n,1),x1',(x1.*x1)',x2'b1,bint1,r1,rint1,s1=regress(y',X)將結果整理成為表格如下:回歸系數(shù)回歸系數(shù)估計值回歸系數(shù)置信區(qū)間-62.3489-73.5027, -51.19520.83960.3951, 1.28400.03710.03300, 0.04125.68465.2604, 6.1089對于模型2,程序主要語句如下:X=ones(n,1),x1',(x1.*x1)',x2',(x2.*x2)'b2,bint2,r2,rint2,s2=re

22、gress(y',X)將結果整理成為表格如下:回歸系數(shù)回歸系數(shù)估計值回歸系數(shù)置信區(qū)間-60.9104-72.6072,-49.21350.93030.4389,1.42180.03590.0310,0.04084.45291.6910,7.214740.1159-0.1408,0.3727R2=0.9996 F=8274 P<5.4437×10-22 s2=3.2632對于模型3,程序主要語句如下:X=ones(n,1),x1',(x1.*x1)',x2',(x1.*x2)'b3,bint3,r3,rint3,s3=regress(y&#

23、39;,X)將結果整理成為表格如下:回歸系數(shù)回歸系數(shù)估計值回歸系數(shù)置信區(qū)間-65.9461-79.6004,-52.29170.87310.4197,1.32650.03740.0332 ,0.04156.60054.5786,8.62234-0.0138-0.0436,0.0160R2=0.9996 F=8304.4 P<5.3154×10-22 s2=3.2513對于模型4,程序主要語句如下:將結果整理成為表格如下:回歸系數(shù)回歸系數(shù)估計值回歸系數(shù)置信區(qū)間-65.3856-78.7266,-52.04471.01720.5202,1.51410.03580.0310,0.04

24、065.21712.2785,8.155840.1662-0.0956,0.42795-0.0196-0.0501,0.0109R2=0.9997 F=7110.2 P<2.1634×10-20 s2=3.0381從分析的結果看,僅模型1所有回歸系數(shù)的置信區(qū)間不包含0,故認為模型1中變量有效,但是考慮到模型4中R2較大,s2較小,回歸系數(shù)4、5的置信區(qū)間包含0,但是模型的擬合程度非常好,所以初步認為模型1與模型4有效,它們的回歸方程為:模型1:y= -62.3489+0.8396x1+0.0371x12+5.6846x2模型4:y= -65.3856+1.0172x1+0.03

25、58x12+5.2171 x2+0.1662x22-0.0196x1x2為了得到更加精確的模型,我繼續(xù)進行了殘差分析:對于模型1,程序主要語句如下:X=ones(n,1),x1',(x1.*x1)',x2'b1,bint1,r1,rint1,s1=regress(y',X);rcoplot(r1,rint1)殘差分析圖像如下:由圖像可知第5組數(shù)據(jù)殘差較大,去掉后再次進行分析將結果整理成為表格如下:回歸系數(shù)回歸系數(shù)估計值回歸系數(shù)置信區(qū)間-65.4793-75.0115, -55.94720.98790.6030, 1.37270.03580.0323, 0.039

26、35.57895.2189, 5.9390殘差圖像如下:從表格中看出,修改后的模型1 ,非常大,s2比較小,符合要求,修改后模型1所以回歸方程為:y= -65.4793+0.9879x1+0.0358x12+5.5789x2同理,對模型4也進行殘差分析,程序主要語句如下:X=ones(n,1),x1',(x1.*x1)',x2',(x2.*x2)',(x1.*x2)'b4,bint4,r4,rint4,s4=regress(y',X)rcoplot(r4,rint4)殘差圖像如下:由圖像可知第3、5和7組數(shù)據(jù)殘差較大,去掉后再次進行分析將結果整理

27、成為表格如下:回歸系數(shù)回歸系數(shù)估計值回歸系數(shù)置信區(qū)間-64.7763-72.7255,-56.82701.10750.8382,1.37680.03470.0321,0.03743.87221.7991,5.945440.29170.0962,0.48715-0.0160-0.0332 ,0.0011R2=0.9999 F=20637 P<5.5902×10-18 s2=0.8125殘差圖像如下:從表格中看出,修改后的模型1 ,非常大,s2比較小,雖然5的置信區(qū)間包含0,即不能確定年均收入和人壽保險額是否對人壽保險額有交互效應,但仍然認為模型符合要求,修改后模型4所以回歸方程為

28、:y= -64.7763+1.1075x1+0.0347x12+3.8722 x2+0.2917x22-0.0160x1x2所以綜上所述,將結果呈現(xiàn)如下:未觀察殘差,剔除異常點之前:模型1:.認為風險偏好對人壽保險額沒有二次效應,且兩個自變量沒有交互效應y= -62.3489+0.8396x1+0.0371x12+5.6846x2模型4:認為風險偏好對人壽保險額有二次效應,且兩個自變量有交互效應y= -65.3856+1.0172x1+0.0358x12+5.2171 x2+0.1662x22-0.0196x1x2觀察殘差,剔除異常點之后:模型1:.認為風險偏好對人壽保險額沒有二次效應,且兩個

29、自變量沒有交互效應y= -65.4793+0.9879x1+0.0358x12+5.5789x2模型4:認為風險偏好對人壽保險額有二次效應,且兩個自變量有交互效應y= -64.7763+1.1075x1+0.0347x12+3.8722 x2+0.2917x22-0.0160x1x2【拓展實驗、思考、對比、分析】逐步回歸的基本思路為,先從候選集合中確定一個初始子集,然后每次從子集外(候選集合內)引入一個對y影響顯著的變量,再對原來子集中的變量一一進行檢驗,剔除那些變得不顯著的變量。用matlab中stepwise逐步回歸法對本題中重要變量進行選擇,編寫程序如下:%-作業(yè)題13_10腳本M文件源

30、程序ex13_10_2-clear;clc;y=196 63 252 84 126 14 49 49 266 49 105 98 77 14 56 245 133 133;x1=66.29 40.964 72.996 45.01 57.204 26.852 38.122 35.84 75.796 37.408 54.376 46.186 46.13 30.366 39.06 79.38 52.766 55.916;x2= x1.2;x3=7 5 10 6 4 5 4 6 9 5 2 7 4 3 5 1 8 6;x4= x3.2;x5= x1.x3;x=x1' x2' x3

31、9; x4' x5'stepwise(x,y,1,2,3) 模型1:.認為風險偏好對人壽保險額沒有二次效應,且兩個自變量沒有交互效應 y=0+1x1+2x123x2+上面得到的便是模型1的結果模型2:認為風險偏好對人壽保險額有二次效應,但兩個自變量沒有交互效應 y=0+1x1+2x123x2+4x22+按下x4點,加入x32項,得到如下結果:模型3:認為風險偏好對人壽保險額沒有二次效應,但兩個自變量有交互效應 y=0+1x1+2x123x2+5x1x2+按下x5點,將x1*x3交互項加入其中,得到如下結果模型4:認為風險偏好對人壽保險額有二次效應,且兩個自變量有交互效應 y=0

32、+1x1+2x123x2+4x225x1x2+按下x4,x5點,加入x32項與x1與x2交互項x1*x3,得到如下結果整理得到如下表格:模型1-62.30.0840.0375.6840.99958110701.803302-60.90.9300.0364.4520.1160.9996182741.806403-62.00.7990.0385.792-5.27e-0190.999618270.41.806804-57.00.9920.0352.2720.352-1.61e-0180.999759705.91.49190根據(jù)剩余標準差s最小的原則,我們該選擇模型4,即變量應該選擇x1,x2,x3,x4即每一個變量都比較重要。當然,stepwise比較適用于影響因素較多的情況,本題目中影響因素較少,完全可以采用窮舉法逐一分析。【本題小結】1、從分析的結果看,僅模型1所有回歸系數(shù)的置信區(qū)間不包含0,故認為模型1中變量有效,但是考慮到模型4中R2較大,s2較小,回歸系數(shù)4、

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論