第二章回歸模型(1-4)_第1頁(yè)
第二章回歸模型(1-4)_第2頁(yè)
第二章回歸模型(1-4)_第3頁(yè)
第二章回歸模型(1-4)_第4頁(yè)
第二章回歸模型(1-4)_第5頁(yè)
已閱讀5頁(yè),還剩38頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、第二章 回歸模型2-1 回歸分析的意義一、概念:回歸分析是處理變量之間相關(guān)關(guān)系的一種數(shù)理統(tǒng)計(jì)方法,在生產(chǎn)和科學(xué)實(shí)驗(yàn)中,某一客觀現(xiàn)象的統(tǒng)一體中,其變量往往客觀上存在一定的關(guān)系,為了了解事物的本質(zhì),往往需要找出描述這些變量之間依存關(guān)系的數(shù)學(xué)表達(dá)式,這就是需要采用回歸分析進(jìn)行處理。 例如:煤的灰分與密度之間就存在著某種不確定的關(guān)系,其關(guān)系近似成正比關(guān)系,根據(jù)實(shí)驗(yàn)數(shù)據(jù)可采用回歸分析求出其關(guān)系表達(dá)式。 變量之間關(guān)系可以分成二類(lèi):完全確定關(guān)系,例如歐姆定律;另一類(lèi)為不確定關(guān)系;如上例,選礦生產(chǎn)過(guò)程中就存在著大量的這種不確定關(guān)系,變量之間這種不確定關(guān)系稱(chēng)為相關(guān)關(guān)系,這種關(guān)系可利用數(shù)理統(tǒng)計(jì)方法找到。 二、回歸

2、分析主要解決以下三方面問(wèn)題(1)根據(jù)試驗(yàn)數(shù)據(jù),研究變量之間的相關(guān)關(guān)系,找出定量的關(guān)系式和其中的參數(shù)。(2)由于關(guān)系或是一種相關(guān)關(guān)系,所以需要進(jìn)一步找出它的可信程度,為此,要進(jìn)行統(tǒng)計(jì)檢驗(yàn)。(3)如果關(guān)系式中有許多自變量,則判斷這些自變量的顯著性,并剔除影響不顯著的自變量。 2-2 可疑數(shù)據(jù)的處理 在進(jìn)行回歸運(yùn)行之前應(yīng)根據(jù)誤差理論對(duì)觀測(cè)數(shù)據(jù)進(jìn)行處理,因?yàn)樵谝唤M試驗(yàn)數(shù)據(jù)中,如果混雜異常數(shù)據(jù),就會(huì)歪曲整個(gè)試驗(yàn)結(jié)果,影響所建立的模型,所以必須運(yùn)用正確的方法舍棄其中異常的數(shù)據(jù)。 常用的判別方法有拉依達(dá)準(zhǔn)則(3準(zhǔn)則)和肖維勒準(zhǔn)則。 (1)3準(zhǔn)則: 其準(zhǔn)則認(rèn)為:某一觀測(cè)值的剩余誤差絕對(duì)值大于3時(shí),該數(shù)據(jù)就應(yīng)被

3、舍棄。 a) 為觀測(cè)數(shù)據(jù)的標(biāo)準(zhǔn)差,即 其中 式中: 觀測(cè)值; 為的平均值。 n觀測(cè)次數(shù); f自由度。 當(dāng)(2030) 時(shí),f=n-1; 當(dāng)N30時(shí) ,f=n-1n, 觀測(cè)值 與 之差稱(chēng)為離差,以g表示, 即: niiyyf12)(1niiyNy11iyyyygiiiyy 3準(zhǔn)則判據(jù)為: 時(shí),即認(rèn)為該數(shù)據(jù)可疑,應(yīng)剔除。b)當(dāng)剔除某一觀測(cè)數(shù)據(jù)后,對(duì)余下的n-1個(gè)數(shù)據(jù)重新計(jì)算及 ,然后重復(fù)按上述方法檢驗(yàn),直到所有觀測(cè)數(shù)據(jù)的離差 均滿足要求為止。c)注意條件: 3準(zhǔn)則是建立在n的前提下,當(dāng)n有限或較小時(shí),3準(zhǔn)則不十分可靠,這時(shí)應(yīng)采用肖維涅準(zhǔn)則。 3yygiiy3yygii(2)肖維涅準(zhǔn)則a)肖維涅準(zhǔn)則

4、是按下式進(jìn)行判斷的: 當(dāng) 時(shí),認(rèn)為該數(shù)據(jù)可疑。 式中K為與觀測(cè)次數(shù)n有關(guān)的參數(shù)。 并且,K值隨著n的增大而增大。b)當(dāng)剔除掉某一數(shù)據(jù)以后,把剩下的觀測(cè)數(shù)據(jù)重新計(jì)算和檢驗(yàn),直至所有觀測(cè)值離差的絕對(duì)值小于K為止。 kyygiic)注意條件當(dāng)n10時(shí),使用該準(zhǔn)則較勉強(qiáng);當(dāng)n185時(shí),肖維涅準(zhǔn)則與3準(zhǔn)則相當(dāng);當(dāng)n185時(shí),肖維涅準(zhǔn)則較3準(zhǔn)則寬。 2-3 模型形式的確定 1從建模和求解方便來(lái)看,總希望模型的形式簡(jiǎn)單一點(diǎn),所含的變量和參數(shù)不要太多;但從模型的使用角度看,則要計(jì)算結(jié)果準(zhǔn)確,反映真實(shí),所以從這一點(diǎn)看又得要把模型選配的復(fù)雜些。 2常用的模型形式有一元線性模型。一元非線性模型,多元線性模型,多元非

5、線性模型及多項(xiàng)式模型。 3利用回歸分析所建立的數(shù)學(xué)模型主要是線性回歸模型,及多項(xiàng)式回歸模型,以及一些可以通過(guò)初等變換轉(zhuǎn)化為線性的一元非線性回歸模型。下面我們先介紹一元線性回歸模型。 2-4 一元線性回歸模型 一元線性回歸分析是最簡(jiǎn)單的一種回歸分析、它所研究的對(duì)象是二個(gè)變量之間的相關(guān)關(guān)系。 設(shè)有N對(duì)實(shí)驗(yàn)數(shù)據(jù) ,其中x為確定性變量,y為服從正態(tài)分布的隨機(jī)變量,如果它們之間存在線性關(guān)系,則可以用一個(gè)線性方程表示。 式中: 為回歸方程計(jì)算值,a,b為待定系數(shù)(模型參數(shù)) ), 2 , 1(Niyxiibxayy一、參數(shù)a,b的最小二乘法估計(jì)1統(tǒng)計(jì)分析: 對(duì)于上述的一組試驗(yàn)數(shù)據(jù)(xi,yi),i=1,

6、2, , n。由數(shù)理統(tǒng)計(jì)知識(shí)得: 離差= 剩余偏差(殘差)= 回歸差= 其中: 試驗(yàn)值; 計(jì)算值; 平均值。 yyi yyiyyiiyiyy同時(shí)可知:離差平方和 剩余平方和 回歸平方和 由散點(diǎn)圖可知:21)(niiyyGniiiyyQ12)(niiyyU12)()()(yyyyyyiiii0 則總離差平方和 2121)()()(niiiiniiyyyyyyGniniiiiiniiiyyyyyyyy11221)(2)()(niiniiiyyyy1212)()(UQ 2參數(shù)最小二乘法確定 為了使回歸直線是一切直線中最接近所有試驗(yàn)點(diǎn)的直線,也就是說(shuō)以這條直線代表x與y的關(guān)系與觀測(cè)值的誤差最小時(shí)的a、

7、b參數(shù)值,就是所求的最佳值。 也就是要使得觀測(cè)值與回歸方程計(jì)算值的偏差為最小,為了消除正負(fù)值影響,采用其剩余平方和為最小。 niiiniiibxayyyQ1212min)()(根據(jù)極值原理:要使上式有最小值,應(yīng)使上式稱(chēng)為線性回歸的正規(guī)方程組,得0)(20)(211niiiiniiixbxaybbxayaxbya2)()(xxyyxxbiii222xnxyxnyxxxxxyyxxiiiiiii 上式中: ; 若令: 則上式可寫(xiě)成: ixNx1iyNy1222)(xNxxxLiixxyxNyxyyxxLiiiixy)(222)(yNyyyLiiyyxbyaxxxyiiiLLxNxyxNyxb22

8、二、回歸方程顯著性檢驗(yàn) 在建立回歸模型時(shí),我們假定兩個(gè)變量之間是線性的,再根據(jù)最小二乘原理,確定了回歸系數(shù)和的值,那么這兩個(gè)變量之間是否真正是線性的,所以必須對(duì)原來(lái)的假定進(jìn)行顯著性檢驗(yàn),回歸方程顯著,回歸方程顯著性檢驗(yàn)就是對(duì)兩個(gè)變量線性關(guān)系進(jìn)行定量的評(píng)價(jià),常用的方法有相關(guān)系數(shù)法與F檢驗(yàn)法兩種。 (1)方差分析 由前面分析知,三種離差平方和關(guān)系為: 上式中:S總表示觀測(cè)點(diǎn) 與平均值 離差平方和,它反映了 的總波動(dòng)情況。產(chǎn)生這種差異是由于二方面因素引起:一方面是由于x與y之間的線性相關(guān)所引起,也就是由于變量的取值不同引起的;另一方面是由于試驗(yàn)誤差和除x與y線性關(guān)系之外一切因素所引起的。 殘回總SS

9、Siyiyy S回表示回歸值 與平均值 離差平方之和,它是由于x與y之間線性相關(guān)引起那部分離差,它是由自變量x的變化引起的。 S殘表示觀測(cè)值 與回歸值 的離差平方和,它是在所有類(lèi)似的直線中與觀測(cè)點(diǎn)離差平方和中最小的一個(gè),也就是說(shuō)它是除了x對(duì)y線性影響之外的一切因素對(duì)y變差的作用。iyyiyiy S總,S回,S殘的計(jì)算方法:yyniiLyyS12)(總niiniixbabxayyS1212)()(回xxxyxxniiLLLbxxb22122)(xxxyyyLLLSSS2回總殘(2)相關(guān)系數(shù)檢驗(yàn)法 a顯然,在總離差平方和一定的條件下,S殘?jiān)叫?,S回越接近S總,變量x與y之間的線性關(guān)系就越密切,從而

10、比值S回/S總就越接近1,線性越好,反之線性差。用表示S回/S總, 即: 總回SSr2yyxxxyLLLsSr總回/ 我們稱(chēng)r為變量x與y的相關(guān)系數(shù)。其絕對(duì)值為 ,相關(guān)系數(shù)的正負(fù)號(hào)由 決定,即R與b同號(hào)。R0時(shí)為正相關(guān);RF表 則說(shuō)明回歸方程顯著,即與的線性關(guān)系密切。殘回fQfUF 回f殘f回f殘f 三、回歸方程的預(yù)測(cè)值精度檢驗(yàn) 尋求回歸方程的目的是為了通過(guò)x值來(lái)預(yù)測(cè)y值,但是,由于x與y之間存在的是相關(guān)關(guān)系,所以由回歸方程計(jì)算得到的只能是觀測(cè)值的平均值。那么,實(shí)際的值y和 偏差有多大,這就需要對(duì)回歸方程的預(yù)測(cè)精度進(jìn)行檢驗(yàn)。 y 三、回歸方程的預(yù)測(cè)值精度檢驗(yàn) 在一元線性回歸方程中,x是確定性變

11、量,y是服從正態(tài)分布的隨機(jī)變量,并按正態(tài)分布規(guī)律波動(dòng),如果能計(jì)算出波動(dòng)的標(biāo)準(zhǔn)差,則回歸方程的預(yù)測(cè)精度就能估計(jì)出來(lái)。 由于剩余偏差平方和Q是隨機(jī)因素造成的,它排除了線性關(guān)系的影響。 由于剩余偏差平方和Q是隨機(jī)因素造成的,它排除了線性關(guān)系的影響。 我們把剩余標(biāo)準(zhǔn)差作為衡量y隨機(jī)波動(dòng)大小的一個(gè)估計(jì)量。 即 : 若, 則y的取值是以為 中心而對(duì)稱(chēng)分布。越靠近 ,出現(xiàn)的概率越大,相反,越遠(yuǎn)離 ,則出的概率越小, 與剩余標(biāo)準(zhǔn)差之間,有如下關(guān)系: 2)(22NyyNQii0 xx 0y0y0y0y觀測(cè)值 落在 區(qū)間 內(nèi)的概率為38%觀測(cè)值 落在 區(qū)間 內(nèi)的概率為68.3%觀測(cè)值 落在 區(qū)間 內(nèi)的概率為95.

12、4%觀測(cè)值 落在 區(qū)間 內(nèi)的概率為99.73%觀測(cè)值 落在區(qū)間 內(nèi)的概率為99.99 如上所述,越小,則回歸方程預(yù)測(cè)值越接近實(shí)測(cè)值,預(yù)極就精確。因此,可以把剩余標(biāo)準(zhǔn)差作為預(yù)極回歸方程精度的標(biāo)志。 iy5 . 00yiyiyiyiyy2y3y4y 例1 在選煤試驗(yàn)研究中,測(cè)得尾礦產(chǎn)品的灰分與對(duì)應(yīng)分選時(shí)的基元灰分關(guān)系如下表所示,試建立它們的預(yù)測(cè)模型,并進(jìn)行方差分析。x22 34 39 43 46 54 58 64 67 72y11 13 16 16 17 15 20 19 24 23編號(hào)xyx2y2xy122114841212422341311561694423391615212566244431

13、6184925668854617211628978265415291622581075820336440011608641940965017829672444895761608107223518452916504991742717631829228試驗(yàn)統(tǒng)計(jì)數(shù)據(jù)表根據(jù)公式: 待求:xyxbxayxbna2xyxyx,2xxxyLLb xbya線性回歸方程計(jì)算表2778)(11 .24898)499(101)(1271769 .4910149922222xnxLxnxxxxXX4 .154)(16 .3027)174(101)(131824 .1710117422222ynyLynyyyyyy52

14、8)(18700)(1922810yxnxyLyxnxynxy方差計(jì)算:回歸差殘差xyxbyaLLbxxxy24. 042. 5424. 59 .4924. 04 .1724. 022785287 .1264 .1547 .12652824. 0 xyyyxybLLQbLU7 .27 相關(guān)系數(shù): 當(dāng)置信水平=0.05,數(shù)據(jù)組數(shù)為10,自由度=10-2=8時(shí),查表得相關(guān)系數(shù)值0.632。r計(jì)=0.89r表=0.632求得的線性回歸方程線性關(guān)系密切。 剩余標(biāo)準(zhǔn)差:89. 04 .1542278528LxxLyyLxyr86. 12107 .272NQ方差分析表誤差來(lái)源誤差平方和自由度均方和F計(jì)值查

15、F(1.8,0.01)回歸(U)剩余(Q)總和126.727.7154.4110-2=810-1=9126.73.4636.311.3四、四、一元線性回歸子程序,一元線性回歸子程序,PASCAL語(yǔ)言語(yǔ)言1計(jì)算步驟BEG1N計(jì)算 , , , 計(jì)算回歸方程系數(shù)a,b計(jì)算建立回歸方程后的預(yù)測(cè)值計(jì)算回歸平方和U,剩余平方和Q計(jì)算相關(guān)系數(shù)R,標(biāo)準(zhǔn)離差S,F(xiàn)檢驗(yàn)值。END;ix2ixiy2iyiy2形式參數(shù)說(shuō)明 樣本數(shù) 存放自變量 的一維數(shù)組 存放自變量 的一維數(shù)組 存放建立回歸方程后的預(yù)測(cè)值的一維數(shù)組a,b一元線性回歸方程的兩個(gè)系數(shù) 回歸平方和 剩余平方和 相關(guān)系數(shù) 剩余標(biāo)準(zhǔn)離差 F檢驗(yàn)值nxixyiy

16、qquqrsf3PASCAL子程序PROCEDURE axy1 (n:integer; VAR x,y, qq;VAR a,b,u,q,r,s,f:real);VAR h,k,c,g,e,w,v,l,d,z:real; I:integer;BEGINH:=0; k:=0; c:=0; g:=0; e:=0;FOR i:=1 T0 n D0BEGINh:=h+xi; k:=k+xi*xi;C:=C+yi; g:=g+yi*yi;e:=e+xi*yi;END;W:=h/n; V:=c/n;L:=0; d:=0; z:=0;FOR i:=1 T0 n D0BEGINL:=L+(xi-w)*(xi-w

17、);d:=d+(yi-v)*(yi-v);END;B:=Z/L; a:=V-b*w;FOR i:=1 T0 n D0qqi:=a+b*xi;u:=0; q:=0;FOR i:=1 T0 n D0BEGINu:=u+sqr(qqi-v); 回歸平方和S回q:=q+sqr(yi-qqi); 剩余平方和S殘END;r:sqrt(u/d); S:=sqrt(q/(n-1);f:=u*(n-2)/q;END. 2)(yyi)(iiyy作業(yè)作業(yè)1 1:根據(jù)青龍山選煤廠某年浮沉結(jié)果,建立其灰:根據(jù)青龍山選煤廠某年浮沉結(jié)果,建立其灰分與密度的一元線性回歸方程,并求分與密度的一元線性回歸方程,并求1.351.3

18、5,1.41.4,1.51.5,1.851.85時(shí)的灰分值。時(shí)的灰分值。月份-1.313-1.41.4-1.51.5-1.61.6-1.8+1.812.937.5117.6526.3536.8779.2422.367.0116.6526.6640.6479.3432.326.9617.1424.4738.6378.6543.778.3918.6426.2338.9880.2552.716.8416.3826.3938.3281.0262.756.6216.7126.3638.8882.9672.556.8916.6626.1137.8580.3082.187.0917.2426.7338.2480.6193.127.7518.1329.0439.8679.58102.767.0616.8226.3336.5380.38112.876.8916.4825.5038.0678.86122.386.7216.8925.7638.7482.06作業(yè)2 某礦區(qū)取得的18個(gè)煤樣,試建立其密度和灰分之間的線性回歸模型。 樣品號(hào)密

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論