第一節(jié):回歸分析_第1頁
第一節(jié):回歸分析_第2頁
第一節(jié):回歸分析_第3頁
第一節(jié):回歸分析_第4頁
第一節(jié):回歸分析_第5頁
已閱讀5頁,還剩15頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、回 歸 分 析一切運(yùn)動著的事物都是相互聯(lián)系、相互制約的,從而描述事物和事物運(yùn)動的變量之間也是相互聯(lián)系、相互制約的。變量之間的相互關(guān)系,可分為兩類:一類叫做確定性關(guān)系,也叫做函數(shù)關(guān)系,其特征是一個(gè)變量隨著其他變量的確定而確定。例如圓面積與半徑之間的關(guān)系。另一類關(guān)系叫做相關(guān)關(guān)系,這類關(guān)系的特征是:變量之間的關(guān)系很難用一種精確的方法表示出來。例如,人體的身高與體重之間有一定的關(guān)系,但是由身高不能精確地計(jì)算出體重,由體重也不能精確地計(jì)算出身高。不過,需要指出的是:確定性關(guān)系與相關(guān)性關(guān)系之間沒有一道不可逾越的鴻溝。由于存在測量誤差等原因,確定性關(guān)系在實(shí)際問題中往往通過相關(guān)關(guān)系表示出來。另一方面,當(dāng)對事物

2、內(nèi)部的規(guī)律了解的更加透徹時(shí),相關(guān)關(guān)系也可以轉(zhuǎn)化為確定性關(guān)系?;貧w分析就是處理變量之間的相關(guān)關(guān)系的一種數(shù)學(xué)方法。它是最常用的數(shù)理統(tǒng)計(jì)方法,能解決預(yù)測、控制、生產(chǎn)工藝優(yōu)化等問題。在工農(nóng)業(yè)生產(chǎn)和科學(xué)研究各個(gè)領(lǐng)域中均有廣泛應(yīng)用?;貧w分析一般分為線性回歸分析和非線性回歸分析。本章著重介紹線性回歸分析,它是兩類回歸分析中較簡單的一類,也是應(yīng)用的較多的一類。第一節(jié) 一元線性回歸一、數(shù)學(xué)模型一元線性回歸分析的基本模型為 (1)其中未知參數(shù)稱為回歸系數(shù),自變量也稱為回歸變量。是隨機(jī)誤差項(xiàng),總是假設(shè)N(0, )。(1)式兩邊同時(shí)取期望得:,稱為對的回歸直線方程。在該模型下,第個(gè)觀測值可以看作樣本(這些樣本相互獨(dú)立

3、但不同分布)的實(shí)際抽樣值,即樣本值。一元線性回歸分析的主要任務(wù)是:(i)建立因變量與自變量之間的回歸模型;(ii)用樣本值對和作點(diǎn)估計(jì);(iii)對回歸系數(shù)作假設(shè)檢驗(yàn);(iv)在處對作預(yù)測,并對作區(qū)間估計(jì)。二、模型參數(shù)估計(jì)有n組獨(dú)立觀測值(x1,y1),(x2,y2),(xn,yn)設(shè), N(0, )且相互獨(dú)立 記 最小二乘法就是選擇和的估計(jì)值,使得 為此,將上式分別對求偏導(dǎo)數(shù),根據(jù)極值存在的必要條件,得整理后得到下面的方程組此方程組稱為正規(guī)方程。解上方程組并用取代,得或 其中,。用這種方法求出的估計(jì)值稱為的最小二乘估計(jì),簡稱LS估計(jì)。(經(jīng)驗(yàn))回歸方程為: 三、一元線性回歸模型的檢驗(yàn)一元線性回

4、歸分析模型的檢驗(yàn)分為擬合程度檢驗(yàn)和顯著性檢驗(yàn),它是利用統(tǒng)計(jì)學(xué)中的抽樣理論來檢驗(yàn)回歸方程的可靠性。(一)一元線性回歸方程擬合程度的評價(jià)所謂擬合程度,是指樣本觀測值聚集在樣本回歸線周圍的緊密程度。判斷回歸模型擬合程度大小的最常用指標(biāo)是判定系數(shù)和估計(jì)標(biāo)準(zhǔn)誤差。這兩個(gè)指標(biāo)都是建立在對總離差平方和進(jìn)行分解的基礎(chǔ)上的。對于任一樣本觀測點(diǎn),因變量的實(shí)際觀測值與其樣本均值的離差即總離差可以分解為兩部分:一部分是因變量的回歸值與其樣本均值的離差,它可以看成是總離差中能夠由回歸直線解釋的部分,稱為可解釋離差;另一部分是實(shí)際觀測值與回歸值的離差,它是總離差中不能由回歸直線加以解釋的殘差,該殘差可以看作是回歸模型中隨

5、機(jī)誤差項(xiàng)的一個(gè)估計(jì)。對任意一實(shí)際觀察值總有:對于全部樣本觀測點(diǎn),可以證明有如下關(guān)系式成立:如果記,,則有:上式中:是總的離差平方和(或總變差);是由回歸直線可以解釋的那一部分離差平方和,稱為回歸平方和(或回歸變差);是用回歸直線無法解釋的離差平方和,稱為剩余平方和(剩余變差)。顯然,各點(diǎn)觀測值與直線越靠攏,回歸變差占總變差的比重就越大,說明直線擬合得就越好。1. 判定系數(shù)我們把回歸平方和與總離差平方和之比定義為樣本判定系數(shù),即判定系數(shù)是一個(gè)回歸直線與樣本觀測值擬合優(yōu)度的指標(biāo)。的值總是在0和1之間。一個(gè)線性回歸模型如果充分利用了的信息,則越接近于1,擬合優(yōu)度就越好。反之,如果不大,說明以模型中給

6、出的對的信息還不充分,應(yīng)進(jìn)行修改,使和的信息得到充分的利用。2回歸標(biāo)準(zhǔn)差如上所述,從觀測值與估計(jì)值的對比來看,回歸直線上的各點(diǎn)同對應(yīng)的觀測值各點(diǎn)之間,均存在一定的離差,即觀測值曲線上各點(diǎn)的值均偏離回歸直線。離差越大,擬合程度越差。因而需要測定估計(jì)值的標(biāo)準(zhǔn)差,而回歸標(biāo)準(zhǔn)差就是用來估量值在回歸直線兩側(cè)的離差程度,以便在進(jìn)行實(shí)際預(yù)測時(shí)為預(yù)測值建立一個(gè)置信區(qū)間范圍?;貧w標(biāo)準(zhǔn)差的計(jì)算公式為:值越小,表明回歸直線擬合程度越好。(二)一元線性回歸方程的顯著性檢驗(yàn)回歸分析中的顯著性檢驗(yàn)包括三個(gè)方面的內(nèi)容:一是對各回歸系數(shù)的顯著性檢驗(yàn)(檢驗(yàn));二是對回歸方程整體的顯著性檢驗(yàn)(檢驗(yàn));三是與之間線性相關(guān)程度的檢驗(yàn)

7、(檢驗(yàn))1檢驗(yàn)檢驗(yàn)的目的在于檢驗(yàn)各回歸系數(shù)的顯著性,即與之間是否真正存在線性關(guān)系,具體表現(xiàn)為回歸系數(shù)是否為0。若為0,則所求回歸直線就為一條水平線,與之間無線性關(guān)系;若不為0,認(rèn)為與之間存在線性關(guān)系,所建立的回歸方程符合變量間的變化規(guī)律。檢驗(yàn)的步驟如下:(1) 假設(shè)觀測的樣本來自沒有線性關(guān)系的總體,即: (2)計(jì)算回歸系數(shù)的檢驗(yàn)統(tǒng)計(jì)量值:式中,為回歸系數(shù)的標(biāo)準(zhǔn)差,其計(jì)算公式為: 為回歸估計(jì)標(biāo)準(zhǔn)誤差,計(jì)算方法是: (3)根據(jù)給定的顯著性水平和自由度,查分布表,可得相應(yīng)的臨界值。(4)決策:若,則拒絕,得到的結(jié)論;若,則不能拒絕。 2檢驗(yàn)檢驗(yàn)的目的在于檢驗(yàn)所得到的線性回歸方程在整體上是否顯著成立,

8、進(jìn)一步檢驗(yàn)與之間是否存在線性關(guān)系。其檢驗(yàn)步驟如下:(1)假設(shè)回歸方程是不顯著的,即:方程不顯著 :方程顯著(2)計(jì)算回歸方程的統(tǒng)計(jì)量:(3)根據(jù)給定的顯著性水平,分子自由度1和分母自由度,查分布表中相應(yīng)的臨界值。(4)決策:若,則拒絕原假設(shè),說明回歸方程顯著;若,則不能拒絕原假設(shè),與之間的關(guān)系不明顯或無關(guān)系,說明回歸方程不顯著。3檢驗(yàn)我們已經(jīng)提到,如果回歸變差占總變差的比重就越大,說明直線擬合得就越好,記(或)稱為樣本相關(guān)系數(shù),簡稱為相關(guān)系數(shù)。故統(tǒng)計(jì)量可用來刻畫與之間線性相關(guān)的密切程度,也可用來檢驗(yàn)假設(shè),其檢驗(yàn)方法稱為檢驗(yàn)法。四、運(yùn)用回歸方程進(jìn)行估計(jì)和預(yù)測如果我們利用最小二乘法原理,得到變量與

9、之間的簡單線性回歸方程,并且證明了與之間在統(tǒng)計(jì)上具有顯著的關(guān)系,那么由估計(jì)的回歸方程給出的對樣本數(shù)據(jù)的擬合,在我們看來就是一個(gè)好的擬合。我們利用估計(jì)的回歸方程進(jìn)行估計(jì)和預(yù)測,應(yīng)該是合適的。將已判斷出的未來的自變量的值代入預(yù)測模型,就可以算出預(yù)測值。預(yù)測值的置信區(qū)間,就是在一定的概率下,估計(jì)預(yù)測值的范圍,或它的上下限。從理論上講,如果觀測值數(shù)據(jù)越多,即樣本越大,則可用回歸標(biāo)準(zhǔn)差來判斷預(yù)測值的置信區(qū)間。其公式為:對于小樣本,即時(shí),估算預(yù)測值的置信區(qū)間,應(yīng)引入一個(gè)校正系數(shù),則置信區(qū)間為五、可線性化的一元非線性回歸(曲線回歸)例:出鋼時(shí)所用的盛鋼水的鋼包,由于鋼水對耐火材料的侵蝕,容積不斷增大.我們希

10、望知道使用次數(shù)與增大的容積之間的關(guān)系.對一鋼包作試驗(yàn),測得的數(shù)據(jù)列于下表:使用次數(shù)增大容積使用次數(shù)增大容積234567896.428.209.589.509.7010.009.939.991011121314151610.4910.5910.6010.8010.6010.9010.76將畫出散點(diǎn)圖,這些點(diǎn)分布在一條曲線附近。從下圖可以看出,開始時(shí)侵蝕速度快,然后逐漸減慢,而點(diǎn)的分別逐漸接近于一條平行于軸的直線,因此鋼包容積不會無限增加。顯然將此例看作一元線性回歸是不合適的,此即非線性回歸或曲線回歸問題(需要配曲線)配曲線的一般方法是:先對兩個(gè)變量和作n次試驗(yàn)觀察得畫出散點(diǎn)圖,根據(jù)散點(diǎn)圖確定須配

11、曲線的類型.然后由n對試驗(yàn)數(shù)據(jù)確定每一類曲線的未知參數(shù)和。采用的方法是通過變量代換把非線性回歸化成線性回歸,即采用非線性回歸線性化的方法。通常選擇的六類曲線如下:(1) 雙曲線。(2)冪函數(shù)曲線, 其中。(3)指數(shù)曲線,其中參數(shù)。(4)倒指數(shù)曲線,其中參數(shù)。(5)對數(shù)曲線, 其中。(6)S型曲線。現(xiàn)在來求解例題。由散點(diǎn)圖我們選配到指數(shù)曲線根據(jù)線性化方法,算得由此 最后得 。第二節(jié) 多元線性回歸一、數(shù)學(xué)模型本節(jié)介紹有多個(gè)自變量的多元線性回歸,這種回歸在工程上應(yīng)用更為廣泛。一般地,影響試驗(yàn)指標(biāo)的因素往往不止一個(gè),即有多個(gè)因素,假設(shè)它們之間有如下的線性關(guān)系式: (1)其中,為可觀察的隨機(jī)變量,稱為因

12、變量。為非隨機(jī)的可精確觀查的變量,稱為自變量或因子,為個(gè)未知參數(shù),為隨機(jī)變量。一般假設(shè)N(0, )。為了估計(jì),我們對與同時(shí)作次觀察得組觀察值,它們滿足關(guān)系式為了用矩陣表示上式,令, ,于是,(1)式可變?yōu)?且N(0, ),為階單位矩陣。二、模型參數(shù)估計(jì)下面用最小二乘法求的估計(jì)量,作離差平方和選擇,使達(dá)到最小。根據(jù)微積分學(xué)中的最值原理,只需求下面正規(guī)方程組的解,即解此方程組得到的不是的真值,而是估計(jì)值,故將此正規(guī)方程組可化簡為解得 將計(jì)算得到的,代入方程得三、回歸方程的假設(shè)檢驗(yàn)在實(shí)際問題中,事先我們并不知道或者不能判定與之間確有線性關(guān)系。往往只是一種假設(shè),因此在求出線性回歸方程之后,還須對求出的

13、線性回歸方程同實(shí)際觀測數(shù)據(jù)擬合效果進(jìn)行檢驗(yàn),可提出以下原假設(shè)(1)檢驗(yàn)由前面的知識知,當(dāng)成立時(shí),有根據(jù)給定的顯著性水平,分子自由度和分母自由度,查分布表中相應(yīng)的臨界值若,則拒絕原假設(shè),說明回歸方程顯著;若,則不能拒絕原假設(shè),與之間的關(guān)系不明顯或無關(guān)系,說明回歸方程不顯著。(2)檢驗(yàn)定義為與的多元相關(guān)系數(shù)或復(fù)相關(guān)系數(shù)。容易證明與有如下關(guān)系:故用與檢驗(yàn)是等效的。四、多項(xiàng)式回歸設(shè)變量、的回歸模型為其中p是已知的,是未知參數(shù),服從正態(tài)分布。稱為回歸多項(xiàng)式。上面的回歸模型稱為多項(xiàng)式回歸。令,i=1,2,k多項(xiàng)式回歸模型則變?yōu)槎嘣€性回歸模型。第三節(jié) MATLAB統(tǒng)計(jì)工具箱中的回歸分析命令MATLAB統(tǒng)計(jì)

14、工具箱中提供了一些回歸分析的命令,現(xiàn)介紹如下:一、多元線性回歸:多元線性回歸的命令式regress,此命令也可用于一元線性回歸。其格式如下: 1確定回歸系數(shù)的點(diǎn)估計(jì)值:b=regress( Y,X )2求回歸系數(shù)的點(diǎn)估計(jì)和區(qū)間估計(jì)、并檢驗(yàn)回歸模型: b, bint, r, rint, stats = regress( Y,X,alpha)3畫出殘差及其置信區(qū)間: rcoplot(r,rint)上述命令中,各符號的含義如下:(1) b,Y,X見第二節(jié),其中b為回歸系數(shù)的點(diǎn)估計(jì)值,即, 對一元線性回歸,取k =1即可(2) alpha 為顯著性水平(缺省時(shí)為0.05);(3) bint 為回歸系數(shù)

15、的區(qū)間估計(jì);(4) r與rint 分別為殘差及其置信區(qū)間;(5) stats 是用于檢驗(yàn)回歸模型的統(tǒng)計(jì)量,有三個(gè)數(shù)值,第一個(gè)是相關(guān)系數(shù),越接近1,說明回歸方程越顯著;第二個(gè)值是值,時(shí)拒絕原假設(shè),越大,說明回歸方程越顯著;第三個(gè)是與對應(yīng)的概率,時(shí)拒絕,回歸模型成立。例1:測16名成年女子的身高與腿長所得數(shù)據(jù)如下,是研究身高與腿長之間的關(guān)系。身高(cm)143145146147149150153154腿長(cm)8885889192939395身高(cm)155156157158159160162164腿長(cm)969897969899100102解:1輸入數(shù)據(jù):x=143 145 146 14

16、7 149 150 153 154 155 156 157 158 159 160 162 164X=ones(16,1) x;Y=88 85 88 91 92 93 93 95 96 98 97 96 98 99 100 102;2回歸分析及檢驗(yàn): b,bint,r,rint,stats=regress(Y,X); b,bint,stats得結(jié)果:b = -16.0730 0.7194 bint =-33.7071 1.56120.6047 0.8340stats = 0.9282 180.9531 0.0000即;的置信區(qū)間為-33.7017,1.5612, 的置信區(qū)間為0.6047,0.

17、834; =0.9282, =180.9531, =0.0000,0.05, 可知回歸模型 成立.3殘差分析,作殘差圖: rcoplot(r,rint)從殘差圖可以看出,除第二個(gè)數(shù)據(jù)外,其余數(shù)據(jù)的殘差離零點(diǎn)均較近,且殘差的置信區(qū)間均包含零點(diǎn),這說明回歸模型 能較好的符合原始數(shù)據(jù),而第二個(gè)數(shù)據(jù)可視為異常點(diǎn)。4預(yù)測及作圖: z=b(1)+b(2)* plot(x,Y,k+,x,z, r) 二、多項(xiàng)式回歸1.一元多項(xiàng)式回歸 一元多項(xiàng)式回歸可以用命令polyfit, polyval, polyconf來實(shí)現(xiàn).命令格式如下:(1)回歸:回歸可以用以下兩個(gè)命令之一:確定多項(xiàng)式系數(shù)的命令:p,S=polyf

18、it(x,y,m)其中,是多項(xiàng)式的系數(shù)S是一個(gè)矩陣,用來估計(jì)預(yù)測誤差。一元多項(xiàng)式回歸命令:polytool(x,y,m)。此命令產(chǎn)生一個(gè)交互式的畫面,畫面中有擬合曲線和Y的置信區(qū)間。通過左下方的Export下拉式菜單,可以輸出回歸系數(shù)等。(2)預(yù)測和預(yù)測誤差估計(jì):Y=polyval(p,x)求polyfit所得的回歸多項(xiàng)式在x處的預(yù)測值Y;Y,DELTA=polyconf(p,x,S,alpha)求polyfit所得的回歸多項(xiàng)式在x處的預(yù)測值Y及預(yù)測值的顯著性為1-alpha的置信區(qū)間YDELTA;alpha缺省時(shí)為0.05。一元多項(xiàng)式也可化為多元線性回歸來解。例2 觀測物體降落的距離s與時(shí)間

19、t的關(guān)系,得到數(shù)據(jù)如下表,求s關(guān)于t的回歸方程.t(s)1/302/303/304/305/306/307/30s(cm)11.8615.6720.6026.6933.7141.9351.13t(s)8/309/3010/3011/3012/3013/3014/30s(cm)61.4972.9085.4499.08113.77129.54146.48法一 用一元多項(xiàng)式回歸:(1)輸入數(shù)據(jù):t=1/30:1/30:14/30;s=11.86 15.67 20.60 26.69 33.71 41.93 51.13 61.49 72.90 85.44 99.08 113.77 129.54 146.

20、48;(2)作二次多項(xiàng)式回歸p,S=polyfit(t,s,2)得回歸模型為 :(3)預(yù)測及作圖Y=polyconf(p,t,S)plot(t,s,k+,t,Y,r)法二 化為多元線性回歸:t=1/30:1/30:14/30;s=11.86 15.67 20.60 26.69 33.71 41.93 51.13 61.49 72.90 85.44 99.08 113.77 129.54 146.48;T=ones(14,1) t(t.2);b,bint,r,rint,stats=regress(s,T);b,stats得回歸模型為 :可以看出,兩種方法得出的結(jié)果是一樣的。2.多元二項(xiàng)式回歸多元

21、二項(xiàng)式回歸用命令:rstool(x,y,model, alpha)。其中,輸入數(shù)據(jù)x、y分別為nm矩陣和n維列向量,alpha為顯著性水平(缺省時(shí)為0.05);model由下列4個(gè)模型中選擇1個(gè)(用字符串輸入,缺省時(shí)為線性模型):linear(線性):purequadratic(純二次):interaction(交叉):quadratic(完全二次):例3 設(shè)某商品的需求量與消費(fèi)者的平均收入、商品價(jià)格的統(tǒng)計(jì)數(shù) 據(jù)如下,建立回歸模型,預(yù)測平均收入為1000、價(jià)格為6時(shí)的商品需求量。需求量10075807050659010011060收入1000600 1200500300400130011001

22、300300價(jià)格5766875439選擇純二次模型,即 法一:直接用多元二項(xiàng)式回歸:(1) 數(shù)據(jù)輸入x1=1000 600 1200 500 300 400 1300 1100 1300 300;x2=5 7 6 6 8 7 5 4 3 9;y=100 75 80 70 50 65 90 100 110 60;x=x1 x2;(2)回歸、檢驗(yàn)及預(yù)測 rstool(x,y, purequadratic)將左邊圖形下方方框中的“800”改成1000,右邊圖形下方的方框中仍輸入6.則畫面左邊的“Predicted Y”下方的數(shù)據(jù)由原來的“86.3791”變?yōu)?8.4791,即預(yù)測出平均收入為1000

23、價(jià)格為6時(shí)的商品需求量為88.4791。在畫面左下方的下拉式菜單中選“all”, 則betarmse和residuals都傳送到MATLAB工作區(qū)中。在MATLAB工作區(qū)中輸入命令: beta, rmse得結(jié)果:beta = 110.5313 0.1464 -26.5709 -0.0001 1.8475 rmse = 4.5362故回歸模型為:剩余標(biāo)準(zhǔn)差為4.5362, 說明此回歸模型的顯著性較好。法二:將化為多元線性回歸X=ones(10,1) x1 x2 (x1.2) (x2.2) ;b,bint,r,rint,stats=regress(y,X);b,stats結(jié)果為: b = 110.5313 0.1464 -26.5709 -0.0001 1.8475 stats = 0.9702 40.6656 0.0005可以看出,兩種方法的結(jié)果是一樣的。Stats中第一個(gè)數(shù)據(jù)與1非常接近,第三個(gè)數(shù)據(jù)與0非常接近,這說明所得的回歸模型顯著性很好。三、非線性回歸非線性回歸可用命令nlinfit,nlintool,nlpredci來實(shí)現(xiàn)。命令格式如下1回歸:(1)確定回歸系數(shù)的命令: beta,r,J=nlinfit(x,y, model,beta0)其中,輸入數(shù)據(jù)x、y分別為nm矩陣和n維列向量,對一元非線性回歸,x為n維列向量;m

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論