回歸分析jiaoanch2b2_第1頁
回歸分析jiaoanch2b2_第2頁
回歸分析jiaoanch2b2_第3頁
回歸分析jiaoanch2b2_第4頁
回歸分析jiaoanch2b2_第5頁
已閱讀5頁,還剩11頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、第二章 回歸分析 (補充教材)回歸分析是研究變量之間相關(guān)關(guān)系的一種統(tǒng)計推斷法。例如,人的血壓y與年齡x有關(guān),這里x是一個普通變量,y是隨機變量。Y與x 之間的相依關(guān)系f(x)受隨機誤差的干擾使之不能完全確定,故可設(shè)有: 式中f(x)稱作回歸函數(shù),為隨機誤差或隨機干擾,它是一個分布與x無關(guān)的隨機變量,我們常假定它是均值為0的正態(tài)變量。為估計未知的回歸函數(shù)f(x),我們通過n次獨立觀測,得x與y的n對實測數(shù)據(jù)(xi,yi)i=1,n,對f(x)作估計。實際中常遇到的是多個自變量的情形。例如 在考察某化學反應(yīng)時,發(fā)現(xiàn)反應(yīng)速度y與催化劑用量x1,反應(yīng)溫度x2,所加壓力x3等等多種因素有關(guān)。這里x1,x

2、2,都是可控制的普通變量,y是隨機變量,y與諸xi間的依存關(guān)系受隨機干擾和隨機誤差的影響,使之不能完全確定,故可假設(shè)有: 這里是不可觀察的隨機誤差,它是分布與x1,xk無關(guān)的隨機變量,一般設(shè)其均值為0,這里的多元函數(shù)f(x1,xk)稱為回歸函數(shù),為了估計未知的回歸函數(shù),同樣可作n次獨立觀察,基于觀測值去估計f(x1,xk)。以下的討論中我們總稱自變量x1,x2,xk為控制變量,y為響應(yīng)變量,不難想象,如對回歸函數(shù)f(x1,xk)的形式不作任何假設(shè),問題過于一般,將難以處理,所以本章將主要討論y和控制變量x1,x2,xk呈現(xiàn)線性相關(guān)關(guān)系的情形,即假定f(x1,xk)=b0+b1x1+bkxk。并

3、稱由它確定的模型 (k=1)及為線性回歸模型,對于線性回歸模型,估計回歸函數(shù)f(x1,xk)就轉(zhuǎn)化為估計系數(shù)b0、bi(i=1,k) 。當線性回歸模型只有一個控制變量時,稱為一元線性回歸模型,有多個控制變量時稱為多元線性回歸模型,本著由淺入深原則,我們重點討論一元的,在此基礎(chǔ)上簡單介紹多元的。§2.1 一元線性回歸一、一元線性回歸的數(shù)學模型(參見教材P23-P24 三)前面我們曾提到,在一元線性回歸中,有兩個變量,其中x是可觀測、可控制的普通變量,常稱它為自變量或控制變量,y為隨機變量,常稱其為因變量或響應(yīng)變量。通過散點圖或計算相關(guān)系數(shù)判定y與x之間存在著顯著的線性相關(guān)關(guān)系,即y與x

4、之間存在如下關(guān)系:y=a+bx+ (2.1-6)通常認為 N(0,2)且假設(shè)2與x無關(guān)。將觀測數(shù)據(jù)(xi,yi)(i=1,n)代入(2.1-6)再注意樣本為簡單隨機樣本得: (2.1-7)稱(2.1-6)或(2.1-7)(又稱為數(shù)據(jù)結(jié)構(gòu)式)所確定的模型為一元(正態(tài))線性回歸模型。對其進行統(tǒng)計分析稱為一元線性回歸分析。不難理解 模型(2.1-6)中EY=a+bx,若記y=E(Y),則y=a+bx,就是所謂的一元線性回歸方程,其圖象就是回歸直線,b為回歸系數(shù),a稱為回歸常數(shù),有時也通稱a、b為回歸系數(shù)。我們對一元線性回歸模型主要討論如下的三項問題:(1) 對參數(shù)a,b和2進行點估計,估計量稱為樣本

5、回歸系數(shù)或經(jīng)驗回歸系數(shù),而稱為經(jīng)驗回歸直線方程,其圖形相應(yīng)地稱為經(jīng)驗回歸直線。(2) 在模型(2.1-6)下檢驗y與x之間是否線性相關(guān)。(3) 利用求得的經(jīng)驗回歸直線,通過x對y進行預測或控制。二、a、b的最小二乘估計、經(jīng)驗公式(參見教材P20-P23)現(xiàn)討論如何根據(jù)觀測值(xi,yi),i=1,2,n估計模型(2.1-6)中回歸函數(shù)f(x)=a+bx中的回歸系數(shù)。采用最小二乘法,記平方和 找使Q(a.b)達到最小的a、b作為其估計,即a.b為此,令 化簡得如教材P21 (2.1-4)所示的方程組(稱為模型的正規(guī)方程)解得 (2.1-5)(2.1-5)所示的分別稱為a、b的最小二乘估計,式中稱

6、為經(jīng)驗回歸(直線方程),或經(jīng)驗公式。例1 某種合成纖維的強度與其拉伸倍數(shù)有關(guān)。下表是24個纖維樣品的強度與相應(yīng)的拉伸倍數(shù)的實測記錄。試求這兩個變量間的經(jīng)驗公式。編 號123456789101112拉伸倍數(shù)x1.92.02.12.52.72.73.53.54.04.04.54.6強度y (Mpa)1.41.31.82.52.82.53.02.74.03.54.23.5編 號131415161718192021222324拉伸倍數(shù)x5.05.26.06.36.57.18.08.08.99.09.510.0強度y (Mpa)5.55.05.56.46.05.36.57.08.58.08.18.1將觀

7、察值(xi,yi),i=1,24在平面直角坐標系下用點標出,所得的圖稱為散點圖。(參見教材P21圖2-1),從本例的散點圖看出,強度y與拉伸倍數(shù)x之間大致呈現(xiàn)線性相關(guān)關(guān)系,一元線性回歸模型是適用y與x的?,F(xiàn)用公式(2.1-5)求,這里n=24由此得強度y與拉伸倍數(shù)x之間的經(jīng)驗公式為 三、最小二乘估計的基本性質(zhì)定理2.1-1 一元線性回歸模型(2.1-7)中,a、b的最小二乘估計滿足:(1) (2) (3) 證:(1) 注意到對任意i=1,2,n有 (2)利用,將表示為: 由于y1,y2,yn相互獨立,有 定理2.1-1表明,a、b的最小二乘估計是無偏的,從,還知道它們又是線性的,因此(2.1-

8、5)所示的最小二乘估計分別是a、b的線性無偏估計。§2.2 建立回歸方程后進一步的統(tǒng)計分析一、2的無偏估計由于2是誤差i(i=1,n)的方差,如果i能觀測,自然想到用來估計,然而i是觀測不到的,能觀測的是yi.。由 (即Eyi的估計),就應(yīng)用殘差來估計,因此,想到用 來估計2,我們希望得到無偏估計,為此需求殘差平方和的數(shù)學期望,由定理2.1-1可推出(學員自驗)于是得為2的無偏估計,例如§2.1例1中即有Th2.2-1。令,則。我們稱為標準誤差,它反映回歸直線擬合的程度。具體計算時可用。二、預測與控制1、預測問題對于一元線性回歸模型 (2.1-6)我們根據(jù)觀測數(shù)據(jù)(xi,y

9、i),i=1,n,得到經(jīng)驗回歸方程,當控制變量x取值x0(x0xi,i=1,n),如何估計或預測相應(yīng)的y0呢?這就是所謂的預測問題,自然我們想到用經(jīng)驗公式,取來估計實際的,并稱為點估計或點預測。在實際應(yīng)用中,若響應(yīng)變量y比較難觀測,而控制變量x卻比較容易觀察或測量,那么根據(jù)觀測資料得到經(jīng)驗公式后,只要觀測x就能求得y的估計和預測值,這是回歸分析最重要的應(yīng)用之一,例如在§2.1例1中,拉伸倍數(shù)x0=7.5,則可預測強度但是,上面這樣的估計用來預測y究竟好不好呢?它的精度如何?我們希望知道誤差,于是就有考慮給出一個類似于置信區(qū)間的預測區(qū)間的想法。定理2.2-2 對于一元(正態(tài))線性模型

10、(2.1-7)有(1) 服從二元正態(tài)分布。(2) (3) 是相互獨立的隨機變量。證明:又,我們知道y0是r.v,且與y1,y2,yn相互獨立,由Th2.2-2及Th2.1-1知,且由于y0與相互獨立(只與y1,yn有關(guān)),且y0N(a+bx0,2)由定理2.2-2知,與獨立,故T= (2.2-3)對于給定的置信水平1-,查自由度為n-2的T分布表可得滿足的臨界值ta根據(jù)不等式的恒等變形可得的置信度為1-的置信區(qū)間為:這就是的置信度為1-的預測區(qū)間,它是以為中心,長度為的區(qū)間,(記),區(qū)間的中點隨x0而線性變化,它的長度在處最短,x0越遠離,預測區(qū)間的長度就越長。預則區(qū)間的上限與下限落在關(guān)于經(jīng)驗

11、回歸直線對稱的兩條曲線上,并是喇叭形。(見教材P26圖2-2)。當n較大,Lxx充分大時, 可得y0的近似預測區(qū)間: (2.2-5)上式說明預測區(qū)間的長度,即預測的精度主要由確定,因此在預測中,是一個基本而重要的量。2、控制問題在實際應(yīng)用中往往還需要考慮預測的反問題,即要以不小于1-的概率將y0控制在(y1,y2)內(nèi),也就是使 相應(yīng)的x0應(yīng)控制在什么范圍內(nèi)。這類問題稱為控制問題。根據(jù)前一段的討論,若x0滿足 (2.2-6)則可有因此控制問題一般是找滿足(2.2-6)的x0的范圍。但求解很麻煩。一種近似的處理法是:由將a,b,2分別用其無偏估計代,有從而根據(jù)查N(0.1)分布表確定,于是y0的置

12、信度1-的預測區(qū)間可近似認為是要解決前述問題可以從滿足:的x0去尋找x0的控制范圍。顯然,當時,問題無解,否則方程組 有解由此得x0的控制范圍是(min(),max()三、線性相關(guān)的檢驗前面的討論都是在假定y與x呈現(xiàn)線性相關(guān)關(guān)系的前提下進行的,若這個假定不成立,則我們建立的經(jīng)驗回歸直線方程也失去意義,為此必須對y與x之間的線性相關(guān)關(guān)系作檢驗,為解決這個問題,先作手:1、偏差平方和分解記,稱它為總偏差平方和,它反映數(shù)據(jù)yi的總波動,易得L有如下分解式:其中就是前面提到的殘差平方和,稱為回歸平方和,上式右邊的交叉項: 由上可知,U越大,Qe就越小,x與y間線性關(guān)系就越顯著;反之,x與y之間的線性關(guān)

13、系越不顯著。于是,自然地考慮到檢驗回歸方程是否有顯著意義是考察U/Q的大小,其比值大,則L中U占的比重大,回歸方程有顯著意義,反之,無顯著意義。2、線性相關(guān)的F檢驗根據(jù)上段的思想來構(gòu)造檢驗統(tǒng)計量,先看下面的定理。定理2.2-3,當H0:b=0 成立時 U/2(1),且Q與U相互獨立。證:當H0成立時,由Th2.1-1及Th2.2-2知, 于是由Th2.2-2,我們還知,且Q與相互獨立,從而Q與U=獨立,由上面的定理及F分布的構(gòu)造性定理知: (2.2-7)因此可選它作檢驗H0:b=0 的檢驗統(tǒng)計量,當H0為真時F的值不應(yīng)太大,故對選定的水平0,由P()=查F(1,n-2)分布表確定臨界值F1-分

14、位數(shù),當觀測數(shù)據(jù)代入(2.2-7)式算出的F值合FF1-時,不能接受H0,認為建立的回歸方程有顯著意義。 例1(§2.1例1續(xù))檢驗H0:經(jīng)驗公式無顯著意義(=0.05)選用 由查表得F=4.30現(xiàn)計算F值由L=Lyy=117.95Q=L-U=5.6得因FF,所以拒絕H0,認為所得的經(jīng)驗回歸方程有顯著意義。四、相關(guān)與回歸的區(qū)別與聯(lián)系1、聯(lián)系由前面的討論,有:得回歸平方和U=r2L殘差平方和 可見r2反映了回歸平方和在總偏差平方和中占的比重,該比重越大,誤差平方和在總偏差平方和中占的份量就越小。通常稱r2為擬合優(yōu)度系數(shù)。r就是變量x與y的積差相關(guān)系數(shù),另方面由 看出,在檢驗y與x是否顯

15、著線性相關(guān)時,F(xiàn)檢驗法與相關(guān)系數(shù)T檢驗法等效。2、區(qū)別相關(guān)關(guān)系不表明因果關(guān)系,是雙向?qū)ΨQ的,在相關(guān)分析中,對所討論的兩個變量或多個變量是平等對待的,相關(guān)系數(shù)r反映數(shù)據(jù)(xi,yi)所描述的散點對直線的靠攏程度?;貧w分析中,變量在研究中地位不同,要求因變量(響應(yīng)變量)y是隨機變量,自變量一般是可控制的普通變量(當然也可以是隨機的)。在回歸方程中,回歸系數(shù)只反映回歸直線的陡度,且它不是雙向?qū)ΨQ的。§2.3 一元非線性回歸前面討論的線性回歸問題,是在回歸模型為線性這一基本假定下給出的,然而在實用中還經(jīng)常碰到非線性回歸的情形,這里我們只討論可以化為線性回歸的非線性回歸問題,僅通過對某些常見的

16、可化為線性回歸問題的討論來闡明解決這類問題的基本思想和方法。一、曲線改直例1 煉綱過程中用來盛鋼水的鋼包,由于受鋼水的浸蝕作用,容積會不斷擴大。下表給出了使用次數(shù)和容積增大量的15對試驗數(shù)據(jù):使用次數(shù)(xi)增大容積(yi)使用次數(shù)(xi)增大容積(yi)23456786.428.209.589.509.7010.009.939101112131415169.9910.4910.5910.6010.8010.6010.9010.76試求Y關(guān)于x的經(jīng)驗公式。解:首先要知道Y關(guān)于x的回歸函數(shù)是什么類型,我們先作散點圖。(見教材P30圖2-3)從圖上看,開始浸蝕速度較快,然后逐漸減緩,變化趨勢呈雙曲

17、線狀。因此可選取雙曲線:(設(shè)y與x之間具有如下雙曲線關(guān)系) (2.3-1)作為回歸函數(shù)的類型,即假設(shè)y與x滿足: (2.3-2)令,則(2.3-2)變成.這是一種非線性回歸,先由x、y的數(shù)據(jù)取倒數(shù),可得,的數(shù)據(jù)(0.5000,0.1558),(0.0625,0.0929),對得到的15對新數(shù)據(jù),用最小二乘法可得:線性回歸方程 后,代回原變量得為y關(guān)于x的經(jīng)驗公式(回歸方程)在例1中,假設(shè)了y與x之間滿足雙曲線回歸模型,顯然這是一種主觀判斷,因此所求得的回歸曲線不一定是最佳的擬合曲線。在實用中,往往是選用不同的幾種曲線進行擬合,然后分別計算相應(yīng)的殘差平方和(標準誤差)進行比較Qe(或)最小者為最

18、優(yōu)擬合。二、常見可改直的曲線下面簡介一些可通過變量替換化為線性回歸的曲線回歸模型。1、雙曲線 (圖見教材P31,下同) 作變換 則回歸函數(shù)化為:y=a+bx2、冪函數(shù)y=axb(或y=ax-b) (b0) 對冪函數(shù)兩邊取對數(shù),作變換 則有 3、指數(shù)函數(shù)y=aebx或y=ae-bx (b0)兩邊取對數(shù) 令 4、倒指數(shù)函數(shù)或 (b0,a0)兩邊取對數(shù)后作變換y, ,則有 5、對數(shù)函數(shù),y=a+bx作變換x,則有y=a+b.另外還有一些可化為線性回歸的曲線回歸,將在用“spss”作實習操作時一并介紹。例1(續(xù))由例1的散點圖看出,除雙曲線擬合外,本例還可選擇倒指數(shù)擬合:y=aeb/x兩邊取對數(shù)得:令

19、,變?yōu)槿缦碌幕貧w問題:利用最小二乘法求得:=-1.1107,=2.4578因此回歸直線為: 代回原變量得: 經(jīng)計算雙曲線擬合時 Q=1.4396 =0.3328,倒指數(shù)擬合時=0.2168,故倒指數(shù)擬合效果更好些。§2.4 多元線性回歸實際應(yīng)用中,很多情況要用到多元回歸的方法才能更好地描述變量間的關(guān)系,因此有必要在本節(jié)對多元線性回歸做一簡單介紹,就方法的實質(zhì)來說,處理多元的方法與處理一元的方法基本相同,只是多元線性回歸的方法復雜些,計算量也大得多,一般都用計算機進行處理。一、數(shù)學模型和回歸方程的求法。1、多元線性回歸的模型。設(shè)因變量y與自變量x1,x2,xk之間有關(guān)系式: (2.4-

20、1)抽樣得n組觀測數(shù)據(jù):(y1;x11,x21,xk1)(y2;x12,x22,xk2) (yn;x1n,x2n,xkn)其中xij是自變量xi的第j個觀測值,yj是因變量y的第j個值,代入(2.4-1)得模型的數(shù)據(jù)結(jié)構(gòu)式: (2.4-2)我們稱(2.4-1)或(2.4-2)為k元正態(tài)線性回歸模型,其中b0,b1,bk及2都是未知待估的參數(shù),對k元線性模型,需討論的問題與一元時相同。需要說明的幾點見教材P332、未知參數(shù)的估計與一元時一樣,采用最小二乘法估計回歸系數(shù) b0,b1,bk. 稱使達到最小的為參數(shù)(b0,b1,bk)的最小二乘估計,利用微積分知識,最小二乘估計就是如下方程組的解: (

21、2.4-3)其中 通常稱方程組(2.4-3)為正規(guī)方程組,其中前k個方程的系數(shù)矩陣記為當L*可逆時,正規(guī)方程組(2.4-3)有解,便可得b0,b1,bk的最小二乘估計 即 代入模型(2.4-1),略去隨機項得經(jīng)驗回歸方程為: (2.4-4)類似一元可以證明 都是相應(yīng)的bi(i=0,1,k)的無偏估計,且2的無偏估計為:·例1(見教材P34-P36)二、回歸方程的顯著性檢驗與一元的情形一樣,上面的討論是在y與x1,xk之間呈現(xiàn)線性相關(guān)的前提下進行的,所求的經(jīng)驗方程是否有顯著意義,還需對y與諸xi間是否存在線性相關(guān)關(guān)系作顯著性假設(shè)檢驗,與一元類似,對是否有顯著意義,可通過檢驗H0:b1=

22、b2=bk=0為了找檢驗H0的檢驗統(tǒng)計量,也需將總偏差平方和Lyy作分解:(2.4-5) 即L=U+Qe 其中L=Lyy,這里. 分別稱Qe,U為殘差平方和、回歸平方和,可以證明:利用柯赫倫定理可以證明:在H0成立下,且U與Qe相互獨立,所以有 (2.4-6)(這里記 Qe為Q,下同)取F作H0的檢驗計量,對給定的水平,查F(k, n-k-1)分布表可得滿足的臨介值,由樣本觀測值代入(2.4-6)算出統(tǒng)計量F的觀測值,若F,則不能接受H0,認為所建的回歸方程有顯著意義。例2(本節(jié)例1續(xù))見教材P36-P37通過F檢驗得到回歸方程有顯著意義,只能說明y與x1,x2,xk之間存在顯著的線性相關(guān)關(guān)系,衡量經(jīng)驗回歸方程與觀測值之間擬合好壞的常用統(tǒng)計量有復相關(guān)系數(shù)R及擬合優(yōu)度系數(shù)R2。仿一元線性回歸的情況,定義: (2.4-7) (2.4-8)可以證明R就是觀測值y1,yn與回歸值的的相關(guān)系數(shù)。實用中,為消除自由度的影響,又定義: (2.4-9)為修

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論