第九章回歸分析_第1頁
第九章回歸分析_第2頁
第九章回歸分析_第3頁
第九章回歸分析_第4頁
第九章回歸分析_第5頁
已閱讀5頁,還剩21頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

1、第九章 回歸分析9.1 一元線性回歸 引言在客觀現(xiàn)象中,普遍存在著變量與變量之間的某種關(guān)系。數(shù)學(xué)上是用數(shù)量來描述這些關(guān)系。人們通過各種實踐,發(fā)現(xiàn)變量之間的關(guān)系概括起來可分為“確定性的”與“非確定性的”兩個類型。例如,作勻速直線運動的物體,經(jīng)過的路程(S)與時間(t)的關(guān)系滿足這就是說,對已知的時間t,路程S可由上式完全確定,反之亦然。這是確定性關(guān)系。數(shù)學(xué)上稱這種確定關(guān)系為“函數(shù)關(guān)系”。 但在客觀現(xiàn)象中,還存在著另一種類型的變量之間的關(guān)系,它們不能用函數(shù)的關(guān)系敘述。例如,人的身高x與體重Y是兩個變量,在通常情況下,即使是身高完全相同的兩個人,體重也不一定一樣,因而身高不能完全確定體重,但平均來說

2、,身高者體重也大些。x與Y之間的關(guān)系是“非確定性”關(guān)系。產(chǎn)生這種關(guān)系的原因是一些不可控制的因素,如遺傳,性格,飲食習(xí)慣等。像這樣的例子是很多的,如年齡與血壓的關(guān)系,煉鋼爐中鐵水的含碳量與冶煉時間的關(guān)系,農(nóng)作物的產(chǎn)量與施肥量的關(guān)系等。數(shù)學(xué)上稱這種非確定性關(guān)系為“相關(guān)關(guān)系”。 在相關(guān)關(guān)系中的變量,有的是可以控制的,如年齡與血壓的關(guān)系中的變量年齡,煉鋼爐中鐵水的含碳量與冶煉時間中的關(guān)系中的變量冶煉時間等。但大多數(shù)變量都是不可控制的,如煉鋼爐中鐵水的含碳量與冶煉時間中的變量含碳量就是不可控制的,冶煉時間一定,含碳量卻不能確定,這種不可控制的變量是隨機變量。嚴(yán)格地說,討論自變量為可控變量而因變量為隨機變

3、量的關(guān)系問題稱為回歸分析;討論隨機變量之間的關(guān)系問題稱為相關(guān)分析。這兩種問題有時也統(tǒng)稱為回歸分析,或統(tǒng)稱為相關(guān)分析。 回歸這個名詞由英國統(tǒng)計學(xué)家F·Galton在1885年首先使用,他在研究父親身高與兒子身高之間的關(guān)系時發(fā)現(xiàn):高個子父親所生兒子比他更高的概率要小于比他矮的概率;同樣,矮個子父親所生兒子比他矮的概率小于比他高的概率。這兩種高度父親的后代,其高度有向中心(平均身高)回歸的趨勢。 我們怎樣來研究因變量(也稱響應(yīng)變量)Y與自變量x之間的相關(guān)關(guān)系呢?由于Y是隨機變量,故對于自變量x的每一個確定的值,Y有一定的概率分布,因此,假如Y的數(shù)學(xué)期望若存在的話,則E(Y/x)顯然是x的函

4、數(shù)。統(tǒng)計上稱Y的條件期望 ()為Y對x回歸函數(shù),簡稱回歸。 回歸函數(shù)描述了因變量Y的均值與自變量x的相依關(guān)系,例如,若Y表示某種農(nóng)作物的畝產(chǎn)量,x表示每畝的施肥量,則可理解為在相當(dāng)大的面積上每畝施肥量為x時的畝平均產(chǎn)量,由于Y分布是未知的,故回歸函數(shù)也是未知的。我們只能利用試驗數(shù)據(jù)對進行估計,統(tǒng)計學(xué)稱估計的問題為求Y對x的回歸問題。 下面介紹求回歸問題的一般步驟:(1)求取試驗數(shù)據(jù)取自變量x一組不全相同的數(shù)值: 進行n次獨立試驗,得到Y(jié)的相應(yīng)觀察值:。于是就構(gòu)成n對數(shù)據(jù)我們稱這n對數(shù)據(jù)為樣本觀察值。(2)選取回歸模型 所謂選擇模型,是指選取怎樣的函數(shù)來描述。這不是一個純數(shù)學(xué)問題,它往往要結(jié)合經(jīng)

5、驗或試驗來確定,統(tǒng)計學(xué)的方法能幫助我們根據(jù)試驗初步確定這個函數(shù)的類型。具體作法是:將樣本觀察值在直角坐標(biāo)系中描出,得到的圖形稱為“散點圖”。它的分布狀況可幫助我們粗略地選定的類型。如果“散點圖”近似在一條直線上,我們就可以選取,這時可建立回歸模型其中a和b是待估計的參數(shù)。稱為統(tǒng)計誤差。統(tǒng)計誤差由模型誤差和隨機誤差構(gòu)成。模型誤差是Y與x的真實回歸關(guān)系與選取的回歸函數(shù)之間的誤差,如果選取的回歸函數(shù)正確,模型誤差可忽略不計。故為隨機誤差,。(3)對回歸模型中未知參數(shù)作估計如果回歸模型已經(jīng)選定,接下來的問題就是對模型中的未知參數(shù)進行估計。通常采用最小二乘法估計和極大似然估計方法得到回歸函數(shù)中未知參數(shù)的

6、估計量,矩估計得到響應(yīng)變量Y的方差2的估計量。若將此估計代入選定的回歸函數(shù)中得到經(jīng)驗回歸方程。如就是一元線性回歸中的經(jīng)驗回歸方程。(4)對選定的模型進行檢驗?zāi)P偷倪x定是根據(jù)經(jīng)驗或“散點圖”。很明顯,根據(jù)這些理由而選定的模型與實際數(shù)據(jù)是否有良好的吻合是不足為據(jù)的。因此,有必要用樣本觀察值對選定的模型進行檢驗。如檢驗Y與x是否有線性關(guān)系,就是檢驗假設(shè)Ho:b = 0 。如果通過樣本觀察值拒絕了Ho,就可以為Y與x顯著地存在線性關(guān)系。否則Y與x的線性關(guān)系不顯著。(5)預(yù)測與控制實際中,當(dāng)自變量x 取一個值時,Y的取值如何是一個很值得考慮的問題。也就是說,當(dāng)自變量x取定一數(shù)值時,對Y的取值作一個估計(

7、點估計和區(qū)間估計),這就是預(yù)測。另外,如果預(yù)先將Y的取值控制在某一范圍內(nèi)來確定此時的自變量x的取值,這就是控制。. 一元線性回歸的參數(shù)估計我們考慮一元線性回歸模型, ()及為未知參數(shù)。設(shè)為樣本,則 ()其中表示第i次試驗中的隨機誤差。由于試驗相互獨立,試驗條件沒有改變,故,相互獨立且與同分布。,可看作的一個樣本設(shè)為 樣本觀察值,似然函數(shù)()顯然,要使L取最大值,只要上式右邊的平方和的部分為最小,即只需二元函數(shù) ()為求a和b的極大似然估計,注意到是a和b的非負(fù)二次函數(shù),因此最小值點存在且唯一,滿足方程組的解。經(jīng)整理后得到() 其中, , , 由此方程組可解得到a,b的極大似然估計值()將式()

8、中換成隨機變量,y換成Y,就得a和b估計量,仍然記為和。在一般的線性模型中,并不假定服從正態(tài)分布,此時似然函數(shù)就不是式(),因而得不到式(),然而式(9.1.5)表示Y的觀察值與Y的回歸值的偏差的平方和最小。故從式(9.1.5)出發(fā)求得a , b的估計量是符合“最小二乘法”原則的。按式(9.1.5)求估計量的方法實際上就是最小二乘法。由此得到的估計量為最小二乘估計。最小二乘法的直觀想法是:在平面上找一條直線,使得“總的看來最接近散點圖”中的各個點。而Q(a , b)就是定量地描述了直線y = a + bx 與“散點圖”中各點的總的接近程度。因此,直線,即(經(jīng)驗)回歸直線,就是最接近“散點圖”中

9、各點的直線。如果參數(shù)2也是未知的,我們還需對2進行估計。由于是的二階原點距,按矩估計,可用()作為2的估計。然而a和b 是未知的,我們可用和來代替,直觀上可以想到作為2的估計,但它不是2的無偏估計,這里稱為殘差平方和。2的一個無偏估計可以通過用其自由度去除獲得,其中殘差的自由度=試驗次數(shù)-模型中參數(shù)的個數(shù)。對于一元回歸模型,殘差的自由度=n-2,故2的估計 ()為使計算的數(shù)值更方便,(8)可寫為 ()其中。例 某車間為了制定工時定額,需要確定加工零件所消耗的時間,為此進行了10次試驗,其結(jié)果如下表x(個) 102030405060708090100Y(分)6268758189951021081

10、15122其中x表示零件數(shù),Y表示時間,試求Y對x的回歸方程,并求2的無偏估計的值。解 本題中n = 10。通過計算,有,故從而經(jīng)驗回歸直線方程2的無偏估計值模型檢驗為了對參數(shù)作假設(shè)檢驗和區(qū)間估計,我們給出一些統(tǒng)計量的分布 () () ()設(shè),則 ()上式稱為平方和分解式,稱SST為總平方和,SSR為回歸平方和,SSE為剩余平方和。當(dāng)時, ()且SSR和SSE獨立。在實際工作中,事先我們并不能確定Y和x確有線性關(guān)系。因此按極大似然法和最小二乘法求得a 和 b 的估計和,確定的回歸方程不一定反映Y與x的關(guān)系,這是因為對于任何兩個變得x 與Y 之間的一組數(shù)據(jù),i =1,2,n, 無論它們是否線性相

11、關(guān),都可按照上述方法建立Y對x的回歸方程。也就是說,即使Y與x之間并不存在線性相關(guān)關(guān)系,同樣可以求出Y對x的回歸方程,顯然這樣的回歸方程是沒有意義的。因此,對線性問題必須進行顯著性假設(shè)檢驗。有多種檢驗方法,我們只介紹檢驗法 對回歸系數(shù)提出原假設(shè)Ho :b = 0()若被拒絕,說明Y與之間顯著存存線性關(guān)系。否則,我們不能認(rèn)為Y與有線性關(guān)系。引起線性不顯著通常有如下一些原因:影響Y的數(shù)值除了變量外還有其它重要因素(或變量),這樣固定時Y不服從正態(tài)分布;Y與之間不是線性關(guān)系,而是某種非線性關(guān)系,例如二次拋物線(它的對稱軸平行于軸)形式的聯(lián)系;Y的值與無關(guān)。選取統(tǒng)計量()對給定顯著性水平(0<&

12、lt;1)得到拒絕域()利用試驗數(shù)據(jù)計算統(tǒng)計量的值,并查表求出。若成立,則拒絕Ho,認(rèn)為Y與x有線性相關(guān)關(guān)系,否則認(rèn)為Y與x 沒有線性相關(guān)關(guān)系。例檢驗例中Y與x之間的線性關(guān)系是否顯著,取 = 0.01解:采用T檢驗法。計算T的值而查表求得從而得到 ,故拒絕,即Y與 x之間顯著地存在線性關(guān)系。預(yù)測如果得到的回歸方程經(jīng)檢驗顯著,也稱回歸方程擬合得好,就可利用它進行預(yù)測。預(yù)測就是指對x = xo時,Y所對應(yīng)的Yo大致是什么或在什么范圍內(nèi)。由于Y為隨機變量,所以只能對Y作點估計或區(qū)間估計。預(yù)測的具體方法如下(1)求Y0的預(yù)測值設(shè)自變量x與因變量Y服從模型(),則有且樣本與樣本相互獨立。我們可以得到Y(jié)0

13、的預(yù)測值()這樣求出的預(yù)測值是有誤差的,產(chǎn)生誤差的第一個原因是只是Y0的平均值E(Y0)的一個估計,Y0的實際值可能偏離它的平均值;第二個原因是估計量是以a和b為基礎(chǔ)的,而a和b本來就有隨機抽樣的誤差。和參數(shù)的點估計一樣,預(yù)測值只能對因變量Y0的值比較粗糙的描述,對預(yù)測的誤差大小不能作很好的判斷,預(yù)測區(qū)間比較好地解決了這一問題。(2)求Y0的預(yù)測區(qū)間Y0的預(yù)測區(qū)間就是對Y0的區(qū)間估計,它分三個步驟:首先構(gòu)造一個估計量并推導(dǎo)其分布。可用作點估計,而由統(tǒng)計分布性質(zhì)有 () ()容易證明()這樣得到了的預(yù)測區(qū)間()其中 ()最后,利用樣本數(shù)據(jù)求得具體的預(yù)測區(qū)間。順便指出,在x處Y的預(yù)測區(qū)間為()區(qū)間

14、的長度為。當(dāng)x變動時,預(yù)測區(qū)間的長度也在變化。顯然當(dāng)時,預(yù)測區(qū)間最短,估計也就是最精確。當(dāng)n很大時,在離的距離不遠處,有,故在x處Y的預(yù)測區(qū)間為此時,預(yù)測區(qū)間的上下限近似一條直線。例 已知例中的,求Y0的預(yù)測值與置信度為99%的預(yù)測區(qū)間。解 Y0的預(yù)測值為,置信度為99%的預(yù)測區(qū)間為(98.38-2.53,98.38+2.53)即(95.85,100.01)。9.1.5控制控制是預(yù)測的反問題,它是討論當(dāng)Y在區(qū)間內(nèi)取值時,求出自變量x的取值范圍的問題。然而控制問題比預(yù)測問題復(fù)雜得多。由式()知,對某x相應(yīng)的Y的置信度為的預(yù)測區(qū)間為滿足對于區(qū)間,為使覆蓋Y的概率為,即只需取 ()如果能由上兩方程解

15、出x的兩個解,設(shè),則就是要求的控制區(qū)間,稱為x的置信度為的控制區(qū)間。但是,由于(x)很復(fù)雜,一般很難由上兩方程求出x的兩個解的。不過當(dāng)n充分大,且與接近時,有。于是得解之得 ()當(dāng)時,的置信度為的控制區(qū)間為;當(dāng)時,的置信度為的控制區(qū)間為。9.2 多元線性回歸 在許多實際問題中,影響響應(yīng)變量的因素常常不止一個。例如考慮某種產(chǎn)品的銷售額,一般與銷售地區(qū)的總產(chǎn)值,人均收入,人口密度,廣告費等有關(guān)??梢酝浦嗫紤]幾個因素即用多個變量來預(yù)測其效果要比一元回歸好,而基本原理和一元回歸是一致的,只是在具體的方法上前者比后者更復(fù)雜一些。本節(jié)研究響應(yīng)變量與多個自變量的相關(guān)關(guān)系的問題,這就是多元回歸分析的內(nèi)容。

16、模型和參數(shù)估計設(shè)因變量與自變量之間滿足 ()其中均為待定的未知參數(shù)稱為回歸參數(shù)。稱(1)為多元線性模型。為了估計參數(shù),我們對作次觀察(試驗),設(shè)是一個容量為的樣本,則我們可以得到(9.2.1)的一個有限樣本模型 ()其中相互獨立且與同分布。為了用矩陣表示上式,記于是模型(9.2.2)變?yōu)?)通常稱模型(9.2.3)為高斯馬爾柯夫多元線性模型。其中X為已知的階矩陣,稱為回歸設(shè)計矩陣;為維向量,和均未知;為維單位矩陣。Y是n維響應(yīng)變量向量,為n維隨機誤差向量,表示維向量服從均值向量為,協(xié)方差矩陣為的正態(tài)分布。對進行估計就是找到的估計量,使得誤差平方和 ()達到最小。越小,模型也就越好。因為是的非負(fù)

17、二次函數(shù),所以最小值點存在且唯一。我們可以用達到最小值時的值作為的估計,并稱這樣的估計方法為最小二乘估計方法,稱為的最小二乘估計。為了求,對關(guān)于求導(dǎo)數(shù),即即當(dāng)X為列滿秩時,的最小二乘估計為()稱 ()為經(jīng)驗回歸方程。與一元回歸模型類似,我們可以證明的極大似然估計也是(),的無偏估計為() 與一元回歸模型類似,我們可以給出和的統(tǒng)計性質(zhì):(1) ()(2)與獨立(3)設(shè),則 ()式()稱為總離差平方和分解式,稱為總離差平方和,稱SSR為回歸平方和,稱SSE為剩余平方和。(4)當(dāng)時,且SSR和SSE獨立。例某廠生產(chǎn)的圓鋼,其屈服點受含碳量和含錳量的影響,現(xiàn)做了25次觀察,測得如下數(shù)據(jù)16181917

18、20161615191818171717183938393938484548484846484946442424.524.5242524.5242424.524.524.524.52524.524.5182021161819192119214548485555565858494924.52525252525.525.526.524.526求關(guān)于和的經(jīng)驗回歸方程。解 設(shè)。因為, 所以又因所以故 多元回歸模型的檢驗線性模型的有效性檢驗與一元線回歸類似,要檢驗變量間有沒有這種線性聯(lián)系,只要檢驗個系數(shù)是不是全為零.。如果p個系數(shù)全為零,則認(rèn)為線性回歸不顯著;否則認(rèn)為線性回歸顯著。因此,多元線性模型的檢

19、驗假設(shè)由n組觀察值檢驗它是否成立。若接受Ho, 則認(rèn)為線性回歸不顯著,否則認(rèn)為線性回歸顯著。當(dāng)H0成立時,有()因為,反映各因素對的總的線性影響所起的作用,反映了其它因素對的影響所起的作用。如果比值較大,更精細(xì)些,如果比值F較大,則說明對的線性作用比其它因素對的影響作用大,此時就不能認(rèn)為Ho成立,如果F很小,則說明其它因素(隨機因素)對起主要作用,因此不能拒絕Ho。給定顯著性水平,則查表可得使得到拒絕域()回歸系數(shù)的顯著性檢驗 在多元線性模型中,雖然經(jīng)檢驗知與之間具有顯著線性關(guān)系,但是每個對的影響作用并不是一樣的,因此,經(jīng)檢驗不拒絕線性模型之后,還需從線性模型中剔除可有可無的因素,保留那些比較

20、重要的因素,重新建立更為簡單的線性回歸方程,以便更利于實際應(yīng)用。因此,對的檢驗假設(shè)也是很重要的。因為 ,記為的第i行第j列元素,。從而 ()()得到拒絕域或()如果檢驗結(jié)果不拒絕Ho,即 ,應(yīng)將從回歸方程中剔除。需要注意的是:在剔除對影響不顯著的變量時,考慮變量之間的重要作用,每次只剔除一個不顯著的變量,如果有幾個變量對的影響都不顯著,則先剔除其中F值最小的那個變量,剔除一個變量且由最小二乘法建立新的回歸方程后,還必須對剩下的p-1個變量再用上述方法檢驗它們對的影響是否顯著,如果有不顯著的,則逐個剔除,直到保留下來的變量對都影響顯著為止。例考慮例,檢驗線性模型是否顯著和檢驗假設(shè)是否成立。 解

21、因為所以又因,所以 ,故線性模型顯著。 因為,且所以和都顯著不為0。預(yù)測點預(yù)測設(shè)我們獲得了的一組新的觀察值(不是樣本值),它們?yōu)?,對預(yù)測是對作點估計和區(qū)間估計,記相應(yīng)的值為,有 ()其中與獨立,顯然可用 ()作為Y0的點預(yù)測(估計),因為,所以,實際上是Y0的無偏估計量。區(qū)間估計對于給定的求的置信度為的置信區(qū)間,可以證明 ()其中,為的第i行第j列元素,。同時還可以證明 ()給定置信度,查得 的值,使從而可得的置信度為的預(yù)測(置信)區(qū)間為, (9)例考慮例中,當(dāng)時,求相應(yīng)的的置信度為0.95的預(yù)測區(qū)間解 因的置信度為0.95的預(yù)測區(qū)間(25.4296,26.7736)變量選擇及多元共線性性問題

22、在多元線性回歸模型是,由于有多個自變量,存在一些有一元線性回歸模型中不會遇到的問題。本節(jié)討論兩個涉及到變量之間關(guān)系的問題。第一個問題是關(guān)于自變量與因變量之間的關(guān)系。當(dāng)我們就一個實際問題建立多元線性回歸模型時,可能會考慮到多個對因變量有潛在影響的自變量,但在對數(shù)據(jù)進行分析之前無法事先斷定哪些變量是有效的(對因變量有顯著影響),哪些是無效的(對因變量沒有顯著影響)。有效變量應(yīng)該保留在模型中,而無效變量應(yīng)該從模型中去掉。因為無效變量在模型中會對分析結(jié)果產(chǎn)生干擾,從而產(chǎn)生誤導(dǎo)。那么究竟哪些變量是有效的,哪些變量是無效的呢?這就是變量選擇的問題。第二個問題是關(guān)于自變量之間的關(guān)系。在某些實際問題中(如在實

23、驗室或某些工業(yè)生產(chǎn)條件下),觀測者(試驗者)可以控制自變量的值,這是他可以在事先設(shè)計好的自變量值上觀測因變量。而在另一些情況下(研究社會、地質(zhì)、水文)。觀測者不能控制自變量的值,或者說自變量是隨機變量。這時,自變量之間會有統(tǒng)計相關(guān)性。當(dāng)這種統(tǒng)計相關(guān)性很強時就產(chǎn)生“多元共線性”的問題。多元共線性的存在對回歸分析的結(jié)果產(chǎn)生很壞的影響。因此數(shù)據(jù)分析這應(yīng)該理解多元共線性的影響,并知道用何種方法去克服這種影響。本節(jié)的前三小節(jié)介紹幾種變量選擇的方法,后三小節(jié)分別介紹多元共線性的影響及克服它的兩種方法。變量選擇的max法通常在建立一個回歸模型時,我們要將所有可能對因變量產(chǎn)生影響的自變量考慮到模型中去,以免由

24、于遺漏了重要的變量而造成模型與實際相偏離。但是通常在所有備選的自變量中,往往只有一部分真正對因變量有影響,稱之為有效變量;而其他的則可能對因變量沒有影響,稱之為無效變量。從原則上講,一個好的模型應(yīng)該包含所有的有效變量,而不包含任何無效變量。問題在于如何才能找到滿足上述要求的模型?本小節(jié)所介紹的max 準(zhǔn)則是根據(jù)的大小在所有可能的模型中選擇“最優(yōu)模型”的一種方法。 設(shè)備選的自變量共有K個,先假定已知有效變量的數(shù)目為r,我們來考慮恰好包含r個變量的模型。這樣的模型共有 個。記恰好包含r個有效變量(而不包含任何無效變量)的那個模型為 ,如何從個模型中來找到 呢?由于在中所有的自變量都是有效的,我們可

25、以認(rèn)為在中的r個變量對因變量的總影響應(yīng)該比其他任何r個變量的總影響都大。對一個包含r個變量的模型,其中的自變量對因變量的總影響可以由它的決定系數(shù)來度量,其中(可以證明:與檢驗量互為單調(diào)增函數(shù))。因此,我們可以從所有含r個回歸變量的模型中選擇達到最大的那個,作為要找的。具體地說,記備選的含r個回歸變量的模型為,其中。記第 個模型 的決定系數(shù)為 。由定義,其中為因變量的總平方和,在任何模型下都是一個常數(shù),為在模型 下的回歸平方和。最大準(zhǔn)則就是要選模型,滿足。于是我們認(rèn)為就是要找的最優(yōu)模型了,這樣就解決了在已 知有效變量的個數(shù)r時的模型選擇的問題。下一個問題是:在有效變量的個數(shù)r未知時,如何確定它?

26、對這個問題,很難給出一個明確的數(shù)學(xué)準(zhǔn)則,而只能基于某種相當(dāng)模糊的判斷??紤]如下的思路,對記為在j個回歸變量的模型中所達到的最大,不難得出,是隨j單調(diào)增的: 。因為當(dāng)模型中的變量個數(shù)增加時,相應(yīng)的回歸平方和會增大,從而 的值增大。我們要利用上述的關(guān)系來為r的選擇提供線索。假設(shè)r為有效變量的個數(shù),我們可以用上述的max來確定恰由這r個有效變量所組成的模型,相應(yīng)的為,現(xiàn)在設(shè)想在這個模型中再增加一個變量,由于所有r個有效變量已經(jīng)在模型中,增加的那個變量肯定是無效變量,因此相對于增加的幅度應(yīng)該比較小,由于以后在模型中每增加一個變量都只可能是無效變量,因此,當(dāng)時,隨j增加的速度會比較緩慢,且越來越慢,反之

27、,在已經(jīng)包含了r個變量的模型中去掉一個變量,則會使回歸平方和會大大地下降,因此,按照這個思路,如果作平面點圖,可以看到,當(dāng)時,隨j增加而迅速上升,當(dāng)時,隨j增加的而比較緩慢,造成聯(lián)結(jié)點的折線在點處形成一個明顯的拐點。這樣就可以找到r.注意,這種方法只是一具經(jīng)驗的模糊的準(zhǔn)則,因為沒有任河數(shù)學(xué)原理來證明上述推理的正確性,同時選取拐點也是憑感覺來判斷的。max 準(zhǔn)則要求對所有可能的回歸模型計算 ,當(dāng)備選變量的數(shù)目比較小時,用這種方法可以保證對給定的有效變量的個數(shù)r找到理論上的最優(yōu)模型。但當(dāng)備選變量的數(shù)目比較大時,用這種方法其計算量非常地大。向后、向前和逐步回歸 基于 的模型選擇程序通常都是給出一串模

28、型,而并不自動給出一個“最終”模型。在上一節(jié)中我們知道,可以通過F檢驗的方法來判斷,(在一定的模型下)某個變量是否有理由保留在模型中?;贔檢驗,統(tǒng)計學(xué)家發(fā)展出一些對變量進行系列的F檢驗,并得到一個“最終”模型的變量選擇程序。這些方法有各種各樣的變種,大致可以分為三類:向后回歸法,向前回歸法和逐步回歸法.限于篇幅,我們只介紹這些方法的大意,在標(biāo)準(zhǔn)的統(tǒng)計回歸分析軟件中都有這些方法的程序。(1)向后回歸法 其基本思路是:先將所有可能對因變量產(chǎn)生影響的自變量都納入模型,然后逐個地從中剔除認(rèn)為是最沒有價值的變量,直至所留在模型中的變量都不能被剔除,或者模型中沒有任何變量為止。在逐步的剔除過程中,每次都

29、對當(dāng)前模型中的所有變量計算評估附加影響的F統(tǒng)計量,并找到其中最小的。如果最小F統(tǒng)計量超過指定的臨界值 ,當(dāng)前模型中的所有變量都保留,將當(dāng)前模型作為最終模型,程序終止。反之,如果最小F統(tǒng)計量達不到臨界值,就將相應(yīng)的變量加以剔除,得到一個較小的模型。在新的模型下重復(fù)以上作法。以上步驟不斷進行,直至沒有變量可以剔除,或者模型中沒有任何變量為止。最終的模型就是所選定的“最優(yōu)”模型。標(biāo)準(zhǔn)的統(tǒng)計軟件通常還輸出所有中間模型。(2)向前回歸法其基本思路是:先將所有可能對因變量產(chǎn)生影響的自變量作為備選的變量集,都放在模型之外,從零模型,即不包含任何自變量的模型開始,然后逐個地向模型中加入被認(rèn)為是最有附加價值的變

30、量,直至所留在模型外的變量都不能被加入,或者所有備選的變量都已加入模型為止。在逐步加入的過程中,第一步對所有變量計算當(dāng)模型中只有一個變量時的F統(tǒng)計量,并找到其中最大的。如果最大F統(tǒng)計量不超過臨界值,則所有在模型外的變量都不能加入到模型中去,將零模型作為最終模型,程序終止。反之,如果最大F統(tǒng)計量超過臨界值,就將相應(yīng)的變量加入到模型中去。從第二步開始,每次都對當(dāng)前模型外的任一變量計算;當(dāng)這個變量被加入模型后,在新模型下計算它的F統(tǒng)計量,并找到其中最大的。如果最大F統(tǒng)計量不超過臨界值,可以認(rèn)為所有在當(dāng)前模型外的變量都是無效變量,因此都不能加入到當(dāng)前模型中去,將當(dāng)前模型作為最終模型,程序終止。反之,如

31、果最大F統(tǒng)計量超過臨界值,就將相應(yīng)的變量加入到當(dāng)前模型中去,得到一個較大的模型。以上步驟不斷進行,直至沒有變量可以加入,或者模型中已經(jīng)包含了所有變量為止。最終的模型就是所選定的“最優(yōu)”模型,標(biāo)準(zhǔn)的統(tǒng)計軟件通常還輸出所有中間模型。(3)逐步回歸法逐步回歸法是對向前回歸的一個修正。在向前回歸中,變量逐個被加入到模型中去,一個變量一旦被加入到模型中,就再也不可能被剔除。但是,原來在模型中的變量在引入新變量之后,可能會變得沒有存在的價值而沒有必要再留在模型中。出現(xiàn)這種情況是因為回歸變量之間存在著相關(guān)性的緣故。因此,在逐步回歸中,每當(dāng)向模型中加入一個變量之后,就對原來模型中的變量在新模型下再進行一次向后

32、剔除的檢查,看是否其中有變量應(yīng)該被剔除。這種“加入剔除”的步驟反復(fù)進行,直至所有已經(jīng)在模型中的變量都不能剔除,而且所有在模型外的變量都不能加入,過程就終止,最終的模型就是被選定的“最優(yōu)”模型,標(biāo)準(zhǔn)的統(tǒng)計軟件通常還輸出所有中間模型。例在有氧訓(xùn)練中,人的耗氧能力記為,是衡量人的身體狀況的重要指標(biāo),它可能與下列的變量有關(guān):x1:年齡;x2:體重;x3:1.5英里跑所用時間;x4:靜止時心速;x5:跑步時心速;x6: 跑步時最大心速;北卡羅來納州立大學(xué)的健身中心作了一次試驗,對31個自愿參加者進行了測試,得到數(shù)據(jù)如下表IDX1X2X3X4X5X6y14489.4711.376217818244.609

33、24075.0710.076218518545.31334485.848.654515616854.29744268.158.174016617259.57153889.029.225517818049.87464777.4511.635817617644.81174075.9811.957017618045.68184381.1910.856416217049.09194481.4213.086317417639.442103881.878.634817018660.055114473.0310.134516816850.541124587.6614.035618619237.3881345

34、66.4511.125117617644.754144779.1510.604716216447.273155483.1210.335016617051.855164981.428.954418018679.156175169.6310.955716817240.836185177.9110.004816216846.672194891.6310.254816216446.774204973.3710.086716816850.388215773.3712.635817417639.407225479.3811.076215616546.080235276.329.634816416645.4

35、41245070.878.924814615554.625255167.2511.084817217245.118265491.6312.884416817245.118275173.7110.475918618845.790285759.089.934914815550.545294976.329.405618618848.673304861.2411.505217017647.920315282.7810.505317017247.467我們考察耗氧能力與這些自變量之間的關(guān)系。 解:建立線性模型可以算出:SSR=722.54321 SST=851.38154 SSE=128.83794 F

36、=22.433如果取,說明線性模型是有效的。我們用SAS/STAT中的PROC REG程序中的向后回歸法進行變量選取擇,其過程和結(jié)果如下:第一步:首先對全模型計算模型的有效性的F統(tǒng)計量,為F=22.433;模型有效,每個變量檢驗的F統(tǒng)計量為變量X1X2X3X4X5X6F5171854642011951493,由此可得到應(yīng)剔除,首先剔除;重新建立模型第二步:對剔除后的新模型計算模型有效性的F統(tǒng)計量,為F=27.90;,模型有效,每個變量檢驗的F統(tǒng)計量為變量X1X2X3X5X6F52918461.8910.165.18,由此可得到應(yīng)剔除;第三步:對剔除后的新模型計算模型有效性的F統(tǒng)計量,為F=33

37、.33;,模型有效,每個變量檢驗的F統(tǒng)計量為變量X1X3X5X6F4.2766.058.784.10,由此可得到?jīng)]有變量可剔除,這樣就得到了最終的模型程序?qū)⒔o出參數(shù)估計。多元共線性什么是多元共線性?多元共線性對LS估計有什么影響?如何判別數(shù)據(jù)中存在多元共線性?我們先從最簡單的情況開始,設(shè)有兩個自變量,它們的觀測數(shù)據(jù)可用n維向量表示,這兩個變量的統(tǒng)計相關(guān)性可用“樣本相關(guān)系數(shù)”的平方 (9.2.30)來表示。其中表示樣本平均,將數(shù)據(jù)“標(biāo)準(zhǔn)化” ()為標(biāo)準(zhǔn)化樣本。當(dāng) 時,線性相關(guān),即兩向量共線。若兩向量共線,我們將的最小二乘估計滿足的方程 ()改寫為 ()系數(shù)矩陣的行列式,即的最小二乘估計沒有唯一解

38、,可以證明它有無窮多解。當(dāng)若兩向量接近共線時,即時,的最小二乘估計的方差非常地大,其估計的性質(zhì)很不穩(wěn)定。 將兩個自變量的情況可以推廣到多個自變量,參見陸璇應(yīng)用統(tǒng)計P106-120。 線性回歸的推廣非線性回歸在許多實際問題中,響應(yīng)變量與一組自變量之間并不存在線性相關(guān)關(guān)系,但它們的關(guān)系可能是某種非線性相關(guān)關(guān)系,反映在圖形上所描的點成非線性關(guān)系。例如研究商品年銷售額與流通費率就是非線性關(guān)系。對于這類問題當(dāng)然不能直接用前面所述的線性回歸方法,需要將回歸模型的理論加深,建立非線性最小二乘估計理論;或?qū)⒎蔷€性關(guān)系通過變量代換或線性近似化為線性關(guān)系處理,這種方法我們通常稱之為非線性回歸線性化方法。例如,因變

39、量Y與自變量x可能有關(guān)系(平均說來):,我們通過變量替換得到了線性模型利用一元線性回歸分析可求得回歸系數(shù)a,b 的估計值,得到回歸方程從而就得到了Y對x的回歸方程一般說來,非線性回歸線性化可按如下步驟進行(1)如果是一元回歸問題,對變量,Y作n次試驗觀察值(),i=1,2,,n并作“散點圖”,二元非線性回歸類似。(2)根據(jù)散點圖的形狀選擇適當(dāng)?shù)姆蔷€性類型。至于選擇哪種變換才能線性化,有一個簡單的判別方法,將變換后的數(shù)據(jù)點在新坐標(biāo)(變換后的坐標(biāo))中,若所得的點基本上成直線狀,則適合,否則不適合。注意并不是每一個非線性函數(shù)都可以找到線性化的變換,例如。(3)利用多元線性回歸方法求得回歸系數(shù)的估計將

40、其代回歸非線性的表達式中,就得到了經(jīng)驗回歸方程。 例 出鋼時所用的盛鋼水的鋼包,由于鋼水對耐火材料的侵蝕,容積不斷增大,我們希望找到使用次數(shù)x與增大的容積Y之間的關(guān)系。試驗數(shù)據(jù)如下表使用次數(shù)x12345678增大容積y6.428.209.589.509.7010.009.939.99使用次數(shù)x9101112131415增大容積y10.4910.5910.6010.8010.6010.9010.76試確定非線性回歸方程。解 畫出“散點圖”,這些點大約分布在一條曲線附近,我們選用指數(shù)曲線。對其等式兩邊取對數(shù),再令,于是得到從而化成了線性回歸問題。按一元線性回歸方法可求出回歸系數(shù)的估計值。由此得到故

41、可得到經(jīng)驗回歸方程多項式回歸當(dāng)一個自變量與一個響應(yīng)變量之間的關(guān)系是平滑的,但不是一條直線時,因為任何光滑的函數(shù)可以用多項式來近似,我們可以采取多項式模型。多項式回歸的基本形式如下(9.2.34)其中p是多項式的階;如果p=2,模型是二次的,d=3為三次的,等等。需要指出的是,當(dāng)p=2時,回歸多項式是拋物線方程,多項式回歸也稱為拋物線。我們也可以假設(shè)。多項式模型一般用作近似,幾乎從來不表示一個物理模型??梢杂米钚《朔ǚ治龆囗検侥P?。定義p個新變量,則模型被寫成()這是典型的線性模型形式,對這種模型,我們可用前面介紹過的參數(shù)估計、假設(shè)檢驗和預(yù)測的方法處理。這就是說,當(dāng)某種現(xiàn)象應(yīng)該用一種多項式來描述時,若我們?nèi)〉昧嗽摲N現(xiàn)象的樣本數(shù)據(jù)進行上面介紹的線性變換,就可以用線性模型的方法去處理了。為了說明多項式回歸的應(yīng)用,下面舉例說明。例6 已知某種半成品在生產(chǎn)過程中的廢品率與它的化學(xué)成分在關(guān),現(xiàn)將試驗得到的數(shù)據(jù)列于下表化學(xué)成分x343637383939394040

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論