第10章 多元線性回歸與相關(guān)_第1頁
第10章 多元線性回歸與相關(guān)_第2頁
第10章 多元線性回歸與相關(guān)_第3頁
第10章 多元線性回歸與相關(guān)_第4頁
第10章 多元線性回歸與相關(guān)_第5頁
已閱讀5頁,還剩29頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

第10章多元線性回歸與相關(guān)學(xué)習(xí)目標(biāo)熟悉多元線性回歸模型矩陣形式;掌握多元線性回歸模型、參數(shù)估計(jì)過程及參數(shù)的解釋,標(biāo)準(zhǔn)化參數(shù)估計(jì)值;了解多元線性回歸共線性的診斷問題;理解復(fù)相關(guān)系數(shù)與偏相關(guān)系數(shù);掌握多元線性回歸的SAS程序(REG過程以及選項(xiàng))。熟悉計(jì)算偏相關(guān)系數(shù)的SAS程序。多元線性回歸與相關(guān)的基礎(chǔ)理論在許多實(shí)際問題中,還會遇到一個隨機(jī)變量與多個變量的相關(guān)關(guān)系問題,需要用多元回歸分析的方法來解決。前面介紹的一元回歸分析是其特殊情形。但由于多元回歸分析比較復(fù)雜,在此僅簡要介紹多元線性回歸分析。由于經(jīng)濟(jì)現(xiàn)象的復(fù)雜性,一個被解釋變量往往受多個解釋變量的影響。多元回歸模型就是在方程式中有兩個或兩個以上自變量的線性回歸模型。多元線性回歸預(yù)測是用多元線性回歸模型,對具有線性趨勢的稅收問題,使用多個影響因素所作的預(yù)測。多元線性回歸多元線性回歸分析也稱為復(fù)線性回歸分析,它是一元線性回歸分析或簡單線性回歸分析的推廣,它研究的是一組自變量如何直接影響一個因變量。這里的自變量指的是能獨(dú)立自由變化的變量,一般用x表示;因變量y指的是非獨(dú)立的、受其它變量影響的變量,一般用y表示。由于多元線性回歸分析(包括一元線性回歸分析)僅涉及到一個因變量,所以有時也稱為單變量線性回歸分析?;貧w變量的選擇與逐步回歸在實(shí)際問題中,人們總是希望從對因變量有影響的諸多變量中選擇一些變量作為自變量,應(yīng)用多元回歸分析的方法建立“最優(yōu)”回歸方程以便對因變量進(jìn)行預(yù)報或控制,這就涉及到自變量選擇的問題。所謂“最優(yōu)”回歸方程,主要是指希望在回歸方程中包含所有對因變量影響顯著的自變量而不包含對影響不顯著的自變量的回歸方程。在回歸方程中若漏掉對Y影響顯著的自變量,那么建立的回歸式用于預(yù)測時將會產(chǎn)生較大的偏差。但回歸方程若包含的變量太多,且其中有些對Y影響不大,顯然這樣的回歸式不僅使用不方便,而且反而會影響預(yù)測的精度。因而選擇合適的變量用于建立一個“最優(yōu)”的回歸方程是十分重要的問題?;貧w變量的選擇與逐步回歸選擇“最優(yōu)”回歸方程的變量篩選法包括逐步回歸法,向前引入法和向后剔除法。向前引入法是從回歸方程僅包括常數(shù)項(xiàng)開始,把自變量逐個引入回歸方程。具體地說,先在m個自變量中選擇一個與因變量線性關(guān)系最密切的變量,記為,然后在剩余的m-1個自變量中,再選一個,使得聯(lián)合起來二元回歸效果最好,第三步在剩下的m-2個自變量中選擇一個變量,使得聯(lián)合起來回歸效果最好,...如此下去,直至得到“最優(yōu)”回歸方程為止?;貧w變量的選擇與逐步回歸向前引入法中的終止條件為,給定顯著性水平,當(dāng)某一個對將被引入變量的回歸系數(shù)作顯著性檢查時,若p-value≥,則引入變量的過程結(jié)束,所得方程即為“最優(yōu)”回歸方程。向前引入法有一個明顯的缺點(diǎn),就是由于各自變量可能存在著相互關(guān)系,因此后續(xù)變量的選入可能會使前面已選入的自變量變得不重要。這樣最后得到的“最優(yōu)”回歸方程可包含一些對Y影響不大的自變量?;貧w變量的選擇與逐步回歸向后剔除法與向前引入法正好相反,首先將全部m個自變量引入回歸方程,然后逐個剔除對因變量Y作用不顯著的自變量。具體地說,從回歸式m個自變量中選擇一個對Y貢獻(xiàn)最小的自變量,比如,將它從回歸方程中剔除;然后重新計(jì)算Y與剩下的m-1個自變量回歸方程,再剔除一個貢獻(xiàn)最小的自變量,比如,依次下去,直到得到“最優(yōu)”回歸方程為止。向后剔除法中終止條件與向前引入法類似。向后剔除法的缺點(diǎn)在于,前面剔除的變量有可能因以后變量的剔除,變?yōu)橄鄬χ匾淖兞?,這樣最后得到的“最優(yōu)”回歸方程中有可能漏掉相對重要的變量?;貧w變量的選擇與逐步回歸逐步回歸法是上述兩個方法的綜合。向前引入中被選入的變量,將一直保留在方程中。向后剔除法中被剔除的變量,將一直排除在外。這兩種方程在某些情況下會得到不合理的結(jié)果。于是,可以考慮到,被選入的的變量,當(dāng)它的作用在新變量引入后變得微不足道時,可以將它刪除;被剔除的變量,當(dāng)它的作用在新變量引入情況下變得重要時,也可將它重新選入回歸方程。這樣一種以向前引入法為主,變量可進(jìn)可出的篩選變量方法,稱為逐步回歸法?;貧w變量的選擇與逐步回歸它的主要思路是在考慮的全部自變量中按其對的作用大小,顯著程度大小或者說貢獻(xiàn)大小,由大到小地逐個引入回歸方程,而對那些對作用不顯著的變量可能始終不被引人回歸方程。另外,己被引人回歸方程的變量在引入新變量后也可能失去重要性,而需要從回歸方程中剔除出去。引人一個變量或者從回歸方程中剔除一個變量都稱為逐步回歸的一步,每一步都要進(jìn)行檢驗(yàn),以保證在引人新變量前回歸方程中只含有對影響顯著的變量,而不顯著的變量已被剔除。首先給出引入變量的顯著性水平和剔除變量的顯著性水平,然后篩選變量?;貧w變量的選擇與逐步回歸回歸變量的選擇與逐步回歸逐步回歸分析的實(shí)施過程是每一步都要對已引入回歸方程的變量計(jì)算其偏回歸平方和(即貢獻(xiàn)),然后選一個偏回歸平方和最小的變量,在預(yù)先給定的水平下進(jìn)行顯著性檢驗(yàn),如果顯著則該變量不必從回歸方程中剔除,這時方程中其它的幾個變量也都不需要剔除(因?yàn)槠渌膸讉€變量的偏回歸平方和都大于最小的一個更不需要剔除)。相反,如果不顯著,則該變量要剔除,然后按偏回歸平方和由小到大地依次對方程中其它變量進(jìn)行檢驗(yàn)。將對影響不顯著的變量全部剔除,保留的都是顯著的。接著再對未引人回歸方程中的變量分別計(jì)算其偏回歸平方和,并選其中偏回歸平方和最大的一個變量,同樣在給定水平下作顯著性檢驗(yàn),如果顯著則將該變量引入回歸方程,這一過程一直繼續(xù)下去,直到在回歸方程中的變量都不能剔除而又無新變量可以引入時為止,這時逐步回歸過程結(jié)束。多重共線性回歸分析是一種比較成熟的預(yù)測模型,也是在預(yù)測過程中使用較多的模型,在自然科學(xué)管理科學(xué)和社會經(jīng)濟(jì)中有著非常廣泛的應(yīng)用,但是經(jīng)典的最小二乘估計(jì),必需滿足一些假設(shè)條件,多重共線性就是其中的一種。實(shí)際上,解釋變量間完全不相關(guān)的情形是非常少見的,大多數(shù)變量都在某種程度上存在著一定的共線性,而存在著共線性會給模型帶來許多不確定性的結(jié)果。多重共線性設(shè)回歸模型ε如果矩陣X的列向量存在一組不全為零的數(shù),I=1,2,…n,則稱其存在完全共線性,如果,I=1,2,…n,則稱其存在近似的多重共線性。多重共線性當(dāng)存在嚴(yán)重的多重共線性時,會給回歸系數(shù)的統(tǒng)計(jì)檢驗(yàn)造成一定的困難,可能造成F檢驗(yàn)獲得通過,T檢驗(yàn)卻不能夠通過。在自變量高度相關(guān)的情況下,估計(jì)系數(shù)的含義有可能與常識相反。在進(jìn)行預(yù)測時,因?yàn)榛貧w模型的建立是基于樣本數(shù)據(jù)的,多重共線性也是指抽樣的數(shù)據(jù)。如果把建立的回歸模型用于預(yù)測,而多重共線性問題在預(yù)測區(qū)間仍然存在,則共線性問題對預(yù)測結(jié)果不會產(chǎn)生特別嚴(yán)重的影響,但是如果樣本數(shù)據(jù)中的多重共線性發(fā)生了變化則預(yù)測的結(jié)果就不能完全的確定了。多重共線性檢驗(yàn)檢查和解決自變量之間的多重共線性,多多元線性回歸分析來說是很必要和重要的一個步驟,常用的共線性診斷方法包括:直觀的判斷方法方差擴(kuò)大因子法(VIF)特征根判定法直觀的判斷方法在自變量的相關(guān)系數(shù)矩陣中,有某些自變量的相關(guān)系數(shù)值比較大?;貧w系數(shù)的符號與專業(yè)知識或一般經(jīng)驗(yàn)相反對重要的自變量的回歸系數(shù)進(jìn)行t檢驗(yàn),其結(jié)果不顯著,但是F檢驗(yàn)確得到了顯著的通過如果增加一個變量或刪除一個變量,回歸系數(shù)的估計(jì)值發(fā)生了很大的變化重要變量的回歸系數(shù)置信區(qū)間明顯過大方差擴(kuò)大因子法(VIF)一般認(rèn)為如果最大的超過10,常常表示存在多重共線性。事實(shí)上>10這說明>0.9。特征根判定法根據(jù)矩陣行列式性質(zhì),矩陣行列式的值等于其特征根的連乘積。因此,當(dāng)行列式||≈0時,至少有一個特征根為零,反過來,可以證明矩陣至少有一個特征根近似為零時,X的列向量必存在多重共線性,同樣也可證明有多少個特征根近似為零矩陣X就有多少個多重共線性。根據(jù)條件數(shù),其中為最大的特征根.為其他的特征根,通常認(rèn)為0<k<10,沒有多重共線性,k>10存在著多重共線性。多重共線性的處理方法增加樣本容量,當(dāng)線性重合是由于測量誤差引起的以及他僅是偶然存在于原始樣本,而不存在于總體時,通過增加樣本容量可以減少或是避免線性重合,但是在現(xiàn)實(shí)的生活中,由于受到各種條件的限制增加樣本容量有時又是不現(xiàn)實(shí)的剔除一些不重要的解釋變量,主要有向前法和后退法,逐步回歸法。多重共線性的處理方法前進(jìn)法的主要思想是變量由少到多的,每次增加一個,直至沒有可引入的變量為止。具體做法是首先對一個因變量y和m個自變量分別建立回歸方程,并分別計(jì)算這m個回歸方程的F值,選其最大者,記為Fj,,給定顯著性水平F,如果Fj>F,則變量引入該方程,再分別對(Xj,X1),(Xj,X2)…(Xj,Xm)做回歸方程,并對他們進(jìn)行F檢驗(yàn),選擇最大的Fi值,如果Fi.>F,則該變量引入方程,重復(fù)上述步驟,直到?jīng)]有變量引入為止。后退法,是先用m個因變量建立回歸方程,然后在這m個變量中選擇一個最不顯著的變量將它從方程中剔除,對m個回歸系數(shù)進(jìn)行F檢驗(yàn),記所求得的最小的一個記為Fj,給定一個顯著性的水平,如果Fj<F則將Xj從方程中刪除,重復(fù)上述步驟直到所有不顯著的變量被剔除為止。多重共線性的處理方法逐步回歸法,前進(jìn)法存在著這樣的缺點(diǎn)當(dāng)一個變量被引入方程時,這個變量就被保留在這個方程中了,當(dāng)引入的變量導(dǎo)致其不顯著時,它也不會被刪除掉,后退法同樣存在著這樣的缺點(diǎn),當(dāng)一個變量被剔除時就永遠(yuǎn)的被排斥在方程以外了,而逐步回歸法克除了兩者的缺點(diǎn)。逐步回歸的思想是有進(jìn)有出。將變量一個一個的引入,每引入一個變量對后面的變量進(jìn)行逐個檢驗(yàn),當(dāng)變量由于后面變量的引入而不變的不顯著時將其剔除,進(jìn)行每一步都要進(jìn)行顯著性的檢驗(yàn),以保證每一個變量都是顯著的。多重共線性的處理方法主成分法。當(dāng)自變量間有較強(qiáng)的線性相關(guān)性時,利用P個變量的主成分,所具有的性質(zhì),如果他們是互不相關(guān)的,可由前m

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論