3多元線性回歸與最小二乘估計(jì)_第1頁
3多元線性回歸與最小二乘估計(jì)_第2頁
3多元線性回歸與最小二乘估計(jì)_第3頁
3多元線性回歸與最小二乘估計(jì)_第4頁
3多元線性回歸與最小二乘估計(jì)_第5頁
已閱讀5頁,還剩7頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、1.3多元線性回歸與最小二乘估計(jì)1.假定條件、最小二乘估計(jì)量和圖斯馬爾可夫定理多元線性回歸模型:(1.1)yt=0+PlXtl+p2Xt2+良iXtk-1+ut,其中yt是被解釋變量(因變量),Xtj是解釋變量(自變量),ut是隨機(jī)誤差項(xiàng),Pi,i=0,1,k-1是回歸參數(shù)(通常未知)。對(duì)經(jīng)濟(jì)問題的實(shí)際意義:yt與xtj存在線性關(guān)系,xtj,j=0,1,k-,1,是yt的重要解釋變量。ut代表眾多影響yt變化的微小因素。使yt的變化偏離了E(yt)=a+Pxt1+p2Xt2+瓦1Xtk-1決定的k維空間平面。當(dāng)給定一個(gè)樣本(yt,Xt1,Xt2,,Xtk-1),t=1,2,T時(shí),上述模型表示為

2、xtj是yt的重要解釋變量。yt與Xtj存在線性關(guān)系。yt表示一個(gè)多維平面。(1.2)y1=P0+5x11+P2X12+Pk-1X1k-1+U1,經(jīng)濟(jì)意義y2=國+由X21+2X22+Pk-1X2k-1+U2,代數(shù)意義幾何意義yT=由+P1XT1+02XT2+Pk-1XTk-1+UT,此時(shí)yt與xti已知,口與ut未知。-yJ1YYY1X11x1jX1kJ.IJ-ujV21X21X2jX2kJ.P.u2-+3qJAAA,AJAUt-(TX1).1Xt1XTjXtk(TXk)-Pk_(k1)一ut一(TM1)Y=X+u,(1.3)(1.4)仃2相同且為保證得到最優(yōu)估計(jì)量,回歸模型(1.4)應(yīng)滿足

3、如下假定條件。假定隨機(jī)誤差項(xiàng)ut是非自相關(guān)的,每一誤差項(xiàng)都滿足均值為零,方差為有限值,即E(u)=0=0*:01一100*2200Var(u)=E(u?)=crI=crp011假定解釋變量與誤差項(xiàng)相互獨(dú)立,即E(Xu)=0假定解釋變量之間線性無關(guān)。rk(XX)=rk(X)=k其中rk()表示矩陣的秩。假定解釋變量是非隨機(jī)的,且當(dāng)T-8時(shí)1TXX一Q其中Q是一個(gè)有限值的非退化矩陣。最小二乘(OLS)法的原理是求殘差(誤差項(xiàng)的估計(jì)值)平方和最小。代數(shù)上是求極值問題。minS=(Y-X?)(Y-X?)=yy-?XY-YX?+?XX?(1.5)=YY-2?XY+?XX?因?yàn)閅Xg是一個(gè)標(biāo)量,所以有YX

4、?=gXY。(1.5)的一階條件為:化簡得.ST?-2XY+2XX(1.6)XY=XX?因?yàn)?XX)是一個(gè)非退化矩陣(見假定)?=(XX)-1XY(1.7)因?yàn)閄的元素是非隨機(jī)的,(XX)-1X是一個(gè)常數(shù)矩陣,則估計(jì)量。求出g,估計(jì)的回歸模型寫為g是Y的線性組合,為線性Y=X?+I?(1.9)其中?=(隹旦?k)是P的估計(jì)值列向量,u?=(Y-X的稱為殘差列向量。因?yàn)?=Y-X?=Y-X(XX)-1XY=I-X(XX)-1XY(1.10)所以I?也是Y的線性組合。P的期望和方差是E(?)=E(XX)-1XY=E(XX)-1X(X-+u)=:+(XX)-1XE(u)=:(1.11)Var(P)=

5、E(PP)(?.=E(XX)-1XuuX(XX)-1=E(XX)-1X02IX(XX)-1=02(XX)-1(1.12)高斯一馬爾可夫定理:若前述假定條件成立,OLS估計(jì)量是最佳線性無偏估計(jì)量??诰哂袩o偏性。9具有最小方差特性。P具有一致性,漸近無偏性和漸近有效性。2.殘差的方差s2=?/(T-k)(1.13)s2是。2的無偏估計(jì)量,E(s2)=仃Z任的估計(jì)的方差協(xié)方差矩陣是Var(?)=s(XX)-1(1.14)3.多重確定系數(shù)(多重可決系數(shù))Y=X?+u?=Y+u?(1.15)總平方和T,、2_2SST=、tj(yt-y)2=YY-Ty,其中y是yt的樣本平均數(shù),定義為y=(Z、yt)/T

6、?;貧w平方和為SSR=v:J?t-y)2=Y?Y?-Ty2其中y的定義同上。殘差平方和為TTSSE=t4(yt-yt)=t?t=?u?則有如下關(guān)系存在,SST=SSR+SSE2SSRY?Y-Ty2R=SSTYY-Ty2顯然有0R2)拒絕Hoo8 .耳的置信區(qū)間(1)全部口的聯(lián)合置信區(qū)間接受F=-(-?)(XX)(-?)/s2.-F-k,T-k)(1.27)k(P-j?)(XX)(P-g)SST。為維持SSE+SSR=SST,迫使SSRt&=a,P(tto)=a(10)對(duì)于多元回歸模型,當(dāng)解釋變量的量綱不相同時(shí),不能在估計(jì)的回歸系數(shù)之間比較大小。若要在多元回歸模型中比較解釋變量的相對(duì)重要性,應(yīng)該

7、對(duì)回歸系數(shù)作如下變換s(Xtj)s(yt)j=1,2,k,1(1.41)其中s(xt)和s(yt)分別表示xt和yt的樣本標(biāo)準(zhǔn)差。同*可用來直接比較大小。以二元模型為例,標(biāo)準(zhǔn)化的回歸模型表示如下(標(biāo)準(zhǔn)化后不存在截距項(xiàng))yt-yxt11xt2-x2=P1*-+B*-+uts(yt)s(xt1)s(xt2)兩側(cè)同乘s(yt),得s(yt)s(yt)一(yt-y)=F1*(xt1-x)+F2*(xt2-x2)+uts(yt)s(xt1)s(xt2)所以有月*山=所即降=月s(xtj)s(xtj)s(yt)i=1,2,k-1既是(1.41)式。(11)利用回歸模型預(yù)測(cè)時(shí),解釋變量的值最好不要離開樣本范

8、圍太遠(yuǎn)。原因是根據(jù)預(yù)測(cè)公式離樣本平均值越遠(yuǎn),預(yù)測(cè)誤差越大。以一元回歸模型為例;夕F-N(:0+:1xf,二1(1+-+.(xFx)2)T二.(xt-x)從公式看,當(dāng)xf=x時(shí),?F的分布方差最小,即預(yù)測(cè)區(qū)間最小,預(yù)測(cè)精度最高。而預(yù)測(cè)點(diǎn)xf越遠(yuǎn)離x,夕F的分布方差越大,即預(yù)測(cè)區(qū)間越大,預(yù)測(cè)精度越差。有時(shí),樣本以外變量的關(guān)系不清楚。當(dāng)樣本外變量的關(guān)系與樣本內(nèi)變量的關(guān)系完全不同時(shí),在樣本外預(yù)測(cè)就會(huì)發(fā)生錯(cuò)誤。圖3.10給出青銅硬度與錫含量的關(guān)系曲線。若以錫含量為0-16%為樣本,求得的關(guān)系近似是線性的。當(dāng)把預(yù)測(cè)點(diǎn)選在錫含量為16%之外時(shí),顯然這種預(yù)測(cè)會(huì)發(fā)生嚴(yán)重錯(cuò)誤。因?yàn)殄a含量超過16%之后,青銅的硬度

9、急劇下降,不再遵從錫含量為0-16%時(shí)的關(guān)系。圖3.9yt的區(qū)間預(yù)測(cè)的變化幅含量,注)(12)回歸模型的估計(jì)結(jié)果應(yīng)與經(jīng)濟(jì)理論或常識(shí)相一致。如邊際消費(fèi)傾向估計(jì)結(jié)果為1.5,則模型很難被接受。(13)殘差項(xiàng)應(yīng)非自相關(guān)(用DW檢驗(yàn),亦可判斷虛假回歸)。否則說明仍有重要解釋變量被遺漏在模型之外。選用的模型形式不妥。(14)通過對(duì)變量取對(duì)數(shù)消除異方差。(15)避免多重共線性。(16)解釋變量應(yīng)具有外生性,與誤差項(xiàng)不相關(guān)。(17)應(yīng)具有高度概括性。若模型的各種檢驗(yàn)及預(yù)測(cè)能力大致相同,應(yīng)選擇解釋變量較少的一個(gè)。(18)模型的結(jié)構(gòu)穩(wěn)定性要強(qiáng),超樣本特性要好。(19)世界是變化的,應(yīng)該隨時(shí)間的推移及時(shí)修改模型。

10、建模案例1:全國味精需求量的計(jì)量經(jīng)濟(jì)模型(見預(yù)測(cè)1987年第2期)1 .依據(jù)經(jīng)濟(jì)理論選擇影響味精需求量變化的因素依據(jù)經(jīng)濟(jì)理論一種商品的需求量主要取決于四個(gè)因素,即商品價(jià)格,代用品價(jià)格,消費(fèi)者收入水平,消費(fèi)者偏好。模型為:商品需求量=f(商品價(jià)格,代用品價(jià)格,收入水平,消費(fèi)者偏好)對(duì)于特定商品味精,當(dāng)建立模型時(shí)要對(duì)上述四個(gè)因素能否作為重要解釋變量逐一鑒別。商品價(jià)格:味精是一種生活常用品,當(dāng)時(shí)又是一種價(jià)格較高的調(diào)味品。初步判斷價(jià)格會(huì)對(duì)需求量產(chǎn)生影響。所以確定價(jià)格作為一個(gè)重要解釋變量。代用品價(jià)格:味精是一種獨(dú)特的調(diào)味品,目前尚沒有替代商品。所以不考慮代用品價(jià)格這一因素。消費(fèi)者收入:顯然消費(fèi)者收入應(yīng)該

11、是一個(gè)較重要的解釋變量。偏好:由于因偏好不食味精或大量食用味精的情形很少見,所以每人用量只會(huì)在小范圍內(nèi)波動(dòng),所以不把偏好作為重要解釋變量,而歸并入隨機(jī)誤差項(xiàng)。分析結(jié)果,針對(duì)味精需求量只考慮兩個(gè)重要解釋變量,商品價(jià)格和消費(fèi)者收入水平。味精需求量=f(商品價(jià)格,收入水平)2 .選擇恰當(dāng)?shù)淖兞浚纫紤]代表性,也要考慮可能性)用銷售量代替需求量。因需求量不易度量,味精是自由銷售商品,不存在囤積現(xiàn)象,所以銷售量可較好地代表需求量。味精商品價(jià)格即銷售價(jià)格。用人均消費(fèi)水平代替收入水平。因?yàn)橄M(fèi)水平與味精銷售量關(guān)系更密切。消費(fèi)水平數(shù)據(jù)在統(tǒng)計(jì)年鑒上便于查找(收入水平的資料不全)。味精銷售量=f(銷售價(jià)格,人均

12、消費(fèi)水平)用平均價(jià)格作為銷售價(jià)格的代表變量。不同地區(qū)和不同品牌的味精價(jià)格是不一樣的,應(yīng)取平均價(jià)格(加權(quán)平均最好)。取不變價(jià)格的人均消費(fèi)水平:消費(fèi)水平都是用當(dāng)年價(jià)格計(jì)算的,應(yīng)用物價(jià)指數(shù)進(jìn)行修正。味精銷售量=f(平均銷售價(jià)格,不變價(jià)格的消費(fèi)水平)3 .收集樣本數(shù)據(jù)(抽樣調(diào)查,引用數(shù)據(jù))從中國統(tǒng)計(jì)年鑒和有關(guān)部門收集樣本數(shù)據(jù)(1972-1982,T=11。數(shù)據(jù)見下頁。)。定義銷60000500004000030000200001000011.011.211.411.611.812.012.2100120140160180售量為yt(噸),平均銷售價(jià)格為X1(元/公斤),不變價(jià)格的消費(fèi)水平為X2(元)。

13、相關(guān)系數(shù)表如下:平均銷售價(jià)格(x1t)小艾價(jià)格的消費(fèi)水平(x2t)味精銷售量(yt)-0.36710.9771注:臨界值.05(9)=0.60。6000050000400003000020000100004 .確定模型形式并估計(jì)參數(shù)(1)yt=-144680.9+6313.4x1t+690.4x2t(-3.92)(2.17)(15.32)R2=0.97,DW=1.8,t0.05(8)=2.3回歸系數(shù)6313.4無顯著性(x1t與x2t應(yīng)該是負(fù)相關(guān),回歸系數(shù)估計(jì)值卻為正,可見該估計(jì)值不可信)。剔除不顯著變量x1t,再次回歸,(2)yt=-65373.6+642.4x2t(-10.32)(13.8

14、)R2=0.95,DW=1.5,t0.05(9)=2.26問題:?1=6313.4,為什么檢驗(yàn)結(jié)果是網(wǎng)=0?量綱的變化對(duì)回歸結(jié)果會(huì)造成影響嗎?1986年第6期)建模案例2:用回歸方法估計(jì)純耕地面積(見數(shù)理統(tǒng)計(jì)與管理目前對(duì)土地的調(diào)查大多采用航空攝影,從照片上把各類資源圖斑轉(zhuǎn)繪到1:10000的地形圖上,然后再從地形圖上測(cè)繪圖斑面積。在處理如何獲得實(shí)際耕地面積時(shí),關(guān)鍵技術(shù)難題是如何將耕地圖斑中包含的田展、土坎、空隙地、寬度小于2米的路、溝、渠等面積從圖斑中分離出來。因?yàn)樗鼈冊(cè)诤娇請(qǐng)D片上的分辨率很低,無法直接勾繪,測(cè)算。設(shè)一個(gè)毛耕地圖斑面積用S表示,其中不能耕種的面積(扣除面積)用AS表示,則扣除系

15、數(shù),yi=AS/S=(扣除面積)/(毛耕地圖斑面積)。對(duì)于每一個(gè)圖斑,知道精確的扣除系數(shù)yi,就很容易根據(jù)毛耕地圖斑面積S計(jì)算出純耕地面積。現(xiàn)在用回歸分析方法,尋找影響扣除系數(shù)變化的主要因素,從而建立關(guān)于“扣除系數(shù)”的回歸模型。該論文研究的是湖南地區(qū)的耕地面積調(diào)查。湖南省屬丘陵山區(qū),地形復(fù)雜,各種地類犬牙交錯(cuò),影響扣除系數(shù)的因素很多。如田展寬度、地塊大小、地塊坡度、空隙地、地貌類型等。通過實(shí)際調(diào)查和分析,初步確定三個(gè)主要因素,即“坡度、“地塊面積”和“田展寬度”論文作者在五個(gè)縣共調(diào)查了867個(gè)樣本點(diǎn),其中水田樣本522個(gè),旱田樣本345個(gè)。具體做法是首先把867個(gè)樣本數(shù)據(jù)按“坡度”分成25個(gè)等級(jí),然后再把屬于同一個(gè)等級(jí)的樣本數(shù)據(jù)用加權(quán)平均的方法求出另兩個(gè)因素的觀測(cè)值,“平均地塊面積”和“平均田展寬度”。整理樣本數(shù)據(jù)如下:iyiX1iX2iX3i14.235601.93000.631824.883811.49180.731237.830021.12530.97312539.4151241.06004.0721擬建摸型為,yi=:0+:1xii+:2X2i+:3X3i+Ui利用樣本得估計(jì)的回歸方程yi=1.672+1.145xii+0.6

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論