


版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
1、線性回歸專題一元線性回歸在客觀世界中普遍存在著變量之間的關系。變量之間的關系一般來說可分為確定性的與非確定性的兩種。 確定性關系是指變量之間的關系可以用函數(shù)關系來表達。另一種非確定性的關系即所謂相關關系。例如人的身高與體重之間存在著關系,一般來說,人高一些, 體重要重一些, 但同樣高度的人,體重往往不相同。人的血壓與年齡之間也存在著關系,但同年齡的人的血壓往往不相同。氣象中的溫度與濕度之間的關系也是這樣,這是因為我們涉及的變量(如體重、血壓、濕度)是隨機變量,上面所說的變量關系是非確定性的?;貧w分析是研究相關關系的一種數(shù)學工具。它能幫助我們從一個變量取得的值去估計另一變量所取的值。(一) 一元
2、線性回歸設隨機變量y與x之間存在著某種相關關系。這里,x是可以控制或可以精確觀察的變量,如年齡、試驗時的溫度、施加的壓力、電壓與時間等。換句話說我們可以隨意指定n個值nxxx,21。因此我們干脆不把x看成隨機變量,而把它當作普通的變量。本章中我們只討論這種情況。由于y是隨機變量,對于x的每一個確定值,y有它的分布。若y的數(shù)學期望存在,則其取值隨x的取值而定, 即y的數(shù)學期望是x的函數(shù), 記為xy|或)(x。)(x稱為y關于x的回歸 。由于)(x的大小在一定程度上反映在x處隨機變量y的觀察值的大小,因此如果能設法通過一組樣本來估計)(x,那么,在一定條件下我們就能解決如下的問題:在給定置信度下,
3、 估計出當x取一定值時,隨機變量y的取值情況, 即所謂預測問題;以及在給定置信度下,控制自變量x的取值范圍,使y在給定的范圍內(nèi)取值,即所謂控制問題。我們對于x的、取定的一組不完全相同的值nxxx,21,作獨立試驗得到n對觀察結果),( ,),(),(2211nnyxyxyx,其中iy是ixx處對隨機變量y觀察的結果。這n對觀察結果就是一個容量為n的樣本。我們首先要解決的問題是如何利用樣本來估計y關于x的回歸)(x。為此,首先需要推測)(x的形式。在一些問題中,我們可以由專業(yè)知識知道)(x的形式。否則, 我們可將每對觀察值),(iiyx在直角坐標系中描述出它的相應的點,這種圖稱為散點圖 。散點圖
4、可以幫助我們初略地看出)(x的形式。例 1 為研究某一化學反應過程中,溫度)(0cx對產(chǎn)品得率(%)y的影響,測得數(shù)據(jù)如下。溫度)(0cx100 110 120 130 140 150 160 170 180 190 得率(%)y45 51 54 61 66 70 74 78 85 89 這里自變量x是普通變量,y是隨機變量。畫出散點圖如圖9-2 所示。由圖大致看出)(x具有線性函數(shù)bxa的形式。圖 9-2 設y關于x的回歸為)(x。 利用樣本來估計)(x的問題稱為求y關于x的回歸問題。 特別,若)(x為線性函數(shù):bxax)(,此時估計)(x的問題稱為求一元線性回歸問題。本節(jié)我們只討論這個問題
5、。我們假定對于x(在某個區(qū)間內(nèi))的每一個值有),(2bxany,其中ba,及2都是不依賴于x的未知參數(shù)。對y作這樣的正態(tài)假設,相當于假設bxay,),0(2n()其中未知參數(shù)ba,及2都不依賴于x。 ()式稱為 一元線性回歸模型。如果由樣本得到()式中ba,的估計ba?, ?,則對于給定的x,我們?nèi)bay?做為bxax)(的估計。方程xbay?稱為y關于x的線性回歸方程 或回歸方程 ,其圖形稱為回歸直線 。思考:回歸模型與回歸方程有何異同?(二)ba,的估計取x的n個不全相同的值nxxx,21作獨立試驗,得到樣本),(,),(),(2211nnyxyxyx。由()式,得iiibxay,),0
6、(2ni,各i相互獨立。()于是),(2iibxany,ni,2,1。且由nyyy,21的獨立性,知nyyy,21的的聯(lián)合密度為niiibxayl122)(21exp21niiinbxay122)(21exp21()現(xiàn)用極大似然估計法來估計未知參數(shù)a,b。對于任意一組觀察值nyyy,21, ()式就是樣本的似然函數(shù)。顯然,要l取最大值,只要()式右端方括弧中的平方和部分為最小,即只需函數(shù)niiibxaybaq12)(),(()取最小值。注意:如果y不是正態(tài)變量, 則直接用() 式估計未知參數(shù)a,b, 使得y的觀察值iy與ibxa偏差的平方和),(baq為最小。這種方法叫最小二乘法 。它是求經(jīng)驗
7、公式的一個常用方法。若y是正態(tài)變量,則最小二乘法與極大似然估計法給出相同的結果。取q分別關于a,b的偏導數(shù),并令它們等于零:0)(20)(211niiiiniiixbxaybqbxayaq()得方程組niiiniiniiniiniiyxbxaxybxna112111()()式稱為 正規(guī)方程組 。為了和多元線性回歸結合,設樣本為nnyxyxyx1221111則正規(guī)方程組也可以表示為:niiiniiniiniiniiyxbxaxybxna1112111111若用矩陣表示,則12111111nxxxx12111111nxxxxbanyyyy21那么niiniiniixxxnxx1211111niii
8、niiyxyyx111正規(guī)方程組可表示為yxxx由于ix不全相同,正規(guī)方程組的系數(shù)行列式niiniiniiniiniiniixxnxxnxxxn12211212110)(即0)(12112111211211111niiniiniiniiniiniixxnxxnxxxn故()式有唯一的一組解。解得ab,的極大似然估計為xbyxnbynaxxyyxxxxnyxyxnbniiniiniiniiiniiniiniiniiniii?1?)()(?111212112111()于是,所求的線性回歸方程為xbay?()若將xbya?代入上式,則線性回歸方程變?yōu)?(?xxbyy()()表明,對于樣本觀測值),(
9、 ,),(),(2211nnyxyxyx,回歸直線通過散點圖的幾何中心),(yx。今后我們將視方便而使用()或()。為了計算上的方便,我們引入下述記號:2112121)(niiniiniixxxnxxxs2112121)(niiniiniiyyynyyysniiniiniiiniiixyyxnyxyyxxs11111)(這樣,ba,的估計可寫成bxnynassbniiniixxxy?11?11()(三)2的估計xbay?,iiyy?稱為ix處的 殘差 ,平方和niiiniiiexbayyyq1212)?()?(稱為 殘差平方和 。殘差平方和服從分布:)2(22nqe()于是22nqee,即22
10、nqee,即知2?2nqe()是2的無偏估計。為了便于計算2?,我們將eq作如下的分解:2121212221112221112?()?()?()()?()2()()( )()?()2()()( )()?2( )neiiiniiniinnniiiiinnniiiiiyyxyxxqyyyyb xxyyb xxyybyyxxbxxyybxxyybxxsbsbs由()式xxxyssb?,得eq的一個分解式xyyyesbsq?(我們經(jīng)常使用)另外一個分解式是xxyyesbsq2?(我們不常使用,因為公式中含有b?這個隨機變量) 。(四)線性假設的顯著性檢驗在以上的討論中,我們假定y關于x的回歸)(x具有
11、形式bxa,在處理實際問題時,)(x是否為x的線性函數(shù),首先要根據(jù)有關專業(yè)知識和實踐來判斷, 其次就要根據(jù)實際觀察得到的數(shù)據(jù)運用假設檢驗的方法來判斷。這就是說, 求得的線性回歸方程是否具有使用價值,一般來說, 需要經(jīng)過假設檢驗才能確定。若線性假設()符合實際,則b不應為零,因為若0b,則y就不依賴于x了。因此我們需要檢驗假設0:0:10bhbh()我們使用t檢驗法來進行檢驗。我們有),(?2xxsbnb又由(), ()知)2(?)2(2222nqne且b?與eq獨立。故有)2(2?)2(?2222ntnnsbbsbbxxxx即)2(?2ntsbbxx()思考:2?(0,1)xxbbns與上式有
12、何異同?提示:若),(2nx,則2( ,)xnn,即2(0,1)xnn,且) 1(2ntnsx提示完畢。思考完畢。當0h為真時0b,此時)2(?2ntsbtxx且0)?(bbe,即得0h的拒絕域為)2(?222ntsbsbtxxxx, (此處為顯著性水平。 )回顧:三種重要分布為:(一)設nxxx,21是來自總體)1 ,0(n的樣本,則稱統(tǒng)計量222212nxxx服從自由度為n的2分布,記為)(22n。(二)設) 1 ,0( nx,)(2ny,并且x與y獨立,則稱隨機變量nyxt服從自由度為n的t分布,記為)(ntt。(三)設)(),(2212nvnu,且u與v獨立,則稱隨機變量21nvnuf
13、服從自由度為),(21nn的f分布,記為),(21nnff。回顧完畢。請證明 :服從自由度為n的t分布的隨機變量x的平方2x服從), 1 ( nf分布。證明:在此題中,設) 1 ,0( ny,)(2nz,且y與z獨立,則根據(jù)t分布的定義有)(ntnzyx另外,根據(jù)2分布的定義,有)1(22y,且根據(jù)題意,2y與z相互獨立,又根據(jù)f分布的定義,有), 1 (12nfnzy,而22221xnzynzynzy,即), 1(2nfx證明完畢。推論:根據(jù)上述命題,有22222?(1,2)?xxxxbbbbtfnss所以22(2)(1,2)tnfn即0h的顯著性水平為的拒絕域為)2, 1 ( nff。推論
14、完畢。當假設0:0bh被拒絕時,認為回歸效果是顯著的,反之,就認為回歸效果不顯著。回歸效果不顯著的原因可能有如下幾種:01影響y取值的,除了x外,還有其它不可忽略的因素。02y與x的關系不是線性的,而是存在著其它的關系。03y與x不存在關系。因此,當拒絕0h時,需要進一步地分析原因,分別處理。(五)系數(shù)b的置信區(qū)間當回歸效果顯著時,我們常需要對系數(shù)b作區(qū)間估計。事實上,可由()式得到b的置信度為1的置信區(qū)間為xxsntb22?)2(?()(六)預測回歸方程的一個重要應用是,對于給定的點0 xx,可以以一定的置信度預測對應的單個觀察值0y或其均值0()e y的取值范圍,即所謂預測區(qū)間。1. 均值
15、0()e y的預測區(qū)間設0y是在0 xx處對隨機變量y的觀察結果,它滿足000bxay,),0(20n()容易知道,00()e yabx()我們可以取0 x處的回歸值00?yabx作為0()e y的預測值。命題:22000)(1,?xxsxxnbxany()證明:因為00?xbay,所以00000)?() ?()?() ?()?()?(bxabexaexbeaexbaeye又因為)(?00 xxbyy(注意:y與b?相互獨立),所以0002202220220?()()?( )()?()( )()11()xxxxd ydyb xxd ydb xxxxd bnxxnsxxns因為? a服從正態(tài)分布
16、,?b也服從正態(tài)分布,而0? y是它們的線性組合,所以0? y也服從正態(tài)分布,其均值和方差分別如上所述。即000?(),()yn e yd y即22000()1?() 0,xxxxye ynns證明完畢。根據(jù)上述命題,容易得到均值0()e y的置信度為1的置信區(qū)間為2222000022()()11?,xxxxxxxxyzyznsns當2未知時,用2?來代替,此時有2222000022()()11?(2),(2)xxxxxxxxytnytnnsns2. 單個值0y的預測區(qū)間因為),(00yx是將要做的一次獨立實驗的結果,故nyyyy,210相互獨立。而根據(jù)12111211122111122111
17、21()()?()()()()()()()()()()()()()()niiiniinniiiiiniinniiiiinniiiinniiiiinniiiiniiiniixxyybxxxx yxx yxxxx yxx yxxxxxx yyxxxxxxxx yxx211210()()()niiniiiniiyxxxx yxx知b?是nyyy,21的線性組合。因為bxnynaniinii?11?11,所以00?xbay是nyyy,21的線性組合。故0y與0? y相互獨立。于是得22000)(11,0?xxsxxnnyy或1 ,0)(11?22000nsxxnyyxx()備注: 這是因為20()d
18、y。另一方面由() , ()式)2(?)2(222nn且200?,?, yy相互獨立,故有)2(?)(11?)2(?)2()(11?220002222000ntsxxnyynnsxxnyyxxxx于是對于給定的置信度1,有1)2(?)(11?222000ntsxxnyypxx若記2?。于是1)2()(11?22000ntsxxnyypxx220000022()()11?(2)1(2)11xxxxxxxxp ytnyytnnsns區(qū)間xxsxxnnty2020)(11?)2(?()稱為單個觀測值0y的置信度為1的預測區(qū)間 。備注:由此可見預測區(qū)間的意義與置信區(qū)間的意義相似,只是預測區(qū)間是對隨機變
19、量而言,置信區(qū)間是對未知參數(shù)而言。由()式知對于給定的樣本觀察值及置信度1而言,當0 x愈靠近x,預測區(qū)間的寬度就愈窄,預測就愈精密。記xxsxxnntx2020)(11?)2()(則上述預測區(qū)間可寫成)(?00 xy或)()(?000 xxy對于給定的樣本觀察值,作出曲線)()( ?)(1xxyxy和)()( ?)(2xxyxy這兩條曲線形成包含回歸直線xbay?的帶域,這一帶域在xx處最窄。多元線性回歸在實際問題中,隨機變量y往往與多個普通變量pxxx,21(1p)有關。對于自變量pxxx,21的一組確定的值,y有它的分布。若y的數(shù)學期望存在,則它是pxxx,21的函數(shù),記為pxxxy,2
20、1或),(21pxxx,它就是y關于x的回歸。我們感興趣的是),(21pxxx是pxxx,21的線性函數(shù)的情況。在這里,僅討論下述多元線性回歸模型:ppxbxbby110,),0(2n()其中210,pbbb都是與pxxx,21無關的未知參數(shù)。設),(111211yxxxp,),(222221yxxxp,),(21nnpnnyxxx是一個樣本。由模型知),(222110ippiiixbxbxbbny,ni,2, 1。且由nyyy,21的獨立性,知nyyy,21的聯(lián)合密度為niippiiixbxbxbbyl12221102)(21exp21我們用極大似然估計法來估計參數(shù)pbbb,10,對于任意一組觀察值nyyy,21,上式就是樣本的似然函數(shù)。顯然,要l取最大值,只要使上式右端大括弧中的平方和部分為最小,即只需函數(shù)niippiiixbxbxbbyq1222110)(取最小值。取q分別關于pbbb,10的偏導數(shù),并令它們等于零,得0)(20)(20)(20)(2122110122
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 科組教學工作計劃課件
- 做客教學課件
- 2025年黑龍江省藥品監(jiān)督管理局直屬事業(yè)單位招聘工作人員筆試及人員復審工作筆試歷年典型考題及考點剖析附帶答案詳解
- 教育心理學職業(yè)倦怠課件
- 旅行引流活動方案
- 日化夏天活動方案
- 春季清洗家電活動方案
- 時尚典禮活動方案
- 新手媽媽班活動方案
- 散酒五一活動方案
- 藝術概論:第八章綜合藝術
- 云南省臨滄市各縣區(qū)鄉(xiāng)鎮(zhèn)行政村村莊村名居民村民委員會明細及行政區(qū)劃代碼
- 新人教版九年級物理全冊知識點總結(課堂筆記)
- DB13T 5519.7-2022 軌道交通AFC系統(tǒng)線網(wǎng)技術要求 第7部分:數(shù)據(jù)接口
- 駐戈壁某部隊糖尿病流行病學調(diào)查
- 《網(wǎng)店運營與管理》整本書電子教案全套教學教案
- 中考《紅星照耀中國》各篇章練習題及答案(1-12)
- (完整版)ECRS培訓課件
- 外輪理貨工作英語
- 河流改道施工方案
- 技術規(guī)格書Word版
評論
0/150
提交評論