回歸分析方法總結全面_第1頁
回歸分析方法總結全面_第2頁
免費預覽已結束,剩余6頁可下載查看

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

1、、什么是回歸分析 回歸分析(Regression Analysis)是研究變量之間作用關系的一種統(tǒng)計分析方法,其基本組成是一個(或一組)自變量與一個(或一組)因變量?;貧w分析研究的目的是通過收集到的 樣本數(shù)據(jù)用一定的統(tǒng)計方法探討自變量對因變量的影響關系,即原因?qū)Y果的影響程度。 回歸分析是指對具有高度相關關系的現(xiàn)象, 根據(jù)其相關的形態(tài), 建立一個適當?shù)臄?shù)學模型(函 數(shù)式),來近似地反映變量之間關系的統(tǒng)計分析方法。利用這種方法建立的數(shù)學模型稱為回 歸方程,它實際上是相關現(xiàn)象之間不確定、不規(guī)則的數(shù)量關系的一般化。二、回歸分析的種類1.按涉及自變量的多少, 可分為一元回歸分析和多元回歸分析一元回歸分

2、析是對一個因變量 和一個自變量建立回歸方程。 多元回歸分析是對一個因變量和兩個或兩個以上的自變量建立 回歸方程。2.按回歸方程的表現(xiàn)形式不同,可分為線性回歸分析和非線性回歸分析 若變量之間是線性相關關系,可通過建立直線方程來反映,這種分析叫線性回歸分析。 若變量之間是非線性相關關系, 可通過建立非線性回歸方程來反映, 這種分析叫非線性回歸 分析。三、回歸分析的主要內(nèi)容1.建立相關關系的數(shù)學表達式。 依據(jù)現(xiàn)象之間的相關形態(tài), 建立適當?shù)臄?shù)學模型, 通過數(shù)學 模型來反映現(xiàn)象之間的相關關系,從數(shù)量上近似地反映變量之間變動的一般規(guī)律。2.依據(jù)回歸方程進行回歸預測。 由于回歸方程反映了變量之間的一般性關

3、系, 因此當自變量 發(fā)生變化時, 可依據(jù)回歸方程估計出因變量可能發(fā)生相應變化的數(shù)值。 因變量的回歸估計值, 雖然不是一個必然的對應值(他可能和系統(tǒng)真值存在比較大的差距),但至少可以從一般性角 度或平均意義角度反映因變量可能發(fā)生的數(shù)量變化。3.計算估計標準誤差。 通過估計標準誤差這一指標, 可以分析回歸估計值與實際值之間的差 異程度以及估計值的準確性和代表性, 還可利用估計標準誤差對因變量估計值進行在一定把 握程度條件下的區(qū)間估計。四、一元線性回歸分析1.一元線性回歸分析的特點1)兩個變量不是對等關系,必須明確自變量和因變量。2)如果x和y兩個變量無明顯因果關系,則存在著兩個回歸方程:一個是以x

4、為自變量,y為因變量建立的回歸方程;另一個是以y為自變量,x為因變量建立的回歸方程。若繪出圖形,則是兩條斜率不同的回歸直線。3)直線回歸方程中,回歸系數(shù)b可以是正值,也可以是負值。若0 b ,表示直線上升,說明兩個變量同方向變動;若0 b 0時,表示x與y為正相關;當r0時,表示x與y為負相關。5.殘差分析與殘差圖:殘差是指觀測值與預測值 (擬合值)之間的差,即是實際觀察值與回歸估計值的差在研究兩個變量間的關系時,a)要根據(jù)散點圖來粗略判斷它們是否線性相關;b)判斷是否可以用回歸模型來擬合數(shù)據(jù);c)可以通過殘差來判斷模型擬合的效果, 判斷原始數(shù)據(jù)中是否存在可疑數(shù)據(jù), 這方面的分 析工作就稱為殘

5、差分析。6.殘差圖的制作及作用。坐標縱軸為殘差變量, 橫軸可以有不同的選擇; 若模型選擇的正確, 殘差圖中的點應該分布 在以橫軸為心的帶狀區(qū)域, 帶狀區(qū)域的寬度越窄精度越高。 對于遠離橫軸的點, 要特別注意。7.幾點注解: 第一個樣本點和第6個樣本點的殘差比較大, 需要確認在采集過程中是否有人為的錯誤。 如果數(shù)據(jù)采集有錯誤, 就應該予以糾正, 然后再重新利用線性回歸模型擬合數(shù)據(jù); 如果數(shù)據(jù) 采集沒有錯誤,則需要尋找其他的原因。另外, 殘差點比較均勻地落在水平的帶狀區(qū)域中, 說明選用的模型計較合適, 這樣的帶狀區(qū)域的寬度越窄,說明模型擬合精度越高,回歸方程的預報精度越高。還可以用判定系數(shù)r2來刻

6、畫回歸的效果,該指標測度了回歸直線對觀測數(shù)據(jù)的擬合程度,其計算公式是:其中:SSR -回歸平方和;SSE -殘差平方和;Sst=ssr+sse總離差平方和。由公式知,R(相關指數(shù))的值越大,說明殘差平方和越小,也就是說模型擬合效果越好。 在含有一個解釋變量的線性模型中r2恰好等于相關系數(shù)r的平方,即R2=r2在線性回歸模型中,F(xiàn)R表示解釋變量對預報變量變化的貢獻率。R2越接近1,表示回歸的效果越好(因為R2越接近1,表示解釋變量和預報變量的線性相關性越強)。如果某組數(shù)據(jù)可能采取幾種不同回歸方程進行回歸分析,則可以通過比較R2的值來做出選擇,即選取R2較大的模型作為這組數(shù)據(jù)的模型??偟膩碚f:相關

7、指數(shù)R2是度量模型擬合效果的一種指標。在線性模型中,它代表自變量刻 畫預報變量的能力。五、多元線性回歸分析在一元線性回歸分析中, 因變量y只受某一個因素的影響, 即只由一個自變量x來估計。但 對于復雜的自然界中的問題, 影響因素往往很多,在這種情況下,因變量y要用多個自變量 同時進行估計。 例如,某種產(chǎn)品的總成本不僅受原材料價格的影響,而且也與產(chǎn)品產(chǎn)量、管 理水平等因素有關; 農(nóng)作物產(chǎn)量的髙低受品種、氣候、施肥量等多個因素的影響。描述因變量與兩個或兩個以上自變量之間的數(shù)量關系的回歸分析方法稱為多元線性回歸分析。它是一元線性回歸分析的推廣,其分析過程相對復雜一些,但基本原理與一元線性回歸分析類似

8、。多元線性回歸方程的一般表達式為:其中:yc為二元回歸估計值;a為常數(shù)項;bi和b2分別為y對xi和X2的回歸系數(shù),bi表示當 自變量X2為一定時,由于自變量xi變化一個單位而使y平均變動的數(shù)值,b2表示當自變量X1為一定時,由于自變量X2變化一個單位而使y平均變動的數(shù)值,因此,bi和b2稱為偏回 歸系數(shù)。要建立二元回歸方程,關鍵問題是求出參數(shù)a,bi和b2的值,求解方法仍用最小二乘法,即分別對a,bi和b2求偏導數(shù),并令函數(shù)的一階導數(shù)等于零,可得如下方程組:(二)在回歸分析中,通常稱自變量為回歸因子,一般用表示,而稱因變量為指標,一般用表示。 預測公式:,稱之為回歸方程?;貧w模型,按照各種原

9、則可以分為各種模型:1.當n =i時,稱為一元(單因子)回歸;當n2時,稱為多元(多因子)回歸。2.當f為線性函數(shù)時,稱為線性回歸;當f為非線性函數(shù)時,稱為非線性(曲線)回歸。最小二乘準則:假設待定的擬合函數(shù)為,另據(jù)m個數(shù)據(jù)點,相當于求解以下規(guī)劃問題:即使得總離差平方和最小。 具體在線性擬合的過程中,假設擬合函數(shù)為y=a+bx,a與b為待定系數(shù),已知有m個數(shù)據(jù)點,分別為,應用最小二乘法,就是要使:達到最小值。把S看成自變量為a和b的連續(xù)函數(shù),則根據(jù)連續(xù)函數(shù)達到及致電的必要條件,于是得到:因此,當S取得最小值時,有:可得方程組為:為便于分析,當自變量較多時可選用兩個主要的自變量X1和X2。其線性

10、回歸方程標準式為:稱這個方程組為正規(guī)方程組,解這個二元一次方程組,得到:如果把已有數(shù)據(jù)描繪成散點圖, 而且從散點圖中可以看出, 各個數(shù)據(jù)點大致分布在一條直線 附近,不妨設他們滿足線性方程:其中,x為自變量,y為因變量,a與b為待定系數(shù);成為誤差項或者擾動項。這里要對數(shù)據(jù)點做線性回歸分析,從而a和b就是待定的回歸系數(shù),為隨機誤差。不妨設得到的線性擬合曲線為:這就是要分析的線性回歸方程。一般情況下,得到這個方程以后,主要是描繪出回歸曲線, 并且觀測擬合效果和計算一些誤差分析指標, 例如最大點誤差、 總方差和標準差 等。這里最缺乏的就是一個統(tǒng)一的評價系統(tǒng), 以下說明從概率角度確立的關于線性回歸的一套

11、評 價系統(tǒng)。在實際的線性回歸分析中,除了估計出線性回歸系數(shù)a和b,還要計算y和x的相關程度,即相關性檢驗。相關性檢驗主要通過計算相關系數(shù)來分析,相關系數(shù)的計算公式為:其中n為數(shù)據(jù)點的個數(shù),為原始數(shù)據(jù)點,r的值能夠很好地反映出線性相關程度的高低,一 般來說,存在以下一些標準:1.當rT1或者rT-1時,表示y與x高度線性相關,于是由原始數(shù)據(jù)描繪出的散點 圖中所有數(shù)據(jù)點都分布在一條直線的附近,分別稱為正相關和負相關;2.當rt0時,表示y與x不相關,由原始數(shù)據(jù)描繪出的散點圖的數(shù)據(jù)點一般呈無規(guī)律 的特點四散分布;3.當-1r 0或者0r1時,y與x的相關程度介于1與2之間;4.如果rT1,則y與x線

12、性相關程度越高;反之,如果rTo,則y與x線性相關程 度越低。實際計算r值的過程中,長列表計算,即:在實際問題中, 一般要保證回歸方程有最低程度的線性相關。 因為許多實際問題中, 兩個變 量之間并非線性的相關關系, 或者說線性相關程度不高, 此時硬給他建立線性回歸方程, 顯 然沒有太大意義,也沒有什么實用價值。一般來說,把這個最低限度的值記為臨界值,稱之為相關性檢驗標準。因此,如果計算出r的值,并且滿足,則符合相關性要求,線性回歸方程作用顯著。反之,如果,則線性回歸方程作用不顯著,就盡量不要采用線性回歸方程。臨界值的數(shù)值表如下:其中,自由度可以由原始數(shù)據(jù)點的個數(shù)減去相應的回歸方程的變量個數(shù),

13、例如線性回歸方程 中有兩個變量,而數(shù)據(jù)點的個數(shù)為n個,則自由度為n - 2.自由度一般記為f,但不要與 一般的函數(shù)發(fā)生混淆。顯著性水平一般取為,等,利用它可以計算y與x之間相關關系的 可信程度或者稱為置信水平,計算公式為:(這里取顯著性水平為a=)現(xiàn)在介紹置信區(qū)間的問題, 由于實際誤差的存在, 由線性擬合得到的計算值跟實際值之間必 然存在一定的差距, 其差值就是計算誤差。假設原始數(shù)據(jù)點為,計算得到的數(shù)據(jù)點為, 再給 定附近的一個區(qū)間:則實際值yi可能落在這個區(qū)間內(nèi),也可能落在這個區(qū)間外。如果所有的這些區(qū)間(以為中心,長度為)包含實際值的個數(shù)占總數(shù)的比例達到95%或者以上,則稱這些區(qū)間的置信水平

14、不少于95%根據(jù)以上的分析,可以知道置信區(qū)間的概念,如果確定了置信水平為95%,從而可以找到相應的最小的t值,使得95%以上的實際值落在區(qū)間內(nèi),則稱為預測值滿足置信水平95%的置信區(qū)間。一般情況下,如果不做特別說明,置信區(qū)間的相應置信水平默認為95%,置信區(qū)間反映了回歸方程的適用范圍和精確度, 特別的,當所有離散數(shù)據(jù)分布在回歸曲線的附件, 大致呈現(xiàn)為正態(tài)分布時,置信區(qū)間為:其中S為該回歸模型的標準差,計算公式為:或者為:那么,如果回歸方程為y=a+bx,則有兩條控制直線分別為和,他們代表了置信區(qū)間的上限 和下限,如下圖所示:那么,可以預料實際的數(shù)據(jù)點幾乎全部(至少95%)落在上圖兩條虛線所夾的區(qū)域內(nèi)。這里對回歸方程的應用做一個總結:1.估計、預測指標值。對于因子x的一個給定值X0,代入回歸預測方程即可求出相應的

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論