《新編MATLAB自學(xué)一本通》課件第19章 回歸分析理論介紹_第1頁
《新編MATLAB自學(xué)一本通》課件第19章 回歸分析理論介紹_第2頁
《新編MATLAB自學(xué)一本通》課件第19章 回歸分析理論介紹_第3頁
《新編MATLAB自學(xué)一本通》課件第19章 回歸分析理論介紹_第4頁
《新編MATLAB自學(xué)一本通》課件第19章 回歸分析理論介紹_第5頁
已閱讀5頁,還剩66頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

2025/4/30*

相關(guān)與回歸分析概述*

一元線性回歸*

多元線性回歸*

非線性回歸主要內(nèi)容:2025/4/30

從高爾頓開始說起高爾頓是生物統(tǒng)計學(xué)派的奠基人,他的表哥達(dá)爾文的巨著《物種起源》問世以后,觸動他用統(tǒng)計方法研究智力遺傳進(jìn)化問題,第一次將概率統(tǒng)計原理等數(shù)學(xué)方法用于生物科學(xué),明確提出“生物統(tǒng)計學(xué)”的名詞.現(xiàn)在統(tǒng)計學(xué)上的“相關(guān)”和“回歸”的概念也是高爾頓第一次使用的。FrancisGalton

1822.02.16-1911.01.17England2025/4/30高個子父母的子女,其身高有低于其父母身高的趨勢,而矮個子父母的子女,其身高有高于其父母的趨勢,即有“回歸”到平均數(shù)去的趨勢。2025/4/30第一節(jié)相關(guān)與回歸分析概述2025/4/301.變量間的關(guān)系確定性關(guān)系或函數(shù)關(guān)系y=f(x)人的身高和體重家庭的收入和消費商品的廣告費和銷售額糧食的施肥量和產(chǎn)量股票的時間和價格學(xué)生的期中和期末考試成績,…不確定性關(guān)系x可控變量Y隨機(jī)變量不確定性關(guān)系一、

確定性關(guān)系與相關(guān)關(guān)系2025/4/30

不相關(guān)

負(fù)線性相關(guān)

正線性相關(guān)

非線性相關(guān)

完全負(fù)線性相關(guān)完全正線性相關(guān)

2.相關(guān)關(guān)系的圖示2025/4/301.從一組樣本數(shù)據(jù)出發(fā),確定變量之間的數(shù)學(xué)關(guān)系式2.對這些關(guān)系式的可信程度進(jìn)行各種統(tǒng)計檢驗,并從影響某一特定變量的諸多變量中找出哪些變量的影響顯著,哪些不顯著3.利用所求的關(guān)系式,根據(jù)一個或幾個變量的取值來預(yù)測或控制另一個特定變量的取值,并給出這種預(yù)測或控制的精確程度二、什么是回歸分析2025/4/30(x,y)采集樣本信息(xi,yi)回歸分析散點圖回歸方程回歸方程的顯著性檢驗對現(xiàn)實進(jìn)行預(yù)測與控制三、回歸分析的流程2025/4/30【例1.1】本人從“雪林山莊——甜雨的開心樂園”中收集了一組兒童成長記錄數(shù)據(jù)(0-7歲),包括月齡、身高和體重的觀測數(shù)據(jù)。據(jù)此繪制散點圖,并進(jìn)行相關(guān)性分析。2025/4/302025/4/30第二節(jié)一元線性回歸分析2025/4/30問題:如何描述y與x

的線性相關(guān)關(guān)系?散點圖大致如下

若可控變量x與隨機(jī)變量

y之間有線性相關(guān)關(guān)系,其n對觀測值記為一、一元線性回歸模型

2025/4/30顯然:

y

稱為因變量(響應(yīng)變量),x稱為自變量(預(yù)報變量),

稱為隨機(jī)擾動,a,b

稱為待估計的回歸參數(shù),下標(biāo)i

表示第i

個觀測值。描述變量y與x的線性相關(guān)關(guān)系的一元線性回歸模型為2025/4/301.理論回歸方程二、回歸方程對于給定的x,y的均值是關(guān)于x的函數(shù),稱為理論回歸函數(shù),從而有y關(guān)于x的理論回歸方程2025/4/302.經(jīng)驗回歸方程將a和b的估計量代入理論回歸方程,可得經(jīng)驗回歸方程記,稱之為殘差,殘差可視為擾動的估計2025/4/30(xi,yi)}xy(xn,yn)(x1,y1)

(x2,y2)ei=yi-yi^三、一元線性回歸圖示2025/4/30二元函數(shù)的最小值點稱為a,b的最小二乘估計記其中四、a,b的最小二乘估計2025/4/30所以方程組有解,解得其中即最小二乘估計所得經(jīng)驗回歸方程為2025/4/30編號xiyi編號xiyi編號xiyi編號xiyi1277103626898112861081625594225799.57285103.512269100172699932559382861031324696.5182971094278105927210414255921925795.553061101028510315253942025091例2.1

鋼的強(qiáng)度和硬度都是反映鋼質(zhì)量的指標(biāo)。現(xiàn)在煉20爐中碳鋼,它們的抗拉強(qiáng)度Y與硬度x的20對實驗值如下表。經(jīng)計算得

(1)試?yán)L出散點圖

(2)求Y對x的經(jīng)驗回歸直線方程2025/4/30

散點圖與回歸方程2025/4/30證明略五、估計量

的分布2025/4/30

上面討論了如何根據(jù)實驗數(shù)據(jù)求得線性回歸方程,然而,實際上,對于變量和的任意對觀測值,只要不全相等,則無論變量和之間是否存在線性相關(guān)關(guān)系,都可根據(jù)上面介紹的方法求得一個線性回歸方程。顯然,這樣寫出的線性方程當(dāng)且僅當(dāng)變量和之間存在線性相關(guān)關(guān)系時才是有意義的;若不存在線性相關(guān)關(guān)系,則這樣寫出的線性方程就毫無意義了。為了使求得的線性回歸方程真正有意義,

就需要進(jìn)行回歸方程的顯著性檢驗。六、回歸方程的顯著性檢驗2025/4/30◆因變量y的取值是不同的,y取值的這種波動稱為變差。變差來源于兩個方面:由于自變量x的取值不同造成的;除x以外的其他因素(如x對y的非線性影響、測量誤差等)的影響◆對一個具體的觀測值來說,變差的大小可以通過該實際觀測值與其均值之差來表示1.離差平方和分解2025/4/30xy{}}

離差分解圖xy(1)離差平方和分解示意圖2025/4/30兩端平方后求和有從圖上看有SST=SSR+SSE

自由度(df)n-1=1+n-2總變差平方和(SST或lyy)回歸平方和(SSR)殘差平方和(SSE或Qe)(2)三個平方和的關(guān)系2025/4/30

總平方和(SST)反映因變量的n個觀察值與其均值的總離差回歸平方和(SSR)反映自變量x的變化對因變量y取值變化的影響,或者說,是由于x與y之間的線性關(guān)系引起的y的取值變化,也稱為可解釋的平方和殘差平方和(SSE)反映除x以外的其他因素對y取值的影響,也稱為不可解釋的平方和或剩余平方和(3)三個平方和的意義2025/4/30回歸平方和占總離差平方和的比例①

反映回歸直線的擬合程度②取值范圍在[0,1]之間③

r21,說明回歸方程擬合的越好;r20,說明回歸方程擬合的越差④判定系數(shù)等于相關(guān)系數(shù)的平方,即r2=(r)22.判定系數(shù)r2(1)定義(2)判定系數(shù)的意義2025/4/30①

提出假設(shè)H0:b=0H1:b≠03.線性關(guān)系的檢驗(F

檢驗)(1)檢驗的步驟定理2.1對于一元線性回歸,有2025/4/30②

計算檢驗統(tǒng)計量F

確定顯著性水平,并根據(jù)分子自由度1和分母自由度n-2找出臨界值F

(1,n-2)④

作出決策:若F

F

,拒絕H0;若F<F

,接受H0如果拒絕H0,兩個變量之間存在顯著線性關(guān)系如果接受H0,兩個變量間不存在顯著線性關(guān)系⑤

方差分析表方差來源平方和自由度均方F值回歸SSR1SSR(n-2)SSR/SSE

剩余SSEn-2SSE

/(n-2)總和SSTn-12025/4/30其中(2)F值的計算2025/4/30例2.1

鋼的強(qiáng)度和硬度都是反映鋼質(zhì)量的指標(biāo)。現(xiàn)在煉20爐中碳鋼,測得抗拉強(qiáng)度Y與硬度x的20對實驗值。經(jīng)計算得對上面求出的回歸方程進(jìn)行顯著性檢驗(取a=0.05)。原假設(shè)與備擇假設(shè)拒絕域檢驗統(tǒng)計量

統(tǒng)計量觀測值2025/4/30七、回歸系數(shù)的顯著性檢驗(t檢驗)

的抽樣分布檢驗回歸系數(shù)b是否等于給定常數(shù)。理論基礎(chǔ)是回歸系數(shù)的估計量的抽樣分布1.估計量的分布2025/4/30

原假設(shè)與備擇假設(shè)定理2.2對于一元線性回歸,有2.回歸系數(shù)的顯著性檢驗H0:b

=b0(b0=0時說明y與x沒有線性關(guān)系)H1:b

b02025/4/30

對于給點的顯著性水平

,拒絕域如下檢驗的統(tǒng)計量其中是的無偏估計,證明見下頁。2025/4/30其中證明:因為證明是的無偏估計2025/4/30而2025/4/30于是所以是的無偏估計。2025/4/30例2.1

鋼的強(qiáng)度和硬度都是反映鋼質(zhì)量的指標(biāo)。現(xiàn)在煉20爐中碳鋼,測得抗拉強(qiáng)度Y與硬度x的20對實驗值。經(jīng)計算得求,并檢驗回歸系數(shù)是否等于1。(取a=0.05)。的值2025/4/30原假設(shè)與備擇假設(shè)拒絕域檢驗統(tǒng)計量

統(tǒng)計量觀測值回歸系數(shù)的檢驗2025/4/30檢驗兩個變量之間是否存在線性相關(guān)關(guān)系■

計算檢驗的統(tǒng)計量:■

確定顯著性水平,并作出決策

若t>t

,拒絕H0

若t<t

,接受H0八、相關(guān)系數(shù)的顯著性檢驗(t檢驗)檢驗的步驟為■

提出假設(shè):H0:

;H1:

02025/4/30

根據(jù)自變量x

的取值估計或預(yù)測因變量y的取值九、利用回歸方程進(jìn)行預(yù)測

對于自變量x的一個給定值x0

,根據(jù)回歸方程得到因變量y的一個估計值1.

點估計2025/4/302.

區(qū)間估計

點估計不能給出估計的精度,點估計值與實際值之間是有誤差的,因此需要進(jìn)行區(qū)間估計.區(qū)間估計有兩種類型:置信區(qū)間估計和預(yù)測區(qū)間估計2025/4/30其中:為估計標(biāo)準(zhǔn)誤差

利用估計的回歸方程,對于自變量x的一個給定值x0

,求出因變量y

的平均值E(y0)的估計區(qū)間,這一估計區(qū)間稱為置信區(qū)間E(y0)

在1-

置信水平下的置信區(qū)間為(1)

置信區(qū)間估計(y的平均值的置信區(qū)間估計)2025/4/30注意!

利用估計的回歸方程,對于自變量x的一個給定值

x0

,求出因變量y

的個別值y0

的估計區(qū)間,這一區(qū)間稱為預(yù)測區(qū)間y0在1-

置信水平下的預(yù)測區(qū)間為(2)

預(yù)測區(qū)間估計(y的個別值的預(yù)測區(qū)間估計)2025/4/30(3)置信區(qū)間、預(yù)測區(qū)間、回歸方程的圖示x0yx

x預(yù)測上限置信上限預(yù)測下限置信下限

y2025/4/30例2.1

鋼的強(qiáng)度和硬度都是反映鋼質(zhì)量的指標(biāo)?,F(xiàn)在煉20爐中碳鋼,測得抗拉強(qiáng)度Y與硬度x的20對實驗值。對于前面的回歸分析,試作出回歸預(yù)測圖,并求x0=280處的95%預(yù)測區(qū)間

x0=280處的95%預(yù)測區(qū)間2025/4/302025/4/30第三節(jié)多元線性回歸分析2025/4/301.一個因變量與兩個及兩個以上自變量之間的回歸2.描述因變量y如何依賴于自變量x1

,x2

,…,

xp

和誤差項

的方程稱為多元線性回歸模型3.涉及p個自變量的多元線性回歸模型可表示為

b0,b1,b2

,,bp是參數(shù)

是被稱為誤差項的隨機(jī)變量,說明了包含在y里面但不能被p個自變量的線性關(guān)系所解釋的變異性一、回歸模型2025/4/30對于n組實際觀察數(shù)據(jù)(yi;xi1,,xi2,

,xip),(i=1,2,…,n),多元線性回歸模型可表示為y1

=b0+b1x11+b2x12

++

bpx1p

+e1y2=b0+b1x21

+b2x22

++

bpx2p

+e2

yn=b0+b1xn1

+b2xn2

++

bpxnp

+en{……2025/4/301.自變量x1,x2,…,xp是可控變量,不是隨機(jī)變量;2.隨機(jī)誤差項ε的期望值為0,且方差σ2都相同;3.誤差項ε是一個服從正態(tài)分布的隨機(jī)變量,即ε~N(0,σ2),且相互獨立二、基本假定2025/4/30

描述y的平均值或期望值如何依賴于x1,x1

,…,xp的方程稱為多元線性回歸方程,多元線性回歸方程的形式為

b1,b2,,bp稱為偏回歸系數(shù)

bi

表示假定其他變量不變,當(dāng)xi

每變動一個單位時,

y的平均變動值三、回歸方程E(y)=

0+

1x1

+

2x2

+…+

pxp2025/4/30二元線性回歸模型(觀察到的y)回歸面

0

ix1yx2(x1,x2)}四、多元線性回歸方方程的直觀解釋2025/4/302.根據(jù)最小二乘法的要求,可得求解各回歸參數(shù)的標(biāo)準(zhǔn)方程如下1.使因變量的觀察值與估計值之間的差的平方和達(dá)到最小來求得

。即五、參數(shù)的最小二乘法2025/4/30整理得或矩陣形式2025/4/30其中解得2025/4/301.定義六、多重判定系數(shù)

R2回歸平方和占總離差平方和的比例

反映了回歸平面的擬合程度,取值范圍在[0,1]之間。若

R21,說明回歸方程擬合的越好;若R20,說明回歸方程擬合的越差。等于多重(復(fù))相關(guān)系數(shù)的平方,即R2=(R)22025/4/301.由于增加自變量將影響到因變量中被估計的回歸方程所解釋的變異性的數(shù)量,為避免高估這一影響,需要用自變量的數(shù)目去修正R2的值2.用n表示觀察值的數(shù)目,p表示自變量的數(shù)目,修正的多重判定系數(shù)的計算公式可表示為七、修正的多重判定系數(shù)

R22025/4/30八、線性關(guān)系的檢驗1.

回歸方程的顯著性檢驗

檢驗因變量與所有的自變量和之間是否存在一個顯著的線性關(guān)系,也被稱為總體的顯著性檢驗。檢驗方法是將回歸離差平方和(SSR)同剩余離差平方和(SSE)加以比較,應(yīng)用F檢驗來分析二者之間的差別是否顯著

如果是顯著的,因變量與自變量之間存在線性關(guān)系

■如果不顯著,因變量與自變量之間不存在線性關(guān)系2025/4/30(1)提出假設(shè)H0:

1

2

p=0

表示線性關(guān)系不顯著H1:

1,

2,,

p至少有一個不等于0(2)計算檢驗統(tǒng)計量F(3)確定顯著性水平和分子自由度p、分母自由度n-p-1,找出臨界值F

(p,n-p-1)(4)作出決策:若F

F

,拒絕H0;若F<F

,接受H02025/4/302.

回歸系數(shù)的顯著性檢驗

如果F檢驗已經(jīng)表明了回歸模型總體上是顯著的,那么回歸系數(shù)的檢驗就是用來確定每一個單個的自變量xi

對因變量y的影響是否顯著。對每一個自變量都要單獨進(jìn)行檢驗,應(yīng)用t檢驗在多元線性回歸中,回歸方程的顯著性檢驗不再等價于回歸系數(shù)的顯著性檢驗2025/4/30(1)提出假設(shè)H0:bi=0(自變量xi與

因變量y沒有線性關(guān)系)H1:bi

0(自變量xi與

因變量y有線性關(guān)系)(3)確定顯著性水平,并進(jìn)行決策

t

t

,拒絕H0;t<t

,接受H0(2)計算檢驗的統(tǒng)計量t2025/4/30其中cii為矩陣的主對角線上的第i+1個元素2025/4/30

因變量y與x之間不是線性關(guān)系

可通過變

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論