




版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
1、中國人民大學出版社All rights reserved1 相關分析相關分析2 回歸分析回歸分析3 用回歸進行預測用回歸進行預測4 Logistic回歸回歸21.1 變量間的相互關系變量間的相互關系1.2 相關系數(shù)相關系數(shù)1.3 相關系數(shù)的檢驗相關系數(shù)的檢驗3變量之間的關系變量之間的關系1. 確定性關系(或稱函數(shù)關系):2. 研究的是確定現(xiàn)象非隨機變量間的關系。2. 統(tǒng)計關系(或稱相關關系): 研究的是非確定現(xiàn)象隨機變量間的關系。4相關關系的劃分:相關關系的劃分:1按相關程度的大?。和耆嚓P、不完全相關、和不相關2按相關關系的變動方向: 正相關和負相關3按相關的形式:線性相關和非線性相關4按變
2、量個數(shù) : 單相關和復相關5 相關關系可以用散點圖直觀表示。 通過觀察散點圖能夠直觀地發(fā)現(xiàn)變量間的統(tǒng)計關系以及它們的強弱程度和數(shù)據(jù)對的可能走向。圖圖10-1相關關系圖相關關系圖6相關系數(shù)以數(shù)值的方式數(shù)值的方式精確地度量了兩個變量間線性相關的強弱程度。根據(jù)總體數(shù)據(jù)計算的相關系數(shù)稱為總體相關系數(shù)總體相關系數(shù),記為 。根據(jù)樣本數(shù)據(jù)計算的則稱為樣本相關系數(shù)樣本相關系數(shù),記為r。71.2.1 Pearson簡單相關系數(shù)簡單相關系數(shù)Pearson簡單相關系數(shù)用來度量定距型變量間的線性相關關系,定義如下:上式顯示,簡單相關系數(shù)是xi和yi分別標準化后的積的平均數(shù)。簡式得:822)()()(yyxxyyxxr
3、2222yynxxnyxxynr【例例101】考察產(chǎn)品銷售額和廣告投入額(單位:百萬)之間的關系,記產(chǎn)品銷售額為y,記廣告投入額為x,收集到20個樣品,數(shù)據(jù)如表10-1所示。計算產(chǎn)品銷售額和廣告投入額的相關系數(shù)。9 表表101 產(chǎn)品銷售額和廣告投入額數(shù)據(jù)表產(chǎn)品銷售額和廣告投入額數(shù)據(jù)表10解:解:對表10-1中的數(shù)據(jù)進行計算可得按照公式(10.2)帶入有:11168.92x 619.53y 21487.93x 219546.58y 5376.18xy 22222220 5376.18 168.92 619.530.97320 1487.93(168.92)20 19546.58(619.53)n
4、xyxyrnxxnyy 因此產(chǎn)品銷售額和廣告投入額的相關系數(shù)為0.973。SPSS的輸出結(jié)果如下:12 1.2.2 相關系數(shù)的性質(zhì)相關系數(shù)的性質(zhì)1相關系數(shù)的符號:r 0表明兩變量為正相關, r 0表明兩變量為負相關;2相關系數(shù)的取值范圍在-1和+1之間,即:1r 1;3相關系數(shù)r的絕對值:越接近于1, 表示變量之間的相關程度越高; 越接近于0,表示變量之間的相關程度越低; 如果r =1或1,則表示兩個現(xiàn)象完全線性相關; 如果r=0,則表示兩個現(xiàn)象完全不相關。 ,表示變量之間的線性相關關系較弱; ,表示變量之間高度相關。133 . 0r18 . 0 r1.2.3 使用相關系數(shù)的注意事項使用相關系
5、數(shù)的注意事項1對變量做線性變換不會改變相關系數(shù)的絕對值大小。2相關系數(shù)能夠用來度量兩變量之間的線性關系,但并不是度量非線性關系的有效工具。低的相關系數(shù)可能存在很好的非線性相關。3有相關關系也不意味著有因果關系。14相關系數(shù)顯著性檢驗相關系數(shù)顯著性檢驗的基本步驟:1.建立原假設和備擇假設 H0:總體相關系數(shù) ; H1:總體相關系數(shù) 。2.構(gòu)建檢驗統(tǒng)計量3.確定顯著性水平 ,利用該統(tǒng)計量和t分布表判斷是否拒絕原假設。1500212rnrt【例例102】 給定顯著性水平為 ,對例101計算的產(chǎn)品銷售額和廣告投入額的相關系數(shù)進行顯著性檢驗。1605. 0解解:建立原假設和備擇假設:H0: H1: 計算
6、檢驗統(tǒng)計量:由顯著性水平 ,查t分布表得 因而拒絕H0,認為產(chǎn)品銷售額和廣告投入額存在顯著的相關關系。170020.97320217.971 0.973t05. 00.05/22022.101 17.97t2.1 回歸分析的基本問題回歸分析的基本問題2.2 一元線性回歸模型的設定一元線性回歸模型的設定2.3 一元線性回歸模型的擬合一元線性回歸模型的擬合2.4 回歸系數(shù)的推斷回歸系數(shù)的推斷2.5 回歸方程的評價回歸方程的評價18回歸分析回歸分析回歸分析是一種應用極為廣泛的數(shù)量分析方法,它用回歸方程的形式描述和反映變量間的數(shù)量變化規(guī)律?;貧w分析的目的回歸分析的目的在相關的基礎上進一步研究變量在之間
7、的相互關系,因此它也是帶誤差項的不確定性的函數(shù)關系。相關分與回歸分析的區(qū)別相關分與回歸分析的區(qū)別1.回歸分析研究變量之間相互關系的具體形式,能從一個變量的變化來推測另一個變量的變化情況,為預測提供可能;2. 相關分析假設變量之間的地位是等同的,不對變量進行區(qū)分;而在回歸分析中則把變量區(qū)分為自變量和因變量。二者的地位不同,自變量通常被假設為非隨機變量。19假定變量Y和X的關系受到來自很多方面因素的影響,但是沒有一個起主導作用,則可以將這些因素作為隨機誤差干擾項。從而Y和X之間的聯(lián)系不是確定性的函數(shù)關系,用下式表示:式中 f(X):回歸函數(shù) :為隨機誤差或隨機干擾,與X無關。 X :稱為自變量或者
8、解釋變量 Y :稱為因變量或者被解釋變量。20()Yf X回歸模型劃分(根據(jù)自變量的多少)回歸模型劃分(根據(jù)自變量的多少)一元回歸多元回歸回歸模型劃分(根據(jù)自變量和因變量之間的關系)回歸模型劃分(根據(jù)自變量和因變量之間的關系)線性回歸非線性回歸21一元線性回歸模型研究的是當 中f(X)是線性表達式,并且只有一個自變量的情況,此時有其中和 稱為模型的參數(shù)。22XY10()Yf X01 一元線性回歸方程 表明,X和Y之間的統(tǒng)計關系是在平均意義下討論的,即當X的值給定后利用回歸模型計算得到的Y的平均值。 根據(jù)取得的數(shù)據(jù)估計回歸方程中的參數(shù),得到經(jīng)驗回歸方程,或者稱為估計的回歸方程: 注意到在真實值Y
9、和估計值 并不是完全相等的,它們之間的離差為e:23XY10eYYYXXYE10)(最優(yōu)曲線擬合樣本數(shù)據(jù)思想(最小二乘法的思想):最優(yōu)曲線擬合樣本數(shù)據(jù)思想(最小二乘法的思想): 使得估計的直線和真實值之間的殘差平方和最小。殘差平方和公式殘差平方和公式24niitXYQ121010)(),(尋找使得 達到最小的 和 做為估計值,即對分別對 和 求偏導,得到正規(guī)方程組:25),(10Q011010,min,QQniitXYQ121010)(),(020211011100iniiniiXyQyQ01解方程得到 式中為了方便,記 ,即: 26XYLLxxxy101ninininiiiiixyninin
10、iiiixxYXnYXYYXXLXnXXXL1111112122)(1)()(1YYyXXxiiii,XYxyxniiiini101211,【例例103】根據(jù)例101中數(shù)據(jù),以產(chǎn)品銷售額為因變量,廣告投入額為自變量擬合回歸方程。27解:解:記產(chǎn)品銷售額為Y,廣告投入額為X。擬合的回歸方程為: 系數(shù)2.35表示廣告投入額每增加1個單位,產(chǎn)品銷售額平均增加2.35個單位。2822168.92,619.53,1487.93,19546.58, 5376.18XYXYXY1222020 5376.18 168.92 619.532.3520 1487.93 168.92619.53168.922.35
11、11.162020nXYXYnXXYbX 11.162.35YX普通最小二乘估計量的性質(zhì):普通最小二乘估計量的性質(zhì):1. 運用普通最小二乘估計量得出的樣本回歸線經(jīng)過樣本均值點,即:2. 殘差的均值為0,即:3. 殘差和解釋變量不相關,即: 29/0ieen0iie X 01YX假設檢驗所需經(jīng)典線性回歸模型假設:假設檢驗所需經(jīng)典線性回歸模型假設:假定1:自變量X和誤差項 不相關,即 。 假定2:誤差項 的均值為0, 。假定3:同方差假定: 的方差為一常數(shù),即 。假定4:無自相關:即兩個誤差項之間是不相關的,即: 。30i0iE Xi 0E 2iVar,0,ijEij i2.4.1 最小二乘估計量
12、的最優(yōu)線性無偏性最小二乘估計量的最優(yōu)線性無偏性在給定經(jīng)典回歸模型的假定下,由高斯-馬爾科夫定理保證了:最小二乘估計量是最優(yōu)線性無偏的估計量??赏ㄟ^蒙特卡羅模擬實驗來驗證 , 的無偏性。假設已知如下的總體回歸方程(參數(shù)值是真實已知的):其中 服從均值為0,方差為1的正態(tài)分布。31iiiiiXXY6 . 05 . 11010i現(xiàn)在假定X的觀測值為1、2、3、4、5、6、7、8、9、10。根據(jù)誤差的分布分別生成10個誤差值,再由X的觀測值和給定的系數(shù),計算出Y的值,記為樣本1。再根據(jù)誤差的分布分別生成10個誤差值,由X的觀測值和給定的系數(shù),計算出Y的值,記為樣本2。按照這個方法生成30組樣本。分別對
13、每個樣本進行回歸,得到估計的系數(shù) 。由此可以得到30個不同的 ,見表10-4。3210,10,表表10-4 蒙特卡羅模擬實驗:蒙特卡羅模擬實驗:1.5+0.6Xi+ ; N(0,1)33ii 可以算出 的平均值是1.33、0.61,和真實參數(shù)1.5和0.6已經(jīng)非常接近了。在這里例子中,如果做更多次的抽樣實驗,會得到更加逼近的估計值。3410,2.4.2 回歸系數(shù)的抽樣分布回歸系數(shù)的抽樣分布 中Yi依賴于X和誤差項 ,而 是一個隨機變量,因此Yi也是隨機變量。同時作為Yi的線性組合的 也是隨機變量。因此它們的值根據(jù)樣本數(shù)據(jù)的不同而變化。為了了解估計量抽樣的差異性,對隨機變量進行推斷,需要求出估計
14、量的方差,并求出它們的抽樣分布。35XY10ii01, 的方差的方差: 服從均值為 ,方差為 的正態(tài)分布,即3611niix1221 ,01211Nxnii1 niiniiniiixxYVxV122212121 的方差為: 服從均值為 ,方差為 的正態(tài)分布,即370 22201ixXnV002221ixXn2002110,1niiXNnx殘差的方差(估計誤差的方差)公式殘差的方差(估計誤差的方差)公式對 進行調(diào)整得到 的無偏估計為: 382d2211iideeenn222222nednnSie【例例104 】在例103中擬合的產(chǎn)品銷售額對廣告投入額的回歸方程中,考察系數(shù)估計量 和 的方差。39
15、01解:解:記產(chǎn)品銷售額為Y,廣告投入額為X,回歸方程為 4011.162.35YX22211.162.3518.811.045220218iiiYXeSn222211487.9320 8.44661.23niiixXnX2121111.0450.01761.230.13niiSVxSV412221118.4461.2152061.23niiXnx220002111.045 1.2151.27,1.13niiXVSSVnx2.4.3 回歸系數(shù)的顯著性檢驗回歸系數(shù)的顯著性檢驗當使用 代替 和 中的 時有:422eS222/2/22211211ntnSnxxSii2002112niiXSt nnx
16、 niiniiniiixxYVxV122212121 22201ixXnV系數(shù)檢驗步驟:系數(shù)檢驗步驟:1提出假設: := 0 (沒有線性關系) : 0 (有線性關系) 2. 計算檢驗的統(tǒng)計量3. 確定顯著性水平,并進行決策: ,拒絕 。430H11H1)2(11ntSt2tt0H【例例105 】以產(chǎn)品銷售額和廣告投入額的數(shù)據(jù)為例,對系數(shù) 的顯著性水平做檢驗。已知回歸方程為:44111.162.35YX12.35 110.13SV設 : = 0, : 0。在顯著性水平 的條件下, ,因此拒絕域為: 。因此拒絕原假設,認為系數(shù) 顯著不為0。SPSS的輸出結(jié)果為:4510H1H105. 01 . 2
17、2202/05. 0t1 . 2:tt 112.3518.082.10.13tS1估計量 和 的95%置信區(qū)間分別為: 注意:注意: 不能說真實值落在某個區(qū)間的概率為95%,或者某個區(qū)間包含真實值的概率為95%。事實上,某個區(qū)間要么包含真實值,要么不包含,因此概率為0或者1。對系數(shù)的置信區(qū)間的理解應是:求出100個置信區(qū)間,那么有95個這樣的區(qū)間包含真實值,我們不能確定某個特定的區(qū)間是否包含真實值。4601 10.975110.97512,2tnVtnV00.975000.97502,2tnVtnV2.5.1 回歸方程的顯著性檢驗回歸方程的顯著性檢驗回歸方程的顯著性檢驗從對因變量Y取值變化的成
18、因分析入手。 表10-5 一元線性回歸方差分析表47回歸平方和回歸平方和回歸方程反映的是自變量不同取值變化對因變量的線性影響規(guī)律,因此由此引起的Y的變差平方和稱為回歸平方和(SSR);自由度是n-1。殘差平方和殘差平方和由隨機因素引起的Y的變差平方和通常稱為殘差平方和(SSE)。自由度為n-k-1??傠x差平方和總離差平方和總離差平方和(SST)指的是數(shù)據(jù)總的波動情況,用觀測值Yi和平均值 的離差平方和 表示。自由度是自變量的個數(shù)k。三者之間存在關系SST=SSR+SSE。4821niiYY21niiiYY21niiYY回歸方程的整體擬合程度的回歸方程的整體擬合程度的F檢驗的步驟檢驗的步驟1.
19、提出原假設和備擇假設:回歸方程關系不顯著:回歸方程關系顯著2. 根據(jù)公式,計算檢驗統(tǒng)計量F的值。3. 確定顯著性水平,并根據(jù)分子自由度1和分母自由度n-2找出臨界值 作出決策:若 ,拒絕 。490H1HFFF0HF檢驗統(tǒng)計量的構(gòu)造檢驗統(tǒng)計量的構(gòu)造 F檢驗統(tǒng)計量是將平方和分解中的回歸平方和殘差平方和各除以各自的自由度之后相比較的比值作為檢驗統(tǒng)計量。50)2,1 (21211212nFnYYYYnSSESSRFniiinii【例例106】以產(chǎn)品銷售和額廣告投入額的數(shù)據(jù)為例,對回歸方程的做F檢驗。51解:52221111.1642.34630.977336.9nniiiSSRYYX221111.16
20、42.346 18.8nniiiiiSSEYYXY21355.7niiSSTYYSSRSSE設顯著性水平為 的條件下, ,因此拒絕域為:因此拒絕原假設,回歸方程顯著。SPSS的輸出表如下:5305. 04.413873 220, 105. 0F4.413873 :FF1336.9 1322.564.413873218.8 202SSRFSSE n2.5.2 回歸方程的擬合優(yōu)度回歸方程的擬合優(yōu)度 擬合優(yōu)度指標考慮回歸方程能夠解釋的變差的比例。擬合優(yōu)度用R2統(tǒng)計量來衡量,該統(tǒng)計量又被稱為判定系數(shù),定義為: R2統(tǒng)計量反映了回歸方程所能解釋的變差的比例,取值范圍在 0, 1 之間。 接近1說明回歸方
21、程擬合的越好; 接近0說明回歸方程擬合的越差。542221122111nniiiiinniiiiYYYYSSRRSSTYYYY 擬合優(yōu)度擬合優(yōu)度 和相關系數(shù)的關系和相關系數(shù)的關系 由最小二乘法過均值點可推出下式: 由此可以看出X和Y的相關系數(shù)越大,回歸方程的擬合就會越好。在多元回歸時,由于涉及到變量之間可能的相互作用,上式不能成立。552R21222211()()niiinniiiiXX YYSSRRSSTXXYY【例例107】以產(chǎn)品銷售和額廣告投入額的數(shù)據(jù)為例,計算回歸方程的擬合優(yōu)度。56解:572222211.162.3530.9770.9530.977iiiiYYXSSRRSSTYYY3
22、.1 均值預測均值預測3.2 個值預測個值預測58點預測公式:點預測公式:區(qū)間預測公式:區(qū)間預測公式:59212210ntxXXnSXYiiii22/2/222112,2iiiiiiXXXXYtnSYtnSnxnx【例例108 】使用產(chǎn)品銷售額和廣告投入額的數(shù)據(jù),給定X=8計算均值預測的點預測和置信水平為0.95的區(qū)間預測。60解:解:點預測: 給定的顯著性水平為0.05時, ,因此區(qū)間預測為:6111.162.35 8 29.96Y 222288.446111.045 0.0556452061.23iiiXXV YSnx 0.236iS Y1 . 22202/05. 0t 29.962.1
23、0.236,29.962.1 0.23629.46,30.46點預測公式:點預測公式:區(qū)間估計公式:區(qū)間估計公式:62001020221iYXt nXXSnx22000/20/2221121,21iiXXXXYtnSYtnSnxnx【例例109 】使用產(chǎn)品銷售額和廣告投入額的數(shù)據(jù),給定X=8計算個值預測的點預測和顯著性水平0.05下的區(qū)間預測。63解解: 點預測: 給定的顯著性水平為0.05時, ,因此區(qū)間預測為:6411.162.35 8 29.96Y 1 . 22202/05. 0t 29.962.1 1.05,29.962.1 1.0527.76,32.17 22228 8.446111
24、1.04511.1, 1.052061.23iiiiXXV YSS Ynx 4.1 引入引入Logistic回歸回歸4.2 Logistic回歸建?;貧w建模4.3 Logistic回歸的系數(shù)檢驗回歸的系數(shù)檢驗65假設使用普通回歸進行建模存在的問題: 又因為響應變量Y是二分類變量,則因此Yi是服從概率為 的伯努利分布。于是得到 66010011iiiiiE Y XP YP YX 01iipX iiiiiiXXppYVV10101101iiiE Y XX(i=1,2,n)機會比機會比 Odd=p/(1-p)機會比表明了一個事情成功的概率之于不成功的概率Logistic回歸回歸在對數(shù)機會比和自變量之
25、間建立線性回歸關系logit變換變換從p到log(p/(1-p)的變換67【例】:考慮這樣一組數(shù)據(jù),其中自變量是收入和因變量是是否為研究生學歷。 以收入為自變量,研究生學歷為因變量繪制X和Y的散點圖6846810120.00.20.40.60.81.0 xy收入研究生學歷圖10-3 收入和研究生學歷變量的散點圖對收入變量分組,考慮每組內(nèi)的響應變量的分布情況后的散點圖:用logistic曲線來擬合P(Y=1) (圖10-4中S形曲線),即:69incomepp*1log1046810120.00.20.40.60.81.0midp_v圖10-4 分組后收入和研究生學歷變量的散點圖Logit曲線公式曲線公式經(jīng)過變換得到:70ppXXpp.1log110).exp(1).exp(110110ppp
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 提升學習體驗教育游戲化激勵機制的多元應用
- 技術與課程整合的教學策略研究
- 2025年中國4-氯間苯二酚數(shù)據(jù)監(jiān)測研究報告
- 探索教育技術在商業(yè)人才培養(yǎng)中的價值
- 抖音商戶編導腳本審核流程制度
- 全球鈾礦資源市場潛力與2025年核能產(chǎn)業(yè)安全與環(huán)保研究報告
- C12-DG-PEG-MW-2000-1-2-Didodecanoyl-rac-glycero-3-methoxypolyethylene-glycol-MW-2000-生命科學試劑-MCE
- 亳州學院《食品營養(yǎng)與健康》2023-2024學年第一學期期末試卷
- 寧波大學《電子商務前沿專題》2023-2024學年第一學期期末試卷
- 四川省德陽市廣漢中學2025屆數(shù)學七年級第一學期期末監(jiān)測試題含解析
- 中國機器人工程市場調(diào)研報告2025
- 2025年金融科技企業(yè)估值方法與投資策略在金融科技企業(yè)并購中的應用案例報告
- 福建省廈門市雙十中學2025屆七年級生物第二學期期末聯(lián)考模擬試題含解析
- 【小學】新蘇教版小學數(shù)學四年級下冊暑假每日一練(02):計算題-應用題(含答案)
- 2025豬藍耳病防控及凈化指南(第三版)
- TCUWA20059-2022城鎮(zhèn)供水管網(wǎng)模型構(gòu)建與應用技術規(guī)程
- 《無人機介紹》課件
- 2025至2030中國壓縮空氣儲能產(chǎn)業(yè)現(xiàn)狀調(diào)查及項目投資策略建議報告
- 三臺縣2024-2025學年小學六年級數(shù)學畢業(yè)檢測指導卷含解析
- 2025-2030中國硼酸行業(yè)市場發(fā)展現(xiàn)狀及競爭格局與投資研究報告
- 學校中層干部選拔聘用實施方案中層干部選聘實施方案2
評論
0/150
提交評論