現(xiàn)代回歸分析方法.ppt_第1頁(yè)
現(xiàn)代回歸分析方法.ppt_第2頁(yè)
現(xiàn)代回歸分析方法.ppt_第3頁(yè)
現(xiàn)代回歸分析方法.ppt_第4頁(yè)
現(xiàn)代回歸分析方法.ppt_第5頁(yè)
已閱讀5頁(yè),還剩173頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

現(xiàn)代回歸分析方法 上海財(cái)經(jīng)大學(xué)統(tǒng)計(jì)系韓小亮 目的 回歸分析研究的是一個(gè)變量 應(yīng)變量 和其他變量 自變量 之間的關(guān)系 其目的可能是 1 確定哪些變量有關(guān)及其程度 2 預(yù)測(cè) 3 找出最優(yōu)的組合 4 控制 5 尋求合適的數(shù)學(xué)模型 6 評(píng)估兩個(gè)或兩個(gè)以上因素的交互影響等等 1 回歸分析 RegressionAnalysis 數(shù)據(jù)資料 data 應(yīng)變量 response 自變量 independentvariables predictorvariables 這里n是記錄數(shù)目 k是自變量數(shù)目 包括常數(shù)項(xiàng) 基本模型 2 線性回歸 LinearRegression 模型 Y X 這里X是Z的函數(shù) 已知 是未知參數(shù)向量 是誤差項(xiàng) 也就是說(shuō)有 線性模型的假設(shè) 1 正態(tài)分布 2 互相獨(dú)立 3 同方差 4 一個(gè)隨機(jī)誤差項(xiàng) 5 系統(tǒng)影響的相加性 additivityofsystematiceffects 6 資料完整 參數(shù)估計(jì) 最小二乘估計(jì) 有 注意 這里沒(méi)有用到正態(tài)分布的假定 極大似然估計(jì)這里在正態(tài)分布的假定下這個(gè)估計(jì)是所謂BLUE的 估計(jì)量的分布 殘差平方和的分布 方差的估計(jì) 矩估計(jì) 顯著性 1 模型的顯著性 即檢驗(yàn)假設(shè)使用統(tǒng)計(jì)量當(dāng)為真時(shí) 2 某個(gè)因素的顯著性 即檢驗(yàn)假設(shè)定義對(duì)稱(chēng)方陣設(shè)為其對(duì)角元素 則有檢驗(yàn)統(tǒng)計(jì)量當(dāng)成立時(shí) 模型選擇 變量數(shù)目 當(dāng)兩個(gè)模型有嵌套的 nested 關(guān)系時(shí) 可以用下述F檢驗(yàn)來(lái)決定取舍模型1 模型2 當(dāng)為真時(shí)這里是回歸平方和 是殘差平方和 方差分析表 擬合優(yōu)度 確定系數(shù) R2statistic R2c adjustR2 UnderH0 1 2 p 1 0 testR2exactlyequivalenttoFtest 應(yīng)變量的變換 transformationofresponse 目的 1 正態(tài)分布 對(duì)稱(chēng) 2 同方差 3 相加性 異方差或者不獨(dú)立 加權(quán)最小二乘估計(jì) 假如Y X N 0 2V 而且V已知 則存在滿(mǎn)秩對(duì)稱(chēng)矩陣PP P PP P V且有P 1 N 0 2In 即P 1Y X N P 1X 2In 對(duì)P 1Y P 1X P 1 取最小二乘估計(jì) 得 XTV 1X 1XTV 1Y稱(chēng)之為加權(quán)最小二乘估計(jì) weightedleastsquareestimator 有 N 2 XTV 1X 1 3 共線性 Multicollinearity collinearity 這里主要討論 幾乎 共線性 順便也討論一下精確的共線性 定義 自變量之間存在強(qiáng)烈的線性關(guān)系 精確地說(shuō) 存在使或?qū)χ辽僖粋€(gè)k成立 跡象 XTX至少有一個(gè)很小的特征值 0 注意 j 0forj 1 2 p 這里 j是XTX的特征值 影響 典型的影響是使參數(shù)估計(jì)的方差增大從而使整個(gè)估計(jì)不精確 總的說(shuō)來(lái) Var 2 XTX 1具體地說(shuō) Var j forj 0 1 p 1 這里R2j是即其它自變量對(duì)自變量j回歸的確定系數(shù) 線性回歸的理想要求是 Y對(duì)X有很強(qiáng)的線性關(guān)系 而X之間有較弱的線性關(guān)系 共線性的測(cè)度 1 VIF varianceinflationfactor VIFj 1 1 R2j forj 0 1 2 p 1 當(dāng)max VIFj 10時(shí) 有共線性問(wèn)題 這是經(jīng)驗(yàn)公式 無(wú)精確理論基礎(chǔ) 注意 VIF0 1 1 R20 其對(duì)應(yīng)模型是此模型右邊無(wú)常數(shù)項(xiàng) 2 ConditionNumber這里 j 是按大小排列的矩陣XTX的特征值 當(dāng) 1000時(shí) 可能有嚴(yán)重的共線性問(wèn)題 3 ConditionIndexforj 2 3 pConditionIndex能發(fā)現(xiàn)多于一個(gè)的共線性關(guān)系 經(jīng)驗(yàn)公式 列出所有的 j 100 解決方法 1 從模型中除去一些變量 例如對(duì)應(yīng)于比較大的VIFj的Xj 這個(gè)問(wèn)題與變量選擇和模型確定的方法有關(guān) 如果 j 0 則剔除 j會(huì)導(dǎo)致 即最小二乘估計(jì)成為有偏估計(jì) 2 主成分回歸 PrincipalComponentRegression Y X X UUT XU UT G 這里U是XTX的特征向量矩陣 XTX U UT G XU G稱(chēng)為主成分principalcomponent UT 這時(shí) 的LS估計(jì)是 GTG 1GTY 1GTY U 如果把G去掉 p r 列 比如說(shuō)對(duì)應(yīng)于較小的 i 記為G r G r XU r 取 GT r G r 1GT r Y U r U GT r G r 1GT r Y稱(chēng)之為主成分估計(jì) principalcomponentestimator 這時(shí)有SV 2SMSE 2即這個(gè)估計(jì)是有偏的 除非 2i 0i r 1 p 注意 主成分回歸只減少 成分 個(gè)數(shù) 沒(méi)有減少變量個(gè)數(shù) 3 嶺回歸 Ridgeregression XTX kI 1XTY這里k 0通常是個(gè)小正數(shù) 前面有SV 2現(xiàn)在有SV 2SV 當(dāng)k 時(shí) SV 0事實(shí)上Var 2U UT這里 ii i i k 2 然而SMSE 2 是 的有偏估計(jì) 當(dāng)k 有Var 同時(shí)bias 注意到上述SMSE 的第二項(xiàng)是單調(diào)增函數(shù) 且有當(dāng)k 0時(shí)為0 則存在k 使SMSE k SMSE 0 但事實(shí)上koptimal不可求 因?yàn)槭街械?未知 經(jīng)驗(yàn)方法是 1 k p 2 T 這里 2 Y X T Y X n p 2 找出使 穩(wěn)定 下來(lái)的k 1 VIFmax 10 3 畫(huà)脊嶺跡 ridgetrace 即對(duì)j 0 1 p 1畫(huà)出 j k k 脊嶺跡也可用來(lái)作為除去變量的標(biāo)準(zhǔn) 除去那些不穩(wěn)定 變號(hào) 很快趨于零 的變量 廣義逆回歸 如果完全的共線性存在 即XTX的秩小于p 則最小二乘估計(jì) 不唯一 可用廣義逆 如Moore Penrose廣義逆 找出 的一般解 4 重大影響點(diǎn) 異類(lèi)點(diǎn)和穩(wěn)健性回歸 Influentialpoints OutliersandRobustregression 定義 殘差 residual 這里hatmatrix H X XTX 1XT有var e I H 2和var ei 1 hii 2且有 含有 0項(xiàng)時(shí) 和 定義 標(biāo)準(zhǔn)殘差 Standardizedresidual zi ei s有 定義 學(xué)生殘差 Studentizedresidual 在回歸模型假定下ri漸進(jìn)服從自由度為 n p 的學(xué)生分布 定義 大折刀殘差 Jackkniferesidual 這里s2 i 是指去掉第i項(xiàng)的方差估計(jì) 在回歸模型假定下r i 精確地服從自由度為 n p 1 的學(xué)生分布 當(dāng) n p 30時(shí)ri r i 都漸進(jìn)服從N 0 1 常用殘差圖 1 分布圖或直方圖 histogram 2 盒子圖 box plotorschematicplot 3 正態(tài)圖或半正態(tài)圖 4 二維圖 如Y r i 重大杠桿點(diǎn) highleveragepoint 一個(gè)事實(shí) fori 1 2 n single roweffects 帽子矩陣H的一些性質(zhì) 1 對(duì)稱(chēng) symmetric 2 冪等 idempotent H2 H 3 1 n hii 1 4 特征值 theeigenvaluesarealleither0or1 of1s Rank H 5 Rank H Rank X p tr H hii p Onaverage hii p n 經(jīng)驗(yàn)公式 Aruleofthumb hii 2p n highleveragepointi Leverage的度量 Cook sdistance當(dāng)Di 1時(shí) 沒(méi)有highleverage的問(wèn)題 注意 highleveragepoint不一定會(huì)很大地改變參數(shù)估計(jì)值 圖 異類(lèi)點(diǎn)及其處理 異類(lèi)點(diǎn) Outliers 通常指的是這樣一種情況 資料不純 contamination 即資料中的一個(gè)記錄 點(diǎn) 或某項(xiàng)記錄 點(diǎn) 顯然與其他大部分記錄 點(diǎn) 不一樣 異類(lèi)點(diǎn)的統(tǒng)計(jì)模型 原假設(shè) 備用假設(shè)1 確定性備用假設(shè) deterministicalternative 有記錄或測(cè)量誤差 備用假設(shè)2 內(nèi)在性備用假設(shè) inherentalternative 備用假設(shè)3 混合型備用假設(shè) mixturealternative 備用假設(shè)4 滑動(dòng)型備用假設(shè) slippagealternative 除了事先確定的k個(gè)點(diǎn)之外 確定指的是數(shù)目k而不是點(diǎn) 所有其他點(diǎn)都屬于F F由位置參數(shù) location 和等級(jí)參數(shù) scale 2確定 而k個(gè)點(diǎn)則來(lái)自 和 2有變動(dòng)的版本F 備用假設(shè)5 可變換型備用假設(shè) exchangeablealternative 只有一個(gè)異類(lèi)點(diǎn)j等可能地來(lái)自 1 2 n 異類(lèi)點(diǎn)的處理方法 1 找出并剔除 discardancytest 例如基于殘差的檢驗(yàn) 注意 當(dāng)用max r i n的P值進(jìn)行檢驗(yàn)時(shí) 需要考慮所謂的Bonferronicorrection 2 去除或減少其影響 accommodation 穩(wěn)健性 robust 統(tǒng)計(jì) 注意 異類(lèi)點(diǎn)常常是重大杠桿點(diǎn) 但重大杠桿點(diǎn)不一定是異類(lèi)點(diǎn) BonferroniInequality ntestseachofsize theprobabilityoffalselylabellingatleastonepoint anoutlierisnograterthann 如果選 n 則可得保守的 值 穩(wěn)健性回歸 Robustregression 穩(wěn)健性統(tǒng)計(jì)的一些方法 以位置 location 估計(jì)為例 1 修剪法 trimming 略去r個(gè)最小的和s個(gè)最大的樣本值 或者取 n r f 0 f 1 2 溫莎法 Winsorizing 或者類(lèi)似于定義 3 L估計(jì)量 M估計(jì)量和R估計(jì)量L estimators LinearOrderStatisticsestimators 注意 修剪法和溫莎法都是L估計(jì)量 M estimators找出方程關(guān)于的解 注意 當(dāng)密度函數(shù)為f x 時(shí) 取 就是似然方程的解 R estimators由一定的秩檢驗(yàn) ranktest 如Wilcoxontest 的程度所取得 為什么要穩(wěn)健性回歸 替代方法是分兩步走 1 去除異類(lèi)點(diǎn) 2 用經(jīng)典方法進(jìn)行回歸 但是去除異類(lèi)點(diǎn)首先需要可靠的參數(shù)估計(jì) 原先的分布假設(shè)可能不對(duì) 經(jīng)驗(yàn)表明穩(wěn)健性方法往往比剔除異類(lèi)點(diǎn)的方法更可取 因?yàn)樗粵Q斷地接受或拒絕一個(gè)觀察點(diǎn) 穩(wěn)健性回歸的要求 1 在假定模型下是好的估計(jì) 2 假如資料對(duì)模型假定有一點(diǎn)偏離 其參數(shù)估計(jì)還是 穩(wěn)健的 3 如果資料對(duì)模型假定有較大的偏離 參數(shù)估計(jì)也不是 災(zāi)難性 的 穩(wěn)健性回歸的幾個(gè)例子 1 考慮M估計(jì)量當(dāng)時(shí) 它就是LS估計(jì) 取這里0 f 2 較小的f等價(jià)于給較大的殘差以較小的權(quán) 特別地 當(dāng)f 1時(shí) 稱(chēng)之為L(zhǎng)eastAbsoluteDeviationEstimation 又叫L1 regression 或者取這里c 0是一個(gè)常數(shù) 2 考慮下列步驟 i 對(duì)Yi回歸 得Y i s和ri 或r i ii WinsorizeYi 這里c是穩(wěn)健控制值 一般取1到2之間 iii 對(duì)Y i回歸 得新的Y i s和ri 或r i 重復(fù) i 和 ii 直到收斂 注意 當(dāng)用 e i Y i Y i代替 ei Yi Y i時(shí) 將會(huì)低估 2修正方法 這里m是未修改的Y的數(shù)目 3 LTSregression這里h n 稱(chēng)之為L(zhǎng)eastTrimmedSquaresRegression 4 LMSregression稱(chēng)之為L(zhǎng)eastMedianofSquaresRegression注意 穩(wěn)健性回歸的思想具有一般的意義 5 廣義線性模型 GeneralizedLinearModels 線性模型的推廣一大類(lèi)回歸模型有完整的理論結(jié)構(gòu) 邏輯回歸 LogisticRegression 如果應(yīng)變量Yi只能取兩個(gè)值0和1 則Yi服從二點(diǎn)分布 Bernoullidistribution 設(shè)則 邏輯函數(shù) 邏輯回歸模型 設(shè)這里g定義為連系函數(shù) linkfunction 連系函數(shù)將線性組合Xi 與數(shù)學(xué)期望pi連在一起 則即p是關(guān)于 的邏輯函數(shù) 且有0 pi 1 參數(shù) 的極大似然估計(jì) 由得似然函數(shù)于是forr 1 2 k 費(fèi)雪信息矩陣 Fisherinformationmatrix 這里 當(dāng)是邏輯連系函數(shù)時(shí)注意 需用疊代算法求出 即解方程組 參數(shù)估計(jì) 的性質(zhì) 事實(shí)上 是漸進(jìn)正態(tài)分布的 擬合優(yōu)度 差異函數(shù) deviancefunction 注意 0 log 0 0 如果模型假定正確 D漸進(jìn)服從 如有兩個(gè)嵌套模型H0和HA 則D0 DA漸進(jìn)服從 注意 嵌套模型的檢驗(yàn)比顯著性檢驗(yàn)D更強(qiáng) 即D服從的要求比較高 D0 DA服從的要求比較低 甚至當(dāng)D0和DA都不服從和時(shí)亦成立 二項(xiàng)分布 Binomialdistribution 的情形 等價(jià)于mj個(gè)貝努里實(shí)驗(yàn) 且有 設(shè)連系函數(shù)為似然函數(shù) 去掉常數(shù)項(xiàng) 為 有這里 當(dāng)是邏輯連系函數(shù)時(shí)差異函數(shù) 正態(tài)連系函數(shù) probitlinkfunction 如果連系函數(shù)取所謂的probitlink的話 即則有 和將此式代入 既可得對(duì)應(yīng)的和W 普阿松回歸 PoissonRegression 應(yīng)變量Yi只能取非負(fù)的離散值 事實(shí)上只需要一邊有界 其離散程度大致與其水平成正比例 設(shè)即則 設(shè) 對(duì)數(shù)連系函數(shù) 則對(duì)任何X和 有 參數(shù) 的極大似然估計(jì) 去掉常數(shù)項(xiàng)后這里 當(dāng)時(shí) 對(duì)數(shù)連系函數(shù) 注意 需用疊代算法求出 即解方程組 參數(shù)估計(jì) 的性質(zhì) 漸進(jìn)服從N XTWX 1 擬合優(yōu)度 差異函數(shù) 如果模型假定正確 D漸進(jìn)服從 如有兩個(gè)嵌套模型H0和HA 則D0 DA漸進(jìn)服從 過(guò)度離散 over dispersion 實(shí)際案例中常有如對(duì)應(yīng)于負(fù)二項(xiàng)分布的情形 解決方法 設(shè)估計(jì) 廣義線性模型 四個(gè)組成部分1 數(shù)學(xué)期望 均值 E Yi i2 線性預(yù)測(cè)量 linearpredictor i Xi 3 連系函數(shù) linkfunction g i i4 方差函數(shù) variancefunction Var Yi V i 線性指數(shù)分布族 linearexponentialfamily 形式如 L y exp y c h y 這里假定 是已知的 如果 是未知的 它可能是二參數(shù)的指數(shù)分布族 也可能不是 對(duì)線性指數(shù)分布族有 E y c Var y c V 這里 稱(chēng)之為離散參數(shù) dispersionparameter 常用分布的離散參數(shù)和方差函數(shù) 當(dāng)連系函數(shù) 取c 的反函數(shù) 記之為c 1 形式時(shí) 我們稱(chēng) 為標(biāo)準(zhǔn)連系函數(shù) canonicallink 常用分布的標(biāo)準(zhǔn)連系函數(shù) 其他常用連系函數(shù) 正態(tài) probit g 1 冪族 powerfamily g 0 g log 0 余雙對(duì)數(shù) complementarylog log g log log 1 參數(shù)估計(jì) 線性指數(shù)分布族的似然估計(jì)方程組是 Yi i iV i i r 0r 1 2 k對(duì)廣義線性模型 它成為 Yi i iV i xir g i 0r 1 2 k 當(dāng)離散參數(shù) i aii 1 2 n時(shí) 該方程組成為 Yi i aiV i xir g i 0 r 1 2 k而當(dāng)連系函數(shù) 是標(biāo)準(zhǔn)連系函數(shù)時(shí) 有 Yixir ai ixir air 1 2 k 一般來(lái)說(shuō)方程組 沒(méi)有直接的解法 當(dāng)V 1 g 時(shí) 線性模型 解是 XTW 1X 1XTW 1Y這里W diag 1 ai 迭代加權(quán)最小二乘法 iterativeweightedleastsquares 簡(jiǎn)寫(xiě)為IWLS 考慮變量zi i Yi i g i 有E zi i xi rVar zi g i 2aiV i 迭代算法 1 從某一個(gè) i 0 開(kāi)始 通常取 i 0 Yi 得 i 0 g i 0 2 給定 i t 和 i t 算出zi t i t Yi i t g i t wi t 1 g i t 2aiV i t i 1 2 n 3 給出估計(jì) t 1 XTW t X 1XTW t z t 這里W t diag wi t 定義 t 1 X t 1 t 1 g 1 t 1 重復(fù)步驟 2 和 3 直到收斂 迭代加權(quán)最小二乘估計(jì)的性質(zhì) N i 1 這里i 1 1XTWXW diag wi wi 1 g i 2aiV i i 1 2 n 估計(jì)量方差的估計(jì) Cov XTW X 1 的估計(jì) 1 n p Yi i aiV i 擬合優(yōu)度 定義差異函數(shù) deviance 為D y 2 l y y l y 如果模型假定正確 D漸進(jìn)服從 如有兩個(gè)嵌套模型H0和HA 則D0 DA漸進(jìn)服從 常用分布的差異函數(shù) 正態(tài)分布 y 2普阿松分布2 y log y y 二項(xiàng)分布2 y log y m y log m y m 伽瑪分布2 log y y 在原假定下 D漸進(jìn)服從 如有兩個(gè)嵌套模型H0和HA 則D0 DA漸進(jìn)服從 非參數(shù)回歸 non parametricregression 離散圖平滑法 scatterplotsmoother 假定X只含有一個(gè)變量x 在x上定義一個(gè)函數(shù) s x S Y x 一般s x 定義在x的所有定義域上 但也可能只定義在觀察值上 這時(shí)對(duì)一般的s x0 就需要用某種插值法計(jì)算 類(lèi)型 1 格子平滑法 binsmoother regressogram 選點(diǎn) 定義 取 2 移動(dòng)平均法 running meansmoother movingaveragesmoother 定義 取 3 跑動(dòng)直線平滑法 running linesmoother 取 這里是對(duì)回歸的LS估計(jì)量 倘若這個(gè)回歸是加權(quán)的 則是所謂的loess locally weightedrunning linesmoother 具體地說(shuō)可采取下列步驟 i 找出與最接近的k個(gè)樣本點(diǎn) 記為 ii 定義 iii 取權(quán)數(shù)這里 iv 4 核平滑法 kernelsmoother 取 對(duì)點(diǎn)的權(quán)數(shù)為 這里 是窗寬參數(shù) window widthparameter c0是個(gè)常數(shù) 通常使權(quán)數(shù)的和為一 d t 是關(guān)于 t 的減函數(shù) 如 Gaussiankernel Epanechnikovkernel minimumvariancekernel 等等 注意 窗寬參數(shù) 的選擇比核函數(shù)的選擇重要的多 Gaussiankernel Epanechnikovkernel minimumvariancekernel 5 回歸樣條 regressionspline 找出k個(gè)節(jié)點(diǎn) knots 取 表示正的部分 S x 有三個(gè)特性 i 在任何區(qū)間內(nèi)是三次函數(shù) ii 有一階和二階連續(xù)導(dǎo)數(shù) iii 三階導(dǎo)數(shù)是個(gè)階梯函數(shù) 當(dāng)加上節(jié)點(diǎn)以外函數(shù)為線性的附加限制時(shí) 三次 樣條稱(chēng)之為自然樣條 naturalspline 給定節(jié)點(diǎn)的數(shù)目和位置 未知參數(shù)可用回歸法求得 但如何確定節(jié)點(diǎn)的數(shù)目和位置是個(gè)較復(fù)雜的問(wèn)題 6 三次平滑樣條 cubicsmoothingspline 找出一個(gè)有一階和二階連續(xù)導(dǎo)數(shù)的任意函數(shù)f 使這里 是個(gè)固定常數(shù) 可以證明這個(gè)函數(shù)是節(jié)點(diǎn)取在所有上的naturalcubicspline 平滑參數(shù) 設(shè)離散圖平滑的模型是 定義 averagemean squarederror averagepredictivesquarederror 這里Yi 是在點(diǎn)xi上的一個(gè)新觀察值 有 定義 cross validationsumofsquares 有 注意 averagesquaredresidual 不是PSE的好的估計(jì)量 可以用下列標(biāo)準(zhǔn)確定 定義 線性平滑法 對(duì)任意常數(shù)a和b 有上述平滑法都是線性平滑法 對(duì)于觀察點(diǎn)來(lái)說(shuō) 一個(gè)線性平滑法可表示為這里S是一個(gè)矩陣 稱(chēng)為平滑矩陣 smoothermatrix 對(duì)于一個(gè)線性平滑法來(lái)說(shuō) 定義偏 有 定義 Mallows Cp這里 是個(gè)很小的數(shù) 盡量減小偏 因?yàn)樗訡p是PSE的一個(gè)估計(jì) 可以用下列標(biāo)準(zhǔn)確定 注意 1 Cp只適用于線性平滑法 CV則適用于一般的平滑法 2 在實(shí)際應(yīng)用時(shí)上述兩法時(shí)常特性不佳 這時(shí)用直觀的圖像法選擇 可能更可靠一些 3 用自由度來(lái)確定 也是常用的方法 平滑法的自由度 有三個(gè)表示 1 自由度 對(duì)于一個(gè)線性平滑法 2 誤差自由度 對(duì)非線性平滑法的一般定義是 3 方差自由度 對(duì)非線性平滑法的一般定義是 注意 I如果S是個(gè)對(duì)稱(chēng)投影矩陣 symmetricprojectionmatrix 例如線性回歸 多項(xiàng)式回歸 回歸樣條 則有II對(duì)于三次平滑樣條有并且三者都是關(guān)于 的減函數(shù) 置信區(qū)間 對(duì)于線性平滑有這里偏向量是依賴(lài)于未知函數(shù)f的 在一定假定下偏的一個(gè)估計(jì)是于是可取的對(duì)角線元素構(gòu)造置信區(qū)間 這里取自由度 近似的F檢驗(yàn) 對(duì)于兩個(gè)線性平滑法 假定f1 比f(wàn)2 更平滑 有 一個(gè)更好的檢驗(yàn)是取有 相加模型 additivemodel 一般的相加模型可表示為這里 懲罰性的最小二乘條件 penalizedleast squares 可以用使penalizedleast squares最優(yōu)化的方法來(lái)求得合適的相加模型 注意 1 所謂半?yún)?shù)模型 semi parametricmodel 是相加模型的一個(gè)重要特例 如 2 相加模型可以包括某一個(gè)或某幾個(gè)自變量是離散變量的情況 3 相加模型可以包括某一個(gè)或某幾個(gè)函數(shù)是多元函數(shù)的情況 如 當(dāng)然這時(shí)需用scatterplotsmoother的多維推廣 廣義相加模型 generalizedadditivemodels 類(lèi)似于從線性模型推廣到廣義線性模型的思路 相加模型可以推廣成廣義相加模型 即定義四個(gè)組成部分1 數(shù)學(xué)期望 均值 2 相加預(yù)測(cè)量 additivepredictor 3 連系函數(shù) linkfunction 4 方差函數(shù) variancefunction Algorithm 其求解的思路也類(lèi)似廣義線性模型 1 Initialize 2 Update with ConstructweightsFitaweightedadditivemodeltozi toobtainestimatedComputetheconvergencecriterion 3 Repeatstep 2 replacingbyuntilisbelowsomesmallthreshold 注意 所謂半?yún)?shù)廣義線性模型 semi parametricgeneralizedlinearmodel 是廣義相加模型的一個(gè)重要特例 如 7 模型選擇 模型選擇的目的常常是尋找一個(gè)最簡(jiǎn)單的合理的模型來(lái)恰當(dāng)?shù)孛枋鏊^察到的資料 可以粗略地分為兩大類(lèi)問(wèn)題 1 同一類(lèi)模型中參數(shù)和變量個(gè)數(shù)的選擇 2 不同類(lèi)模型之間的比較 一個(gè)事實(shí) 如果真正的模型是而我們所用的回歸模型是最小二乘估計(jì)是則即一般這個(gè)估計(jì)是有偏的 且有注意 項(xiàng)數(shù)太少會(huì)造成參數(shù)估計(jì)有偏 項(xiàng)數(shù)太多不會(huì)造成參數(shù)估計(jì)有偏 但因?yàn)闇p少了自由度從而造成效率 精確度 的喪失 選擇回歸變量的基本步驟 1 確定最大的模型 保證 正確 的模型在它之內(nèi) 2 確定選擇模型的條件 3 確定選擇變量的策略 4 用最后的模型分析資料 5 評(píng)估模型的可靠性 確定最大的模型 可以包括 1 所有基本的回歸變量 2 基本回歸變量的高階冪 等等 3 基本回歸變量的其它轉(zhuǎn)換如對(duì)數(shù) 倒數(shù)等等 4 基本回歸變量之間二階或更高階的交互影響 interaction 5 在某些問(wèn)題中 所有的控制變量和它們的 2 3 4 注意 不要選太大的最大模型 會(huì)損失可靠性 宜中心突出 針對(duì)問(wèn)題 還應(yīng)注意共線性問(wèn)題 經(jīng)驗(yàn)公式 樣本大小和變量個(gè)數(shù)的比例 確定選擇模型的條件 1 確定系數(shù)此法只適用于參數(shù)個(gè)數(shù)相同的情形 因?yàn)閷?duì)嵌套模型而言 是關(guān)于p的增函數(shù) 而無(wú)理論基礎(chǔ) 2 對(duì)于嵌套的線性回歸模型 可用統(tǒng)計(jì)量當(dāng)F檢驗(yàn)不顯著時(shí) 可以用較簡(jiǎn)單的p個(gè)變量模型 3 定義選擇較小的 4 Mallow sCp這里k是最大的模型 選擇較小的或最小的Cp注意 當(dāng)時(shí) ACI Akaikeinformationcriterion 選擇較小的或最小的ACI注意 Mallow sCp是ACI的一個(gè)特例 確定選擇變量的策略 1 列出所有的回歸模型 共有個(gè) 通常不實(shí)際 2 向后剔除法 Backwardelimination 步驟 i 給出最大的回歸模型 ii 一次去掉一個(gè)變量 其對(duì)應(yīng)的t值 或等價(jià)地 其PartialF值 在所有變量只中是最小的 且低于給定的顯著性水平 直到?jīng)]有這樣的變量 注意 兩次去掉一個(gè)變量不等價(jià)于一次去掉兩個(gè)變量 即使是相同的兩個(gè)變量 3 向前選進(jìn)法 Forwardselection 步驟 i 選進(jìn)相關(guān)系數(shù)最大的第一個(gè)變量 ii 一次一個(gè) 選進(jìn)一個(gè)變量 其PartialF最大 在已定模型 既現(xiàn)有變量下 且其p值大于給定的顯著性水平 直到?jīng)]有這樣的變量 注意 A兩次進(jìn)一個(gè)變量不等價(jià)于一次進(jìn)兩個(gè)變量 B ii 等價(jià)于計(jì)算部分相關(guān)系數(shù) 即Residualofcurrentmodel對(duì)Xj 4 逐步回歸 Stepwiseregression 步驟 i 同向前選進(jìn)法 i ii 選進(jìn)一個(gè)變量 同向前選進(jìn)法 ii iii 去掉一個(gè)變量 如有必要 同向后剔除法 ii 直到?jīng)]有變量進(jìn) 也沒(méi)有變量出 5 脊嶺回歸 如前所述 6 PRESS法 定義 這里是除去第i項(xiàng)后由模型對(duì)Yi的預(yù)測(cè)值 找出一個(gè)模型 其PSS較小且不含有太多的回歸變量 階段回歸 Stagewiseregression 步驟 i 找出最大相關(guān)自變量 得到回歸模型 ii 以此模型的殘差作為應(yīng)變量 找出下一個(gè)最大相關(guān)自變量 得到回歸模型如果模型顯著 則新的模型為 iii 再定義為應(yīng)變量 重復(fù) ii 直到?jīng)]有新的變量能進(jìn)入 注意 最后的模型不等價(jià)于最小二乘估計(jì) 測(cè)度誤差

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論