stata回歸分析完整步驟-吐血推薦_第1頁
stata回歸分析完整步驟-吐血推薦_第2頁
stata回歸分析完整步驟-吐血推薦_第3頁
stata回歸分析完整步驟-吐血推薦_第4頁
stata回歸分析完整步驟-吐血推薦_第5頁
已閱讀5頁,還剩7頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、精選優(yōu)質(zhì)文檔-傾情為你奉上stata回歸分析完整步驟吐血推薦*下載連乘函數(shù)prod,方法為:findit dm71sort stkcd date /對(duì)公司和日期排序gen r1=1+r /r為實(shí)際公司的股票收益率gen r2=1+r_yq /r_yq為公司的預(yù)期股票收益率egen r3=prod(r1),by(stkcd date) /求每個(gè)公司事件日的累計(jì)復(fù)合收益率egen r4=prod(r2),by(stkcd date) /求每個(gè)公司事件日的累計(jì)預(yù)期的復(fù)合收益率gen r=r4-r3capture clear (清空內(nèi)存中的數(shù)據(jù))capture log close (關(guān)閉所有打開的日志

2、文件)set mem 128m (設(shè)置用于stata使用的內(nèi)存容量)set more off (關(guān)閉more選項(xiàng)。如果打開該選項(xiàng),那么結(jié)果分屏輸出,即一次只輸出一屏結(jié)果。你按空格鍵后再輸出下一屏,直到全部輸完。如果關(guān)閉則中間不停,一次全部輸出。)set matsize 4000 (設(shè)置矩陣的最大階數(shù)。我用的是不是太大了?)cd D: (進(jìn)入數(shù)據(jù)所在的盤符和文件夾。和dos的命令行很相似。)log using (文件名).log,replace (打開日志文件,并更新。日志文件將記錄下所有文件運(yùn)行后給出的結(jié)果,如果你修改了文件內(nèi)容,replace選項(xiàng)可以將其更新為最近運(yùn)行的結(jié)果。)use (文件

3、名),clear (打開數(shù)據(jù)文件。)(文件內(nèi)容)log close (關(guān)閉日志文件。)exit,clear (退出并清空內(nèi)存中的數(shù)據(jù)。)假設(shè)你清楚地知道所需的變量,現(xiàn)在要做的是檢查數(shù)據(jù)、生成必要的數(shù)據(jù)并形成數(shù)據(jù)庫供將來使用。檢查數(shù)據(jù)的重要命令包括codebook,su,ta,des和list。其中,codebook提供的信息最全面,缺點(diǎn)是不能使用if條件限制范圍,所以,有時(shí)還要用別的幫幫忙。su空格加變量名報(bào)告相應(yīng)變量的非缺失的觀察個(gè)數(shù),均值,標(biāo)準(zhǔn)差,最小值和最大值。ta空格后面加一個(gè)(或兩個(gè))變量名是報(bào)告某個(gè)變量(或兩個(gè)變量二維)的取值(不含缺失值)的頻數(shù),比率和按大小排列的累積比率。des

4、后面可以加任意個(gè)變量名,只要數(shù)據(jù)中有。它報(bào)告變量的存儲(chǔ)的類型,顯示的格式和標(biāo)簽。標(biāo)簽中一般記錄這個(gè)變量的定義和單位。list報(bào)告變量的觀察值,可以用if或in來限制范圍。所有這些命令都可以后面不加任何變量名,報(bào)告的結(jié)果是正在使用的數(shù)據(jù)庫中的所有變量的相應(yīng)信息。說起來蒼白無力,打開stata親自實(shí)驗(yàn)一下吧。順帶說點(diǎn)兒題外話。除了codebook之外,上述統(tǒng)計(jì)類的命令都屬于r族命令(又稱一般命令)。執(zhí)行后都可以使用return list報(bào)告儲(chǔ)存在r()中的統(tǒng)計(jì)結(jié)果。最典型的r族命令當(dāng)屬summarize。它會(huì)把樣本量、均值、標(biāo)準(zhǔn)差、方差、最小值、最大值、總和等統(tǒng)計(jì)信息儲(chǔ)存起來。你在執(zhí)行su之后,只

5、需敲入return list就可以得到所有這些信息。其實(shí),和一般命令的return命令類似,估計(jì)命令(又稱e族命令)也有ereturn命令,具有報(bào)告,儲(chǔ)存信息的功能。在更復(fù)雜的編程中,比如對(duì)回歸分解,計(jì)算一些程序中無法直接計(jì)算的統(tǒng)計(jì)量,這些功能更是必不可少。檢查數(shù)據(jù)時(shí),先用codebook看一下它的值域和單位。如果有-9,-99這樣的取值,查一下問卷中對(duì)缺失值的記錄方法。確定它們是缺失值后,改為用點(diǎn)記錄。命令是replace (變量名)=. if (變量名)=-9。再看一下用點(diǎn)記錄的缺失值有多少,作為選用變量的一個(gè)依據(jù)。得到可用的數(shù)據(jù)后,我會(huì)給沒有標(biāo)簽的變量加上注解。或者統(tǒng)一標(biāo)簽;或者統(tǒng)一變量

6、的命名規(guī)則。更改變量名的命令是ren (原變量名)空格(新變量名)。定義標(biāo)簽的命令是label var (變量名)空格”(標(biāo)簽內(nèi)容)”。整齊劃一的變量名有助于記憶,簡(jiǎn)明的標(biāo)簽有助于明確變量的單位等信息。如果你需要使用通過原始變量派生出的新變量,那么就需要了解gen,egen和replace這三個(gè)命令。gen和replace常常在一起使用。它們的基本語法是gen (或replace)空格(變量名)(表達(dá)式)。二者的不同之處在于gen是生成新變量,replace是重新定義舊變量。虛擬變量是我們常常需要用到的一類派生變量。如果你需要生成的虛擬變量個(gè)數(shù)不多,可以有兩種方法生成。一種是簡(jiǎn)明方法:gen空

7、格(變量名)(限制條件)這外面的小括弧是命令需要的,里面的小括弧不是命令需要的,只是說明“限制條件”并非命令。如果某個(gè)觀察滿足限制條件,那么它的這個(gè)虛擬變量取值為1,否則為0。另一種要麻煩一點(diǎn)。就是gen (變量名)1 if (取值為一限制條件)replace(相同的變量名)0 if (取值為零的限制條件)兩個(gè)方法貌似一樣,但有一個(gè)小小的區(qū)別。如果限制條件中使用的變量都沒有任何缺失值,那么兩種方法的結(jié)果一樣。如果有缺失值,第一種方法會(huì)把是缺失值的觀察的虛擬變量都定義為0。而第二種方法可以將虛擬變量的取值分為三種,一是等于1,二是等于0,三是等于缺失值。這樣就避免了把本來信息不明的觀察錯(cuò)誤地納入

8、到回歸中去。下次再講如何方便地生成成百上千個(gè)虛擬變量。大量的虛擬變量往往是根據(jù)某個(gè)已知變量的取值生成的。比如,在某個(gè)回歸中希望控制每個(gè)觀察所在的社區(qū),即希望控制標(biāo)記社區(qū)的虛擬變量。社區(qū)數(shù)目可能有成百上千個(gè),如果用上次的所說的方法生成就需要重復(fù)成百上千次,這也太笨了。大量生成虛擬變量的命令如下;ta (變量名), gen((變量名))第一個(gè)括號(hào)里的變量名是已知的變量,在上面的例子中是社區(qū)編碼。后一個(gè)括號(hào)里的變量名是新生成的虛擬變量的共同前綴,后面跟數(shù)字表示不同的虛擬變量。如果我在這里填入d,那么,上述命令就會(huì)新生成d1,d2,等等,直到所有社區(qū)都有一個(gè)虛擬變量。在回歸中控制社區(qū)變量,只需簡(jiǎn)單地放

9、入這些變量即可。一個(gè)麻煩是虛擬變量太多,怎么簡(jiǎn)單地加入呢?一個(gè)辦法是用省略符號(hào),d*表示所有d字母開頭的變量,另一法是用破折號(hào),d1-d150表示第一個(gè)到第150個(gè)社區(qū)虛擬變量(假設(shè)共有150個(gè)社區(qū))。還有一種方法可以在回歸中直接控制虛擬變量,而無需真的去生成這些虛擬變量。使用命令areg可以做到,它的語法是areg (被解釋變量) (解釋變量), absorb(變量名)absorb選項(xiàng)后面的變量名和前面講的命令中第一個(gè)變量名相同。在上面的例子中即為社區(qū)編碼。回歸的結(jié)果和在reg中直接加入相應(yīng)的虛擬變量相同。生成變量的最后一招是egen。egen和gen都用于生成新變量,但egen的特點(diǎn)是它更

10、強(qiáng)大的函數(shù)功能。gen可以支持一些函數(shù),egen支持額外的函數(shù)。如果用gen搞不定,就得用egen想辦法了。不過我比較懶,到現(xiàn)在為止只用用取平均、加和這些簡(jiǎn)單的函數(shù)。有的時(shí)候數(shù)據(jù)情況復(fù)雜一些,往往生成所需變量不是非常直接,就需要多幾個(gè)過程。曾經(jīng)碰到原始數(shù)據(jù)中記錄日期有些怪異的格式。比如,1991年10月23日被記錄為。我想使用它年份和月份,并生成虛擬變量。下面是我的做法:gen yr=int(date)gen mo=int(data-yr*10000)/100)ta yr, gen( yd)ta mo, gen( md)假設(shè)你已經(jīng)生成了所有需要的變量,現(xiàn)在最重要的就是保存好你的工作。使用的命令

11、是save空格(文件名),replace。和前面介紹的一樣,replace選項(xiàng)將更新你對(duì)數(shù)據(jù)庫的修改,所以一定要小心使用。最好另存一個(gè)新的數(shù)據(jù)庫,如果把原始庫改了又變不回去,就叫天不應(yīng)叫地不靈了。前面說的都是對(duì)單個(gè)數(shù)據(jù)庫的簡(jiǎn)單操作,但有時(shí)我們需要改變數(shù)據(jù)的結(jié)構(gòu),或者抽取來自不同數(shù)據(jù)庫的信息,因此需要更方便的命令。這一類命令中我用過的有:改變數(shù)據(jù)的縱橫結(jié)構(gòu)的命令reshape,生成退化的數(shù)據(jù)庫collapse,合并數(shù)據(jù)庫的命令append和merge??v列(longitudinal)數(shù)據(jù)通常包括同一個(gè)行為者(agent)在不同時(shí)期的觀察,所以處理這類數(shù)據(jù)常常需要把數(shù)據(jù)庫從寬表變成長(zhǎng)表,或者相反。

12、所謂寬表是以每個(gè)行為者為一個(gè)觀察,不同時(shí)期的變量都記錄在這個(gè)觀察下,例如,行為者是廠商,時(shí)期有2000、2001年,變量是雇傭人數(shù)和所在城市,假設(shè)雇傭人數(shù)在不同時(shí)期不同,所在城市則不變。寬表記錄的格式是每個(gè)廠商是一個(gè)觀察,沒有時(shí)期變量,雇傭人數(shù)有兩個(gè)變量,分別記錄2000年和2001年的人數(shù),所在城市只有一個(gè)變量。所謂長(zhǎng)表是行為者和時(shí)期共同定義觀察,在上面的例子中,每個(gè)廠商有兩個(gè)觀察,有時(shí)期變量,雇傭人數(shù)和所在城市都只有一個(gè),它們和時(shí)期變量共同定義相應(yīng)時(shí)期的變量取值。在上面的例子下,把寬表變成長(zhǎng)表的命令格式如下:reshape long (雇傭人數(shù)的變量名), i((標(biāo)記廠商的變量名)) j(

13、(標(biāo)記時(shí)期的變量名))因?yàn)樗诔鞘胁浑S時(shí)期變化,所以在轉(zhuǎn)換格式時(shí)不用放在reshapelong后面,轉(zhuǎn)換前后也不改變什么。相反地,如果把長(zhǎng)表變成寬表則使用如下命令reshape wide (雇傭人數(shù)的變量名), i((標(biāo)記廠商的變量名)) j((標(biāo)記時(shí)期的變量名))唯一的區(qū)別是long換成了wide。collapse的用處是計(jì)算某個(gè)數(shù)據(jù)庫的一些統(tǒng)計(jì)量,再把它存為只含有這些統(tǒng)計(jì)量的數(shù)據(jù)庫。用到這個(gè)命令的機(jī)會(huì)不多,我使用它是因?yàn)樗梢杂?jì)算中位數(shù)和從1到99的百分位數(shù),這些統(tǒng)計(jì)量在常規(guī)的數(shù)據(jù)描述命令中沒有。如果要計(jì)算中位數(shù),其命令的語法如下collapse (median) ((變量名)), by(

14、(變量名))生成的新數(shù)據(jù)庫中記錄了第一個(gè)括號(hào)中的變量(可以是多個(gè)變量)的中位數(shù)。右面的by選項(xiàng)是根據(jù)某個(gè)變量分組計(jì)算中位數(shù),沒有這個(gè)選項(xiàng)則計(jì)算全部樣本的中位數(shù)。合并數(shù)據(jù)庫有兩種方式,一種是增加觀察,另一種是增加變量。第一種用append,用在兩個(gè)數(shù)據(jù)庫的格式一樣,但觀察不一樣,只需用append空格using空格(文件名)就可以狗尾續(xù)貂了。簡(jiǎn)單明了,不會(huì)有什么錯(cuò)。另一種就不同了,需要格外小心。如果兩個(gè)數(shù)據(jù)庫中包含共同的觀察,但是變量不同,希望從一個(gè)數(shù)據(jù)庫中提取一些變量到另一個(gè)數(shù)據(jù)庫中用merge。完整的命令如下:use(文件名)打開輔助數(shù)據(jù)庫sort (變量名)根據(jù)變量排序,這個(gè)變量是兩個(gè)數(shù)據(jù)

15、庫共有的識(shí)別信息save (文件名),replace保存輔助數(shù)據(jù)庫use(文件名)打開主數(shù)據(jù)庫sort (變量名)對(duì)相同的變量排序merge (變量名) using (文件名), keep((變量名))第一個(gè)變量名即為前面sort后面的變量名,文件名是輔助數(shù)據(jù)庫的名字,后面的變量名是希望提取的變量名ta_merge顯示_merge的取值情況。_merge等于1的觀察是僅主庫有的,等于2的是僅輔助庫有的,等于3是兩個(gè)庫都有的。drop if_merge=2刪除僅僅來自輔助庫的觀察dropmerge刪除_mergesave (文件名),replace將合并后的文件保存,通常另存講到這里似乎對(duì)于數(shù)據(jù)

16、的生成和處理應(yīng)該閉嘴了。大家可能更想聽聽估計(jì)、檢驗(yàn)這些事情。但我并不想就此止住,因?yàn)閷?shí)際中總是有一些簡(jiǎn)單套用命令無法輕易辦到的特殊要求。此時(shí)至少有兩條路可以通向羅馬:一是找到更高級(jí)的命令一步到位;二是利用已知簡(jiǎn)單命令多繞幾個(gè)圈子達(dá)到目的。下面講一個(gè)令我刻骨銘心的經(jīng)歷,這也是迄今我所碰到的生成新數(shù)據(jù)中最繁復(fù)的了。原始數(shù)據(jù)中包含了可以識(shí)別屬于同一個(gè)家庭中所有個(gè)人的信息和家庭成員與戶主關(guān)系的信息。目的是利用這些信息建立親子關(guān)系。初步的構(gòu)想是新數(shù)據(jù)庫以子輩為觀察,找到他們的父母,把父母的變量添加到每個(gè)觀察上。我的做法如下:usea1,clear打開全部樣本數(shù)據(jù)庫keep ifgender=2&

17、agemos>=96&a8=1&line<10保留已婚的一定年齡的女性replace a5=1 ifa5=0變量a5標(biāo)記和戶主的關(guān)系。等于0是戶主,等于1是戶主的配偶。這里不加區(qū)分地將戶主及其配偶放在一起。keep if a5=1|a5=3|a5=7保留是戶主(1),是戶主的子女(3),或是戶主的兒媳(7)的那些人。ren hhf將所需變量加上后綴f,表示女性ren linelf將所需變量加上后綴f,表示女性sort wave hhidsaveb1,replace排序并保存keep ifa5f=1留下其中是戶主或戶主配偶的saveb2,replace保存use b1

18、,clearkeep if a5f=3|a5f=7saveb3,replace留下其中是戶主女兒或兒媳的并保存usea3,clear打開與戶主關(guān)系是戶主子女的兒童數(shù)據(jù)庫sort wave hhidmerge wave hhid using CHNS01b2, keep(hf lf)ta _mergedrop if _merge=2sort hhid linewave處理兩代戶,將戶主配偶女性庫與兒童庫合并by hhid line wave: egen x=count(id)drop x_merge計(jì)算每個(gè)年份家庭匹配的情況,x只取值1,表明兩代戶匹配成功saveb4,replace保存usea

19、4,clear打開與戶主關(guān)系是戶主孫子女的兒童數(shù)據(jù)庫sort wave hhidmerge wave hhid using CHNS01b3, keep(a5f a8f schf a12f hf agemosfc8f lf)ta _mergedrop if_merge=2處理三代戶,將戶主女兒或兒媳女性庫與孫子女兒童庫合并sort hhid line waveby hhid line wave: egen x=count(id)gen a=agemosf-agemosdrop ifa<216&x=3計(jì)算每個(gè)年份家庭匹配的情況,x不只取1,三代戶匹配不完全成功。刪除不合理的樣本,標(biāo)

20、準(zhǔn)是年齡差距和有三個(gè)可能母親的那些家庭。gen xx=x_n+1gen xxx=x_n-1gen y=lf if x=1replace y=lf_n+1 if x=2&xx=1replace y=lf_n-1 if x=2&xxx=1keep if x=1|(lf=y&x=2)對(duì)于有兩個(gè)可能母親的兒童,有相同編碼的女性出現(xiàn)兩次的情況。上面的做法是為了保證不刪除這部分樣本。drop a x xx xxx y _mergesaveb5,replace保存合并后的數(shù)據(jù)庫對(duì)男性數(shù)據(jù)的合并完全類似,不贅述。log closeexit,clear我的方法是屬于使用簡(jiǎn)單命令反復(fù)迂回地

21、達(dá)到目的那一類的,所以非常希望有更簡(jiǎn)便的方法來替代。不過做實(shí)證時(shí)往往不是非常追求程序的漂亮,常常也就得過且過了。stata強(qiáng)大的功能體現(xiàn)在它可以方便地回歸微觀數(shù)據(jù)。而回歸也是微觀實(shí)證中最重要的方法。下面就開始講stata中和回歸有關(guān)的常用命令?;净貧w方法有兩種:線性設(shè)定下的最小二乘法(OLS)和兩階段最小二乘法(2SLS)。他們?cè)趯?shí)證分析中應(yīng)用廣泛,十分詳細(xì)地掌握這兩種方法是實(shí)證研究的基本要求。講解的順序是先依次介紹如何在stata中實(shí)現(xiàn)OLS和2SLS估計(jì),然后再分析如何在實(shí)際問題中選擇合理的方法。后一部分受Joshua Angrist教授的影響很大,因此,在后面引用他的思想時(shí)會(huì)詳細(xì)注明。

22、假設(shè)你已經(jīng)清楚地了解待估計(jì)方程的形式,那么回歸命令的基本格式就十分簡(jiǎn)單明了:reg (被解釋變量) (解釋變量1) (解釋變量2)方程中的相應(yīng)變量可以簡(jiǎn)單地放在reg的后面。執(zhí)行上面的命令后,stata會(huì)出現(xiàn)兩個(gè)表格,分別報(bào)告一些方差分析和回歸的參數(shù)估計(jì)結(jié)果。我們最關(guān)心的是參數(shù)的大小和顯著性,這在第二個(gè)表格中列出。表格的最左邊一欄列出了解釋變量,在它的右邊是相應(yīng)的系數(shù)估計(jì)值,然后依次是估計(jì)值的標(biāo)準(zhǔn)誤,t比率,原假設(shè)為系數(shù)的真實(shí)值等于零時(shí)錯(cuò)誤地拒絕該假設(shè)的概率p值,以及該估計(jì)值的置信度為(1-5%)的置信區(qū)間。我看到回歸結(jié)果的第一眼是瞄著最關(guān)心的解釋變量的符號(hào)、大小和顯著性??纯唇忉屪兞坑绊懙姆?/p>

23、向和大小是不是符合理論的預(yù)期,是不是合乎常識(shí),以及這個(gè)估計(jì)值是不是顯著。標(biāo)記顯著性的統(tǒng)計(jì)量是t統(tǒng)計(jì)量,在經(jīng)典假設(shè)下,它服從t分布。t分布和標(biāo)準(zhǔn)正態(tài)分布形狀很相似,但它的“尾巴”要比標(biāo)準(zhǔn)正態(tài)分布的“肥”一些,在樣本量比較小的時(shí)候尤其明顯,當(dāng)樣本量趨于無窮時(shí),t分布的極限分布是標(biāo)準(zhǔn)正態(tài)分布。大家對(duì)標(biāo)準(zhǔn)正態(tài)分布的分布函數(shù)上一些關(guān)鍵點(diǎn)比較熟悉,比如,1.96是97.5%的關(guān)鍵點(diǎn),1.64是95%的關(guān)鍵點(diǎn),所以,我們希望知道什么時(shí)候可以安全地使用標(biāo)準(zhǔn)正態(tài)分布。下表列出了一些小自由度下二者的差異(Beyer 1987 “CRC Standard Mathematical Tables, 28th ed.”

24、;Goulden 1956 “Methods of Statistical Analysis, 2nd ed.”)??梢钥闯觯杂啥瘸^一百時(shí),二者的差別就已經(jīng)相當(dāng)小了。所以,當(dāng)樣本量的數(shù)量級(jí)是100個(gè)或以上時(shí),可以直接認(rèn)為t比率服從標(biāo)準(zhǔn)正態(tài)分布,并以此做檢驗(yàn)。90% 95% 97.5% 99.5%1 3.07768 6.31375 12.7062 63.65672 1.88562 2.91999 4.30265 9.924843 1.63774 2.35336 3.18245 5.840914 1.53321 2.13185 2.77645 4.604095 1.47588 2.01505

25、2.57058 4.0321410 1.37218 1.81246 2.22814 3.1692730 1.31042 1.69726 2.04227 2.75000100 1.29007 1.66023 1.98397 2.625891.28156 1.64487 1.95999 2.57588讀者讀到這里可能會(huì)笑話我了,stata不是已經(jīng)報(bào)告了t檢驗(yàn)的p值和置信區(qū)間了嗎?為什么不直接察看這些結(jié)果呢?原因在于實(shí)證文獻(xiàn)往往只報(bào)告參數(shù)的估計(jì)值和標(biāo)準(zhǔn)誤,需要讀者自己將估計(jì)值和標(biāo)準(zhǔn)誤相除,計(jì)算顯著性。而且當(dāng)你在寫實(shí)證文章時(shí),也應(yīng)該報(bào)告參數(shù)的估計(jì)值和標(biāo)準(zhǔn)誤。這比報(bào)告估計(jì)值和它的p值更規(guī)范。伴隨回歸命令

26、的一個(gè)重要命令是predict。回歸結(jié)束后,使用它可以得到和回歸相關(guān)的一些關(guān)鍵統(tǒng)計(jì)量。語法如下:predict (新變量名), (統(tǒng)計(jì)量名)這里的統(tǒng)計(jì)量名是一些選項(xiàng)。常用的選項(xiàng)有:xb(回歸的擬合值。這是默認(rèn)選項(xiàng),即不加任何選項(xiàng)時(shí),predict賦予新變量前一個(gè)回歸的擬合值。);residuals(殘差);leverage(杠桿值)。下面具一個(gè)例子來解釋predict的用法。有時(shí)樣本中的一個(gè)特別的觀察值會(huì)顯著地改變回歸結(jié)果。這樣的觀察值可以籠統(tǒng)地分為三類:outliers,leverage和influence。Outliers是針對(duì)殘差而言的,指那些回歸中殘差很大的觀察;leverage是針對(duì)

27、解釋變量而言的,是解釋變量相對(duì)其平均值偏里很大的觀察;influence是針對(duì)估計(jì)結(jié)果而言的。如果去掉這個(gè)觀察會(huì)明顯地改變估計(jì)值,那么這個(gè)觀察就是一個(gè)influence。Influence可以看作outliers和leverage共同作用的結(jié)果。異常觀察可能是由于樣本的特性,也可能是因?yàn)殇浫脲e(cuò)誤??傊?,我們希望找到它們?;貧w后的predict命令可以發(fā)現(xiàn)這些異常觀察(命令來自UCLA的“Regression with Stata”第二章)。發(fā)現(xiàn)outliers,leverage和influence的命令如下:predict rs, rstudentpredict l, leveragepred

28、ict csd, cooksdpredict df, dfits這些統(tǒng)計(jì)量都有相應(yīng)的關(guān)鍵值。當(dāng)統(tǒng)計(jì)量(或其絕對(duì)值)超過關(guān)鍵值時(shí)就應(yīng)該仔細(xì)檢查相應(yīng)的觀察,確認(rèn)是否屬于錄入錯(cuò)誤。rstudent是用來發(fā)現(xiàn)outliers的統(tǒng)計(jì)量,其關(guān)鍵值是2,2.5和3。leverage 是用來發(fā)現(xiàn)leverage 的統(tǒng)計(jì)量,其關(guān)鍵值是(2k+2)/n,其中k解釋變量的個(gè)數(shù),n是樣本量。Cooksd和DFITS是探測(cè)influence的統(tǒng)計(jì)量。它們都綜合了殘差和杠桿的信息,而且二者非常類似,只是單位不同,因而給出的結(jié)果也差不多。Cooksd的關(guān)鍵值是4/n。DFITS的關(guān)鍵值是2*sqrt(k/n)。(續(xù))在使用

29、最小二乘法估計(jì)時(shí),兩個(gè)通常被質(zhì)疑的問題是數(shù)據(jù)是否存在多重共線性和異方差。多重共線性是指解釋變量之間的相關(guān)性。通常我們假設(shè)解釋變量之間是相關(guān)的,而且允許解釋變量存在相關(guān)性,并控制可以觀察的因素正是OLS的優(yōu)點(diǎn)。如果把多重共線性看作一個(gè)需要解決的問題,那么需要把它解釋為相關(guān)性“較大”。這樣,變量之間沒有相關(guān)性不好,相關(guān)性太大也不好,優(yōu)劣的分割真是頗費(fèi)琢磨。而且多重共線性并沒有違反任何經(jīng)典假定,所以,這個(gè)問題沒有很好的定義。本質(zhì)上講,在樣本給定時(shí),多重共線性問題無法解決,或者說它是一個(gè)偽問題。先看一下為什么解釋變量之間的相關(guān)性大會(huì)有問題。在OLS回歸的經(jīng)典假設(shè)(除正態(tài)假設(shè)外)下,某個(gè)系數(shù)的OLS估計(jì)

30、值的總體方差與擾動(dòng)項(xiàng)的方差成正比,與解釋變量的總方差(一般地,我們視解釋變量為隨機(jī)變量)成反比,是該變量對(duì)其它解釋變量回歸的擬合優(yōu)度的增函數(shù)。這個(gè)擬合優(yōu)度可以理解為該變量的總變動(dòng)中可以由其他解釋變量解釋的部分。當(dāng)這個(gè)值趨近于1時(shí),OLS估計(jì)值的總體方差趨向于無窮大。總體方差大時(shí),樣本方差也大的概率就大,t檢驗(yàn)就會(huì)不準(zhǔn)確。盡管多重共線性沒有違背任何經(jīng)典假設(shè),但是OLS方法有時(shí)無法準(zhǔn)確估計(jì)一些參數(shù)。這個(gè)問題可以理解為數(shù)據(jù)提供的信息不足以精確地計(jì)算出某些系數(shù)。最根本的解決方法當(dāng)然是搜集更大的樣本。如果樣本給定,也許我們應(yīng)該修改提出的問題,使我們能夠根據(jù)樣本數(shù)據(jù)做出更精確的判斷。去掉一個(gè)解釋變量,或者

31、合并一些解釋變量可以減少多重共線性。不過要注意的是去掉相關(guān)的解釋變量會(huì)使估計(jì)有偏。實(shí)際操作時(shí)使用方差膨脹系數(shù)衡量解釋變量的多重共線性。我們只需在回歸之后使用vif命令就可以得到方差膨脹系數(shù)。在命令行中敲入vif并回車,stata會(huì)報(bào)告一個(gè)包含所有解釋變量的方差膨脹系數(shù)的表格,如果方差膨脹系數(shù)大于10,這個(gè)變量潛在地有多重共線性問題。異方差是一個(gè)更值得關(guān)注的問題。首先簡(jiǎn)單地介紹一下異方差會(huì)帶來哪些問題。第一、異方差不影響OLS估計(jì)的無偏性和一致性。第二、異方差使估計(jì)值方差的估計(jì)有偏,所以此時(shí)的t檢驗(yàn)和置信區(qū)間無效。第三、F統(tǒng)計(jì)量不再服從F分布,LM統(tǒng)計(jì)量不再服從漸進(jìn)卡方分布,相應(yīng)的檢驗(yàn)無效。第四、異方差使OLS不再是有效估計(jì)??傊?,異方差影響推斷是否有效,降低估計(jì)的效率,但對(duì)估計(jì)值的無偏性和一致性沒有影響。知道

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論