缺失數(shù)據(jù)的插補調(diào)整重點_第1頁
缺失數(shù)據(jù)的插補調(diào)整重點_第2頁
缺失數(shù)據(jù)的插補調(diào)整重點_第3頁
缺失數(shù)據(jù)的插補調(diào)整重點_第4頁
缺失數(shù)據(jù)的插補調(diào)整重點_第5頁
已閱讀5頁,還剩9頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

1、文章編號:1002-1566(2001 06-0047-07缺失數(shù)據(jù)的插補調(diào)整金勇進(中國人民大學(xué)統(tǒng)計學(xué)系, 北京100872摘要:插補是另一類對缺失數(shù)據(jù)進行調(diào)整, 以減小估計偏差的方法估計, 均值插補, 隨機插補, 回歸插補和多重插補。關(guān)鍵詞:缺失數(shù)據(jù); 插補調(diào)整中圖分類號:O212;C81, 一種被稱為“單位無回答”, 它是指入選擇本單位由于各種原因沒有接受調(diào)查, 可以說這些樣本單位交的是一份白卷。另一種被稱為“項目無回答”, 它是指被調(diào)查單位雖接受調(diào)查, 但在某些調(diào)查項目上沒有提供有效回答。與單位無回答相比, 項目無回答或多或少地提供了一些被調(diào)查單位的信息。上一講中介紹的加權(quán)調(diào)整法雖然也

2、可以應(yīng)用于“項目無回答”, 但主要是對“單位無回答”進行的調(diào)整。而本文將要介紹的插補調(diào)整法雖然也可以應(yīng)用于“單位無回答”, 但主要是對“項目無回答”進行調(diào)整的方法。所謂插補是指, 采用一定的方式, 為調(diào)查中的缺失數(shù)據(jù)確定一個合理的替補值, 插補到原缺失數(shù)據(jù)的位置上。插補可以達到二個調(diào)整的目的:一個是減小由于數(shù)據(jù)缺失可能造成的估計量偏差, 為此, 就要使確定的替補值盡可能地接近缺失的原數(shù)據(jù)值。事實上缺失數(shù)據(jù)的真值我們無法得知, 因此所追求的只能是確定替補值方法的合理和有效。調(diào)整的第二個目的是力圖構(gòu)造一個完整的數(shù)據(jù)集。在調(diào)整前, 由于缺失值的存在, 使原數(shù)據(jù)集上出現(xiàn)許多“窟窿”, 給一些統(tǒng)計分析方

3、法的使用帶來不便。采用插補的方式填補了缺失值的空缺, 就為后面分析人員的工作提供了方便, 他們在使用標(biāo)準(zhǔn)統(tǒng)計軟件的同時, 不必繁瑣地說明對缺失值進行處理的方法, 大大節(jié)省了精力和時間。而且不同分析人員使用的是同一套經(jīng)過插補調(diào)整的數(shù)據(jù), 也保證了分析結(jié)果的一致性。插補的效率如何, 取決于替補值與缺失值的近似程度。為了提高效率, 對研究總體進行分層, 使層內(nèi)各單位諸方面情況盡可能相似, 利用同一層內(nèi)回答單位的信息產(chǎn)生出缺失數(shù)據(jù)的替補值, 是進行插補的基本思路。因為可以利用不同的信息源, 采用不同的方式生成替補值, 所以有不同的插補方法。本文將對幾種比較典型的方法做以簡要介紹。二、演繹估計法演繹估計

4、法適用于這樣一種情況, 目標(biāo)變量Y 的缺失值可以以很高的確定性由其它輔助74缺失數(shù)據(jù)的插補調(diào)整收稿日期:2000-08-20基金項目:國家教育部人文社會科學(xué)研究“九五”規(guī)劃項目資助課題變量來決定。這意味著, 目標(biāo)變量與輔助變量之間存在著已知的函數(shù)關(guān)系, 即Z i =f (X i 。式中Z i 是第i 個單位目標(biāo)變量缺失值的估計值(替補值 ,X i 是第i 個單位已知的輔助變量值。例如美國在一項關(guān)于醫(yī)療設(shè)備使用和費用的調(diào)查中, 多處使用演繹估計法對缺失值進行插補。1. 對種族缺失值的插補函數(shù)式為Z i =X i , 即如果某人種族數(shù)據(jù)缺失, 可采用其配偶的種族; 如果某家庭成員種族資料缺失, 可

5、使用戶主的種族。2. 如果年齡項目數(shù)據(jù)缺失, 則利用出生年份資料進行估計。若調(diào)查是在1990年進行, 令X i 為出生年份, 則Z i =1990-X i 。3. 若就業(yè)收入的數(shù)據(jù)缺失, 則利用其它4個相關(guān)的輔助變量信息推算。令X 1i 、X 2i 分別為該被調(diào)查者的主要職業(yè)和第二職業(yè)的周工資率,X 3i 、X 4i 分別為其在主要職業(yè)和第二職業(yè)上的工作周數(shù)入的估計值為Z i =X 1i . X 3i +X 2i . X 4i 。由此看出,f (X i 可假定為許多不同的形式Y(jié) 與關(guān)系, 且X 值已知。實踐中, 。三, 使組內(nèi)各單位的主要特征相似。然后分別計算各, 將各組均值作為組內(nèi)所有缺失項

6、的替補值。均值插補法的特點是操作簡便, 并且對均值和總量這樣的單變量參數(shù)可以有效地降低其點估計的偏差。但它的弱點也比較突出。一個是插補的結(jié)果歪曲了樣本單位中Y 變量的分布, 因為同組中缺失數(shù)據(jù)的替補值都由該組的平均值充當(dāng), 使得其分布狀況受到由各組回答單位數(shù)據(jù)計算出的組均值的制約, 其次, 插補結(jié)果將導(dǎo)致在均值和總量估計中對方差的低估, 因為同一組內(nèi)樣本單位的離差將由于同一個數(shù)值的多次出現(xiàn)而偏低, 因此均值插補適用的場合是僅僅進行簡單的點估計, 而不適用于需要方差估計等比較復(fù)雜的分析。四、隨機插補法為避免均值插補中替補值過于凝集的弱點, 隨機插補應(yīng)運而生。這種方法是指, 采用某種概率抽樣的方式

7、, 從回答單位的資料中抽取缺失數(shù)據(jù)的替補值。為便于說明, 令某項目回答數(shù)據(jù)個數(shù)為n 1, 缺失數(shù)據(jù)個數(shù)為n 0, 則n =n 1+n 0, 現(xiàn)從n 1個數(shù)據(jù)中隨機抽取n 0個替補值, 則樣本構(gòu)成為:樣本=y1,y 2, ,y n 1,y 3n 1+1,y 3n 1+2, ,y 3n 此時, 目標(biāo)變量的均值估計為:y hD =n(n 1 y 1+n 0 y 3式中, y 3=n1i =1H i y i /n 0, 如果采用不重復(fù)抽樣, H i =0或1; 如果采用重復(fù)抽樣, 則H 為多項式分配, 若h 1+h n1=n -n 1, 則PH =(h 1,h 2, ,h n 1 =( h 1! h

8、2! h n 1!否則上面所定義的概率為0, 由此得出E (H i =n 184數(shù)理統(tǒng)計與管理20卷5期2001 年Var (H i =(n -n 1 (1-n 1 n 1Cov (H i ,H j =-n 21(i j 若假設(shè)i 與j 獨立, 由上面結(jié)果可以導(dǎo)出E ( y HD = Y Var ( y HD =(n 1-N S 2+(1-n 1 (1-nS 2式中,S 2為總體方差??梢钥闯? 隨機插補法估計量 y HD , 第一項是僅用回答單位數(shù)據(jù)進行估計的方差, 即Var ( y 1 =(N 2n 1=(n 1-NS 2, 量方差增加項。, 變量分布的弱點, , 這就使隨機插補法在估計與

9、樣本分布, , 將樣本單位進行事后分層, 然后在各層中使用, 。五、回歸插補法回歸插補的基本思想是利用輔助變量X k =(k =1,2k 與目標(biāo)變量Y 的線性關(guān)系, 建立回歸模型, 利用已知的輔助變量的信息, 對目標(biāo)變量的缺失值進行估計。于是第i 個缺失值的估計值可以表示為:Z i =0+Kk =1k X ki +e i 式中的是回歸系數(shù)。若輔助變量是定性變量時, 可以采用虛擬變量的處理方法:若目標(biāo)變量Y 是定性變量, 則考慮通過Logit 變換, 進行Logistic 線性回歸。與隨機插補和均值插補的不同點在于:Zi 不是取自回答單位的實際值, 也不是由回答單位數(shù)據(jù)計算的均值, 而是利用目標(biāo)

10、變量與輔助變量的線性關(guān)系, 采用標(biāo)準(zhǔn)方法(如最小平方法 計算出的估計值。上面的回歸模型可以有不同的演變形式。例如, 對于連續(xù)性固定樣本調(diào)查中的缺失值, 令0=e i =0, 并指定前期調(diào)查數(shù)據(jù)為唯一的輔助變量, 則上式變成:Z i =X i , 這便是簡單比率插補, 即用時間的變化, 對前一期的回答數(shù)據(jù)進行調(diào)整, 并做為本次調(diào)查缺失值的替補值。應(yīng)用回歸插補法中一個討論的問題是e i 的處理, 因為經(jīng)過回歸后,Z i 的估計為Z i =0+Kk =1k X ki , 對于相同的X k (k =1,2, k , 得到的替補值是相同的, 這就會和均值插補一樣, 存在樣本分布扭曲的問題。為此需要構(gòu)造隨

11、機殘差e 的數(shù)據(jù)集。構(gòu)造的方法有多種, 比較典型的一種方法是, 根據(jù)輔助變量X k 將樣本單位分層, 在各層中將回答單位數(shù)值與其均值的離差視為殘差e , 在用回歸法得到Z i 后, 在該層的殘差集中隨機抽取Z i 的殘差項, 并將其和作為缺失值的替補, 即:Zi =Z i +e i 。最后, 由回答數(shù)據(jù)y i 和回歸替補值Z i , 得到目標(biāo)變量的估計值為Y =n1y i +nZ in94 缺失數(shù)據(jù)的插補調(diào)整六、處理缺失數(shù)據(jù)的多重插補法(一 什么是多重插補法在上面介紹的插補方法均是單一差補法, 即對每個由于無回答造成的缺失值只構(gòu)造一個插補值。單一插補法存在這樣或那樣的局限, 如均值插補容易扭曲

12、樣本分布, 隨機插補的穩(wěn)定性不夠, 等等。能否有一種方法綜合起單一插補法的各自特長, 而將其弱點降低到最小程度? 多重插補法就是在這個背景下提出的。美國哈佛大學(xué)統(tǒng)計系的Rubin 教授70出多重插補的思想,80年代中與其他學(xué)者一起進一步擴展, 。90年代許多學(xué)者對這種方法繼續(xù)研討, 多重插補的主要思想是, , m 個完全數(shù)據(jù)集, m 個處理結(jié)果, 最后再綜合這m 處理結(jié)果, m 個插補值的目的是模擬一定條件下的估, , , 研究人員可以借此估計目標(biāo)量的實際后驗分布(二 多重插補法的理論證明來源于貝葉斯理論, 它由Rubin 在80年代初期以一系列的論文提出, 其基本的理論架構(gòu)被他整理在一本書中

13、(Rubin “Multiple Imputation for Nonresponse inSurveys ”, 這里僅對其推斷理論做一簡要介紹, 假定我們的目標(biāo)是從一個有缺失的調(diào)查數(shù)據(jù)集中推斷目標(biāo)總體, 并且缺失值的后驗分布(給定回答值的條件分布 可以獲得, 那么目標(biāo)總體的后驗分布由下式給出:h (Y obs =g (Y obs , Y mis f (Y mis Y obs d Y mis 式中, Y obs 表示回答數(shù)據(jù)的集合, Y mis 表示缺失數(shù)據(jù)的集合,h (表示目標(biāo)變量的后驗密度函數(shù),g (為的完全數(shù)據(jù)后驗密度,f ( 為缺失數(shù)據(jù)的后驗密度。目標(biāo)變量通常是k 維列向量, 如果調(diào)查

14、數(shù)據(jù)集是理想的, 即不存在缺失值, 對的推斷將有如下形式:(- N (0, 這里,是的一個統(tǒng)計量, 是(- 的方差估計量(通常是一個k k 的協(xié)方差陣 ,N (0, 是有著均值為0和方差為的k 元正態(tài)分布。假定由于出現(xiàn)缺失數(shù)據(jù),n 個樣本單位中只有n 1個單位提供了回答, 即Y =(Y 1, , Y n 1 被記錄下來, Y obs 是n 1記錄值的向量, Y mis 是 n 0個缺失值的向量(n =n 1+n 0 。又假定在一個給定的貝葉斯模型里, 采用適當(dāng)?shù)姆椒? 對每個缺失值構(gòu)造了m 個插補值, 由此產(chǎn)生了m 套完全數(shù)據(jù)。于是對和而言, 有1,2m 和1, 2m 。將m 套經(jīng)過插補的數(shù)據(jù)

15、集合并, 得到的多重插補估計值為 mi =mi =1i /m多重插補的方差估計包括兩部分, 插補數(shù)據(jù)集內(nèi)的方差和插補數(shù)據(jù)集間的方差。插補數(shù)據(jù)集內(nèi)的方差為=mi i /m插補數(shù)據(jù)集間的方差為05數(shù)理統(tǒng)計與管理20卷5期2001年B =mi =1(i - mi 2/(m -1于是多重插補的方差估計T mi 表示為T mi =+(1+mB 可以把調(diào)整系數(shù)(1+m -1 看成的模擬誤差。當(dāng)m 足夠大時, 對的統(tǒng)計推斷為:(- mi N (0, T mi 即的95%的置信區(qū)間是 mi 1. 96T 1/2mi當(dāng)m 比較小時, 對的推斷則建立在t 分布基礎(chǔ)上 mi t df (/2 T 1/2mi此時的自

16、由度df 為df =(m -1 (1+( , 請參閱Rubin 的書(見參考文獻1 。NORM ,SOLAS (2. 0版本 ,SAS (8. 0版本 , AM EL IA (三 一個例子這里用一個例子來說明多重插補法的使用, 例子取自于Rubin 的書(19-22頁 。此例展示了多重插補法的三個步驟:插補、分析、合并。假定從一總體N =1000中采用簡單隨機抽樣, 抽取n =10的一個樣本, 目標(biāo)變量Y , 輔助變量X , 調(diào)查中無回答率為20%, 即y 4,y 6缺失, 具體數(shù)據(jù)如下:表一有缺失的數(shù)據(jù)集x i 4689111316182025y i420101416151822步驟插補由上

17、數(shù)據(jù)知, 目標(biāo)變量Y 與輔助變量X 存在相關(guān)關(guān)系, 假定采用簡捷的最近距離法為每個缺失值插補兩次, 即m =2。第一個缺失值的輔助變量x =9, 與其最近距離的有x =8和x =11, 故取與之對應(yīng)的y =10和y =14為第一個缺失值的插補值。同樣的方法, 第二個缺失值的插補值為y =16和y =14, 由此形成兩個完全數(shù)據(jù)集。表二完全數(shù)據(jù)集x i 4689111316182025y (1 i 420101416151822 y (2i 420101416151822在三個步驟中, 插補這個步驟甚為關(guān)鍵, 實際處理中需要根據(jù)具體情況, 選擇適當(dāng)?shù)牟逖a模型。步驟二分析現(xiàn)在我們感興趣的是比估計量

18、。根據(jù)比估計公式15缺失數(shù)據(jù)的插補調(diào)整Www. statsolusa. com(J. L Schafer 數(shù)理統(tǒng)計與管理 卷 期 20 5 2001 年 52 YR = y X x i i = RX 將第一個數(shù)據(jù)集數(shù)據(jù)帶入 ,且已知 X = 12 ,故 Y R1 = y 1 12 x ( i i = 13 . 38 將第二個數(shù)據(jù)集數(shù)據(jù)代入 ,可求出 Y R2 = y 2 12 x ( i i = 13 . 57 由此估計方差估計量公式 v = 1 - f n ( s 2 + R 2 s 2x - 2 R ssy y n n 式中 , f = n/ N , s 2 = y n ( y i - y

19、 2 / ( n - 1 , s 2x = ( x i - x 2 / ( n - 1 , s xy = ( x i - x ( y i - y / ( n - 1 由表二數(shù)據(jù)可以計算出 ,v1 = 2. 965 ,v2 = 3. 157 步驟三 合并 將步驟二的結(jié)果加以合并 ,也即 m m i = i =1 / i m = 1 ( 13 . 38 + 13 . 57 = 13 . 48 2 B = Tmi = + (1 + = 1 m 1 m ( v 1 + v 2 + ( 1 + 1 m ( Y i - i 2 / ( m - 1 m 1 1 ( 2 . 965 + 3 . 157 + (

20、 1 + 0 . 018 = 3 . 073 2 2 由此便可以對 Y 的置信區(qū)間進行估計 。 七、 總結(jié) 插補調(diào)整常用于對項目缺失數(shù)據(jù)的處理 。造成項目數(shù)據(jù)缺失的原因有多種 , 比較常見的 有項目無回答 ,此處缺失值還產(chǎn)生異常值的剔除 。雖然這些異常值是回答者實際提供的 ,但由 于它們是極端值 ,把它們修正為正常值對分析可能更有利 。當(dāng)然 ,在數(shù)據(jù)審核中 ,把明顯的 ,不 會邏輯的數(shù)據(jù)刪去 ,用插補法進行調(diào)整 ,也是一種補救措施 。與花費很高費用去尋找正確數(shù)值 相比 ,或與用可疑數(shù)據(jù)進行分析相比 ,采用插補法對可數(shù)據(jù)進行修正是可以考慮的選擇 。 多重插補法提出了處理缺失數(shù)據(jù)的一個新思路 。這

21、種方法采用模擬數(shù)據(jù)的方式 , 盡可能 地提取調(diào)查中的有效信息 。與單一插補法相比 ,多重插補法具有一些明顯的優(yōu)點 : 首先 ,該方 法利用多個插補值之間的變異性反映缺失值的不確定性 ,進而為估計抽樣誤差提供了依據(jù) ; 其 次 ,多重插補可以保持研究變量之間的相關(guān)性 ,不像單一插補那樣容易扭曲變量間的關(guān)系 ,這 樣 ,它的應(yīng)用范圍就更加廣泛 。例如 ,如果調(diào)查中的無回答率較高 ,單一插補的估計效率會受 到很大影響 ,而多重插補所受影響則相對小得多 ; 最后 ,插補的效果與構(gòu)造插補值的模型有關(guān) , 多重插補數(shù)據(jù)可以模擬特定方法下估計值的分布以及總體參數(shù)的貝葉斯后驗分布 ,這就為更 好地理解和進一步

22、改進插補方法提供了發(fā)展空間 。 缺失數(shù)據(jù)的插補調(diào)整 53 當(dāng)然 ,多重插補法的操作比較復(fù)雜 ,工作量大 ,與單一插補法相比 ,成本增加許多 ,因此有 些學(xué)者置疑 ,估計質(zhì)量的提高能否補償增大的成本 ; 還有 ,在多重插補的理論與應(yīng)用方面 ,有些 學(xué)者也持有疑議 ??磥?,對多重插補的理論與應(yīng)用研究還會繼續(xù)下去 。 插補法的運用離不開輔助信息 。相對于目標(biāo)變量的缺失值而言 , 輔助信息既可以來自于 同一次調(diào)查 ,也可以取自于以前的調(diào)查或其它有關(guān)資料 。顯然 ,輔助信息的質(zhì)量越高 ,與目標(biāo) 變量的統(tǒng)計關(guān)系越密切 ,使用插補法的效果就越好 。但即便如此 ,在使用調(diào)整后的數(shù)據(jù)集時都 應(yīng)時刻注意 ,畢竟

23、此 “完全數(shù)據(jù)集” 非彼完全數(shù)據(jù)集 ,在使用分析結(jié)果時對該結(jié)果抱一種客觀而 謹(jǐn)慎的態(tài)度 。 參考文獻 1 T seeler , D L Kalsbeek 。 調(diào)查中的非抽樣誤差M北京 : 中國統(tǒng)計出版社 ,1997 ,12. . 2 金勇進 非抽樣誤差分析M北京 : 中國統(tǒng)計出版社 ,1996 ,2. . . 3 金勇進 ,朱琳 不同插補方法的比較J 數(shù)理論統(tǒng)計與管理 ,2000 , ( 4 . . . 4 Donald B. Rubin. Multiple Imputation for Nonresponse in Surveys MJohn Wiley ,1987. . 5 Donald

24、B. Rubin , Nat haniel Schenker Multiple Imputation in Healt hcare Databases J Statistics in medicine , . 1991 ,10 :585 - 598. 6 Rao. Developments in Sample Survey t heory :an Appraisal The Canadian journal of statistics ,vol25 ,No1 , J . 1997 ,25 ( 1 :1 - 21. 7 趙民德 ,謝邦昌 . 探索真相 抽樣理論和實務(wù) 臺北 : 曉園出版社 ,1999. M . Imputation adjustment method f or missing data J IN Yong2jin ( The Department of Statistics , Renmin University of China , Beijing ,100872 Abstract :Imputation is anot her sort of adjustment met hods to reduce t he bias of estimation

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論