前面討論的簡單隨機抽樣和分層抽樣_第1頁
前面討論的簡單隨機抽樣和分層抽樣_第2頁
前面討論的簡單隨機抽樣和分層抽樣_第3頁
前面討論的簡單隨機抽樣和分層抽樣_第4頁
前面討論的簡單隨機抽樣和分層抽樣_第5頁
已閱讀5頁,還剩51頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、 前面討論的簡單隨機抽樣和分層抽樣,我們所關(guān)心的參前面討論的簡單隨機抽樣和分層抽樣,我們所關(guān)心的參數(shù)都是單指標的,給出的估計量也是線性形式。這一章我們數(shù)都是單指標的,給出的估計量也是線性形式。這一章我們將要討論比較復(fù)雜的情況,我們關(guān)心的參數(shù)不再是單指標的將要討論比較復(fù)雜的情況,我們關(guān)心的參數(shù)不再是單指標的而是兩個或兩個以上的指標。此時,遇到的統(tǒng)計量不再是線而是兩個或兩個以上的指標。此時,遇到的統(tǒng)計量不再是線性形式,往往呈現(xiàn)出非線性形式,比如兩個變量之比,或呈性形式,往往呈現(xiàn)出非線性形式,比如兩個變量之比,或呈現(xiàn)變量之間的回歸關(guān)系?,F(xiàn)變量之間的回歸關(guān)系。第五章第五章 比估計與回歸估計比估計與回歸

2、估計 所謂回歸關(guān)系就是變量之間的關(guān)系不是確定的,是帶有所謂回歸關(guān)系就是變量之間的關(guān)系不是確定的,是帶有隨機影響的。比如身高和體重的關(guān)系,身高增加時,一般來隨機影響的。比如身高和體重的關(guān)系,身高增加時,一般來說,體重也會增加,但又不能說一定如此。要確定身高和體說,體重也會增加,但又不能說一定如此。要確定身高和體 1 1 概概 述述一、問題的提出一、問題的提出重的關(guān)系,一般用回歸的方法。這類問題首先是由英國統(tǒng)計重的關(guān)系,一般用回歸的方法。這類問題首先是由英國統(tǒng)計學(xué)家高爾頓研究兒子的身高與父親身高關(guān)系時提出的,他發(fā)學(xué)家高爾頓研究兒子的身高與父親身高關(guān)系時提出的,他發(fā)現(xiàn)現(xiàn)兒子的身高有回到家族平均身高的

3、趨勢兒子的身高有回到家族平均身高的趨勢,因而,因而把所得關(guān)系把所得關(guān)系式稱為回歸方程式稱為回歸方程,于是回歸的名詞就沿用下來了。,于是回歸的名詞就沿用下來了。比估計與比例估計比估計與比例估計輔助變量:用來幫助主要指標估計的其他指標。輔助變量:用來幫助主要指標估計的其他指標。二、比估計與回歸估計的作用與使用條件二、比估計與回歸估計的作用與使用條件(一)作用:提高估計的精度(一)作用:提高估計的精度(二)使用條件(二)使用條件1.主要指標與輔助變量之間有良好的線性相關(guān)關(guān)系。主要指標與輔助變量之間有良好的線性相關(guān)關(guān)系。2.輔助變量的總體總量或均值是已知的輔助變量的總體總量或均值是已知的。2 2 比比

4、 估估 計計 設(shè)有一個二元變量的總體設(shè)有一個二元變量的總體 :(,)X Y1122(,),(,),(,)NNX YX YXY有有 4 個參數(shù)是我們所熟悉的:個參數(shù)是我們所熟悉的:XY、指標指標 的平均數(shù)的平均數(shù)XY、2211()1NXiiSXXN 2211()1NYiiSYYN 指標指標 的方差的方差XY、如果簡單隨機樣本為如果簡單隨機樣本為 ,則,則 及及 的估計為:的估計為:(,)(1,2, )iixyin (,)Cov X Y 在研究比估計之前,再引進一個新的參數(shù)在研究比估計之前,再引進一個新的參數(shù)變量之間變量之間的協(xié)方差:的協(xié)方差:11(,)()()1NiiiCov X YXXYYN

5、(5.1)XY、之間的之間的相關(guān)系數(shù)相關(guān)系數(shù)定義為:定義為:(,)()( )Cov X YVar XVar Y 1112211()()()()NiiiNNiiiiXXYYXXYY (5.2)11()()1nxyiiiSxxyyn (5.3)1112211()()()()niiinniiiixxyyxxyy (5.4)在討論比估計之前,先考察總體的兩個平均數(shù)之比,即在討論比估計之前,先考察總體的兩個平均數(shù)之比,即RYX 由于由于 分別是分別是 的無偏估計,的無偏估計, 的估計自然定義為的估計自然定義為,x yX Y, ,RRy x 假如假如 或或 已知,總體平均數(shù)已知,總體平均數(shù) 與總體總和與總

6、體總和 的比估計的比估計量定義為:量定義為:XXYYRyyyR XXXxx(5.5)RyyyR XXXxx(5.6)通常的比估計是指通常的比估計是指 (5.5) 式與式與 (5.6) 式,而式,而 則稱為比值則稱為比值 的的估計。估計。RR由由 (5.5) 式與式與 (5.6) 式可知,式可知, 與與 的習(xí)性主要依賴于估計量的習(xí)性主要依賴于估計量 ,因此在不少場合,我們常用,因此在不少場合,我們常用 來說明。來說明。RRRyRy 盡管盡管 分別是分別是 的無偏估計,由于的無偏估計,由于 的非線性形式,因的非線性形式,因此此 關(guān)于關(guān)于 是有偏的,從而是有偏的,從而 關(guān)于關(guān)于 也是有偏的。也是有偏

7、的。,x yX Y, ,RRR,RRyy ,Y Y一個合理的估計量,應(yīng)該隨著樣本容量一個合理的估計量,應(yīng)該隨著樣本容量 n 的增加,估計量的的增加,估計量的期望與參數(shù)之差應(yīng)該越來越小并漸漸趨于零,即期望與參數(shù)之差應(yīng)該越來越小并漸漸趨于零,即“漸近無偏漸近無偏”比估計是否漸近無偏呢?比估計是否漸近無偏呢?利用利用Taylor展開式,有展開式,有將比估計將比估計 表示為:表示為:Ry x (1)yyRxXxXX 21yyxXxXRxXXX 21yxXxXXXX (5.7)當當 n 相當大時,相當大時, 與與 相當接近,而相當接近,而 是常數(shù),又是常數(shù),又 是是 的的無偏估計,因此,實質(zhì)上無偏估計,

8、因此,實質(zhì)上 ,所以,所以 。xXXYy( )E RR Ry X (5.7)式的好處不單單告訴我們式的好處不單單告訴我們 這一事實,而且告這一事實,而且告訴了我們,當訴了我們,當 n 相當大時,相當大時, ,表明,表明 可以表示成可以表示成 的平均數(shù),因此的平均數(shù),因此 的分布可近似正態(tài)分布的分布可近似正態(tài)分布( )E RR Ry X R(1,2, )iy Xin R因此,可利用因此,可利用 近似標準正態(tài)分布獲得近似標準正態(tài)分布獲得 的置信區(qū)間的置信區(qū)間( )RRVar R R而而22221( )(2)YXXYfVar RSR SRSnX (5.8)另外另外2221()(2)RYXXYfVar

9、 ySR SRSn (5.9)2222(1)()(2)RYXXYNfVar ySR SRSn (5.10)公式公式(5.8)、(5.9)、(5.10)為我們提供了為我們提供了 的估計量的形式。具體計算時,只要將的估計量的形式。具體計算時,只要將 分別換為分別換為 即可。我們將由此得到的估計量分別記為:即可。我們將由此得到的估計量分別記為:( ),(),()RRVar R Var yVar y 22,XYXYSS SR22,XYXYss sR2)XYRs ( )v R 22221(YXfsR snx 2221(YXfsR sn 2)XYRs ()Rv y 2222(1)(YXNfsR sn 2)

10、XYRs ()Rv y 那么,那么, 的置信水平為的置信水平為 的置信區(qū)間分別為:的置信區(qū)間分別為:,R Y Y (1) ()Ruv y Ry( , )()Ruv y Ry()uv R R( )uv R R( , )(5.11) 下面說明比估計的優(yōu)點。主要針對下面說明比估計的優(yōu)點。主要針對 與與 來說明,因為來說明,因為它們僅相差一個常數(shù)因子,因此,只需討論其中一個就可以。它們僅相差一個常數(shù)因子,因此,只需討論其中一個就可以。RyRy 當當 n 充分大時,充分大時,2221()(2)RYXXYfVar ySR SRSn 21( )YfVar ySn 而而欲使欲使 ,僅需,僅需()( )RVar

11、 yVar y 2220XXYR SRS 或或2220XXYR SR S S 即即11222XXXYYYRSSXCSSYC (5.12)( , )()Ruv y Ry ()Ruv y Ry (5.12)表明,如果變量表明,如果變量X與與Y正相關(guān),且相關(guān)程度非常密正相關(guān),且相關(guān)程度非常密切的話,那么比估計的精度高于簡單隨機抽樣的精度。如果切的話,那么比估計的精度高于簡單隨機抽樣的精度。如果相關(guān)程度不那么密切(相關(guān)程度不那么密切( ),此時已知的),此時已知的X信息并信息并沒有較多地提供沒有較多地提供Y的信息,借助的信息,借助X來推斷來推斷 也許會也許會“幫倒忙幫倒忙”假如假如X與與Y是負相關(guān),則

12、更不能采用比估計方法,此時應(yīng)采用是負相關(guān),則更不能采用比估計方法,此時應(yīng)采用所謂乘積估計,即:所謂乘積估計,即:Y2XYCC 當當 n 充分大時,且滿足:充分大時,且滿足:1122XXYYSXCSYC (5.14),ppxyxyyyNXX (5.13)成立成立()( )RVar yVar y 例例5.1 某縣小麥種植面積為某縣小麥種植面積為218756畝,分布在畝,分布在N=576個村,為個村,為估計全縣產(chǎn)量,隨機無放回地抽取估計全縣產(chǎn)量,隨機無放回地抽取n=24個村,所得數(shù)據(jù)如下個村,所得數(shù)據(jù)如下123456789101112131415161718192021222324112.0129.

13、1208.2158.5110.2123.3157.7154.298.7112.7125.560.3302361608444298349416428258347351158105.780.5163.098.7137.8141.2152.5142.5136.7153.293.0179.8308217492280378386428390376432261483i村村i村村()iy產(chǎn)量噸產(chǎn)量噸()iy產(chǎn)量噸產(chǎn)量噸()ix面積畝面積畝( )ix面面積積 畝畝每個村有兩個指標:每個村有兩個指標:面積面積 和和產(chǎn)量產(chǎn)量 ,即:,即: ixiy(,)iixy經(jīng)計算可得:經(jīng)計算可得:364.625x 130.6

14、25y 21112.195xs 29498.505ys 3213.110 xys 218756X 218756379.7847576X 所以該縣平均畝產(chǎn)小麥估計為:所以該縣平均畝產(chǎn)小麥估計為:130.6250.358245()364.625yRx 噸噸 畝畝218756 0.35824578368.2()RyXR 噸噸采用比估計可得采用比估計可得 和和 分別為:分別為:Ry ()Rv y 2222(1)(yxNfsR sn 2)xyRs ()Rv y 385080 僅利用僅利用 數(shù)據(jù)估計該縣小麥總產(chǎn)量數(shù)據(jù)估計該縣小麥總產(chǎn)量 與估計量方差分別為:與估計量方差分別為:yY 576 130.6257

15、5240()yN y 噸噸22(1)( )14734359yNfv ysn 顯然,顯然, 的方差遠遠小于的方差遠遠小于 的方差。理由很清楚!小麥畝產(chǎn)的方差。理由很清楚!小麥畝產(chǎn)量與土地擁有量呈現(xiàn)正相關(guān),且相關(guān)程度相當密切,因此,量與土地擁有量呈現(xiàn)正相關(guān),且相關(guān)程度相當密切,因此,在抽樣調(diào)查中對每個村了解有關(guān)產(chǎn)量和土地畝數(shù),利用已知在抽樣調(diào)查中對每個村了解有關(guān)產(chǎn)量和土地畝數(shù),利用已知該縣土地的固有已知數(shù),能比較精確地推斷總產(chǎn)量。事實上該縣土地的固有已知數(shù),能比較精確地推斷總產(chǎn)量。事實上在實際操作中人們正是這樣去做的!在實際操作中人們正是這樣去做的!Ry y 現(xiàn)在來求總產(chǎn)量的現(xiàn)在來求總產(chǎn)量的95的

16、置信區(qū)間,首先的置信區(qū)間,首先置信區(qū)間為:置信區(qū)間為:()Ruv y Ry ( , )()Ruv y Ry ()620.55()Rv y 噸噸1.96u (77152,79584) 2 2 分層抽樣中的比估計分層抽樣中的比估計1、分別比估計、分別比估計 設(shè)總體分為設(shè)總體分為 k 層,第層,第 h 層的樣本均值記為層的樣本均值記為 ,在該層,在該層中中 與與 的比估計記為的比估計記為 ,又記,又記 和和 為第為第 h 層中指標層中指標 的平均數(shù)與總和,的平均數(shù)與總和, 與與 分別為該層中分別為該層中 的方差的方差和協(xié)方差,若和協(xié)方差,若 換為換為 , 換為換為 ,則顯然表示該層樣本,則顯然表示該

17、層樣本的方差和協(xié)方差。的方差和協(xié)方差。,hhyxhYhY ,RhRhyy hXhX X22,YhXhSSYXhS,Y XSs,Y X, y x我們可以得到有關(guān)總體我們可以得到有關(guān)總體 和和 的分別比估計為:的分別比估計為:YY 分層抽樣中的比估計有兩種:一是分層之后,先在各層分層抽樣中的比估計有兩種:一是分層之后,先在各層獲得比估計,然后按層權(quán)平均得到總體參數(shù)估計;二是先對獲得比估計,然后按層權(quán)平均得到總體參數(shù)估計;二是先對 作分層估計,然后再采用比估計方法。前者稱為作分層估計,然后再采用比估計方法。前者稱為分別比分別比估計估計,后者稱為,后者稱為聯(lián)合比估計聯(lián)合比估計。,Y X1111kkkh

18、hRShRhhhhhhhhhyyyW yWXXxNx (5.15)11kkhRSRShRhhhhyyN yXyx (5.16)由上節(jié)可知,各層中的由上節(jié)可知,各層中的 是是 的漸近無偏估計量,因此的漸近無偏估計量,因此 是是 的漸近無偏估計量:的漸近無偏估計量:Rhy hY Y RSy 各層的抽樣又是獨立進行的,由各層的抽樣又是獨立進行的,由(5.10)式,可以近似得到式,可以近似得到 的方差或均方誤差,當各個的方差或均方誤差,當各個 都相當大時:都相當大時:RSy hn1()()kRSRhhE yE yY (5.17)()()RSRSMSE yVar y 22221(1)(2)khhYhhX

19、hhYXhhhNfSR SR Sn (5.18)hhhYRX (5.17), (5.18)告訴我們,即使每層告訴我們,即使每層 相當大,但如果層數(shù)相當大,但如果層數(shù)k比較大,由于誤差的積累,比較大,由于誤差的積累, 產(chǎn)生的偏倚與誤差可能相當產(chǎn)生的偏倚與誤差可能相當大。大。hnRSy2、聯(lián)合比估計、聯(lián)合比估計而而 的相應(yīng)(聯(lián)合)比估計可以寫成:的相應(yīng)(聯(lián)合)比估計可以寫成:,Y Y 將將 分別進行分層估計,然后相比即得總體的兩個分別進行分層估計,然后相比即得總體的兩個指標平均數(shù)之比的估計:指標平均數(shù)之比的估計:,X YststcststyyRxx (5.19)stRccstyyR XXx (5.

20、20)stR cR cstyyNyXx (5.21) 為與分別比估計進行比較,我們討論聯(lián)合比估計的期為與分別比估計進行比較,我們討論聯(lián)合比估計的期望和方差。當望和方差。當 n 相當大時,有相當大時,有()()RcRcMSE yVar y 22221(1)(2)khhYhXhYXhhhNfSR SR Sn (5.23)RY X 其中其中 為總體的比值。為總體的比值。()R cEyY (5.22)(5.22)表明,表明, 是是 的漸近無偏估計,的漸近無偏估計,(5.23)與與(5.18)非常相非常相似,唯一不同的是在似,唯一不同的是在(5.18)中用的是各層的比值中用的是各層的比值 ,而,而(5.

21、23)中用的是總體的比值中用的是總體的比值 。Rcy Y hRR3、分別比估計與聯(lián)合比估計的比較、分別比估計與聯(lián)合比估計的比較()()RcRsVar yVar y 22221(1)()2()khhhXhhYXhhhNfRRSRR Sn (5.24)22221(1)()2()()khhhXhhhYhXhhXhhhNfRRSRRS SR Sn 僅就總體總和進行比較。如果各層的僅就總體總和進行比較。如果各層的 相當大,由相當大,由(5.18)和和(5.23)可得:可得:hn當對一切當對一切 h 有有 時,這兩種估計方差相同,也就是說當時,這兩種估計方差相同,也就是說當分層對比值并無多大意義情況下,談

22、論分別比估計與聯(lián)合比分層對比值并無多大意義情況下,談?wù)摲謩e比估計與聯(lián)合比估計孰優(yōu)孰劣已經(jīng)無多大意義。估計孰優(yōu)孰劣已經(jīng)無多大意義。hRR 然而,如果各層有自己的特色,然而,如果各層有自己的特色, 不可能在每一層均等不可能在每一層均等于于 ,此時倘若對每一層來說,此時倘若對每一層來說, 與與 之間的關(guān)系是比例之間的關(guān)系是比例關(guān)系,即關(guān)系,即 ,此時,此時 ,于是,于是(5.24)式內(nèi)求式內(nèi)求和式內(nèi)每一項中括號內(nèi)第二部分等于零,這樣顯然有和式內(nèi)每一項中括號內(nèi)第二部分等于零,這樣顯然有hRRhiYhiXhihiYkX hYhhXhSR S ()()RcRsVar yVar y 即即“分別比估計分別比估

23、計”比比“聯(lián)合比估計聯(lián)合比估計”精度高一些。其實,只要比精度高一些。其實,只要比估計非常有效,即對一切估計非常有效,即對一切 h , 時,這一項值相時,這一項值相對地就小,此時中括號中均以第一部分占主導(dǎo)地位,仍有對地就小,此時中括號中均以第一部分占主導(dǎo)地位,仍有()()RcRsVar yVar y 2hXYCC 當然,有些層的當然,有些層的 不是相當大,這種場合分別比估計的偏倚不是相當大,這種場合分別比估計的偏倚可能很大而使總的均方誤差增大,于是我們寧可采用聯(lián)合比可能很大而使總的均方誤差增大,于是我們寧可采用聯(lián)合比估計的方法。估計的方法。hn3 3 數(shù)值例子數(shù)值例子 例例5.2 某地區(qū)有某地區(qū)

24、有976個自然村,根據(jù)該地區(qū)的地貌將各村所屬個自然村,根據(jù)該地區(qū)的地貌將各村所屬耕地劃為三種類型,各村按類型上報了耕地面積耕地劃為三種類型,各村按類型上報了耕地面積 (以畝計算以畝計算)為核實這些上報數(shù)據(jù),采用按比例分配的分層隨機抽樣方法為核實這些上報數(shù)據(jù),采用按比例分配的分層隨機抽樣方法在每一種類型中抽取若干村進行實測核實,倘若以在每一種類型中抽取若干村進行實測核實,倘若以 X表示上表示上報數(shù)據(jù),以報數(shù)據(jù),以Y表示實測數(shù)據(jù)表示實測數(shù)據(jù),抽樣結(jié)果如下表抽樣結(jié)果如下表:1h 2h 3h iii1iy1ix2iy3iy2ix3ix123456789101241 858 9611132 934 83

25、8 621 647 654 8481174 945 88411131031 792 586 609 599 82712345671030 93110391101 941 561 930 885 996 805 995 831 545 807 652 627 974149912001254 527 585 74111301140 952123456有關(guān)計算結(jié)果及其它數(shù)據(jù)如下表有關(guān)計算結(jié)果及其它數(shù)據(jù)如下表:hhNhWhX hnhyhxhhhyRx 2yhS2xhSyxhS976N 826800X 23n 933.6087y 847.7826x 1.101236yRx 257745yS 241146

26、xS 43051yxS 1234272972520.43750.30430.25823672002516002080001076873.4000933.28571034.3333856.0000837.7143845.83331.0203271.1140861.22285742064.93331221.571121470.66745710.88923294.90571846.96742055.66722692.42987713.867試對總體總和試對總體總和 (該地區(qū)實際耕地面積總和該地區(qū)實際耕地面積總和)用各種手法進行用各種手法進行估計估計.Y (1)簡單隨機抽樣估計簡單隨機抽樣估計 由于分

27、層抽樣是在各層按比例分配進行的,因此可以將由于分層抽樣是在各層按比例分配進行的,因此可以將23個村所得數(shù)據(jù)看作是從總體個村所得數(shù)據(jù)看作是從總體 976 個村中抽取的一個較合理個村中抽取的一個較合理的簡單隨機樣本,上表中最后一行的數(shù)據(jù)都是基于這樣的的簡單隨機樣本,上表中最后一行的數(shù)據(jù)都是基于這樣的“簡單隨機樣本簡單隨機樣本”而計算的。而計算的。976933.6087911202()yNy 畝畝為求精度,常用其標準差為求精度,常用其標準差()()()s yVar yNVar y 若用若用 ,則有,則有211( )()yVar ysnN 11()976()5774648324()23976s y 畝

28、畝然而我們的這些數(shù)據(jù)畢竟是從分層抽樣而得到的,利用分層然而我們的這些數(shù)據(jù)畢竟是從分層抽樣而得到的,利用分層估計真正的簡單隨機抽樣的平均數(shù)的方差,可以借用一個近估計真正的簡單隨機抽樣的平均數(shù)的方差,可以借用一個近似公式(用于按比例分配的分層抽樣情況)也許更為精確:似公式(用于按比例分配的分層抽樣情況)也許更為精確:21( )()(1)ystNnnv ysv yn Nn 221111()(1)kyhyhhNnnsW sn NnnN (5.25)( )( )976( )48351()s yNv yv y 畝畝此時此時97623231( )5774523(9761)23v y 11()(0.4375

29、42064.9330.3043 31221.5710.2582 121470.667)23976245.4235 兩種算法的差距并不大。兩種算法的差距并不大。(2)簡單隨機抽樣比估計簡單隨機抽樣比估計1.101236 826800910502()RyyXRXx 畝畝222(1)()(Ryxfs yNSR Sn 2)23095()xyRS 畝畝(3)分層隨機抽樣簡單估計分層隨機抽樣簡單估計1910780()ksthhhyN y 畝畝()()ststs yNv y 2111()khhhNW SnN 11976 ()(0.4375 42064.933 0.3043 31221.571 0.2582

30、121470.667)23976 48975( 畝畝)(4)分層隨機抽樣分別比估計分層隨機抽樣分別比估計1kRSRShhhyN yRX 367200 1.020327251600 1.114086208000 1.222857 909322() 畝畝22221(1)()(khhRSyhhxhhhNfs ysR sn 2)hyxhR s 15360() 畝畝(5)分層隨機抽樣聯(lián)合比估計分層隨機抽樣聯(lián)合比估計1ststcksthhhyyRxNx 9107801.1006908274631.100690 826800910050()RccyR X 畝畝22221(1)()(khhRcYhcxhhhN

31、fs ySR sn 2)cyxhR s 15936() 畝畝 從以上五種情況的結(jié)果分析,兩種簡單估計的精度較差從以上五種情況的結(jié)果分析,兩種簡單估計的精度較差因為他們沒有充分利用已知的因為他們沒有充分利用已知的 及及 的信息,三種比估計由的信息,三種比估計由于利用了于利用了 的信息,顯然精度大大提高了。的信息,顯然精度大大提高了。X xX 同時我們注意到分層隨機抽樣的兩種比估計比起簡單隨同時我們注意到分層隨機抽樣的兩種比估計比起簡單隨機抽樣的比估計效果略好一些,這是因為在實際測量中已分機抽樣的比估計效果略好一些,這是因為在實際測量中已分的三層的確有所區(qū)別。的三層的確有所區(qū)別。 最后我們指出,在

32、分層隨機抽樣中,分別比估計與聯(lián)合最后我們指出,在分層隨機抽樣中,分別比估計與聯(lián)合比估計有著幾乎差不多的效果,這正是我們在正文中所闡述比估計有著幾乎差不多的效果,這正是我們在正文中所闡述的理由,當每層抽樣容量的理由,當每層抽樣容量 不很大時,聯(lián)合比估計不比分別不很大時,聯(lián)合比估計不比分別比估計來的差。比估計來的差。hn 一個有趣的事實是對于一個有趣的事實是對于 的估計,恰好三個比估計比起的估計,恰好三個比估計比起兩個簡單估計要略低一些,由于隨機性,當然我們不能指認兩個簡單估計要略低一些,由于隨機性,當然我們不能指認到底哪一個估計比較接近事實,但是三種比估計統(tǒng)統(tǒng)略低會到底哪一個估計比較接近事實,但

33、是三種比估計統(tǒng)統(tǒng)略低會使我們產(chǎn)生這樣一個想法:這是否會是由于比估計本身時有使我們產(chǎn)生這樣一個想法:這是否會是由于比估計本身時有偏性而引起的呢?對于上面具體例子我們?nèi)狈Ω鶕?jù)說它們偏偏性而引起的呢?對于上面具體例子我們?nèi)狈Ω鶕?jù)說它們偏小了些。但是比估計的有偏性卻在理論上是無法否認的事實小了些。但是比估計的有偏性卻在理論上是無法否認的事實調(diào)查工作者與統(tǒng)計學(xué)家一直在設(shè)法盡力減少偏差,這稱為估調(diào)查工作者與統(tǒng)計學(xué)家一直在設(shè)法盡力減少偏差,這稱為估計量的計量的“糾偏糾偏”。Y 4 4 回歸估計量回歸估計量 前面討論的比估計之所以能在精度方面獲益匪淺,是因前面討論的比估計之所以能在精度方面獲益匪淺,是因為我們

34、充分利用了已知的輔助變量為我們充分利用了已知的輔助變量 X 的信息,而且這個輔助的信息,而且這個輔助變量變量 X 與我們所關(guān)心的變量與我們所關(guān)心的變量 Y 之間有著密切的關(guān)系,這種關(guān)之間有著密切的關(guān)系,這種關(guān)系越密切,對系越密切,對 Y 的某些指標的估計精度就越高。的某些指標的估計精度就越高。 現(xiàn)在假定變量現(xiàn)在假定變量Y與與X之間存在著線性回歸關(guān)系(但不是通之間存在著線性回歸關(guān)系(但不是通過原點),又假設(shè)過原點),又假設(shè)X的信息已知或部分已知,我們想利用的信息已知或部分已知,我們想利用X的的信息提高對信息提高對Y的估計精度。的估計精度。1、簡單隨機抽樣情況、簡單隨機抽樣情況 設(shè)從總體設(shè)從總體

35、中隨機無放回的抽取樣本中隨機無放回的抽取樣本 ,若變量,若變量 關(guān)于關(guān)于 的回歸直線不通過的回歸直線不通過原點,具有如下形式:原點,具有如下形式:( ,)1,2,iiY XiN (,)1,2,iiy xin iyix011,2,iiiyxin (5.26)iyiy的回歸值的回歸值 估計為估計為相應(yīng)的,總體總和相應(yīng)的,總體總和 的回歸估計為:的回歸估計為:Y這里這里 可以是一個設(shè)定的常數(shù),也可以是估計得到的回歸可以是一個設(shè)定的常數(shù),也可以是估計得到的回歸系數(shù)。例如,若設(shè)定系數(shù)。例如,若設(shè)定 ,則,則 即為簡單估計量;即為簡單估計量;若令若令 是一個估計量,則是一個估計量,則 0 tryy y x

36、 ()lryyyyXxXxx其中其中 是是 的估計量。為方便起見,記的估計量。為方便起見,記 ,我們可,我們可以用所有以用所有 N個個 的回歸值的回歸值 的平均值來估計總體平均數(shù)的平均值來估計總體平均數(shù)這樣就得到這樣就得到 的線性回歸估計,倘若的線性回歸估計,倘若 已知,有:已知,有:1 iyiyYXY1 1 即為比估計量??梢娀貧w估計包含簡單估計和比估計。即為比估計量??梢娀貧w估計包含簡單估計和比估計。1()iiyyxx (5.27)()lryyXx (5.28)lrlryNy (5.29)(1) 為設(shè)定常數(shù)的情形為設(shè)定常數(shù)的情形 這種情況在實際應(yīng)用中是存在的。比如為同一目的進行這種情況在實

37、際應(yīng)用中是存在的。比如為同一目的進行的調(diào)查已重復(fù)進行多次,將以前數(shù)據(jù)中的調(diào)查已重復(fù)進行多次,將以前數(shù)據(jù)中 關(guān)于關(guān)于 計算而得的計算而得的回歸系數(shù)(倘若前幾次該系數(shù)比較穩(wěn)定在某一數(shù)值的話)直回歸系數(shù)(倘若前幾次該系數(shù)比較穩(wěn)定在某一數(shù)值的話)直接作為最新調(diào)查的接作為最新調(diào)查的 設(shè)定值。設(shè)定值。 iYiX 首先研究這種簡單回歸估計值的期望。注意到首先研究這種簡單回歸估計值的期望。注意到 是是 的的無偏估計,無偏估計, 又是又是 的無偏估計,因此,有:的無偏估計,因此,有:yYxX()( )()lrE yE yE XxY (5.30)即回歸估計量是總體平均數(shù)的無偏估計。即回歸估計量是總體平均數(shù)的無偏估

38、計。 的方差可計算為:的方差可計算為:lry2221()(2)lrYXYXfVar ySSSn (5.32) 由由(5.30)以及以及(5.32)可知,無論可知,無論 是怎樣的設(shè)定值,是怎樣的設(shè)定值, 總總是是 的無偏估計,估計的精度與的無偏估計,估計的精度與 的設(shè)定值有關(guān)。的設(shè)定值有關(guān)。 lryY (5.32)式的右端實際上是式的右端實際上是 的二次三項式,又由于的二次三項式,又由于 前的系前的系數(shù)為數(shù)為 是個正數(shù),因此,只要適當選取是個正數(shù),因此,只要適當選取 就可使就可使 達達到最小值,利用高等數(shù)學(xué)的知識,可得使到最小值,利用高等數(shù)學(xué)的知識,可得使 達到最小達到最小值的值的 應(yīng)為:應(yīng)為:

39、2 2XS ()lrVar y ()lrVar y其中其中 為為 X 和和 Y 的相關(guān)系數(shù),此時最小方差為:的相關(guān)系數(shù),此時最小方差為: 22min1()(1)lrYfVar ySn (5.34)1min21()()()NiiiYNXiiYYXXSSXX (5.33)(2) 取樣本回歸系數(shù)的情形取樣本回歸系數(shù)的情形 如果如果 需要估計而定,估計的原則總是使需要估計而定,估計的原則總是使 達到最小達到最小 ()lrVar y根據(jù)根據(jù)(5.33)式的啟發(fā),自然?。菏降膯l(fā),自然?。?21()()()niiilniiyyxxxx (5.35)這實際上就是樣本回歸系數(shù)。利用這實際上就是樣本回歸系數(shù)。利

40、用 得到的回歸,由于得到的回歸,由于 是比值型隨機變量,與比估計一樣的理由,是比值型隨機變量,與比估計一樣的理由, 不可能是總不可能是總體平均數(shù)的無偏估計。但當體平均數(shù)的無偏估計。但當 n 相當大時,有下列近似結(jié)果:相當大時,有下列近似結(jié)果:l l lry1()()lrEyYOn (5.36)223 211()(1)()lrYfVar ySOnn (5.37) 因此,對簡單隨機抽樣,當樣本容量因此,對簡單隨機抽樣,當樣本容量 n 相當大時,回歸相當大時,回歸估計估計 (不管(不管 是否設(shè)定)的方差均近似地看作:是否設(shè)定)的方差均近似地看作:lry 221()(1)lrYfVar ySn 與簡單

41、隨機抽樣時與簡單隨機抽樣時 的簡單估計的簡單估計 的方差相比,只要的方差相比,只要 ,則回歸估計一定優(yōu)于簡單估計。則回歸估計一定優(yōu)于簡單估計。Yy0 至于至于 的情況,則表示的情況,則表示X與與Y沒有任何線性關(guān)系,那么沒有任何線性關(guān)系,那么用用X、Y的線性回歸來估計的線性回歸來估計 就相當于單純依賴就相當于單純依賴 去估計去估計0 YYiy 回歸估計與簡單隨機抽樣時的比估計相比孰優(yōu)孰劣呢?回歸估計與簡單隨機抽樣時的比估計相比孰優(yōu)孰劣呢?當當 n 相當大時,比估計的方差為:相當大時,比估計的方差為:2221()(2)RYXYXfVar ySR SR S Sn 欲使回歸估計優(yōu)于比估計,當且僅當:欲

42、使回歸估計優(yōu)于比估計,當且僅當:22222YXXYSR SR S S 即即2()0YXSRS 或或2min()0R (5.38)這是一個當然的不等式。一般情況總是回歸估計優(yōu)于比估計這是一個當然的不等式。一般情況總是回歸估計優(yōu)于比估計除非除非 ,此時這兩種估計量效果幾乎一樣。,此時這兩種估計量效果幾乎一樣。minR 回歸估計量的上述性質(zhì)都是在樣本容量回歸估計量的上述性質(zhì)都是在樣本容量 n 相當大時才成相當大時才成立,當立,當 n 偏小時容易產(chǎn)生較大偏倚,偏小時容易產(chǎn)生較大偏倚,(5.36)式中關(guān)于式中關(guān)于1/n的同的同階無窮小這一項就蘊涵了這種可能性。階無窮小這一項就蘊涵了這種可能性。 當當 n

43、 相當大時,相當大時, 或或 如何估計呢?如何估計呢?()lrMSE y()lrVar y由于這兩個參數(shù)的主要部分都是由于這兩個參數(shù)的主要部分都是 ,因此,要,因此,要給出估計,只要將給出估計,只要將 S 換為換為 s,X、Y 換為換為 x、y,N 換為換為 n即可即可221(1)YfSn 22(1)YS 形式上的估計可以寫成形式上的估計可以寫成22112211()()1()11()()niiniinniiiiixxyyyynxxyy 21222111()()()1()()niiniinniiiiixxyyyyxxyy 實質(zhì)上是殘差平方和,其自由度為實質(zhì)上是殘差平方和,其自由度為(n2),因此

44、得到,因此得到或或 的估計為:的估計為:()lrVar y()lrMSE y212211()()1()()(2)()niinilriniiixxyyfv yyyn nxx (5.39)2221(1)()(2)yxyxsfnsn ns 1221()()()niiyxilnxiixxyyssxx 為樣本回歸系數(shù)為樣本回歸系數(shù)21()(1)()(2)lrylyxfv ynssn n 故故例例5.3 (續(xù)例(續(xù)例5.1)使用回歸估計繼續(xù)討論某縣小麥畝產(chǎn)與總產(chǎn))使用回歸估計繼續(xù)討論某縣小麥畝產(chǎn)與總產(chǎn)量問題。量問題。樣本回歸系數(shù)樣本回歸系數(shù)23213.1100.33839498.505yxlxss 小麥產(chǎn)

45、量的估計為小麥產(chǎn)量的估計為:()lrlyyXx 130.6250.3383 (379.7847364.625) 135.7535() 噸噸小麥總產(chǎn)量的估計為小麥總產(chǎn)量的估計為:976135.753578194()lrlryNy 噸噸2221()()(1)()(2)lrlrylyxfv yN v yNnssn n 349023 顯見,回歸估計比起比估計精度略高一點,但相差不大,它顯見,回歸估計比起比估計精度略高一點,但相差不大,它們比簡單估計則要精確的多!們比簡單估計則要精確的多!2、分層隨機抽樣情況、分層隨機抽樣情況 與比估計情形一樣,在分層隨機抽樣中考慮兩種形式的與比估計情形一樣,在分層隨機

46、抽樣中考慮兩種形式的回歸估計:分別回歸估計與聯(lián)合回歸估計。回歸估計:分別回歸估計與聯(lián)合回歸估計。(1)分別回歸估計)分別回歸估計 所謂分別回歸估計,就是先在各層中對該層的平均數(shù)或所謂分別回歸估計,就是先在各層中對該層的平均數(shù)或總和進行回歸估計,然后再按層權(quán)平均或相加??偤瓦M行回歸估計,然后再按層權(quán)平均或相加。設(shè)第設(shè)第 h 層的樣本平均數(shù)回歸估計為層的樣本平均數(shù)回歸估計為 ,那么分別回歸估計為,那么分別回歸估計為lrhy其中其中 分別為第分別為第 h 層的樣本均值、回歸參數(shù)。層的樣本均值、回歸參數(shù)。hhhyx 、 、1()klrslrshhhhhhyN yN WyXx 1()khhhhhhNyX

47、x (5.41)11()kklrshlrhhhhhhhhyW yWyXx (5.40)當各層的當各層的 為預(yù)先設(shè)定時,那么這兩個估計量都是無偏估為預(yù)先設(shè)定時,那么這兩個估計量都是無偏估計量。又由于各層抽樣都是相互獨立的,由計量。又由于各層抽樣都是相互獨立的,由(5.31)式立即可式立即可得:得:h 222211()(2)nhlrshYhhXhhYXhhhfVar yWSSSn (5.42)并且當并且當 時,達到最小值:時,達到最小值:2(1,2, )hYXhXhSShk 22211(1)nhhYhhhhfWSn 2(1,2, )lrshYXhXhVar ySShk (5.43)121()()(

48、)hhnhihhihilhnhihiyyxxxx (5.44)22211()(1)khlrshYhhhhfVar yWSn (5.45)22211()(1)(1)(2)khlrshhyhhhhhfv yWnsrn n (5.46)若以若以 表示第表示第 h 層的相關(guān)系數(shù),那么層的相關(guān)系數(shù),那么 的估計為:的估計為:hr()lrsVar y當各層的當各層的 都比較大時:都比較大時:hn如果如果 需要利用樣本來估計,還是采用最小二乘估計:需要利用樣本來估計,還是采用最小二乘估計:h (2)聯(lián)合回歸估計)聯(lián)合回歸估計然后構(gòu)造然后構(gòu)造 與與 的聯(lián)合回歸估計:的聯(lián)合回歸估計:YY 聯(lián)合回歸估計是先對聯(lián)合

49、回歸估計是先對 與與 作分層估計:作分層估計:YX1ksthhhyW y 1ksthhhxW x 同樣當同樣當 事先給定時,它們是無偏估計,方差為:事先給定時,它們是無偏估計,方差為: 222211()(2)nhlrchYhXhYXhhhfVar yWSSSn (5.49)()lrcststyyXx (5.47)()lrclrcststyNyyXx (5.48)它在它在 取如下值時達到極小值取如下值時達到極小值 21min22111(1)(1)khhYXhhkkhhhhkhhhhXhhhWfSna BaWfSn (5.50)其中其中22(1)hhhXhhWfaSn 2YXhhXhSBS (5.

50、51)222minminmin11(2)()0kkhh hhhhhhhaBaB aaB (5.52)這里的這里的 恰好就是分別回歸估計中的恰好就是分別回歸估計中的 ,它使分別回歸,它使分別回歸(平均數(shù))估計的方差達到最小。為比較分別回歸估計與(平均數(shù))估計的方差達到最小。為比較分別回歸估計與聯(lián)合回歸估計之間的優(yōu)劣,將聯(lián)合回歸估計之間的優(yōu)劣,將 代入代入(5.49)式,再減去式,再減去(5.43)式右邊,得到差為:式右邊,得到差為:hBh min 直觀上這是因為直觀上這是因為“分別分別”方法比起方法比起“聯(lián)合聯(lián)合”方法更多地關(guān)心方法更多地關(guān)心到各層的指標與特征,只要分層有意義,也就是說所劃分的到

51、各層的指標與特征,只要分層有意義,也就是說所劃分的層各具有自己鮮明的特色,那么層各具有自己鮮明的特色,那么“分別分別”對各層過多的關(guān)注將對各層過多的關(guān)注將當然地得到精度上的回報。以回歸估計來說,如果各層的回當然地得到精度上的回報。以回歸估計來說,如果各層的回歸系數(shù)相差很大,那么分別回歸估計的效果將更加顯著。歸系數(shù)相差很大,那么分別回歸估計的效果將更加顯著。(5.52)式表明,若在分別回歸估計中設(shè)定最優(yōu)式表明,若在分別回歸估計中設(shè)定最優(yōu) ,又在聯(lián)合,又在聯(lián)合回歸估計中設(shè)定最優(yōu)回歸估計中設(shè)定最優(yōu) ,那么除非一切最優(yōu),那么除非一切最優(yōu) 均等于均等于分別回歸估計總是優(yōu)于聯(lián)合回歸估計的。我們又一次談到對

52、分別回歸估計總是優(yōu)于聯(lián)合回歸估計的。我們又一次談到對于分層抽樣來講,于分層抽樣來講,“分別估計分別估計”總是優(yōu)于總是優(yōu)于“聯(lián)合估計聯(lián)合估計”。不管是。不管是比估計還是回歸估計都是如此。比估計還是回歸估計都是如此。h h min min 當當 必須根據(jù)樣本來進行估計時,我們當然地取必須根據(jù)樣本來進行估計時,我們當然地取 的的樣本來估計:樣本來估計:min 2112211(1)()()(1)(1)()(1)hhnkhhhihhihhihhlcnkhhhihhihhWfyyxxn nWfxxn n (5.53)如果樣本量按比例分配,又用如果樣本量按比例分配,又用 代替代替(5.53)式中的式中的 ,

53、則,則hn1hn 11211()()()hhnkhihhihhilcnkhihhiyyxxxx (5.54)2222minmin11()(2)nhlrchYhXhYXhhhfVar yWSSSn (5.55)lrcy的方差可以近似計算為:的方差可以近似計算為:它可用下式進行估計:它可用下式進行估計:222211()(2)nhlrchyhlcxhlcyxhhhfv yWsssn (5.56) 以上討論都是建立在以上討論都是建立在X、Y之間有較強烈回歸關(guān)系的基之間有較強烈回歸關(guān)系的基礎(chǔ)之上,倘若在各層內(nèi)回歸規(guī)律性不是很強,則除非礎(chǔ)之上,倘若在各層內(nèi)回歸規(guī)律性不是很強,則除非 均均相當大,否則也許還是采用聯(lián)合估計比較穩(wěn)妥一些。相當大,否則也許還是采用聯(lián)合估計比較穩(wěn)妥一些。hn 若各層的抽樣容量若

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論