




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、第9章 列聯分析n1列聯表列聯表n2擬合優(yōu)度檢驗擬合優(yōu)度檢驗n3 獨立性檢驗獨立性檢驗n4列聯表中的相關測量列聯表中的相關測量n5 列聯分析中應注意的問題列聯分析中應注意的問題1n1.1列聯表的構造列聯表的構造n1.2列聯表的分布列聯表的分布2n列聯表列聯表n 列聯表(Contingency table)是由兩個或兩個以上的變量進行交叉分類的頻數分布表。n 例如一個集團公司在四個不同的區(qū)域設有分公司,現該集團公司欲進行一項改革,此項改革可能涉及到各分公司的利益,故采用抽樣調查方法,從四個分公司共抽取420個樣本單位,了解職工對此項改革的看法,調查結果見表9-1。3表表9-1 9-1 關于改革方
2、案的調查結果關于改革方案的調查結果 單位:人單位:人n解釋:解釋:表中的行(Row)是態(tài)度變量,這里劃分為兩類:贊成改革方案或反對改革方案;表中的列(Column)是單位變量,這里劃分為四類:即四個分公司。表中的每個數據,都反映著來自于態(tài)度和單位兩個方面的信息。將橫向變量(行)的劃分類別視為R,縱向變量(列)的劃分類別視為C,則可以把每一個具體的列聯表稱為RC列聯表。5n列聯表的分布列聯表的分布觀察值的分布(條件分布)觀察值的分布(條件分布)n行邊緣頻數n列邊緣頻數n條件頻數期望值的分布期望值的分布6n表表9-2 9-2 包含百分比的包含百分比的2 24 4列聯表列聯表7n 表中各數據的含義表
3、中各數據的含義條件頻數條件頻數:如第一個單元第一個數字68為觀察值頻數;行百分數行百分數:如第一個單元第二個數字24.4為行百分數,即68/279=24.4%;列百分數列百分數:如第一個單元第三個數字68.0為列百分數,即68/100=68%;總百分數總百分數:如第一個單元第四個數字為總百分數,即68/420=16.2%;邊緣頻數邊緣頻數:在最右邊和最下邊的合計欄中各有兩行數據,第一行是邊緣頻數,第二行是邊緣頻數的百分數。如最右邊的66.4%=279/420,及最下邊的23.8%=100/420。n期望分布期望分布以前例為例。已知在全部420個樣本單位中,贊成改革方案的有279個,占到總數的6
4、6.4%,如果各分公司對這項改革方案的看法相同,那么對第一分公司贊成該方案的人數應當為:0.664100=66人,第二分公司贊成的人數應當為:0.664120=80人,這66人和80人就是本例中的期望值。由此可以計算出期望值的分布,如表9-3所示。9n表表9-3 期望值分布表期望值分布表 單位:人單位:人10n將表9-1和表9-3結合起來,便可以得到觀察值和期望值頻數對比分布表,如表9-4所示。n表表9.4 9.4 觀察值和期望值頻數對比分布表觀察值和期望值頻數對比分布表11n 如果各個分公司對改革方案的看法相同,即各分公司贊成改革方案的比例相同,就應有 =0.664( 為第i個分公司贊成改革
5、方案的百分比),那么在表9-4中,觀察值和期望值就應當非常接近。對于 =0.664的假設,可以采用 分布(Chi-square Distribution)進行檢驗。121234i12342n2.1 統(tǒng)計量統(tǒng)計量n2.2 擬合優(yōu)度檢驗擬合優(yōu)度檢驗1322n 統(tǒng)計量可以用于變量間擬合優(yōu)度檢驗和獨立性檢驗。若用 fo 表示觀察值頻數(Observed Frequency),用fe表示期望值頻數(Expected Frequency),則 統(tǒng)計量可以寫為:14 eefff202)(2222n 由由 可以看出計算可以看出計算 統(tǒng)計量統(tǒng)計量的步驟的步驟n 步驟一:用觀察值 fo 減去期望值 fe;n 步驟
6、二:將(fo - fe)之差平方;n 步驟三:將 ( fo - fe)2結果除以fe;n 步驟四:將步驟三的結果加總。15eefff202)(2216實際頻數實際頻數(fij)期望頻數期望頻數(eij)fij - eij(fij - eij)2(fij- eij)2eij687557793245333166806073344030372-5-36-253-64259364259360.06060.31250.15000.49320.11760.62500.30000.97302n 統(tǒng)計量特征統(tǒng)計量特征n 0 0,因為它是對平方值結果的匯總,因為它是對平方值結果的匯總;n 值的大小與觀察值和期望
7、值的配對數,即值的大小與觀察值和期望值的配對數,即R RC C的多少有關。的多少有關。R RC C越多,越多,在不改變分布的情況下,在不改變分布的情況下, 值越大,因此值越大,因此, 統(tǒng)計量的分布與自由度有關統(tǒng)計量的分布與自由度有關;n 統(tǒng)計量描述了觀察值與期望值的接近程度。如果兩者越接近,即統(tǒng)計量描述了觀察值與期望值的接近程度。如果兩者越接近,即 f fo o - - f fe e的絕對值越小,計算出的的絕對值越小,計算出的 值越??;反之,如果值越??;反之,如果 f fo o - - f fe e的絕對值越大,的絕對值越大,計算出的計算出的 值也越大值也越大; n 檢驗是運用檢驗是運用 的計
8、算結果與的計算結果與 分布中的臨界值進行比較,做出對原分布中的臨界值進行比較,做出對原假設接受或是拒絕的統(tǒng)計決策假設接受或是拒絕的統(tǒng)計決策。17222222222222n圖圖9-1 自由度分別為自由度分別為1,5和和10時的時的 分布分布 1822n 分布自由度的計算公式分布自由度的計算公式n 自由度=(行數-1)(列數-1)n =(R-1)(C-1)1922n擬合優(yōu)度檢驗擬合優(yōu)度檢驗若要對若要對多個比例是否相等多個比例是否相等進行檢驗,就需要利用進行檢驗,就需要利用 檢驗的檢驗的方法。如果樣本是從總體的不同類別中分別抽取,研究方法。如果樣本是從總體的不同類別中分別抽取,研究目的是對不同類別的
9、目標量之間是否存在顯著性差異進目的是對不同類別的目標量之間是否存在顯著性差異進行檢驗,把它稱為擬合優(yōu)度檢驗,也稱為一致性檢驗行檢驗,把它稱為擬合優(yōu)度檢驗,也稱為一致性檢驗(Test of homogeneity)。)。202n【例例9.19.1】某集團公司欲進行一項改革,從所屬的四個分公司中共隨機抽取了420名職工,了解他們對改革方案的態(tài)度(見表9-1),以 =0.1的顯著性水平檢驗四個分公司對改革方案的看法是否存在差異。n解:如果不存在差異,四個分公司贊成改革方案的比例應該是一致的。于是原假設和備擇假設分別為:n : =0.664 贊成比例一致n : 不全相等 贊成比例不一致0H12341H
10、1234, n由 n得:n自由度=(R-1)(C-1)n =(2-1)(4-1)= 3 n=0.1,查表可知:220319. 322eeofffeefff202)( 251. 631 . 02232圖圖9-29-2 檢驗示意圖檢驗示意圖n【例例9.29.2】為了提高市場占有率,某行業(yè)兩個最主要的競爭對手,A公司和B公司同時開展了廣告宣傳。在廣告宣傳戰(zhàn)之前,A公司的市場占有率為45%,B公司的市場占有率為40%,其他公司的市場占有率為15%。為了了解廣告戰(zhàn)之后A、B和其他公司的市場占有率是否發(fā)生變化,隨機抽取了200名消費者,其中102人表示準備購買A公司產品,82人表示準備購買B公司產品,另外
11、16人表示準備購買其他公司產品。以 的顯著性水平檢驗廣告戰(zhàn)前后各公司的市場占有率是否發(fā)生了變化。240.05n解:采用擬合優(yōu)度的 檢驗。n為了檢驗廣告戰(zhàn)之后各公司市場占有率的變化,把廣告戰(zhàn)之前各公司的市場占有率設為原假設。n: , , n:原假設的等式中至少有一個不成立n如果廣告戰(zhàn)之后各公司產品的市場占有率沒有發(fā)生變化, 即如果原假設仍然成立,則在200個被調查者中,喜歡各個公司產品人數的期望值應當是:n各類別期望值的計算公式250H10.4520.430.15, 1H123200(0.45)90200(0.40)80200(0.15)30eeefff22eiifnn表表9-7 觀察值、期望值
12、及有關計算結果觀察值、期望值及有關計算結果26n由 計算為:n =8.18n當 ,自由度=(R-1)*(C-1)=(2-1)*(3-1)= 2時, =5.99147, ,故拒絕原假設,可以認為廣告戰(zhàn)之后,各公司產品市場占有率發(fā)生了顯著變化。27eefff202)( eefff202)(0.0520.05,2220.05,2n獨立性檢驗(獨立性檢驗(Test of IndependenceTest of Independence)n在研究問題時有時會遇到要求判斷兩個分類變量之間是否存在聯系的問題。在這種情況下可以使用 檢驗,判斷兩組或多組的資料是否相互關聯。如果不相互關聯,就稱為獨立。把這類問題
13、的處理稱為獨立性檢驗(Test of Independence)。282n【例例9.3】一種原料來自三個不同的地區(qū),原料質量被分成三個不同等級。從這批原料中隨機抽取500件進行檢驗,結果如表9-9所示n要求檢驗各個地區(qū)和原料質量之間是否存在依賴關系?n表表9-9 原料抽樣的結果原料抽樣的結果29n解: :地區(qū)和原料等級之間是獨立的(不存在依賴關系)。n :地區(qū)和原料等級之間不獨立 (存在依賴關系)。n在第一行,甲地區(qū)的合計為140,用140500作為甲地區(qū)原料比例的估計值。在第一列,一級原料的合計為162,用162500作為一級原料比例的估計值。如果地區(qū)和原料等級之間是獨立的,可以用下式估計第
14、一個單元(甲地區(qū),一級)中的期望比例。300H1H令A = 樣本單位來自甲地區(qū)的事件B = 樣本單位屬于一級原料的事件n根據獨立性的概率乘法公式有:nP(第一單元) =P(AB)n =P(A)P(B)n n =0.0907231500162500140n計算任何一個單元中頻數的期望值公式n n fe :給定單元中的頻數期望值n RT:給定單元所在行的合計n CT:給定單元所在列的合計n n:觀察值的總個數,即樣本容量。32nCTRTnnCTnRTfe*表表9-10 33列聯表期望值計算過程列聯表期望值計算過程33n 的自由度為(R-1)*(C-1)=4n取 =0.05,查表知: 0.05(4)
15、=9.488n 0.05(4),故拒絕H0,接受H1 ,即地區(qū)和原料等級之間存在依賴關系,原料的質量受地區(qū)的影響。342222n4.1 4.1 相關系數相關系數n4.2 C 4.2 C 列聯相關系數列聯相關系數35n 系數系數n 系數是描述2*2列聯表(四格表)數據相關程度最常用的一種相關系數。它的計算公式為:n 式中, n為列聯表中的總頻數,即樣本容量。36n/2n 表表9-11 2*2列聯表列聯表37注:a,b,c,d均為條件頻數。n表9-11中,當變量X,Y 相互獨立,不存在相關關系時,頻數間應有下面的關系n n化簡后有:ad=bc。n結論結論差值ad-bc的大小可以反映變量之間相關程度
16、的強弱。差值越大,說明兩個變量的關聯程度越高。38dbbcaan在在2*2列聯表中,每個單元中頻數的期望值為:列聯表中,每個單元中頻數的期望值為:n n 39ncabae)(11ndccae)(21ndbbae)(12ndcdbe)(2240)()()()()()()()(2222222122112212112112dbcadcbabcadneedeeceebeea)()()(2dbcadcbabcadnn當ad=bc時,表明變量X,Y之間相互獨立, n若b=0, c=0時,X與Y完全相關, n若a=0, d=0 ,X與Y完全相關,n在列聯表中,變量的位置可以任意變換,因此 的符號在這里沒有什
17、么實際意義,其絕對值 只是表明X與Y完全相關。410111nC系數系數列聯相關系數又稱列聯系數(Coefficient of Contingency),簡稱C系數,主要用于大于2*2列聯表的情況。C系數的計算公式為:42nC22nC C系數的特點系數的特點當列聯表中的兩個變量相互獨立時,系數C=0,但它不可能大于1。 C系數可能的最大值依賴于列聯表的行數和列數,且隨著R和C的增大而增大。n根據不同的行和列計算的列聯系數不便于比較,除非兩個列聯表中行數和列數一致。43nV V 相關系數計算公式相關系數計算公式n式中的min(R-1),(C-1)表示?。≧-1),(C-1)中較小的一個。當兩個變量
18、相互獨立時,V=0;當兩個變量完全相關時,V=1。所以V的取值在01之間。如果列聯表中有一維為2,即min(R-1),(C-1)=1,則V值就等于 值。 44) 1(),1(min*2CRnV、C、V 的比較1.同一個列聯表,、C、V 的結果會不同2.不同的列聯表,、C、V 的結果也不同3.在對不同列聯表變量之間的相關程度進行比較時,不同列聯表中的行與行、列與列的個數要相同,并且采用同一種系數n在【例例9.39.3】中,對原料的等級和產地之間的關系進行了獨立性檢驗,結果表明,原料的等級和產地之間存在相互關系。n下一個問題是,這種相關程度有多高,能否對此給出數量化描述?n解:由前已知,計算出 =
19、19.82,列聯表的總頻數n=500。這是3*3列聯表,min(R-1),(C-1)=3-1=2。于是462199. 050082.192n195. 050082.1982.1922nC141. 02*50082.19) 1(),1(min*2CRnVn對于 而言,當R2, C2時, 值有可能突破1,相比之下,例9.3中的 =0.199不能認為很大。n對于C 而言,其結果必然低于 值,因為C值總是小于1。本例中是3*3列聯表,C的最大可能值是0.8165。相比0.8165而言,本例中的C=0.195也并不大。n對于V而言,V=0.141則更小。n綜上,雖然檢驗表明原料和產地存在一定關系,但這種
20、關系的密切程度卻不太高。48n上例說明,對于同一個數據,系數 , C,V的結果不同。同樣,對于不同的列聯表,由于行數和列數的差異,也會影響系數值。n結論結論n在對不同列聯表變量之間的相關程度進行比較時,不同列聯表中行與行,列與列的個數要相同,并且采用同一種系數,這樣的系數值才具有可比性。49n5.1 5.1 條件百分表的方向條件百分表的方向n5.2 5.2 分布的期望值準則分布的期望值準則502n條件百分表方向條件百分表方向 一般在列聯表中變量的位置是任意的,既可以把變量X放在列的位置,也可以放在行的位置。如果變量X與Y存在因果關系,令X為自變量(原因),Y為因變量(結果),那么一般的做法是把
21、自變量X放在列的位置,條件百分表也多按自變量的方向計算,因為這樣便于更好地表現原因對結果的影響。如有下面的一個2*2列聯表。51n 表表9-14 職業(yè)背景與工作價值觀取向職業(yè)背景與工作價值觀取向52n 表表9-14 9-14 分析分析 數據顯示,總共調查了225人,其中制造業(yè)145人,服務業(yè)80人;在制造業(yè)被調查者中,以物質報酬為價值取向的有105人,占該群體的72%;以人情關系為價值取向的有40人,占該群體的28%。而服務業(yè)被調查者中,以物質報酬為價值取向的有45人,占該群體的56%;以人情關系為價值取向的有35人,占該群體的44%;數據表明,與制造業(yè)相比,服務業(yè)就業(yè)人員更注重人情關系。人們
22、的職業(yè)背景不同,工作的價值觀有可能不同。53n特殊情況特殊情況如果因變量在樣本內的分布不能代表其在總體內的分布,例如,為了滿足分析的需要,抽樣時擴大了因變量某項內容的樣本容量,這時仍以自變量的方向計算百分表就會歪曲實際情況。54n例例: :n社會學家欲研究家庭狀況(自變量)對青少年犯罪(因變量)的影響。該地區(qū)有未犯罪記錄的青少年10000名,犯罪記錄的青少年150名。如果從未犯罪青少年中抽取百分之一,即100名進行研究,則用相同比例從犯罪青少年中抽取的樣本量僅為1.5人。顯然,這樣少的數量無法滿足對比研究的需要。因此,對犯罪青少年的抽樣比要擴大,譬如擴大到二分之一,即抽取75人。假定從兩個樣本
23、調查所獲得的數據如表9-15所示。55n 表表9-15 家庭狀況與青少年犯罪家庭狀況與青少年犯罪56n表9-15是調查結果的條件分布。由表9-15可以計算其條件百分表,如表9-16n表表9-16 家庭狀況與青少年犯罪百分表家庭狀況與青少年犯罪百分表57n表表9-169-16分析分析 n表9-16中得到的顯示是,在完整家庭接受調查的130人中,犯罪青少年所占的比例是29%。n其實,這個比例是歪曲的,這是由于抽樣時擴大了對犯罪青少年抽取的數量。如果把計算百分表的方向變換一下,改為按因變量方向計算,則得到表9-1758n 表表9-17 家庭狀況與青少年犯罪百分表家庭狀況與青少年犯罪百分表59n表表9-179-17分析分析在完整家庭中,未犯罪青少年的比例占到92%,而在離異家
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 互聯網企業(yè)參股協(xié)議模板
- 公司攝影宣傳活動方案
- 公司注冊策劃方案
- 工程林木砍伐協(xié)議書范本
- 公司給員工做宣傳活動方案
- 公司科室團建活動方案
- 出院免責協(xié)議書范本
- 關于畢業(yè)季講課件
- 公司福利親子活動方案
- 微商新零售的運營模式與技巧
- 項目成本核算表格(全套)
- DTII(A)型帶式輸送機手冊
- 湘教版七年級下冊地理期末試卷-附答案
- 教科版五年級下冊科學知識點整理
- 小學六年級數學計算題100道(含答案)
- DB33T 2250-2020企業(yè)綜合能耗確權核算通則
- 年產24萬噸硫酸轉化系統(tǒng)工藝設計
- GB/T 7721-2007連續(xù)累計自動衡器(電子皮帶秤)
- 護理查房(宮外孕)課件
- 會議服務中心經營管理服務方案
- 糖尿病病人的業(yè)務學習課件
評論
0/150
提交評論