第8章群體間的差異比較卡方檢驗_第1頁
第8章群體間的差異比較卡方檢驗_第2頁
第8章群體間的差異比較卡方檢驗_第3頁
第8章群體間的差異比較卡方檢驗_第4頁
第8章群體間的差異比較卡方檢驗_第5頁
已閱讀5頁,還剩22頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

群體間的差異比較——卡方檢驗第8章內容提要8.1卡方檢驗原理8.2擬合問題——樣本率和已知總體率的比較8.3獨立性檢驗——兩個(多個)變量的相關8.4卡方檢驗的局限性及補救辦法8.1卡方檢驗原理3卡方檢驗變量連續(xù)變量分類變量有序分類變量無序分類變量秩和檢驗卡方檢驗T檢驗、方差分析卡方檢驗原理原假設H0:每一個卡通片被選擇為喜歡的可能性是相同的。即假定所研究的總體服從均勻分布,因此每一個卡通片被選擇的概率π都應該是1/6。如果為真,300名兒童挑選每種卡通片的可能性應該是相等的,則選擇每種卡通片的期望頻次應該是:fe=nπ構造卡方統(tǒng)計量:例:許多兒童都喜歡看卡通片,有的人認為只要是卡通片兒童都愛看,而不管其類型;另一些人認為兒童對不同類型的卡通片有不同的偏好。為此,他們提供了6種類型的卡通片,讓300名經??措娨暤膬和^看,然后說出喜歡看哪一個,得到如下表所示的數據。卡方檢驗原理300名兒童對不同類型卡通片的偏好分布卡通片編號觀測頻次f0概率π(H0為真)期望頻次fe=nπ偏差f0-fe偏差平方(f0-fe

)2加權結果(f0-fe

)2/fe1851/65035122524.52801/65030900183551/6505250.54101/650-401600325401/650-1010026301/650-204008合計30013000χ2=85P<0.001(二)非參數檢驗卡方檢驗是以卡方分布為基礎的一種常用假設檢驗方法,主要用于分類變量,根據樣本數據推斷總體的分布與期望分布是否有顯著差異,或推斷兩個分類變量是否相互關聯或相互獨立。卡方檢驗的原假設H0是:觀測頻數與期望頻數沒有差別??ǚ綑z驗的基本思想是:首先假設H0成立,基于此前提計算出χ2值,它表示觀測值與理論值之間的偏離程度。根據χ2分布,χ2統(tǒng)計量,以及自由度可以確定在假設H0成立的情況下獲得當前統(tǒng)計量及更極端情況的概率P。判斷:如果P值很小,說明觀測值與理論值偏離程度太大,應當拒絕原假設,表示比較的類別之間有顯著差異;否則就不能拒絕原假設,不能認為樣本所代表的實際情況與理論假設有差別。8.2擬合問題

——樣本率與已知總體率的比較8擬合問題————樣本率與已知總體率的比較對于連續(xù)變量,我們可以使用單樣本的t檢驗考察樣本所在總體的均值與已知值是否存在顯著差異,即樣本均值與已知值的差異。對于分類變量,則可以使用卡方檢驗比較樣本比率與已知值的差異。什么是擬合問題?假設一個總體中,某個變量的可能取值有n個水平;某一已知樣本中,該變量的取值也是這n個水平?,F在需要從樣本的分類數據出發(fā),來判斷總體各取值水平出現的概率是否與已知概率相符,即該樣本是否的確來自已知的總體分布。即單樣本率與總體率的比較,被稱之為擬合問題。擬合問題————樣本率與已知總體率的比較原假設H0:搖獎機工作正常,則每個號碼出現的概率為1/10。注意:原始數據在分析時,首先進行加權??!Analyze——NonparametricTests——Chi-Square例1:有獎有息儲蓄搖獎的辦法一般采取刻有數碼0-9的編號球投入搖獎機,然后按一定規(guī)則,把搖出的數碼組合成兌獎號碼。南京市自開辦有獎有息儲蓄以來,13期中獎號碼中各數碼出現的頻次見“數據搖獎.sav”。試判斷搖獎機工作是否正常?擬合問題————樣本率與已知總體率的比較所有類別比例相等自定義類別比例擬合問題————樣本率與已知總體率的比較殘差值卡方值P值小于5%,可以拒絕原假設。認為搖獎機工作不正常。擬合問題————樣本率與已知總體率的比較原假設H0:顧客今年的顏色偏好與去年無顯著差異。Analyze——NonparametricTests——Chi-Square例2:美國某小汽車經營商根據去年銷售的小汽車顏色的百分率,認為今年顧客選擇各種顏色的數目仍將不變,即20%的人選擇黃色,30%選擇紅色,10%選擇綠色,10%選擇藍色,30%選擇白色。他隨機抽取了150名顧客,詢問他們所喜好的顏色。結果見color.sav。問是否應拒絕該經營商的假設?擬合問題————樣本率與已知總體率的比較依次輸入期望的類別比例。擬合問題————樣本率與已知總體率的比較P值小于5%,可以拒絕原假設。顧客今年的顏色偏好與去年相比存在顯著差異。8.3獨立性檢驗

——兩個(多個)變量的相關問題16獨立性檢驗——兩個(多個)變量的相關問題卡方檢驗可以非常容易地推廣到兩樣本或多樣本比較的問題,即應用卡方檢驗總體中兩個特性有無相關性,這種檢驗也叫獨立性檢驗。例:在電視收視率調查中,得到性別與收視習慣的列聯表如下。試建立數據文件并分析性別與收視習慣的相關聯系。男女幾乎天天看3824偶爾看317獨立性檢驗——兩個(多個)變量的相關問題Analyze——DescriptiveStatistics——Crosstabs進行卡方檢驗獨立性檢驗——兩個(多個)變量的相關問題Analyze——DescriptiveStatistics——Crosstabs觀測頻數期望頻數輸出殘差標準化殘差獨立性檢驗——兩個(多個)變量的相關問題雙側近似概率Pearson卡方統(tǒng)計量雙側精確概率對數似然比計算的卡方Fisher’s確切概率法線性相關的卡方值,檢驗行列變量是否線性相關,多用于定序變量8.4卡方檢驗的局限性及補救辦法21由于卡方檢驗簡單直觀,而且交互分析表又能提供非常豐富的信息,因此在各種調查統(tǒng)計中這種交互分析(列聯表加卡方檢驗)的應用十分廣泛。在實際應用中,不但定類變量采用此方法,對定序甚至定距變量也粗略地劃分成幾類后做成列聯表。這可以從某種意義上簡化數據,但這種交互分析也存在其局限性??ǚ綑z驗的局限性及補救辦法卡方檢驗的局限性:卡方值隨分類的不同而改變。如對教育程度、收入水平的分類,因此分類時最好有理論或實踐依據,或者統(tǒng)計依據(中位數、四分位數等)樣本量不能太小,也不宜過大。樣本量太小,采用卡方分布為依據的檢驗便不再成立。一般要求n>40。但樣本量過大,有時得到的結果便會失去意義??ǚ街凳軜颖玖坑绊懞艽螅簶颖玖吭酱?,越容易得到拒絕原假設H0的結果。卡方檢驗的局限性及補救辦法卡方檢驗的局限性:列聯表中期望頻數小于5的個數不能太多。通常建議所有的期望頻數都不小于5,最多也不能超過20%。如對3×5的列聯表,共15個格,則期望頻數小于5的格數不能超過3個。如果超過了20%,則需要對卡方值加以修正。對于連續(xù)型變量(定距、定比變量),卡方檢驗無法揭露其數量性質??ǚ綑z驗的一般原則:只要有數量型的變量出現,就應該采用可以提示其數量性質的統(tǒng)計工具(如t檢驗、方差分析、秩和檢驗等)來分析。卡方檢驗更適用于定類變量??ǚ綑z驗的局限性及補救辦法統(tǒng)計指標的選擇:當樣本量n≥40,且所有單元格的期望頻數fe≥5時,用普通的Pearson卡方檢驗;當樣本量n≥40,且只有20%以下的單元格的期望頻數1≤fe<5時,用校正的卡方檢驗:如對數似然比(LikelihoodRatio)計算的卡方,或用于2×2格表的連續(xù)性校正的卡方(ContinuityCorrection);當樣本量n<40,或有20%以上的單元格期望頻數fe<5,或有單元格期望頻數fe<1時,采用確切概率法(Fisher’sExactTest).卡方檢驗的局限性及補救辦法本章練習1、數據36選7.sav是體彩36選7連續(xù)45期中獎號碼出現頻次的統(tǒng)計,試分析中獎號碼的出現概率是否隨機。2、在周六晚節(jié)目單修訂后,分別作了收視率的調查。在節(jié)目修改前,收視率記錄為ABC29%,CBS28%,NBC25%,ITV18%。節(jié)目修改后,300個家庭所組成的樣本產生下列電視收視數據:ABC95戶,CBS70戶,NBC89戶,ITV46戶,在5%的顯著性水平下,檢驗電視收視率是否發(fā)生了變化

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論