




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、基本統(tǒng)計概念 第一章 數(shù)值資料的統(tǒng)計描述 一、數(shù)值資料的統(tǒng)計描述 首先應編制頻數(shù)分布表以了解其分布狀況,頻數(shù)就是觀察值的個數(shù)。頻數(shù)分布就是觀察值在其所取值的范圍內分布的情況。 頻數(shù)分布表的編制步驟: 1計算全距 全距=最大值一最小值 2確定組段數(shù)、組距和組段數(shù),全距大,觀察值個數(shù)多可多取些,反之可少取。組段數(shù)太多,較繁瑣,不易反映分布的特征,組段太少計算誤差較大,實際工作中可根據(jù)具體情況決定。組距=全距組數(shù)。3列表歸組匯總將各組段列入頻數(shù)分布表欄,用劃記法將各觀察值劃記到各組段,即額數(shù)分布表欄,求出各組段額數(shù)及總額數(shù)。其次,在編制額數(shù)分布表的同時,也可繪制額數(shù)分布圖,以更加直觀地了解頻數(shù)分布情
2、況。 二、頻數(shù)分布類型數(shù)值資料常見的頻數(shù)分布類型有三種,如何區(qū)分關鍵是看分布高峰的位置。 1正態(tài)分布型 頻數(shù)分布的高峰位于中央,圖形左右對稱。正態(tài)分布屬于此類型。 2正偏態(tài)分布型 頻數(shù)分布的高峰偏左,圖形左右不對稱,即觀察值較小的一端集中了較多的頻數(shù)。 3負偏態(tài)分布型 頻數(shù)分布的高峰偏右,圖形左右不對稱,即觀察值較大的一端集中了較多的頻數(shù)。 三、集中趨勢指標集中趨勢指標又稱平均數(shù),它反映了觀察值的集中位置或平均水平,是觀察值的典型水平或代表值。常用的集中趨勢指標有算術均數(shù)(均數(shù))、幾何均數(shù)和中位數(shù)等。計算平均數(shù)時,首先應搞清楚它們的應用條件,現(xiàn)把各種平均指標的應用條件歸納如表2.1. 各平均指
3、標的應用條件 指 標適 用 條 件計算公式算術平均數(shù)常用于描述對稱型分布,尤其是正態(tài)分布資料的集中趨勢 幾何均數(shù)常用于描述對數(shù)正態(tài)分布資料和觀察值呈等比數(shù)列資料的集中趨勢中位數(shù)常用于描述偏態(tài)分布資料、一端或兩端無界的資料、頻數(shù)分布類型不清楚的集中趨勢 四、離散程度指標 離散程度指標又稱變異程度指標。它反映觀察值之間參差不齊的程度。常用的離散程度指標有極差、標準差和變異系數(shù)等?,F(xiàn)將離散程度指標、計算公式及主要優(yōu)缺點歸納如在下表中。 離散程度指標比較表指 標計 算 公 式主要優(yōu)缺點極 差R=Xmax-Xmin計算簡單,易于理解;但只反映了一組觀察值的最大值與最小值的差異,不能反映其他觀察值之間的變
4、異情況離均差平方和反映了各變量值之間的變異情況,但單位是原觀察值單位的平方,不易理解,同時又受觀察值個數(shù)的影響,不利于比較。方差反映了各變量值之間的變異情況,不受觀察值個數(shù)的影響,但單位是原觀察值單位的平方,不易理解標準差反映了各變量值之間的變異情況,不受觀察值個數(shù)的影響,單位與原觀察單位相同,是最常用的離散程度指標之一,但在兩組和多組資料比較時,常受到計量單位不同和均數(shù)相差很大的影響而不能比較和不便于比較變異系數(shù) 兩組或多組資料比較變異程度,如均數(shù)相差過大或觀察值單位不同時用變異系數(shù)比較 五、標準差的應用 標準差用來描述觀察值間的變異程度(離散程度),用于正態(tài)或近似正態(tài)分布資料,標準差結合均
5、數(shù)描述分布特征。標準差主要用來衡量觀察值間的離散(或變異)程度。標準差還可以用于計算變異系數(shù),變異系數(shù)又稱離散系數(shù),它是標準差對均數(shù)的相對百分數(shù),故又有相對標準差之稱,以符號CV表示,按下式計算。 和標準差一樣,CV越小,表示觀察值的離散程度越小。 六、對數(shù)正態(tài)分布 某些正偏態(tài)分布資料,其觀察值X經(jīng)過對數(shù)變換后,可以轉變?yōu)檎龖B(tài)分布資料,這時,就稱X服從對數(shù)正態(tài)分布。 第二章 總體均數(shù)的估計和t檢驗 一、均數(shù)的抽樣誤差均數(shù)抽樣誤差是指由于抽樣引起的樣本均數(shù)與總體均數(shù)之間的誤差,稱為均數(shù)的抽樣誤差。均數(shù)的抽樣誤差用均數(shù)的標準誤表示,用符號表示,用來描述均數(shù)的抽樣誤差的大小,。如無s可用s代替求標準
6、誤的近似值 二、t分布一般正態(tài)分布轉化為標準正態(tài)分布就是將X變量變換為u值,變換公式為,u值的分布就是標準正態(tài)分布。樣本均數(shù)組成的正態(tài)分布變換為標準正態(tài)分布將X變換為u值,變換公式為值的分布是標準正態(tài)分布。如。用代替,就是t變換,變換公式為,t值的分布即是t分布。 t分布曲線具有以下特征:以0為中心,左右對稱;與正態(tài)分布曲線相比,自由度越小,頂部越低,尾部翹得越高,隨自由度逐漸增大逐漸趨向正態(tài)分布曲線;二分布曲線隨自由度的改變而改變,它是一簇曲線。 三、總體均數(shù)的可信區(qū)間的估計 1小樣本均數(shù)可信區(qū)間的估計 通式:總體均數(shù)的可信區(qū)間為: ,a=1-P。 P:可信度又稱置信概率,如總體均數(shù)95 的
7、可信區(qū)間 P=0.95,則a=1- P0.05,n:自由度,tan是自由度等于n時的ta的界值。 常用的可信區(qū)間公式: m95 的可信區(qū)問: m99 的可信區(qū)間: 計算時特別注意公式中的標準誤而不是標準差。 2大樣本均數(shù)可信區(qū)間的估計 m95 的可信區(qū)間:m99的可信區(qū)間:可信區(qū)間的含義:從總體中作隨機抽樣,根據(jù)每個樣本可算得一個可信區(qū)間,如95%可信區(qū)間,意味著作100次抽樣,算得100個可信區(qū)間,有95個可信區(qū)間包括總體均數(shù)(估計正確),只有5個可信區(qū)間不包括總體均數(shù)(估計錯誤)。 四、t檢驗的意義 t檢驗主要用于兩個均數(shù)的比較,它能夠判斷進行比較的均數(shù)的差別是由于抽樣誤差引起,還是總體就
8、有差別。 五、t檢驗的步驟 1建立假設和確定檢驗水準 H0(無效假設):假設比較指標的差別是由于抽樣誤差引起的。 H1(備擇假設):假設比較指標的差別是總體的差別。 a(檢驗水準):一般為005,可以根據(jù)情況決定是單側還是雙側。 2計算t值根據(jù)統(tǒng)計資料的類型、適用條件、分析目的計算適當?shù)慕y(tǒng)計量正值。3確定P值 P值是H0存在的概率,根據(jù)自由度與P值確定相對應的t界值,比較所得t值大于相應的界值時,P小于相應的概率P。4判斷結果 P£a拒絕H0,可以認為比較指標的差別是總體的差別; Pa接受H0,可以認為比較指標的差別是抽樣誤差引起。 六、常用的t檢驗 1進行t檢驗時首先應正確認識資料
9、的類型和t檢驗的適用條件,t檢驗是數(shù)值資料的假設檢驗方法,應用于樣本均數(shù)與總體均數(shù)的比較及兩樣本均數(shù)間的比較,所以要進行t檢驗需檢查資料是否符合以下條件:資料是數(shù)值資料;分析目的是對兩均數(shù)進行比較;具備t檢驗的應用條件,即資料具有正態(tài)性,如兩樣本均數(shù)比較還需要兩樣本方差具有齊同性。2正確選擇具體公式,計算t值如以上三條資料均具備,就說明可以進行t檢驗,然后進一步選擇具體的t檢驗方法。其具體方法有: (l)樣本均數(shù)與總體均數(shù)比較的t檢驗,資料中有一個,另一個是m0。 (2)配對比較的t檢驗,資料常見的有以下三種:配對資料,常將條件基本相同的受試對象配成對子,每對中的兩個受試對象分別給予不同的處理
10、,比較不同處理的差別。同一批對象試驗前后對比資料,是對一批觀察對象分別測定試驗前后某項指標的值進行比較,目的是看該處理(試驗)有無作用。對同一批樣本中的每一個樣本分別用不同方法處理,比較不同方法有無差別。以上三種資料假設檢驗都是用配對t檢驗。配對t檢驗實際也是單一樣本均數(shù)(差數(shù)的樣本均數(shù))與總體均數(shù)(差數(shù)的總體均數(shù))比較,所以它和樣本均數(shù)比較的t檢驗一樣,只要求資料具有正態(tài)性。 (3)兩小樣本均數(shù)比較的t檢驗,兩小樣本比較的t檢驗,既要求資料具有正態(tài)性,又要求兩樣本方差具有齊同性。 式中:為兩樣本均數(shù)之差, 為兩樣本均數(shù)之差的標準誤,式中為合并方差, 式中: s1為第一個樣本的方差, s2為第
11、二個樣本的方差, n1為第一個樣本的含量,n2為第二個樣本的含量。 (4)兩樣本均數(shù)比較的 u檢驗,兩樣本均數(shù)比較時,如 n1和n2均大于100,可用u檢驗。 ,u檢驗的唯一條件是樣本含量足夠大。不要求正態(tài)性和方差齊性。 (5)兩個幾何均數(shù)比較的t檢驗或u檢驗,兩樣本幾何均數(shù)進行比較時,只需將數(shù)據(jù)變換成對數(shù),用對數(shù)值進行兩樣本均數(shù)的t檢驗或u檢驗就可以了。 七、進行t檢驗時應注意的問題1 正確理解差別的統(tǒng)計意義 差別有統(tǒng)計意義,是說從統(tǒng)計的角度看,差別可能是總體的差別;差別無統(tǒng)計意義時是說從統(tǒng)計的角度看差別可能是抽樣誤差引起的。2 對比資料應有可比性對比資料除對比因素不同外,其它凡影響比較指標
12、的一切因素應盡可能齊同,這樣資料才有可比性。3 要滿足t檢驗的應用條件 t檢驗要求資料具有正態(tài)性,樣本間方差要有齊同性。配對和樣本與總體比較的t檢驗,因是單一樣本,只要求資料具有正態(tài)性。兩小樣本的t檢驗,兩個條件均應達到才能進行t檢驗。必要時應做正態(tài)性檢驗和方差齊性檢驗。4. 正確計算統(tǒng)計量t值 根據(jù)資料的類型、特征和統(tǒng)計分析目的,正確選擇t檢驗的具體方法,計算t值。5正確理解t檢驗結論的概率性 t檢驗結論不管拒絕還是接受H0都不是100正確的,t檢驗中常出現(xiàn)二種錯誤,一是H0是正確的,根據(jù) P拒絕了它,稱第類錯誤,第類錯誤的概率表示,取決于檢驗水準。二是H0是不正確的,而P接受了它,稱第類錯
13、誤,第類錯誤的概率用表示,其值不易確定,但越大,越小,增加樣本含量可同時減少和。6.正確地確定單側和雙側檢驗 根據(jù)專業(yè)知識,在統(tǒng)計分析前就應確定用單側檢驗還是用雙側檢驗。 八、正態(tài)性檢驗對頻數(shù)表應用正態(tài)概率單位法進行正態(tài)性檢驗,要求掌握在沒有概率紙的情況下會作正態(tài)性檢驗。檢驗步驟如下:1 列表計算頻數(shù)表資料各組段的累計頻數(shù)、累計頻率,并將累計頻率換算成概率單位。2 定坐標橫軸表示各組段,縱軸表示相應的概率單位。 3畫圖以各組段的上限與相應的概率單位的交點描點,連接各點即得累計頻率曲線。4判斷結果如資料為正態(tài)分布,該曲線接近一條直線。 第三章 卡方(c2)檢驗 c2檢驗是一種對分類資料進行假設檢
14、驗的重要方法之一。它常用于兩個或多個樣本率(或構成比)的比較、列聯(lián)表資料的相關分析及頻數(shù)分布擬合優(yōu)度的檢驗。 c2 檢驗最常用于作樣本率或構成比的比較,按照資料設計類型不同,可將這類假設檢驗分為:四格表資料 c2檢驗;行´列表資料 c2檢驗;配對資料c2檢驗等。 一、四格表資料 c2檢驗 四格表指由2行2列組成的表格,其基本數(shù)據(jù)只有4個。 檢驗步驟如下: 1建立假設和確定檢驗水準 2計算 c2值 (1)計算c2值的基本公式: 式中: c2 為卡方值, A為實際頻數(shù),即實際觀察所得頻數(shù)。 T為理論額數(shù),即按照假設或理論推算出來的頻數(shù)。 TRC nRncN 式中: TRC為第 R行第 C
15、列格子的理論頻數(shù), nR為與理論額數(shù)同行的合計數(shù), nc為與理論頗數(shù)同列的合計數(shù),N為總例數(shù)。 (2)計算 c2值的專用公式: (3)計算c2 值的校正公式: 3確定P值按g=(行數(shù)一1)(列數(shù)一1),查c2值表確定P值。 4判斷結果根據(jù)c2分布的理論,在a的水準上作出拒絕 HO或接受 HO的結論。 二、行×列表資料c2檢驗 ()行×列表的格式 2×2表是最簡單的行×列表,習慣上把行數(shù)2和(或)列數(shù)2的表稱為行×列表。實際工作中行×列表又可分為R×2表,2×C表和RXC表。 R X 2表由多行(R2)2列組成,用于
16、多個樣本率的比較。 2 X C表由 2行多列(C2)組成,用于兩個樣本構成比的比較。 RXC表由多行(R2)多列(C2)組成,用于多個樣本構成比的比較。(二)行×列表資料 c2檢驗方法 上述三種行×列表資料的c2 檢驗均可用基本公式計算c2值,也可用下列專用公式計算c2值,后者較簡便。 式中: n為總例數(shù), A為實際數(shù), nRnc為與實際數(shù)對應的行合計數(shù)與列合計數(shù)。 (三)行×列表 c2檢驗的注意事項 1作行×列表資料c2檢驗時,允許有1/5以下的格子理論數(shù)小于5,如果有15以上的格子理論數(shù)小于5或有理論數(shù)小于1時,需將鄰近組合并,使理論數(shù)增大。合并時應
17、注意合并是否合理。因合并的做法并非常規(guī)的做法。最好增加樣本含量,使每個格子理論數(shù)都超過5。 2行×列表資料 c2檢驗結果,如果有統(tǒng)計意義,并不表示任何兩組之間差別都有統(tǒng)計意義。 三、配對資料 c2檢驗 和數(shù)值資料一樣,分類資料也有成組與配對之分,前面是對兩組或多組的資料進行c2檢驗。配對分類資料是將觀察單位一配對,對每一對觀察單位分別觀察某分類變量的表現(xiàn),或對每一觀察單位給予不同的處理,觀察其結果,或同一觀察單位先后給予兩種不同的處理。 1建立假設和確定檢驗水準 HO:b=c(因a和d為結果完全相同的部分,不必考慮)。 H1: bC 005 2計算 c2值 如果 bC 40,則用校正
18、公式計算: 3確定 p值按1,查c2界值表 4判斷結果 根據(jù) c2值按=0.05,作出拒絕HO或接受HO的判斷。 式中: N為總例數(shù), A為實際數(shù), nRnc為與實際數(shù)對應的行合計數(shù)與列合計數(shù)。 四、分類資料分層分析-MHc2檢驗 MHc2檢驗是由Mantel-haenszel提出,用于處理分層資料,以便控制混雜因素干擾的一種合并時c2檢驗方法。MHc2檢驗的 值,可采用下式計算。 五,分類資料的相關分析 分類資料相關分析又稱獨立性檢驗或聯(lián)系性檢驗,用于列聯(lián)表資料的行變量與列變量間是否存在聯(lián)系的分析。嚴格地說,列聯(lián)表的資料的搜集方式和表格排列方式與四格表或 RX C表不同:它是對單一樣本中每一
19、觀察單位,分別觀察其兩種(或兩種以上)分類變量的表現(xiàn)。 分類資料相關分析比較的形式,其c2檢驗的結論是對相關而言,檢驗方法與公式同四格表和行×列表c2檢驗。當p時,現(xiàn)象之間存在相關關系;當p時,則無相關關系存在。 六、頻數(shù)分布擬合的優(yōu)度檢驗 頻數(shù)分布擬合的優(yōu)度檢驗目的,是判斷實際分布與假設的理論分布是否吻合。對于正態(tài)分布、二項分布和泊松分布的資料均可根據(jù)實際分布和理論分布的情況,進行c2檢驗。當P時,實際分布符合理論分布,當P時,則實際分布不符合理論分布。 七、四格表資料的確切概率法 四格表資料在下列情況:四格表資料中有任何一個格子的理數(shù)T1,N40;四格表資料 c2檢驗時,所得 p
20、值十分鄰近檢驗水準的界值,可以直接計算其概率作出判斷。四格表資料確切概率的計算公式為: 作單側檢驗時,單側概率P大于為無統(tǒng)計意義,不拒絕HO,單側檢驗P小于為有統(tǒng)計意義,拒絕HO,接受H1;作雙側檢驗時,還應計算另以側概率P,以兩側概率之和與比較,作出判斷。如前所述,作單側檢驗還是作雙側檢驗,應根據(jù)專業(yè)知識并在檢驗之前確定。 第四章 非參數(shù)統(tǒng)計 當資料的分布類型不明或明顯偏態(tài)時,利用資料所提供數(shù)值大小的信息,用秩和進行各組間差別比較的假設檢驗方法。 一、非參數(shù)統(tǒng)計的概念 ()概念 非參數(shù)統(tǒng)計是與參數(shù)統(tǒng)計相對應的統(tǒng)計方法,是在未知總體分布或不滿足參數(shù)統(tǒng)計要求時,所采用的一種不考慮總體分布的統(tǒng)計方
21、法,如c2檢驗、秩和檢驗、游程檢驗、等級相關分析、中位數(shù)比較等均為非參數(shù)統(tǒng)計方法。 (二)應用條件 非參數(shù)統(tǒng)計方法適用于下列幾種情況: 1數(shù)值資料中的未知分布型資料。 2只能以嚴重程度、優(yōu)劣等級、效果大小、名次先后來綜合判斷的有序分類資料。 3分布極度偏態(tài)的數(shù)值資料。 二 秩和檢驗 ()配對比較的秩和檢驗 本法適用于未知分布的配對資料。 檢驗步驟如下: 1建立假設和確定檢驗水準。 H0:差數(shù)總體中位數(shù)Md0 H1:差數(shù)總體中位數(shù)肥羊0(雙側檢驗)或脫0(單側檢驗)或 Md 0(單側檢驗) 005 2計算T值。(1) 求差:計算每對觀察值的差數(shù)。 (2)編秩次:編秩時,差數(shù)為0者棄去不計,相應的
22、對子數(shù)n也隨之減少,將差數(shù)不為0的數(shù)按絕對值的大小編秩次,差數(shù)絕對值相等,符號相反,則計算平均秩次,作為各差數(shù)的秩次,保留原差數(shù)的符號。如遇完全相等的差數(shù),則不必平均,按原順序保留原差數(shù)的符號編序。 (3)求秩和:分別求正負秩次之和,以絕對值較小者為統(tǒng)計量T值。 3確定P值根據(jù)觀察值對子數(shù)n,查配對比較秩和檢驗T界值表(教材附表14),取對應于一定概率P的T值,并與計算出的T值比較,按T值越小P值越小的原則,確定 P0. 05或 P0. 05。 4判斷結果 按=005的水準,接受HO,拒絕H1或拒絕HO,接受H1。 本法的基本思想:若HO成立,由抽樣誤差引起的正負秩和之差不會很大,即T值不會很
23、小,不應小于附表中一定概率的界值;若正負秩和相差懸殊,即T值特別小,小于或等于附表中的界值,則按P拒絕HO。 (二)兩樣本比較的秩和檢驗 本法適用于完全隨機設計資料,按兩組數(shù)字的大小由小到大統(tǒng)一編秩次,相同數(shù)字在不同組時一律取平均秩次,但同一樣本內的相同數(shù)據(jù)不需求平均秩次。 (三)完全隨機設計多樣本比較的秩和檢驗 本法適用于完全隨機設計的多個樣本比較。統(tǒng)計量為“H”值。 檢驗步驟如下: 1建立檢驗假設和確定檢驗水準。 HO:各組觀察值的總體分布相同。 H1:各組觀察值的總體分布不相同或不完全相同。 005 2計算H值。 (1)排隊:將各組數(shù)據(jù)分別由小到大依次排隊。 (2)編秩:將各組數(shù)據(jù)統(tǒng)一編
24、積,不同組的相同數(shù)據(jù)取平均秩次,同組中相同數(shù)據(jù)不編平均秩次。 (3)求各組的秩和民:將各組的秩次相加求和。 (4)求H值: 12 式中 N:各樣本含量總和;Ri:各樣本秩和;ni:各樣本含量。 3。確定P值 若組數(shù)=3,且每組例數(shù)5時,可查H界值表(教材附表16)。、 4判斷結果在。=005水準上,P005時,拒絕HO,接受H1。 (四)隨機區(qū)組設計多個樣本比較的秩和檢驗 本法適用于隨機區(qū)組設計的資料。 檢驗步驟如下: 1建立假設和確定檢驗水準 HO:各處理組觀察值的總體分布相同。 H1:各處理組觀察值的總體分布不相同或不全相同。 005。 2求統(tǒng)計量M值 (1)編秩:將每一區(qū)組數(shù)值由小到大編
25、秩次,相同數(shù)據(jù)編平均秩次。 (2)求Ri:將每一處理組秩次相加,即得各組的Ri值。 (3)求平均秩和。 式中k為處理組數(shù) (4)求M值。 3確定P值 據(jù)處理組數(shù)足和區(qū)組數(shù)b,查M界值表(教材附表17),當MM0。05時,P0.05;MM0.05時,P0.05。 4判斷結果按=0.05水準,P0.05,拒絕HO,接受H1;P0.05, 接受HO, 拒絕H1。 若要檢驗區(qū)組間差異,只要把上述處理組和區(qū)組調換,仿照上法進行檢驗即可。 (五)按等級分組資料比較的秩和檢驗· 本法適用于以等級變量為原始資料的各組比較。如對某種生理生化指標的檢測結果十、十等進行分析。 1建立假設和確定檢驗水準 H
26、O:被比較的各組總體分布相同。 H1:被比較的各組總體分布不相同或不全相同。 =0.05 2計算H值 (1)計算各等級頻數(shù)的合計數(shù)。(2)確定各等級秩次范圍:按各等級的合計數(shù)依次計算各等級的秩次范圍。即第一等級為1至該等級的累計數(shù),第二等級為第一等級的累計數(shù)加1至該等級的累計數(shù),依次類推。 (3)計算各等級平均秩次:為每一等級的秩次范圍上下界的均數(shù)。 (4)求各組秩和:為各等級平均秩次與其頻數(shù)乘積的和。 (5)求H值。 3確定P值 據(jù)自由度=組數(shù)-1,查2界值表(教材附表10)。 4判斷結果按=005水準, P005拒絕HO,接受H1;P005接受H0,拒絕H1。 當所得的H值與H界值較接近時
27、,或各樣本相同秩次較多時,按上式計算的H值此時應先求校正數(shù)C,再求較正Hc值。 式中: tj為各組的相同秩次的個數(shù),N為總例數(shù)。當 H值與2界值相差較大時可作校正。 第五章 直線相關與回歸 一、直線相關()直線相關的概念 直線相關又稱簡單相關,它是從數(shù)量上研究兩變量間相互關系密切程度的一種統(tǒng)計方法。直線相關研究的是現(xiàn)象間數(shù)量上的相關關系。兩變量間的相關關系可用散點圖來表示。通常以變量X為橫坐標,變量Y為縱坐標。(二)相關系數(shù)的意義和計算 1相關系數(shù)的意義 相關系數(shù)是線性相關條件下用來說明兩個變量間相關關系的密切程度和方向的一個統(tǒng)計指標。相關系數(shù)沒有單位,用r表示樣本相關系數(shù),表示總體相關系數(shù),
28、r是的估計值,相關系數(shù)的數(shù)值范圍為-1r1,r值為正表示正相關,r值為負表示負相關,r值等于零為零相關,在相關系數(shù)具有統(tǒng)計意義的前提下,|r|愈接近1,表示相關程度愈密切,|r|等于1為完全相關。 2相關系數(shù)的計算積差法相關系數(shù)的計算公式為: 式中 或lXY為X與Y的離均差積之和。 或lXX為X的離均差平方和。 或lYY為Y的離均差平方和。 計算步驟: (1)作散點圖據(jù)原始資料作散點圖,如基本上呈直線趨勢,則可作直線相關分析。 ( 2)計算 X、Y、X2、Y2、XY。 (3)計算X、Y的離均差平方和及離均差積之和lXX、lYY、IXY。 (4)計算相關系數(shù)按積差法相關系數(shù)計算公式計算r。 (三
29、)相關系數(shù)的抽樣誤差和假設檢驗 1樣本相關系數(shù)的抽樣誤差樣本相關系數(shù)r是總體相關系數(shù)p的估計值。和其他統(tǒng)計量一樣,樣本相關系數(shù)也有抽樣誤差。即從總體相關系數(shù)p=0的總體中隨機抽樣,其樣本相關系數(shù)不一定等于0。 2樣本相關系數(shù)的假設檢驗由于樣本相關系數(shù)存在著抽樣誤差,因此判斷X、Y間是否有相關關系,必須作樣本相關系數(shù)所來自的總體相關系數(shù)是否為零的假設檢驗。檢驗步驟如下:(1)建立假設和確定檢驗水準 HO:X、Y兩變量之間無直線相關關系,即=0。 H1:X、Y兩變量之間存在直線相關關系,即0。 =0.05。 (2)計算樣本相關系數(shù)r。(3)確定P值。據(jù)自由度=n(數(shù)據(jù)對子數(shù))-2,查相關系數(shù)r界值
30、表。(4)判斷結果 u按=005水準,P,拒絕HO,接受H1;P,接受HO,拒絕H1。 二、等級相關 等級相關分析是一種非參數(shù)統(tǒng)計分析方法,它適用于下列資料:X或Y變量中的一個或兩個不服從正態(tài)分布;X或Y變量中一個或兩個為未知分布的變量;X或Y變量中一個或兩個具有半定量性質。 Spearman等級相關法為等級相關分析最常用的方法。等級相關與積差法相關類似,其相關系數(shù) rs界于-1與+1之間,rs為正表示正相關,rs為負表示負相關,、為零表示零相關。 Spearman等級相關分析步驟如下: 1建立假設和確定檢驗水準 HO:X、Y兩變量間不存在相關關系,即=0 H1:X、Y兩變量間存在相關關系,即
31、0。 =0.05。 2計算等級相關系數(shù)rs (1)定等級:將X變量按觀察值由小到大排列,然后寫上高應的Y變量值,兩變量值分別從小到大定等級,如遇到觀察值相等時,應計算平均等級。 (2)計算等級相關系數(shù)、:先計算每對等級的差數(shù)d、d2、d。然后按下式計算、。 式中: d為每對觀察值X、 Y的秩次之差, n為對子數(shù), rs為等級相關系數(shù)。 3確定P值據(jù)觀察值對子數(shù)n,查等級相關系數(shù)rs界值表,rsrS, P; rsrS ,P。 4判斷結果:按=005水準,P,拒絕HO,接受H1;P,接受HO,拒絕H1。 直線回歸()直線回歸的概念直線回歸又稱簡單回歸,它是描述與分析兩變量間統(tǒng)性依存關系的一種統(tǒng)計方
32、法。直線回歸以直線方程描述兩變量間的線性依存關系,但與數(shù)學上完全確定的函數(shù)關系不同,這種直線方程具有某種不確定性,稱為直線回歸方程。用下式表示: 式中a、b是決定直線的兩個參數(shù)。a為回歸直線在Y軸上的截距,b為回歸系數(shù),即直線的斜率,它描述了X變量與Y變量的依存關系,即表示X變動一個單位時Y平均變動的單位數(shù)。(二)直線回歸方程的求法 回歸方程的求法實際上就是a、b的求法。常用最小二乘法原理,使估計誤差平方和(剩余平方和)最小。計算公式如下: 由最小二乘法導出的回歸方程有兩個性質,第一,由此方程決定的回歸直線,各實測的Y值與Y的估計值之差(即實測點至回歸直線的縱向距離)的平方和為最小;第二,該回
33、歸線一定通過Y和X的均數(shù)的交點。 計算步驟如下: 1計算X的離均差平方和,X、Y的離均差積之和及X、Y的均數(shù)。 2求回歸方程中的參數(shù)a和b,建立直線回歸方程。 1 繪制回歸直線在X取值范圍內任意假設兩個相距較遠的X值,分別代入求得的直線回歸方程,計算出相應的Y值,得兩點坐標,通過兩點的直線為回歸直線。(三)回歸系數(shù)假設檢驗 樣本回歸系數(shù)也有一個抽樣誤差的問題。因此當樣本回歸系數(shù)不等于0時,就應考慮到這個不等于0的回歸系數(shù)是否有可能因抽樣誤差而獲得的。這就是說要對樣本回歸系數(shù)作假設檢驗。但是對于同一資料已經(jīng)進行了相關系數(shù)假設檢驗,表明X、Y兩變量間存在相關關系,就可不進行回歸系數(shù)的假設檢驗。方差
34、分析法是作回歸系數(shù)假設檢驗常用的方法。方差分析法作回歸系數(shù)假設檢驗,統(tǒng)計量F值的計算公式: 式中: SS回為回歸平方和;是在Y總平方和中,由于X與Y的直線關系,使Y的變異減少的部分。SS回越大,回歸的效果越好。SS回按下式計算。SS剩為剩余平方和,它反映除X對Y的線性影響之外,其他一切可以對Y發(fā)生影響的因素于Y變異的作用,即無法用X的影響來解釋的Y的變異。通常是指隨機誤差所造成的Y的異。s剩越小,X與Y的線性關系越好,其估計誤差越小。根據(jù)因變量Y的平方和劃分的理,SS剩=SS總-SS回 式中SS總為Y的離均差平方和,按下式計算。 MS回為回歸均方, MS剩為剩余均方,為回歸自由度,剩為剩余自由
35、度。 具體檢驗步驟如下: 1建立假設和確定檢驗水準 HO:X、Y兩變量之間無直線關系,即=0。 H1:X、Y兩變量之間有直線關系,即0。 =005。2 計算統(tǒng)計量F值。3確定P值 據(jù)。 ,查F界值表(教材附表4),F(xiàn)F, P; FF, P。4判斷結果按 005水準,P,拒絕HO,接受H1;P,接受HO,拒絕H1。 另外可用決定系數(shù)(r2)來表示兩變量之間的回歸關系的強度,決定系數(shù)是相關系數(shù)的平方,它是評價回歸效果的一個重要指標。 (四)回歸剩余標準差 回歸剩余標準差是表示回歸方程估計精度的一個指標。用符號SY。X表示,計算公式為: 式中SYx為回歸剩余標準差,Y為因變量的實際值,才為由回歸方程推算出來的因變量Y的估
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 食品廢渣外售協(xié)議書
- Brand KPIs for sauces condiments Wingreens Farms in India-外文版培訓課件(2025.2)
- 飲水糾紛調解協(xié)議書
- 酒店燙傷免責協(xié)議書
- 俱樂部單方解約協(xié)議書
- 鋼筋施工合同協(xié)議書
- 車輛保險代辦協(xié)議書
- 食堂維修安全協(xié)議書
- 營口沿海存款協(xié)議書
- 項目工人勞務協(xié)議書
- (高清版)WST 311-2023 醫(yī)院隔離技術標準
- 2024年電梯安裝與維修工理論考試題庫及答案(通用版)
- 天耀中華合唱簡譜大劇院版
- 【《我國互聯(lián)網(wǎng)企業(yè)價值評估現(xiàn)狀與問題探析11000字》(論文)】
- 智慧農(nóng)業(yè)的無人機技術應用
- 建筑裝飾裝修工程消耗量定額
- 北京市2023年中考備考語文專題復習 名著閱讀題(解析)
- 招聘需求分析報告
- 黃太吉融資商業(yè)計劃書
- 接警員培訓課件模板
- 三明市創(chuàng)建全國法治政府建設示范市法律知識模擬試卷一附有答案
評論
0/150
提交評論