




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、第四章 常用概率分布為了便于讀者理解統(tǒng)計分析的基本原理,正確掌握和應用以后各章所介紹的統(tǒng)計分析方法, 本章在介紹概率論中最基本的兩個概念事件、概率的基礎上,重點介紹生物科學研究中常用的幾種隨機變量的概率分布正態(tài)分布、二項分布、波松分布以及樣本平均數(shù)的抽樣分布和t分布。第一節(jié) 事件與概率一、事 件(一)必然現(xiàn)象與隨機現(xiàn)象 在自然界與生產(chǎn)實踐和科學試驗中,人們會觀察到各種各樣的現(xiàn)象,把它們歸納起來,大體上分為兩大類:一類是可預言其結果的,即在保持條件不變的情況下,重復進行試驗,其結果總是確定的,必然發(fā)生(或必然不發(fā)生)。例如,在標準大氣壓下,水加熱到100必然沸騰;步行條件下必然不可能到達月球等。
2、這類現(xiàn)象稱為必然現(xiàn)象(inevitable phenomena)或確定性現(xiàn)象(definite phenomena)。另一類是事前不可預言其結果的,即在保持條件不變的情況下,重復進行試驗,其結果未必相同。例如,擲一枚質地均勻對稱的硬幣,其結果可能是出現(xiàn)正面,也可能出現(xiàn)反面;孵化6枚種蛋,可能“孵化出0只雛”,也可能“孵化出1只雛”,也可能“孵化出6 只雛”,事前不可能斷言其孵化結果。這類在個別試驗中其結果呈現(xiàn)偶然性、不確定性現(xiàn)象,稱為隨機現(xiàn)象(random phenomena)或不確定性現(xiàn)象(indefinite phenomena)。人們通過長期的觀察和實踐并深入研究之后,發(fā)現(xiàn)隨機現(xiàn)象或不確
3、定性現(xiàn)象,有如下特點:在一定的條件實現(xiàn)時,有多種可能的結果發(fā)生,事前人們不能預言將出現(xiàn)哪種結果;對一次或少數(shù)幾次觀察或試驗而言,其結果呈現(xiàn)偶然性、不確定性;但在相同條件下進行大量重復試驗時,其試驗結果卻呈現(xiàn)出某種固有的特定的規(guī)律性頻率的穩(wěn)定性,通常稱之為隨機現(xiàn)象的統(tǒng)計規(guī)律性。例如,對于一頭臨產(chǎn)的妊娠母牛產(chǎn)公犢還是產(chǎn)母犢是事前不能確定的,但隨著妊娠母牛頭數(shù)的增加,其產(chǎn)公犢、母犢的比例逐漸接近1:1的性別比例規(guī)律。概率論與數(shù)理統(tǒng)計就是研究和揭示隨機現(xiàn)象統(tǒng)計規(guī)律的一門科學。(二)隨機試驗與隨機事件1、隨機試驗 通常我們把根據(jù)某一研究目的,在一定條件下對自然現(xiàn)象所進行的觀察或試驗統(tǒng)稱為試驗(trial
4、)。而一個試驗如果滿足下述三個特性,則稱其為一個隨機試驗(random trial),簡稱試驗:(1)試驗可以在相同條件下多次重復進行;(2)每次試驗的可能結果不止一個,并且事先知道會有哪些可能的結果; (3)每次試驗總是恰好出現(xiàn)這些可能結果中的一個,但在一次試驗之前卻不能肯定這次試驗會出現(xiàn)哪一個結果。如在一定孵化條件下,孵化6枚種蛋,觀察其出雛情況;又如觀察兩頭臨產(chǎn)妊娠母牛所產(chǎn)犢牛的性別情況,它們都具有隨機試驗的三個特征,因此都是隨機試驗。2、隨機事件 隨機試驗的每一種可能結果,在一定條件下可能發(fā)生,也可能不發(fā)生,稱為隨機事件(random event),簡稱事件(event),通常用A、B
5、、C等來表示。(1)基本事件 我們把不能再分的事件稱為基本事件(elementary event),也稱為樣本點(sample point)。例如,在編號為1、2、3、10的十頭豬中隨機抽取1頭,有10種不同的可能結果:“取得一個編號是1”、“取得一個編號是2”、“取得一個編號是10”,這10個事件都是不可能再分的事件,它們都是基本事件。由若干個基本事件組合而成的事件稱為復合事件(compound event)。如“取得一個編號是2的倍數(shù)”是一個復合事件,它由“取得一個編號是2”、“是4”、“是6、“是8”、“是10”5個基本事件組合而成。(2)必然事件 我們把在一定條件下必然會發(fā)生的事件稱為
6、必然事件(certain event),用表示。例如,在嚴格按妊娠期母豬飼養(yǎng)管理的要求飼養(yǎng)的條件下,妊娠正常的母豬經(jīng)114天左右產(chǎn)仔,就是一個必然事件。(3)不可能事件 我們把在一定條件下不可能發(fā)生的事件稱為不可能事件(impossible event),用表示。例如,在滿足一定孵化條件下,從石頭孵化出雛雞,就是一個不可能事件。必然事件與不可能事件實際上是確定性現(xiàn)象,即它們不是隨機事件,但是為了方便起見,我們把它們看作為兩個特殊的隨機事件。二 、 概 率(一)概率的統(tǒng)計定義 研究隨機試驗,僅知道可能發(fā)生哪些隨機事件是不夠的,還需了解各種隨機事件發(fā)生的可能性大小,以揭示這些事件的內在的統(tǒng)計規(guī)律性
7、,從而指導實踐。這就要求有一個能夠刻劃事件發(fā)生可能性大小的數(shù)量指標,這指標應該是事件本身所固有的,且不隨人的主觀意志而改變,人們稱之為概率(probability)。事件A的概率記為P(A)。下面我們先介紹概率的統(tǒng)計定義。在相同條件下進行n次重復試驗,如果隨機事件A發(fā)生的次數(shù)為m,那么m/n稱為隨機事件A的頻率(frequency);當試驗重復數(shù)n逐漸增大時,隨機事件A的頻率越來越穩(wěn)定地接近某一數(shù)值p,那么就把p稱為隨機事件A的概率。這樣定義的概率稱為統(tǒng)計概率(statistics probability),或者稱后驗概率(posterior probability)。例如為了確定拋擲一枚硬幣
8、發(fā)生正面朝上這個事件的概率,歷史上有人作過成千上萬次拋擲硬幣的試驗。在表41中列出了他們的試驗記錄。 表41 拋擲一枚硬幣發(fā)生正面朝上的試驗記錄實驗者投擲次數(shù)發(fā)生正面朝上的次數(shù)頻率(m/n)蒲 豐404020480.5069k皮爾遜1200060190.5016k皮爾遜24000120120.5005從表4-1可看出,隨著實驗次數(shù)的增多,正面朝上這個事件發(fā)生的頻率越來越穩(wěn)定地接近0.5,我們就把0.5作為這個事件的概率。在一般情況下,隨機事件的概率p是不可能準確得到的。通常以試驗次數(shù)n充分大時隨機事件A的頻率作為該隨機事件概率的近似值。即 P(A)=pm/n (n充分大) (4-1)(二)概率
9、的古典定義 上面介紹了概率的統(tǒng)計定義。但對于某些隨機事件,用不著進行多次重復試驗來確定其概率,而是根據(jù)隨機事件本身的特性直接計算其概率。有很多隨機試驗具有以下特征:1、試驗的所有可能結果只有有限個,即樣本空間中的基本事件只有有限個;2、各個試驗的可能結果出現(xiàn)的可能性相等,即所有基本事件的發(fā)生是等可能的;3、試驗的所有可能結果兩兩互不相容。具有上述特征的隨機試驗,稱為古典概型(classical model)。對于古典概型,概率的定義如下:設樣本空間由n個等可能的基本事件所構成,其中事件A包含有m個基本事件,則事件A的概率為m/n,即P(A)=m/n (4-2)這樣定義的概率稱為古典概率(cla
10、ssical probability)或先驗概率(prior probability)?!纠?.1】在編號為1、2、3、10的十頭豬中隨機抽取1頭,求下列隨機事件的概率。(1)A=“抽得一個編號4”;(2)B=“抽得一個編號是2的倍數(shù)”。因為該試驗樣本空間由10個等可能的基本事件構成,即n=10,而事件A所包含的基本事件有4個,既抽得編號為1,2,3,4中的任何一個,事件A便發(fā)生,即mA=4,所以P(A)=mA/n=4/10=0.4同理,事件B所包含的基本事件數(shù)mB=5,即抽得編號為2,4,6,8,10中的任何一個,事件B便發(fā)生,故P(B)=mB/n=5/10=0.5。 【例4.2】 在N頭奶
11、牛中,有M頭曾有流產(chǎn)史,從這群奶牛中任意抽出n頭奶牛,試求:(1)其中恰有m頭有流產(chǎn)史奶牛的概率是多少?(2)若N=30,M =8,n =10,m =2,其概率是多少?我們把從有M頭奶牛曾有流產(chǎn)史的N頭奶牛中任意抽出n頭奶牛,其中恰有m頭有流產(chǎn)史這一事件記為A,因為從N頭奶牛中任意抽出n頭奶牛的基本事件總數(shù)為,事件A 所包含的基本事件數(shù)為 ,因此所求事件A的概率為=將N=30,M =8,n =10,m =2代入上式,得= 0.0695即在30頭奶牛中有8頭曾有流產(chǎn)史,從這群奶牛隨機抽出10頭奶牛其中有2頭曾有流產(chǎn)史的概率為6.95%。(三)概率的性質 根據(jù)概率的定義,概率有如下基本性質:1、對
12、于任何事件A,有0P(A)1;2、必然事件的概率為1,即P()=1;3、不可能事件的概率為0,即P()=0。三、小概率事件實際不可能性原理隨機事件的概率表示了隨機事件在一次試驗中出現(xiàn)的可能性大小。若隨機事件的概率很小,例如小于0.05、0.01、0.001,稱之為小概率事件。小概率事件雖然不是不可能事件,但在一次試驗中出現(xiàn)的可能性很小,不出現(xiàn)的可能性很大,以至于實際上可以看成是不可能發(fā)生的。在統(tǒng)計學上,把小概率事件在一次試驗中看成是實際不可能發(fā)生的事件稱為小概率事件實際不可能性原理,亦稱為小概率原理。小概率事件實際不可能性原理是統(tǒng)計學上進行假設檢驗(顯著性檢驗)的基本依據(jù)。在下一章介紹顯著性檢
13、驗的基本原理時,將詳細敘述小概率事件實際不可能性原理的具體應用。第二節(jié) 概率分布事件的概率表示了一次試驗某一個結果發(fā)生的可能性大小。若要全面了解試驗,則必須知道試驗的全部可能結果及各種可能結果發(fā)生的概率,即必須知道隨機試驗的概率分布(probability distribution)。為了深入研究隨機試驗,我們先引入隨機變量(random variable)的概念。一、隨機變量 作一次試驗,其結果有多種可能。每一種可能結果都可用一個數(shù)來表示,把這些數(shù)作為變量x的取值范圍,則試驗結果可用變量x來表示。 【例4.3】 對100頭病畜用某種藥物進行治療,其可能結果是“0頭治愈”、 “1頭治愈”、“2
14、頭治愈”、“”、“100頭治愈”。若用x表示治愈頭數(shù),則x的取值為0、1、2、100。 【例4.4】 孵化一枚種蛋可能結果只有兩種,即“孵出小雞”與“未孵出小雞”。 若用變量x表示試驗的兩種結果,則可令x=0表示“未孵出小雞”,x=1表示“孵出小雞”。 【例4.5】 測定某品種豬初生重,表示測定結果的變量x所取的值為一個特定范圍(a,b),如0.51.5kg,x值可以是這個范圍內的任何實數(shù)。如果表示試驗結果的變量x,其可能取值至多為可列個,且以各種確定的概率取這些不同的值,則稱x為離散型隨機變量 (discrete random variable);如果表示試驗結果的變量x,其可能取值為某范圍
15、內的任何數(shù)值,且x在其取值范圍內的任一區(qū)間中取值時,其概率是確定的,則稱x為連續(xù)型隨機變量(continuous random variable)。引入隨機變量的概念后,對隨機試驗的概率分布的研究就轉為對隨機變量概率分布的研究了。二、離散型隨機變量的概率分布 要了解離散型隨機變量x的統(tǒng)計規(guī)律,就必須知道它的一切可能值xi及取每種可能值的概率pi。 如果我們將離散型隨機變量x的一切可能取值xi (i=1,2,),及其對應的概率pi,記作P(x=xi)=pi i=1,2, (43) 則稱(43)式為離散型隨機變量x的概率分布或分布。常用分布列(distribution series)來表示離散型隨
16、機變量:x1 x2 xn . p1 p2 pn 顯然離散型隨機變量的概率分布具有pi0和pi=1這兩個基本性質。三、連續(xù)型隨機變量的概率分布 連續(xù)型隨機變量(如體長、體重、蛋重)的概率分布不能用分布列來表示,因為其可能取的值是不可數(shù)的。我們改用隨機變量x在某個區(qū)間內取值的概率P(ax<b)來表示。 下面通過頻率分布密度曲線予以說明。 由表27作126頭基礎母羊體重資料的頻率分布直方圖,見圖41,圖中縱座標取頻率與組距的比值??梢栽O想,如果樣本取得越來越大(n+),組分得越來越細(i0),某一范圍內的頻率將趨近于一個穩(wěn)定值概率。這時,頻率分布直方圖各個直方上端中點的聯(lián)線頻率分布折線將逐漸趨
17、向于一條曲線,換句話說,當n+、i0時,頻率分布折線的極限是一條穩(wěn)定的函數(shù)曲線。 對于樣本是取自連續(xù)型隨機變量的情況,這條函數(shù)曲線將是光滑的。 這條曲線排除了抽樣和測量的誤差,完全反映了基礎母羊體重的變動規(guī)律。 這條曲線叫概率分布密度曲線,相應的函數(shù)叫概率分布密度函數(shù)。若記體重概率分布密度函數(shù)為f(x),則x取值于區(qū)間a,b)的概率為圖中陰影部分的面積,即P(ax<b)= (4-4)圖4-1 表2-7資料的分布曲線(44)式為連續(xù)型隨機變量x在區(qū)間a,b)上取值概率的表達式??梢?,連續(xù)型隨機變量的概率由概率分布密度函數(shù)確定。 此外,連續(xù)型隨機變量概率分布還具有以下性質: 1、分布密度函數(shù)
18、總是大于或等于0,即f(x)0; 2、當隨機變量x取某一特定值時,其概率等于0;即 (c為任意實數(shù))因而,對于連續(xù)型隨機變量,僅研究其在某一個區(qū)間內取值的概率,而不去討論取某一個值的概率。 3、在一次試驗中隨機變量x之取值必在-x+范圍內,為一必然事件。所以 (4-5)(45)式表示分布密度曲線下、橫軸上的全部面積為1。第三節(jié) 正態(tài)分布 正態(tài)分布是一種很重要的連續(xù)型隨機變量的概率分布。生物現(xiàn)象中有許多變量是服從或近似服從正態(tài)分布的,如家畜的體長、體重、產(chǎn)奶量、產(chǎn)毛量、血紅蛋白含量、血糖含量等。許多統(tǒng)計分析方法都是以正態(tài)分布為基礎的。此外,還有不少隨機變量的概率分布在一定條件下以正態(tài)分布為其極限
19、分布。因此在統(tǒng)計學中,正態(tài)分布無論在理論研究上還是實際應用中,均占有重要的地位。一、正態(tài)分布的定義及其特征 (一) 正態(tài)分布的定義 若連續(xù)型隨機變量x的概率分布密度函數(shù)為 (4-16)其中為平均數(shù),2為方差,則稱隨機變量x服從正態(tài)分布(normal distribution), 記為xN(,2)。相應的概率分布函數(shù)為 (4-17)圖42 正態(tài)分布密度曲線分布密度曲線如圖42所示。 (二) 正態(tài)分布的特征 由(46)式和圖42可以看出正態(tài)分布具有以下幾個重要特征: 1、正態(tài)分布密度曲線是單峰、對稱的懸鐘形曲線,對稱軸為x=; 2、f(x)在x=處達到極大,極大值; 3、f(x)是非負函數(shù),以x軸
20、為漸近線,分布從-至+; 4、曲線在x=±處各有一個拐點,即曲線在(-,-)和(+,+) 區(qū)間上是下凸的,在-,+區(qū)間內是上凸的;5、正態(tài)分布有兩個參數(shù),即平均數(shù)和標準差。是位置參數(shù),如圖43所示。 當恒定時,愈大,則曲線沿x軸愈向右移動;反之,愈小,曲線沿x軸愈向左移動。是變異度參數(shù),如圖44所示。當恒定時,愈大,表示x的取值愈分散, 曲線愈“胖”;愈小,x的取值愈集中在附近,曲線愈“瘦”。6、分布密度曲線與橫軸所夾的面積為1,即:圖43 相同而不同的三個正態(tài)分布圖44 相同而不同的三個正態(tài)分布二、標準正態(tài)分布 由上述正態(tài)分布的特征可知,正態(tài)分布是依賴于參數(shù)和2(或)的一簇分布,
21、正態(tài)曲線之位置及形態(tài)隨和2的不同而不同。這就給研究具體的正態(tài)總體帶來困難, 需將一般的N(,2)轉換為=0,2=1的正態(tài)分布。我們稱=0,2=1的正態(tài)分布為標準正態(tài)分布(standard normal distribution)。標準正態(tài)分布的概率密度函數(shù)及分布函數(shù)分別記作(u)和(u),由 (4-6)及(4-7) 式得: (4-8) (4-9)隨機變量u服從標準正態(tài)分布,記作uN(0,1),分布密度曲線如圖45所示。圖45 標準正態(tài)分布密度曲線 對于任何一個服從正態(tài)分布N(,2)的隨機變量x,都可以通過標準化變換:u=(x-) (4-10)將其變換為服從標準正態(tài)分布的隨機變量u。u稱為標準正
22、態(tài)變量或標準正態(tài)離差(standard normal deviate)。 按(4-9)式計算,對不同的u值編成函數(shù)表,稱為正態(tài)分布表,見附表1,從中可查到u在意一個區(qū)間內取值的概率。這就給解決不同、 2的正態(tài)分布概率計算問題帶來很大方便。三、正態(tài)分布的概率計算 關于正態(tài)分布的概率計算,我們先從標準正態(tài)分布著手。這是因為,一方面標準正態(tài)分布在正態(tài)分布中形式最簡單,而且任意正態(tài)分布都可化為標準正態(tài)分布來計算;另一方面,人們已經(jīng)根據(jù)標準正態(tài)分布的分布函數(shù)編制成正態(tài)分布表(附表1)以供直接查用。(一) 標準正態(tài)分布的概率計算 設u服從標準正態(tài)分布,則u在u1,u2內取值的概率為: (u2)(u1) (
23、4-11)而(u1)與(u2)可由附表1查得。 附表1只對于-4.99u4.99給出了(u)的數(shù)值。 表中,u值列在第一列和第一行,第一列列出u的整數(shù)部分及小數(shù)點后第一位, 第一行為u的小數(shù)點后第二位數(shù)值 。例如,u=1.75,1.7放在第一列,0.05放在第一行。在附表1中,1.7所在行與0.05 所在列相交處的數(shù)值為0.95994,即(1.75)=0.95994。有時會遇到給定(u)值,例如(u)=0.284, 反過來查u值。這只要在附表1中找到與0.284最接近的值0.2843,對應行的第一列數(shù)-0.5, 對應列的第一行數(shù)值0.07,即相應的u值為u=-0.57,亦即(-0.57)=0.
24、284。如果要求更精確的u值,可用線性插值法計算。 表中用了象.032336,.937674這種寫法,分別是0.0002326和0.9997674的縮寫,03表示連續(xù)3個0,93表示連續(xù)3個9。 由(4-11) 式及正態(tài)分布的對稱性可推出下列關系式,再借助附表1, 便能很方便地計算有關概率: P(0uu1)(u1)-0.5 P(uu1) =(-u1) P(uu1)=2(-u1) (4-12) P(uu1)=1-2(-u1) P(u1uu2)(u2)-(u1) 【例4.6】 已知uN(0,1),試求: (1) P(u-1.64)? (2) P (u2.58)=? (3) P (u2.56)=?
25、(4) P(0.34u1.53) =? 利用(4-12)式,查附表1得: (1) P(u-1.64)=0.05050 (2) P (u2.58)=(-2.58)=0.024940 (3) P (u2.56)=2(-2.56)=2×0.005234=0.010468 (4) P (0.34u1.53)=(1.53)-(0.34)=0.93669-0.6331=0.30389 關于標準正態(tài)分布,以下幾種概率應當熟記:P(-1u1)=0.6826P(-2u2)=0.9545P(-3u3)=0.9973P(-1.96u1.96)=0.95P (-2.58u2.58)=0.99圖46 標準正態(tài)
26、分布的三個常用概率u變量在上述區(qū)間以外取值的概率分別為:P(u1)=2(-1)=1- P(-1u1)=1-0.6826=0.3174P(u2)=2(-2)=1- P(-2u2)=1-0.9545=0.0455P(u3)=1-0.9973=0.0027P(u1.96)=1-0.95=0.05P(u2.58)=1-0.99=0.01 (二) 一般正態(tài)分布的概率計算 正態(tài)分布密度曲線和橫軸圍成的一個區(qū)域,其面積為1,這實際上表明了“隨機變量x取值在-與+之間”是一個必然事件,其概率為1。若隨機變量 x服從正態(tài)分布N(,2),則x的取值落在任意區(qū)間x1,x2)的概率,記作P(x1xx2),等于圖4-7
27、中陰影部分曲邊梯形面積。即:圖47 正態(tài)分布的概率 (4-13) 對 (4-13)式作變換u=(x-),得dx=du,故有 =其中, 這表明服從正態(tài)分布N(,2)的隨機變量x在x1,x2)內取值的概率,等于服從標準正態(tài)分布的隨機變量u在(x1-)/, (x2-)/)內取值的概率。因此,計算一般正態(tài)分布的概率時,只要將區(qū)間的上下限作適當變換(標準化),就可用查標準正態(tài)分布的概率表的方法求得概率了。 【例4.7】 設x服從=30.26,2=5.102的正態(tài)分布,試求P(21.64x32.98)。 令, 則u服從標準正態(tài)分布,故 =P(-1.69u0.53)=(0.53)-(-1.69) =0.70
28、19-0.04551=0.6564 關于一般正態(tài)分布,以下幾個概率(即隨機變量x落在加減不同倍數(shù)區(qū)間的概率)是經(jīng)常用到的。P(-x+)=0.6826P(-2x+2) =0.9545P (-3x+3) =0.9973P (-1.96x+1.96) =0.95P (-2.58x+2.58)=0.99上述關于正態(tài)分布的結論,可用一實例來印證。從圖2-7可以看出,126頭基礎母羊體重資料的次數(shù)分布接近正態(tài)分布,現(xiàn)根據(jù)其平均數(shù)=52.26(kg),標準差S=5.10(kg),算出平均數(shù)加減不同倍數(shù)標準差區(qū)間內所包括的次數(shù)與頻率,列于表42。表42 126頭基礎母羊體重在±kS 區(qū)間內所包括的次
29、數(shù)與頻率±kS數(shù) 值區(qū) 間區(qū)間內所包含的次數(shù)與頻率次數(shù)頻率(%)±1S52.26±5.1047.1657.368467.46±2S52.26±10.2042.0662.4611994.44±3S52.26±15.3036.9667.56126100.00±1.96S52.26±10.0042.2662.2611994.44±2.58S52.26±13.1639.1065.42126100.00 由表42可見,實際頻率與理論概率相當接近,說明126頭基礎母羊體重資料的頻率分布接近正態(tài)分布
30、,從而可推斷基礎母羊體重這一隨機變量很可能是服從正態(tài)分布的。 生物統(tǒng)計中,不僅注意隨機變量x落在平均數(shù)加減不同倍數(shù)標準差區(qū)間(-k,+k)之內的概率而且也很關心x落在此區(qū)間之外的概率。我們把隨機變量x落在平均數(shù)加減不同倍數(shù)標準差區(qū)間之外的概率稱為雙側概率(兩尾概率),記作。對應于雙側概率可以求得隨機變量x小于-k或大于+k的概率,稱為單側概率(一尾概率),記作2。例如,x落在(-1.96,+1.96)之外的雙側概率為0.05,而單側概率為0.025。即P(x-1.96)= P(x+1.96)=0.025雙側概率或單側概率如圖48所示。x落在(-2.58,+2.58)之外的雙側概率為0.01,而
31、單側概率P(x-2.58)= P(x+2.58)=0.005圖48 雙側概率與單側概率 附表2給出了滿足P (u)=的雙側分位的數(shù)值。因此, 只要已知雙側概率的值,由附表2就可直接查出對應的雙側分位數(shù),查法與附表1相同。例如,已知uN(0,1)試求: (1) P(u-)+P(u)=0.10的 (2) P(-u=0.86的因為附表2中的值是:所以 (1) P(u-)+ P(u)=1- P(-u=0.10=由附表2查得: =1.644854(2) P (-u)=0.86 ,=1- P (-u)=1-0.86=0.14由附表2查得:=1.475791 對于xN(,2),只要將其轉換為uN(0,1),
32、即可求得相應的雙側分位數(shù)。 【例4.8】 已知豬血紅蛋白含量x服從正態(tài)分布N(12.86,), 若P(x) =0.03, P(x)=0.03,求,。由題意可知,2=0.03,=0.06 又因為 P(x)=故 P(x+ P(x)= P(u-+ P(u) =1- P(-P)=0.06=由附表2查得:=1.880794,所以 (-12.86)/1.33=-1.880794, (-12.86)/1.33=1.880794即 10.36, 15.36。第四節(jié) 二項分布一、貝努利試驗及其概率公式 將某隨機試驗重復進行n次,若各次試驗結果互不影響, 即每次試驗結果出現(xiàn)的概率都不依賴于其它各次試驗的結果,則稱
33、這n次試驗是獨立的。 對于n次獨立的試驗,如果每次試驗結果出現(xiàn)且只出現(xiàn)對立事件A與之一,在每次試驗中出現(xiàn)A的概率是常數(shù)p(0<p<1),因而出現(xiàn)對立事件的概率是1-p=q,則稱這一串重復的獨立試驗為n重貝努利試驗,簡稱貝努利試驗(Bernoulli trials )。 在生物學研究中,我們經(jīng)常碰到的一類離散型隨機變量,如入孵n枚種蛋的出雛數(shù)、n頭病畜治療后的治愈數(shù)、n 尾魚苗的成活數(shù)等,可用貝努利試驗來概括。 在n重貝努利試驗中,事件A可能發(fā)生0,1,2,n次,現(xiàn)在我們來求事件A 恰好發(fā)生k(0kn)次的概率Pn(k)。 先取n=4,k=2來討論。在4次試驗中,事件A發(fā)生2次的方式
34、有以下種: 其中Ak(k=1,2,3,4)表示事件A在第k次試驗發(fā)生;(k=1,2,3,4)表示事件A在第k次試驗不發(fā)生。由于試驗是獨立的,按概率的乘法法則,于是有 P()=P()= P()= P()·P()·P()·P()=又由于以上各種方式中,任何二種方式都是互不相容的,按概率的加法法則,在4 次試驗中,事件A恰好發(fā)生2次的概率為= P()+P()+ P()=一般,在n重貝努利試驗中,事件A恰好發(fā)生k(0kn)次的概率為= k=0,1,2,n (4-14)若把(4-14)式與二項展開式相比較就可以發(fā)現(xiàn),在n重貝努利試驗中,事件A發(fā)生k次的概率恰好等于 展開式中
35、的第k+1項,所以也把(4-14)式稱作二項概率公式。二、二項分布的意義及性質二項分布定義如下: 設隨機變量x所有可能取的值為零和正整數(shù):0,1,2,,n,且有= k=0,1,2,n其中p0,q0,p+q=1,則稱隨機變量x服從參數(shù)為n和p的二項分布 (binomial distribution),記為 xB(n,p)。 顯然,二項分布是一種離散型隨機變量的概率分布。參數(shù)n稱為離散參數(shù), 只能取正整數(shù);p是連續(xù)參數(shù),它能取0與1之間的任何數(shù)值(q由p確定,故不是另一個獨立參數(shù))。 容易驗證,二項分布具有概率分布的一切性質,即: 1、P(x=k)= Pn(k) (k=0,1,,n) 2、二項分布
36、的概率之和等于1,即3、 (4-15)4、 (4-16) 5、(m1<m2) (4-17) 二項分布由n和p兩個參數(shù)決定: 1、當p值較小且n不大時,分布是偏倚的。但隨著n的增大 ,分布逐漸趨于對稱,如圖49 所示; 2、當p值趨于0.5時,分布趨于對稱,如圖410所示; 3、對于固定的n及p,當k增加時,Pn(k)先隨之增加并達到其極大值,以后又下降。圖49 n值不同的二項分布比較 圖410 p值不同的二項分布比較 此外,在n較大,np、nq較接近時,二項分布接近于正態(tài)分布;當n時,二項分布的極限分布是正態(tài)分布。三、二項分布的概率計算及應用條件 【例4.9】 純種白豬與純種黑豬雜交,根
37、據(jù)孟德爾遺傳理論, 子二代中白豬與黑豬的比率為31。求窩產(chǎn)仔10頭,有7頭白豬的概率。 根據(jù)題意,n=10,p=34=0.75,q=14=0.25。設10頭仔豬中白色的為x頭,則x為服從二項分布B(10,0.75)的隨機變量。于是窩產(chǎn)10頭仔豬中有7頭是白色的概率為: 【例4.10】 設在家畜中感染某種疾病的概率為20,現(xiàn)有兩種疫苗,用疫苗A 注射了15頭家畜后無一感染,用疫苗B注射15頭家畜后有1頭感染。設各頭家畜沒有相互傳染疾病的可能,問:應該如何評價這兩種疫苗?假設疫苗A完全無效,那么注射后的家畜感染的概率仍為20,則15 頭家畜中染病頭數(shù)x=0的概率為同理,如果疫苗B完全無效,則15頭
38、家畜中最多有1頭感染的概率為由計算可知,注射A疫苗無效的概率為0.0352,比B疫苗無效的概率0.1671小得多。因此,可以認為A疫苗是有效的,但不能認為B疫苗也是有效的。 【例4.11】 仔豬黃痢病在常規(guī)治療下死亡率為20,求5 頭病豬治療后死亡頭數(shù)各可能值相應的概率。設5頭病豬中死亡頭數(shù)為x,則x服從二項分布B(5,0.2),其所有可能取值為0,1,5,按(4-6)式計算概率用分布列表示如下:0 1 2 3 4 5 0.3277 0.4096 0.2048 0.0512 0.0064 0.0003從上面各例可看出二項分布的應用條件有三:(1)各觀察單位只具有互相對立的一種結果,如陽性或陰性
39、,生存或死亡等,屬于二項分類資料;(2)已知發(fā)生某一結果(如死亡) 的概率為p,其對立結果的概率則為1-P=q,實際中要求p 是從大量觀察中獲得的比較穩(wěn)定的數(shù)值;(3)n個觀察單位的觀察結果互相獨立,即每個觀察單位的觀察結果不會影響到其它觀察單位的觀察結果。四、二項分布的平均數(shù)與標準差 前面已經(jīng)指出二項分布由兩個參數(shù)n和p決定。統(tǒng)計學證明,服從二項分布B(n,p)的隨機變量之平均數(shù)、標準差與參數(shù)n、p有如下關系: 當試驗結果以事件A發(fā)生次數(shù)k表示時 =np (4-18) = (4-19)【例4.12】 求【例4.11】平均死亡豬數(shù)及死亡數(shù)的標準差。以p=0.2,n=5代入 (4-18)和(4-
40、19) 式得平均死亡豬數(shù) =5×0.20=1.0(頭)標準差 = =0.894(頭)當試驗結果以事件A發(fā)生的頻率kn表示時 (4-20)= (4-21) 也稱為總體百分數(shù)標準誤,當p未知時,常以樣本百分數(shù)來估計。此時(4-21) 式改寫為:Sp = (4-22)稱為樣本百分數(shù)標準誤。第五節(jié) 波松分布波松分布是一種可以用來描述和分析隨機地發(fā)生在單位空間或時間里的稀有事件的概率分布。要觀察到這類事件,樣本含量n必須很大 。在生物、醫(yī)學研究中,服從波松分布的隨機變量是常見的。如,一定畜群中某種患病率很低的非傳染性疾病患病數(shù)或死亡數(shù),畜群中遺傳的畸形怪胎數(shù),每升飲水中大腸桿菌數(shù),計數(shù)器小方格
41、中血球數(shù),單位空間中某些野生動物或昆蟲數(shù),醫(yī)院門診單位時間內就診患者數(shù)等,都是服從波松分布的。一、波松分布的意義 若隨機變量x(x=k)只取零和正整數(shù)值0,1,2,且其概率分布為 ,k=0,1, (4-23)其中0;e=2.7182是自然對數(shù)的底數(shù),則稱x服從參數(shù)為的波松分布(Poisson's distribution),記為xP()。 波松分布作為一種離散型隨機變量的概率分布有一個重要的特征,這就是它的平均數(shù)和方差相等,都等于常數(shù),即=2=。利用這一特征, 可以初步判斷一個離散型隨機變量是否服從波松分布?!纠?.13】 調查某種豬場閉鎖育種群仔豬畸形數(shù),共記錄200窩, 畸形仔豬數(shù)
42、的分布情況如表4-3所示。試判斷畸形仔豬數(shù)是否服從波松分布。表4-3 畸形仔豬數(shù)統(tǒng)計分布每窩畸形數(shù)k01334合計窩 數(shù) f120621521200 根據(jù)波松分布的平均數(shù)與方差相等這一特征,若畸形仔豬數(shù)服從波松分布,則由觀察數(shù)據(jù)計算的平均數(shù)和方差就近于相等。樣本均數(shù)和方差S2計算結果如下:=fk/n=(120×0+62×1+15×2+2×3+1×4)/200=0.51-=0.51,S2=0.52,這兩個數(shù)是相當接近的, 因此可以認為畸形仔豬數(shù)服從波松分布。 是波松分布所依賴的唯一參數(shù)。值愈小分布愈偏倚,隨著的增大,分布趨于對稱(如圖4-11所示
43、)。當=20時分布接近于正態(tài)分布;當=50時,可以認為波松分布呈正態(tài)分布。所以在實際工作中,當20時就可以用正態(tài)分布來近似地處理波松分布的問題。圖411 不同的波松分布二、波松分布的概率計算 由(4-23)式可知,波松分布的概率計算,依賴于參數(shù)的確定,只要參數(shù)確定了,把k=0,1,2,代入(4-23)式即可求得各項的概率。 但是在大多數(shù)服從波松分布的實例中,分布參數(shù)往往是未知的,只能從所觀察的隨機樣本中計算出相應的樣本平均數(shù)作為的估計值,將其代替(4-23)式中的,計算出k=0,1,2,時的各項概率。 如【例4.13】中已判斷畸形仔豬數(shù)服從波松分布,并已算出樣本平均數(shù)=0.51。將0.51代替
44、公式(4-23)中的得: (k=0,1,2,) 因為e-0.51=1.6653,所以畸形仔豬數(shù)各項的概率為:P(x=0)=0.510(0!×1.6653)=0.6005P(x=1)=0.511(1!×1.6653)=0.3063P(x=2)=0.512(2!×1.6653)=0.0781P(x=3)=0.513(3!×1.6653)=0.0133P(x=4)=0.514(4!×1.6653)=0.0017把上面各項概率乘以總觀察窩數(shù)(N=200)即得各項按波松分布的理論窩數(shù)。 波松分布與相應的頻率分布列于表47中。 表44 畸形仔豬數(shù)的波松分布
45、 每窩畸形數(shù) k01234合計窩 數(shù)120621521200頻 率0.60000.31000.07500.01000.00501.00概 率0.60050.30630.07810.01330.00181.00理論窩數(shù)120.1261.2615.622.660.34200將實際計算得的頻率與根據(jù)=0.51的泊松分布計算的概率相比較,發(fā)現(xiàn)畸形仔豬的頻率分布與=0.51的波松分布是吻合得很好的。這進一步說明了畸形仔豬數(shù)是服從波松分布的?!纠?.14】 為監(jiān)測飲用水的污染情況, 現(xiàn)檢驗某社區(qū)每毫升飲用水中細菌數(shù), 共得400個記錄如下:1ml水中細菌數(shù)0123合 計次數(shù)f243120316400試分析
46、飲用水中細菌數(shù)的分布是否服從波松分布。若服從,按波松分布計算每毫升水中細菌數(shù)的概率及理論次數(shù)并將次數(shù)分布與波松分布作直觀比較。 經(jīng)計算得每毫升水中平均細菌數(shù)=0.500,方差S2=0.496。兩者很接近, 故可認為每毫升水中細菌數(shù)服從波松分布。以=0.500代替(4-23)式中的,得 (k=0,1,2)計算結果如表45所示。 表45 細菌數(shù)的波松分布1ml水中細菌數(shù)0123合 計實際次數(shù)243120316400頻 率0.60750.30000.07750.01501.00概 率0.60650.30330.07580.01441.00理論次數(shù)242.60121.3230.325.76400 可見
47、細菌數(shù)的頻率分布與=0.5的波松分布是相當吻合的,進一步說明用波松分布描述單位容積(或面積)中細菌數(shù)的分布是適宜的。應當注意,二項分布的應用條件也是波松分布的應用條件。比如二項分布要求n 次試驗是相互獨立的,這也是波松分布的要求。然而一些具有傳染性的罕見疾病的發(fā)病數(shù),因為首例發(fā)生之后可成為傳染源,會影響到后續(xù)病例的發(fā)生,所以不符合波松分布的應用條件。對于在單位時間、單位面積或單位容積內,所觀察的事物由于某些原因分布不隨機時,如細菌在牛奶中成集落存在時,亦不呈波松分布。前面討論的三個重要的概率分布中,前一個屬連續(xù)型隨機變量的概率分布,后兩個屬離散型隨機變量的概率分布。三者間的關系如下: 對于二項
48、分布,在n,p0,且n p =(較小常數(shù))情況下,二項分布趨于波松布。在這種場合,波松分布中的參數(shù)用二項分布的n p代之;在n, p0.5時,二項分布趨于正態(tài)分布。在這種場合,正態(tài)分布中的、2用二項分布的n p、n p q代之。在實際計算中,當p0.1且n很大時,二項分布可由波松分布近似;當p0.1且n很大時,二項分布可由正態(tài)分布近似。對于波松分布,當時,波松分布以正態(tài)分布為極限。在實際計算中,當20(也有人認為6)時,用波松分布中的代替正態(tài)分布中的及2,即可由后者對前者進行近似計算。第六節(jié) 樣本平均數(shù)的抽樣分布 研究總體與從中抽取的樣本之間的關系是統(tǒng)計學的中心內容。對這種關系的研究可從兩方面
49、著手,一是從總體到樣本,這就是研究抽樣分布(sampling distribution)的問題; 二是從樣本到總體,這就是統(tǒng)計推斷(statistical inference)問題。 統(tǒng)計推斷是以總體分布和樣本抽樣分布的理論關系為基礎的。為了能正確地利用樣本去推斷總體,并能正確地理解統(tǒng)計推斷的結論,須對樣本的抽樣分布有所了解。 我們知道,由總體中隨機地抽取若干個體組成樣本,即使每次抽取的樣本含量相等,其統(tǒng)計量(如,S)也將隨樣本的不同而有所不同,因而樣本統(tǒng)計量也是隨機變量, 也有其概率分布。我們把統(tǒng)計量的概率分布稱為抽樣分布。本節(jié)僅就樣本平均數(shù)的抽樣分布加以討論。一、樣本平均數(shù)抽樣分布 由總體
50、隨機抽樣(random sampling)的方法可分為有返置抽樣和不返置抽樣兩種。 前者指每次抽出一個個體后,這個個體應返置回原總體;后者指每次抽出的個體不返置回原總體。對于無限總體,返置與否都可保證各個體被抽到的機會相等。對于有限總體,就應該采取返置抽樣,否則各個體被抽到的機會就不相等。設有一個總體,總體平均數(shù)為,方差為2,總體中各變數(shù)為x, 將此總體稱為原總體?,F(xiàn)從這個總體中隨機抽取含量為n的樣本,樣本平均數(shù)記為??梢栽O想,從原總體中可抽出很多甚至無窮多個含量為n的樣本。由這些樣本算得的平均數(shù)有大有小,不盡相同, 與原總體平均數(shù)相比往往表現(xiàn)出不同程度的差異。這種差異是由隨機抽樣造成的, 稱為抽樣誤差(sampling error)。
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 醫(yī)療教育中模擬游戲的成效評估研究
- 抖音商戶差評回復內容審核制度
- 八大城市物流行業(yè)物流配送體系建設研究報告
- 公交優(yōu)先政策2025年實施對城市交通擁堵治理的成本效益分析報告
- 公眾參與對2025年環(huán)境影響評價結論影響的研究報告
- 2024-2025學年河南省駐馬店市新蔡縣九上化學期末考試模擬試題含解析
- 2024年湖南省長沙市明德旗艦化學九年級第一學期期末達標檢測模擬試題含解析
- 上海邦德職業(yè)技術學院《數(shù)字媒體設計》2023-2024學年第一學期期末試卷
- 鄭州工業(yè)安全職業(yè)學院《橋梁工程D》2023-2024學年第一學期期末試卷
- 宿遷學院《建筑設備與環(huán)境》2023-2024學年第一學期期末試卷
- 廣東省行業(yè)企業(yè)職業(yè)技能競賽技術工作指引
- 2025年貴州省中考語文試卷真題(含答案)
- 浙江2025年6月高一學考模擬歷史試題及答案
- 2025年計算機程序設計考試試卷及答案
- 2025年河南省中考數(shù)學真題含答案
- 人力中介公司管理制度
- 抗精神病藥氯丙嗪講課件
- 2025人教英語初中八年級下冊期末測試卷(含答案)
- 燃氣入戶回訪管理制度
- 燃氣公司計量管理制度
- 綜合與實踐 白晝時長規(guī)律的探究 同步練習(含答案)人教版七年級數(shù)學下冊
評論
0/150
提交評論