R語(yǔ)言統(tǒng)計(jì)推斷S.ppt_第1頁(yè)
R語(yǔ)言統(tǒng)計(jì)推斷S.ppt_第2頁(yè)
R語(yǔ)言統(tǒng)計(jì)推斷S.ppt_第3頁(yè)
R語(yǔ)言統(tǒng)計(jì)推斷S.ppt_第4頁(yè)
R語(yǔ)言統(tǒng)計(jì)推斷S.ppt_第5頁(yè)
已閱讀5頁(yè),還剩21頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

統(tǒng)計(jì)推斷,從數(shù)據(jù)得到對(duì)現(xiàn)實(shí)世界的結(jié)論的過(guò)程,估計(jì),總體代表我們所關(guān)心的那部分世界。 而在利用樣本中的信息來(lái)對(duì)總體進(jìn)行推斷之前人們往往對(duì)代表總體的變量假定了分布族。(描述數(shù)據(jù)時(shí)不用假定) 比如假定人們的身高屬于正態(tài)分布族;在抽樣調(diào)查時(shí)假定了二項(xiàng)分布族等等(這些假定可能有風(fēng)險(xiǎn)!)。 這些模型基本上是根據(jù)“經(jīng)驗(yàn)”來(lái)假定的,僅僅是對(duì)現(xiàn)實(shí)世界的一個(gè)近似。,估計(jì),在假定了總體分布族之后,進(jìn)一步對(duì)總體的認(rèn)識(shí)就是要在這個(gè)分布族中選擇一個(gè)適合于我們問(wèn)題的成員 由于分布族成員是由參數(shù)確定的,如果參數(shù)能夠估計(jì),對(duì)總體的具體分布就知道得差不多了。,估計(jì)量是用來(lái)估計(jì)的統(tǒng)計(jì)量,我們知道,統(tǒng)計(jì)量是樣本的不包含未知參數(shù)的函數(shù)。樣本均值、樣本標(biāo)準(zhǔn)差都是統(tǒng)計(jì)量。 由于樣本是隨機(jī)的,統(tǒng)計(jì)量也是隨機(jī)變量。 用于估計(jì)總體參數(shù)的統(tǒng)計(jì)量稱為估計(jì)量;樣本均值和標(biāo)準(zhǔn)差都是總體均值和標(biāo)準(zhǔn)差的常用估計(jì)量。,點(diǎn)估計(jì)和區(qū)間估計(jì),點(diǎn)估計(jì)(point estimation)就是用估計(jì)量的實(shí)現(xiàn)值來(lái)近似相應(yīng)的總體參數(shù)。 區(qū)間估計(jì)(interval estimation) 是包括估計(jì)量在內(nèi)(有時(shí)是以估計(jì)量為中心)的一個(gè)區(qū)間;被認(rèn)為很可能包含總體參數(shù)。 點(diǎn)估計(jì)給出一個(gè)數(shù)字,用起來(lái)很方便;而區(qū)間估計(jì)給出一個(gè)區(qū)間,說(shuō)起來(lái)留有余地;不象點(diǎn)估計(jì)那么絕對(duì)。 無(wú)偏估計(jì)(大樣本性質(zhì)),區(qū)間估計(jì),注意置信區(qū)間的論述是由區(qū)間和置信度兩部分組成。 置信區(qū)間是對(duì)參數(shù)給出的一個(gè)范圍 置信度為其可信程度(大樣本意義) 有些新聞媒體報(bào)道一些調(diào)查結(jié)果只給出百分比和誤差(即置信區(qū)間),比如 “收視率為53%3%”; 不給出置信度,也不給出被調(diào)查的人數(shù) 這是不負(fù)責(zé)的表現(xiàn)。,區(qū)間估計(jì)的意義,置信度的概念大量重復(fù)抽樣時(shí)的一個(gè)漸近概念。 類似于“我們目前得到的置信度為95%的置信區(qū)間(比如上面的75%3%)以概率0.95覆蓋真正的比例p”的說(shuō)法是錯(cuò)誤的。 實(shí)際上應(yīng)該說(shuō)“重復(fù)類似的抽樣所得到的大量區(qū)間中有大約95%的覆 蓋真實(shí)比例(其值可能永遠(yuǎn)未知)。,均值m的區(qū)間估計(jì) (正態(tài)分布),總體標(biāo)準(zhǔn)差s已知,總體標(biāo)準(zhǔn)差s未知,區(qū)間估計(jì)的例子(1),例5.1 (數(shù)據(jù):noodle.txt, noodle.sav, noodle.sas7bdat)某廠家生產(chǎn)的掛面包裝上寫明“凈含量450克”。在用天平稱量了商場(chǎng)中的48包掛面之后,得到樣本量為48的關(guān)于掛面重量(單位:克)的一個(gè)樣本(我們假定,掛面重量所代表的總體分布服從正態(tài)分布。 ):,w=scan(“D:/booktj1/data/noodle.txt“);hist(w,10),summary(w) Min. 1st Qu. Median Mean 3rd Qu. Max. 439.6 444.6 448.9 449.0 452.6 461.1,假設(shè)檢驗(yàn),在假設(shè)檢驗(yàn)中,一般要設(shè)立一個(gè)原假設(shè); 而設(shè)立該假設(shè)的動(dòng)機(jī)主要是企圖利用人們掌握的反映現(xiàn)實(shí)世界的數(shù)據(jù)來(lái)找出假設(shè)和現(xiàn)實(shí)的矛盾,從而否定這個(gè)假設(shè)。,假設(shè)檢驗(yàn),在多數(shù)統(tǒng)計(jì)教科書(shū)中(除了理論探討之外),假設(shè)檢驗(yàn)都是以否定原假設(shè)為目標(biāo)。 如否定不了,那就說(shuō)明證據(jù)不足,無(wú)法否定原假設(shè)。但這不能說(shuō)明原假設(shè)正確。 很多教科書(shū)在這個(gè)問(wèn)題上不適當(dāng)?shù)赜谩敖邮茉僭O(shè)”的說(shuō)法,犯了明顯的低級(jí)邏輯錯(cuò)誤。 ,假設(shè)檢驗(yàn)的過(guò)程和邏輯,首先要提出一個(gè)原假設(shè),比如某正態(tài)總體的均值等于5(m=5)。這種原假設(shè)也稱為零假設(shè)(null hypothesis),記為H0 與此同時(shí)必須提出對(duì)立假設(shè),比如總體均值大于5(m5)。對(duì)立假設(shè)又稱為備選假設(shè)或備擇假設(shè)(alternative hypothesis)記為記為H1或Ha,假設(shè)檢驗(yàn)的過(guò)程和邏輯,根據(jù)零假設(shè)(不是備選假設(shè)!),我們可以得到該檢驗(yàn)統(tǒng)計(jì)量的分布; 然后再看這個(gè)統(tǒng)計(jì)量的數(shù)據(jù)實(shí)現(xiàn)值(realization)屬不屬于小概率事件。也就是說(shuō)把數(shù)據(jù)代入檢驗(yàn)統(tǒng)計(jì)量,看其值是否落入零假設(shè)下的小概率范疇 如果的確是小概率事件,那么我們就有可能拒絕零假設(shè),否則我們說(shuō)沒(méi)有足夠證據(jù)拒絕零假設(shè)。,假設(shè)檢驗(yàn)的過(guò)程和邏輯,注意:零假設(shè)和備選假設(shè)在我們涉及的假設(shè)檢驗(yàn)中并不對(duì)稱。檢驗(yàn)統(tǒng)計(jì)量的分布是從零假設(shè)導(dǎo)出的, 因此, 如果有矛盾, 當(dāng)然就不利于零假設(shè)了。 不發(fā)生矛盾也不說(shuō)明備選假有問(wèn)題。,假設(shè)檢驗(yàn)的過(guò)程和邏輯,檢驗(yàn)統(tǒng)計(jì)量在零假設(shè)下,等于這個(gè)樣本的數(shù)據(jù)實(shí)現(xiàn)值或更加極端值的概率稱為p-值(p-value)。 顯然得到很小p-值意味著小概率事件發(fā)生了。如果小概率事件發(fā)生,是相信零假設(shè),還是相信數(shù)據(jù)呢? 當(dāng)然是相信數(shù)據(jù)。于是就拒絕零假設(shè)。但事件概率小并不意味著不會(huì)發(fā)生,僅僅發(fā)生的概率很小罷了。 拒絕正確零假設(shè)的錯(cuò)誤常被稱為第一類錯(cuò)誤(type I error)。,假設(shè)檢驗(yàn)的過(guò)程和邏輯,不僅有第一類錯(cuò)誤,還有第二類錯(cuò)誤;那是備選零假設(shè)正確時(shí)反而說(shuō)零假設(shè)正確的錯(cuò)誤,稱為第二類錯(cuò)誤(type II error)。 如要“接受零假設(shè)”就必須給出第二類錯(cuò)誤的概率. 但對(duì)于目前面對(duì)的問(wèn)題, 無(wú)法計(jì)算它.,假設(shè)檢驗(yàn)的過(guò)程和邏輯,零假設(shè)和備選假設(shè)哪一個(gè)正確,這是確定性的,沒(méi)有概率可言。 而可能犯錯(cuò)誤的是人。涉及假設(shè)檢驗(yàn)的犯錯(cuò)誤的概率就是犯第一類錯(cuò)誤的概率和犯第二類錯(cuò)誤的概率。 負(fù)責(zé)的態(tài)度是無(wú)論做出什么決策,都應(yīng)該給出犯錯(cuò)誤的概率。,假設(shè)檢驗(yàn)的過(guò)程和邏輯,到底p-值是多小才能夠拒絕零假設(shè)呢?也就是說(shuō),需要有什么是小概率的標(biāo)準(zhǔn)。 這要看具體應(yīng)用的需要。 但在一般的統(tǒng)計(jì)書(shū)和軟件中,使用最多的標(biāo)準(zhǔn)是在零假設(shè)下(或零假設(shè)正確時(shí))抽樣所得的數(shù)據(jù)拒絕零假設(shè)的概率應(yīng)小于0.05(也可能是0.01,0.005,0.001等等)。,假設(shè)檢驗(yàn)的過(guò)程和邏輯,這種事先規(guī)定的概率稱為顯著性水平(significant level),用字母a來(lái)表示。 當(dāng)p-值小于或等于a時(shí),就拒絕零假設(shè)。 所以,a是所允許的犯第一類錯(cuò)誤概率的最大值。當(dāng)p-值小于或等于a時(shí),我們說(shuō)這個(gè)檢驗(yàn)是顯著的(significant)。,假設(shè)檢驗(yàn)的過(guò)程和邏輯,歸納起來(lái),假設(shè)檢驗(yàn)的邏輯步驟為: 第一: 寫出零假設(shè)和備選假設(shè); 第二: 確定檢驗(yàn)統(tǒng)計(jì)量; 第三: 確定顯著性水平a; 第四: 根據(jù)數(shù)據(jù)計(jì)算檢驗(yàn)統(tǒng)計(jì)量的實(shí)現(xiàn)值; 第五: 根據(jù)這個(gè)實(shí)現(xiàn)值計(jì)算p-值; 第六: 進(jìn)行判斷:如果p-值小于或等于a,就拒絕零假設(shè),這時(shí)犯錯(cuò)誤的概率最多為a;如果p-值大于a,就不拒絕零假設(shè),因?yàn)樽C據(jù)不足。,假設(shè)檢驗(yàn)的過(guò)程和邏輯,實(shí)際上,計(jì)算機(jī)軟件僅僅給出p-值,而不給出a。這有很多方便之處。比如a=0.05,而假定我們得到的p-值等于0.001。這時(shí)我們?nèi)绻绻捎胮-值作為新的顯著性水平,即a=0.001,于是可以說(shuō),我們拒絕零假設(shè),顯著性水平為0.001。拒絕零假設(shè)時(shí)犯錯(cuò)誤的概率實(shí)際只是千分之一而不是百分之五。在這個(gè)意義上,p-值又稱為觀測(cè)的顯著性水平(observed significant level)。在統(tǒng)計(jì)軟件輸出p-值的位置,有的用“p-value”,有的用significant的縮寫“Sig”就是這個(gè)道理。,假設(shè)檢驗(yàn)的過(guò)程和邏輯,關(guān)于“臨界值”的注:作為概率的顯著性水平a實(shí)際上相應(yīng)于一個(gè)檢驗(yàn)統(tǒng)計(jì)量取值范圍的一個(gè)臨界值(critical value), 它定義為,統(tǒng)計(jì)量取該值或更極端的值的概率等于a。也就是說(shuō),“統(tǒng)計(jì)量的實(shí)現(xiàn)值比臨界值更極端”等價(jià)于“p-值小于a”。 使用臨界值的概念進(jìn)行的檢驗(yàn)不計(jì)算p-值。只比較統(tǒng)計(jì)量的取值和臨界值的大小。,假設(shè)檢驗(yàn)的例子,汽車廠商聲稱其發(fā)動(dòng)機(jī)排放標(biāo)準(zhǔn)的一個(gè)指標(biāo)平均低于20個(gè)單位。在抽查了10臺(tái)發(fā)動(dòng)機(jī)之后,得到下面的排放數(shù)據(jù)

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論