R語(yǔ)言統(tǒng)計(jì)推斷S.ppt

上傳人：j*** IP屬地：四川上傳時(shí)間：2019-07-03 格式：PPT 頁(yè)數(shù)：26 大小：392.31KB 積分：15 舉報(bào) 版權(quán)申訴

已閱讀5頁(yè)，還剩21頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說(shuō)明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

統(tǒng)計(jì)推斷,從數(shù)據(jù)得到對(duì)現(xiàn)實(shí)世界的結(jié)論的過(guò)程,估計(jì),總體代表我們所關(guān)心的那部分世界。而在利用樣本中的信息來(lái)對(duì)總體進(jìn)行推斷之前人們往往對(duì)代表總體的變量假定了分布族。(描述數(shù)據(jù)時(shí)不用假定) 比如假定人們的身高屬于正態(tài)分布族；在抽樣調(diào)查時(shí)假定了二項(xiàng)分布族等等(這些假定可能有風(fēng)險(xiǎn)!)。這些模型基本上是根據(jù)“經(jīng)驗(yàn)”來(lái)假定的，僅僅是對(duì)現(xiàn)實(shí)世界的一個(gè)近似。,估計(jì),在假定了總體分布族之后，進(jìn)一步對(duì)總體的認(rèn)識(shí)就是要在這個(gè)分布族中選擇一個(gè)適合于我們問(wèn)題的成員由于分布族成員是由參數(shù)確定的，如果參數(shù)能夠估計(jì)，對(duì)總體的具體分布就知道得差不多了。,估計(jì)量是用來(lái)估計(jì)的統(tǒng)計(jì)量,我們知道，統(tǒng)計(jì)量是樣本的不包含未知參數(shù)的函數(shù)。樣本均值、樣本標(biāo)準(zhǔn)差都是統(tǒng)計(jì)量。由于樣本是隨機(jī)的，統(tǒng)計(jì)量也是隨機(jī)變量。用于估計(jì)總體參數(shù)的統(tǒng)計(jì)量稱為估計(jì)量；樣本均值和標(biāo)準(zhǔn)差都是總體均值和標(biāo)準(zhǔn)差的常用估計(jì)量。,點(diǎn)估計(jì)和區(qū)間估計(jì),點(diǎn)估計(jì)(point estimation)就是用估計(jì)量的實(shí)現(xiàn)值來(lái)近似相應(yīng)的總體參數(shù)。區(qū)間估計(jì)(interval estimation) 是包括估計(jì)量在內(nèi)（有時(shí)是以估計(jì)量為中心）的一個(gè)區(qū)間；被認(rèn)為很可能包含總體參數(shù)。點(diǎn)估計(jì)給出一個(gè)數(shù)字，用起來(lái)很方便；而區(qū)間估計(jì)給出一個(gè)區(qū)間，說(shuō)起來(lái)留有余地；不象點(diǎn)估計(jì)那么絕對(duì)。無(wú)偏估計(jì)(大樣本性質(zhì)),區(qū)間估計(jì),注意置信區(qū)間的論述是由區(qū)間和置信度兩部分組成。置信區(qū)間是對(duì)參數(shù)給出的一個(gè)范圍置信度為其可信程度(大樣本意義) 有些新聞媒體報(bào)道一些調(diào)查結(jié)果只給出百分比和誤差（即置信區(qū)間），比如 “收視率為53%3%”; 不給出置信度，也不給出被調(diào)查的人數(shù) 這是不負(fù)責(zé)的表現(xiàn)。,區(qū)間估計(jì)的意義,置信度的概念大量重復(fù)抽樣時(shí)的一個(gè)漸近概念。類似于“我們目前得到的置信度為95%的置信區(qū)間（比如上面的75%3%）以概率0.95覆蓋真正的比例p”的說(shuō)法是錯(cuò)誤的。實(shí)際上應(yīng)該說(shuō)“重復(fù)類似的抽樣所得到的大量區(qū)間中有大約95%的覆蓋真實(shí)比例(其值可能永遠(yuǎn)未知)。,均值m的區(qū)間估計(jì) （正態(tài)分布）,總體標(biāo)準(zhǔn)差s已知,總體標(biāo)準(zhǔn)差s未知,區(qū)間估計(jì)的例子（1）,例5.1 （數(shù)據(jù)：noodle.txt, noodle.sav, noodle.sas7bdat）某廠家生產(chǎn)的掛面包裝上寫明“凈含量450克”。在用天平稱量了商場(chǎng)中的48包掛面之后，得到樣本量為48的關(guān)于掛面重量（單位：克）的一個(gè)樣本(我們假定，掛面重量所代表的總體分布服從正態(tài)分布。 )：,w=scan(“D:/booktj1/data/noodle.txt“);hist(w,10),summary(w) Min. 1st Qu. Median Mean 3rd Qu. Max. 439.6 444.6 448.9 449.0 452.6 461.1,假設(shè)檢驗(yàn),在假設(shè)檢驗(yàn)中，一般要設(shè)立一個(gè)原假設(shè)；而設(shè)立該假設(shè)的動(dòng)機(jī)主要是企圖利用人們掌握的反映現(xiàn)實(shí)世界的數(shù)據(jù)來(lái)找出假設(shè)和現(xiàn)實(shí)的矛盾，從而否定這個(gè)假設(shè)。,假設(shè)檢驗(yàn),在多數(shù)統(tǒng)計(jì)教科書(shū)中（除了理論探討之外）,假設(shè)檢驗(yàn)都是以否定原假設(shè)為目標(biāo)。如否定不了，那就說(shuō)明證據(jù)不足，無(wú)法否定原假設(shè)。但這不能說(shuō)明原假設(shè)正確。很多教科書(shū)在這個(gè)問(wèn)題上不適當(dāng)?shù)赜谩敖邮茉僭O(shè)”的說(shuō)法，犯了明顯的低級(jí)邏輯錯(cuò)誤。 ,假設(shè)檢驗(yàn)的過(guò)程和邏輯,首先要提出一個(gè)原假設(shè)，比如某正態(tài)總體的均值等于5（m=5）。這種原假設(shè)也稱為零假設(shè)（null hypothesis），記為H0 與此同時(shí)必須提出對(duì)立假設(shè)，比如總體均值大于5（m5）。對(duì)立假設(shè)又稱為備選假設(shè)或備擇假設(shè)（alternative hypothesis）記為記為H1或Ha,假設(shè)檢驗(yàn)的過(guò)程和邏輯,根據(jù)零假設(shè)（不是備選假設(shè)！），我們可以得到該檢驗(yàn)統(tǒng)計(jì)量的分布；然后再看這個(gè)統(tǒng)計(jì)量的數(shù)據(jù)實(shí)現(xiàn)值（realization）屬不屬于小概率事件。也就是說(shuō)把數(shù)據(jù)代入檢驗(yàn)統(tǒng)計(jì)量，看其值是否落入零假設(shè)下的小概率范疇如果的確是小概率事件，那么我們就有可能拒絕零假設(shè)，否則我們說(shuō)沒(méi)有足夠證據(jù)拒絕零假設(shè)。,假設(shè)檢驗(yàn)的過(guò)程和邏輯,注意：零假設(shè)和備選假設(shè)在我們涉及的假設(shè)檢驗(yàn)中并不對(duì)稱。檢驗(yàn)統(tǒng)計(jì)量的分布是從零假設(shè)導(dǎo)出的, 因此, 如果有矛盾, 當(dāng)然就不利于零假設(shè)了。不發(fā)生矛盾也不說(shuō)明備選假有問(wèn)題。,假設(shè)檢驗(yàn)的過(guò)程和邏輯,檢驗(yàn)統(tǒng)計(jì)量在零假設(shè)下,等于這個(gè)樣本的數(shù)據(jù)實(shí)現(xiàn)值或更加極端值的概率稱為p-值（p-value）。顯然得到很小p-值意味著小概率事件發(fā)生了。如果小概率事件發(fā)生，是相信零假設(shè)，還是相信數(shù)據(jù)呢？當(dāng)然是相信數(shù)據(jù)。于是就拒絕零假設(shè)。但事件概率小并不意味著不會(huì)發(fā)生，僅僅發(fā)生的概率很小罷了。拒絕正確零假設(shè)的錯(cuò)誤常被稱為第一類錯(cuò)誤（type I error）。,假設(shè)檢驗(yàn)的過(guò)程和邏輯,不僅有第一類錯(cuò)誤，還有第二類錯(cuò)誤；那是備選零假設(shè)正確時(shí)反而說(shuō)零假設(shè)正確的錯(cuò)誤，稱為第二類錯(cuò)誤（type II error）。如要“接受零假設(shè)”就必須給出第二類錯(cuò)誤的概率. 但對(duì)于目前面對(duì)的問(wèn)題, 無(wú)法計(jì)算它.,假設(shè)檢驗(yàn)的過(guò)程和邏輯,零假設(shè)和備選假設(shè)哪一個(gè)正確，這是確定性的，沒(méi)有概率可言。而可能犯錯(cuò)誤的是人。涉及假設(shè)檢驗(yàn)的犯錯(cuò)誤的概率就是犯第一類錯(cuò)誤的概率和犯第二類錯(cuò)誤的概率。負(fù)責(zé)的態(tài)度是無(wú)論做出什么決策，都應(yīng)該給出犯錯(cuò)誤的概率。,假設(shè)檢驗(yàn)的過(guò)程和邏輯,到底p-值是多小才能夠拒絕零假設(shè)呢？也就是說(shuō)，需要有什么是小概率的標(biāo)準(zhǔn)。這要看具體應(yīng)用的需要。但在一般的統(tǒng)計(jì)書(shū)和軟件中，使用最多的標(biāo)準(zhǔn)是在零假設(shè)下（或零假設(shè)正確時(shí)）抽樣所得的數(shù)據(jù)拒絕零假設(shè)的概率應(yīng)小于0.05（也可能是0.01，0.005，0.001等等）。,假設(shè)檢驗(yàn)的過(guò)程和邏輯,這種事先規(guī)定的概率稱為顯著性水平(significant level)，用字母a來(lái)表示。當(dāng)p-值小于或等于a時(shí)，就拒絕零假設(shè)。所以，a是所允許的犯第一類錯(cuò)誤概率的最大值。當(dāng)p-值小于或等于a時(shí)，我們說(shuō)這個(gè)檢驗(yàn)是顯著的(significant)。,假設(shè)檢驗(yàn)的過(guò)程和邏輯,歸納起來(lái)，假設(shè)檢驗(yàn)的邏輯步驟為：第一: 寫出零假設(shè)和備選假設(shè)；第二: 確定檢驗(yàn)統(tǒng)計(jì)量；第三: 確定顯著性水平a；第四: 根據(jù)數(shù)據(jù)計(jì)算檢驗(yàn)統(tǒng)計(jì)量的實(shí)現(xiàn)值；第五: 根據(jù)這個(gè)實(shí)現(xiàn)值計(jì)算p-值；第六: 進(jìn)行判斷：如果p-值小于或等于a，就拒絕零假設(shè)，這時(shí)犯錯(cuò)誤的概率最多為a；如果p-值大于a，就不拒絕零假設(shè)，因?yàn)樽C據(jù)不足。,假設(shè)檢驗(yàn)的過(guò)程和邏輯,實(shí)際上，計(jì)算機(jī)軟件僅僅給出p-值，而不給出a。這有很多方便之處。比如a=0.05，而假定我們得到的p-值等于0.001。這時(shí)我們?nèi)绻绻捎胮-值作為新的顯著性水平，即a=0.001，于是可以說(shuō)，我們拒絕零假設(shè)，顯著性水平為0.001。拒絕零假設(shè)時(shí)犯錯(cuò)誤的概率實(shí)際只是千分之一而不是百分之五。在這個(gè)意義上，p-值又稱為觀測(cè)的顯著性水平（observed significant level）。在統(tǒng)計(jì)軟件輸出p-值的位置，有的用“p-value”，有的用significant的縮寫“Sig”就是這個(gè)道理。,假設(shè)檢驗(yàn)的過(guò)程和邏輯,關(guān)于“臨界值”的注：作為概率的顯著性水平a實(shí)際上相應(yīng)于一個(gè)檢驗(yàn)統(tǒng)計(jì)量取值范圍的一個(gè)臨界值（critical value），它定義為，統(tǒng)計(jì)量取該值或更極端的值的概率等于a。也就是說(shuō)，“統(tǒng)計(jì)量的實(shí)現(xiàn)值比臨界值更極端”等價(jià)于“p-值小于a”。使用臨界值的概念進(jìn)行的檢驗(yàn)不計(jì)算p-值。只比較統(tǒng)計(jì)量的取值和臨界值的大小。,假設(shè)檢驗(yàn)的例子,汽車廠商聲稱其發(fā)動(dòng)機(jī)排放標(biāo)準(zhǔn)的一個(gè)指標(biāo)平均低于20個(gè)單位。在抽查了10臺(tái)發(fā)動(dòng)機(jī)之后，得到下面的排放數(shù)據(jù)

人人文庫(kù)> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無(wú)特殊說(shuō)明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

R語(yǔ)言統(tǒng)計(jì)推斷S.ppt

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

R語(yǔ)言統(tǒng)計(jì)推斷S.ppt

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔