




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、CDA數(shù)據(jù)分析師-數(shù)據(jù)分析理論基礎數(shù)據(jù)分析理論基礎課程小結Join Learn關鍵知識點概率分布分布函數(shù)P值檢驗自由度Join Learn概率分布-數(shù)據(jù)分析的依據(jù)要全面了解一個隨量(隨機試驗),不但要知道它取哪些值,而且要知道它取這些值的規(guī)律,即要掌握它的概率分布。量值xi及這些值對應概率P(X=xi)的表格、公式概率分布:描述隨或圖形。樣本點1隨量的值x1樣本點2P(X=x1)隨量的值x2P(X=x2)樣本點i隨量的值xiP(X=xi)Join Learn分布函數(shù)分布函數(shù)F(x)=P(X<x)表示隨量X的值小于x的概率,給定一個x0,則有一個F(x0)和其對應。X< x0 即為隨
2、機X為隨x0為隨量量的值Join Learn概率密度概率密度f(x)是F(x)在x處的關于x的一階導數(shù),即變化率。它對應直方圖中的密度尺度如果在某一x附近取非常小的一個鄰域x,那么,隨即P(量X落在(x, x+x)內的概率約為f(x)x,+x)f(x)x。換句話說,概率密度f(x)是X落在x處“寬度”內的概率?!懊芏取币辉~可以由此理解。Join Learn分布函數(shù)與直方圖連續(xù)性隨量的隨機對應一個區(qū)間a,b,只有區(qū)間才有意義,就如畫直方圖時,需要先分區(qū)一樣。隨機的概率,就是陰影部分的面積,在數(shù)學上為,對應直方圖中的面積Join Learn分布函數(shù)的作用個隨量的分布函數(shù),則它取任何值和它落入某個數(shù)
3、值區(qū)間內的概率都可以求出。即任何一個(或多個)隨機試驗的結果的可能性都是確定的Join LearnP值檢驗P值表示對原假設的支持程度,越小越有統(tǒng)計意義Join Learn自由度有兩種解釋統(tǒng)計推斷上的自由度是指當以樣本的統(tǒng)計量來估計總體的參數(shù)時, 樣本中或能自由變化的自由度。的個數(shù),稱為該統(tǒng)計量的數(shù)據(jù)挖掘模型中的自由度等于可自由取值的自變量的個數(shù)。如在回歸方程中,如果共有p個參數(shù)需要估計,則其中包括了p-1個自變量(與截距對應的自變量是常量1)。因此該回歸方程的自由度為p-1。Join Learn抽樣推斷中的自由度首先,在估計總體的平均數(shù)時,由于樣本中的n 個數(shù)都是相互的,從其中抽出任何一個數(shù)都
4、不影響其他數(shù)據(jù),所以其自由度為n。在估計總體的方差時,使用的是離差平方和。只要n-1個數(shù)的離差平方和確定了,方差也就 確定了;因為在均值確定后,如果知道了其中n-1個數(shù)的值,第n個數(shù)的值也就確定了。這里, 均值就相當于一個限制條件,由于加了這個限制條件,估計總體方差的自由度為n-1。Join Learn例有一個有4個數(shù)據(jù)(n4)的樣本, 其平均值m等于5,即受到m5的條件限制, 在自由確定4、2、5三個數(shù)據(jù)后, 第四個數(shù)據(jù)只能是9, 否則m5。因而這里的自由度n-14-13。推而廣之,任何統(tǒng)計量的自由度n-限制條件的個數(shù)。Join Learn根據(jù)數(shù)據(jù)分布選擇統(tǒng)計方法(1)實驗設計很關鍵,盡量保
5、持體的同質性數(shù)據(jù)的相互性和個(2) 一般來說,如果是大樣本,比如各組例數(shù)大于50,可以不作正態(tài)性檢驗,直接采用t檢驗或方差分析。因為統(tǒng)計學上有中心極限定理,假定大樣本是服從正態(tài)分布的。(3) 多組資料數(shù)據(jù)最好采用方差分析法,絕對不能采用兩兩T檢驗法Join Learn典型偏正態(tài)的數(shù)據(jù)處理對于明顯偏離正態(tài)性和方差齊性條件的資料,通常有兩種處理方式:一是通過某種形式的數(shù)據(jù)變換以其假定條,轉化后能用參數(shù)檢驗的還用參數(shù)檢驗,如果轉化后還不行,則改用方案二。二是改用秩變換的非參數(shù)統(tǒng)計方法,如秩和檢驗等。數(shù)據(jù)變換雖然改變了資料分布的形式,但未改變各組資料間的關系,常用的數(shù)據(jù)變換方式有對數(shù)變換、平方根變換及
6、平方根反正弦變換。Join Learn兩組樣本比較1. 資料符合正態(tài)分布,且兩組方差齊性,直接采用t檢驗。2. 資料不符合正態(tài)分布 (1)可進行數(shù)據(jù)轉換,如對數(shù)轉換等,使之服從正態(tài)分布,然后對轉換后的數(shù)據(jù)采用t檢驗; (2)采用非參數(shù)檢驗,如Wilcoxon檢驗。3. 資料方差不齊 (1)采用Satterthwate 的t檢驗; (2)采用非參數(shù)檢驗,如Wilcoxon檢驗。Join Learn兩組配對樣本的比較1.兩組差值服從正態(tài)分布,采用配對t檢驗。2.兩組差值從正態(tài)分布,采用wilcoxon的符號配對秩和檢驗 “秩”又稱等級、即次序號的和稱“秩和”,秩和檢驗就是用秩和作為統(tǒng)計量進行假設檢驗的方法。Join Learn多組完全隨機樣本比較1. 資料符合正態(tài)分布,且各組方差齊性,直接采用完全隨機的方差分析。如果檢驗結果為有統(tǒng)計學 意義,則進一步作兩兩比較,兩兩比較的方法有LSD檢驗,Bonferroni法,tukey法,Scheffe法,SNK 法等。2. 資料不符合正態(tài)分布,或各組方差不齊,則采用非參數(shù)檢驗的KruscalWallis法。如果檢驗結果為有統(tǒng)計學意義,則進一步作兩兩比較,一般采用Bonferroni法校正P值,然后用成組的Wilcoxon檢驗。Join Learn觀測變量為分類數(shù)據(jù)分類數(shù)據(jù)從
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 計算機軟件應用課件考核試卷
- 橡膠在建筑領域的使用考核試卷
- 鋅錳電池失效分析與預防措施考核試卷
- 零售門店顧客引流策略考核試卷
- 傳感器在智能交通信號系統(tǒng)中的應用考核試卷
- 畢業(yè)設計動員大會
- 呼吸機結構與原理
- HDAC6-IN-53-生命科學試劑-MCE
- 暴雨橙色預警防御指南(27P)
- 2025年下半年鋼鐵行業(yè)成本壓力緩解行業(yè)格局改善
- 醫(yī)療廢物交接與記錄的重要性
- 區(qū)塊鏈原理與實踐全套教學課件
- 軍事訓練傷的防治
- 動物藥理課件
- 國開《化工安全技術》形考任務1-4答案
- 我的家鄉(xiāng)廣西河池宣傳簡介
- 產業(yè)命題賽道命題解決對策參考模板
- 二輥矯直機的原理
- 985、211和雙一流大學名單
- 云南省昆明市官渡區(qū)2022-2023學年七年級下學期期末語文試題(含答案)
- 山東財經(jīng)大學成人高考線性代數(shù)復習自測題及參考答案
評論
0/150
提交評論