探索性數(shù)據(jù)分析(EDA)_第1頁
探索性數(shù)據(jù)分析(EDA)_第2頁
探索性數(shù)據(jù)分析(EDA)_第3頁
探索性數(shù)據(jù)分析(EDA)_第4頁
探索性數(shù)據(jù)分析(EDA)_第5頁
已閱讀5頁,還剩27頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

探索性數(shù)據(jù)分析(EDA)EDA的提出1977年,美國(guó)統(tǒng)計(jì)學(xué)家JohnW.Tukey出版了《探索性數(shù)據(jù)分析》一書,引起了統(tǒng)計(jì)學(xué)界的關(guān)注。該書指出了統(tǒng)計(jì)建模應(yīng)該結(jié)合數(shù)據(jù)的真實(shí)分布情況,對(duì)數(shù)據(jù)進(jìn)行分析,而不應(yīng)該從理論分布假定出發(fā)去構(gòu)建模型。EDA重新提出了描述統(tǒng)計(jì)在數(shù)據(jù)分析中的重要性,它為統(tǒng)計(jì)學(xué)指明了新的發(fā)展方向——和數(shù)據(jù)相結(jié)合。EDA的定義

探索性數(shù)據(jù)分析是對(duì)調(diào)查、觀測(cè)所得到的一些初步的雜亂無章的數(shù)據(jù),在盡量少的先驗(yàn)假定下進(jìn)行處理,通過作圖、制表等形式和方程擬合、計(jì)算某些特征量等手段,探索數(shù)據(jù)的結(jié)構(gòu)和規(guī)律的一種數(shù)據(jù)分析方法。EDA的主要特點(diǎn)研究從原始數(shù)據(jù)入手,完全以實(shí)際數(shù)據(jù)為依據(jù)傳統(tǒng)的統(tǒng)計(jì)分析方法通常是先假定數(shù)據(jù)服從某種分布,然后用適應(yīng)這種分布的模型進(jìn)行分析和預(yù)測(cè)。但實(shí)際上,多數(shù)數(shù)據(jù)(尤其是實(shí)驗(yàn)數(shù)據(jù))并不能保證滿足假定的理論分布。因此,傳統(tǒng)方法的統(tǒng)計(jì)結(jié)果常常并不令人滿意,使用上受到很大的局限。分析方法從實(shí)際出發(fā),不以某種理論為依據(jù)

傳統(tǒng)的統(tǒng)計(jì)分析方法是以概率論為理論基礎(chǔ),對(duì)各種參數(shù)的估計(jì)、檢驗(yàn)和預(yù)測(cè)給出具有一定精度的度量方法和度量值。而EDA在探索數(shù)據(jù)內(nèi)在的數(shù)量特征、數(shù)量關(guān)系和數(shù)量變化時(shí),什么方法可以達(dá)到這一目的就采用什么方法,靈活對(duì)待,靈活處理。方法的選擇完全取決于數(shù)據(jù)的特點(diǎn)和研究的目的。分析工具簡(jiǎn)單直觀,更易于普及

傳統(tǒng)的統(tǒng)計(jì)分析方法都比較抽象和深?yuàn)W,一般人難于掌握,EDA則更強(qiáng)調(diào)直觀及數(shù)據(jù)可視化,使分析者能一目了然地看出數(shù)據(jù)中隱含的有價(jià)值的信息,顯示出其遵循的普遍規(guī)律及與眾不同的突出特點(diǎn),促進(jìn)發(fā)現(xiàn)規(guī)律,得到啟迪,滿足分析者的多方面要求,這也是EDA對(duì)于數(shù)據(jù)分析的的主要貢獻(xiàn)。數(shù)據(jù)類型結(jié)構(gòu)化數(shù)據(jù):

二分類型:如性別

多分類型:如職業(yè)

有序類型:如收入水平

數(shù)值類型:如年齡、收入

非結(jié)構(gòu)化數(shù)據(jù):

文本

音頻

視頻

圖片

單變量分析頻率和眾數(shù):針對(duì)于無序的分類的變量百分位數(shù):針對(duì)于有序的或連續(xù)的變量位置度量:均值和中位數(shù)散布度量:方差、標(biāo)準(zhǔn)差、偏度、峰度、四分位數(shù)極差偏度和峰度偏度的計(jì)算公式:

偏度是刻畫數(shù)據(jù)對(duì)稱性的指標(biāo)。關(guān)于均值對(duì)稱的數(shù)據(jù)其偏度為0,呈現(xiàn)右偏的數(shù)據(jù)偏度大于0,呈現(xiàn)左偏的數(shù)據(jù)偏度小于0。峰度的計(jì)算公式:峰度是刻畫分布狀態(tài)的陡緩程度的指標(biāo)。峰度等于0,分布呈正態(tài),峰度大于0,分布呈尖峰狀態(tài),峰度小于0,分布呈平峰狀態(tài)。四分位數(shù)極差四分位數(shù)極差定義:判斷數(shù)據(jù)異常點(diǎn)的方法:稱為數(shù)據(jù)的下、上截?cái)帱c(diǎn)。大于上截?cái)帱c(diǎn)或小于下截?cái)帱c(diǎn)的數(shù)據(jù)均為異常點(diǎn)。直方圖對(duì)于分類屬性,每個(gè)值在一個(gè)箱中。對(duì)于連續(xù)屬性,將值域劃分成箱(通常是等寬的)并對(duì)每個(gè)箱中的值計(jì)數(shù)。正常型直方圖:

它的形狀是中間高兩邊低,左右近似對(duì)稱。雙峰型直方圖:當(dāng)直方圖中出現(xiàn)了兩個(gè)峰,這是由于觀測(cè)值來自兩個(gè)總體、兩個(gè)分布的數(shù)據(jù)混合在一起造成的。平頂型直方圖:當(dāng)直方圖沒有突出的頂峰,呈平頂型。形成的原因:1.多個(gè)總體多個(gè)分布混合在一起;2.變量在某個(gè)區(qū)間均勻變化。偏態(tài)型直方圖:偏態(tài)型直方圖是指圖的頂峰有時(shí)向左偏、有時(shí)向右偏。孤島型直方圖:在直方圖旁邊有孤立的小島出現(xiàn)。直方圖作用數(shù)據(jù)是否接近對(duì)稱數(shù)據(jù)分散性如何數(shù)據(jù)是否有異常值數(shù)據(jù)中是否有間隙箱線圖箱線圖是一種顯示一維數(shù)值屬性值分布的圖形。它有6個(gè)數(shù)據(jù)節(jié)點(diǎn):上邊緣、上四分位數(shù)中位數(shù)、下四分位數(shù)下邊緣、異常值。箱線圖的作用:識(shí)別異常值;判斷數(shù)據(jù)的偏態(tài);比較幾批數(shù)據(jù)的形狀。正態(tài)性檢驗(yàn)正態(tài)分布是許多檢驗(yàn)的基礎(chǔ),比如F檢驗(yàn),t檢驗(yàn),卡方檢驗(yàn)等。因此,對(duì)于一個(gè)樣本是否來自正態(tài)總體的檢驗(yàn)是至關(guān)重要的。圖示法直方圖:是否以鐘型分布箱線圖:觀測(cè)矩形位置和中位數(shù),若矩形位于中間位置且中位數(shù)位于矩形的中間位置,則分布較為對(duì)稱。QQ圖

對(duì)于樣本,其次序統(tǒng)計(jì)量是。QQ圖是由以下的點(diǎn)構(gòu)成的散點(diǎn)圖:若樣本數(shù)據(jù)近似于正態(tài)分布,在QQ圖上這些點(diǎn)近似地在直線附近。非參數(shù)檢驗(yàn)方法Kolmogorov-Smirnov正態(tài)性檢驗(yàn):檢驗(yàn)統(tǒng)計(jì)量為表示一組隨機(jī)樣本的累計(jì)頻率函數(shù),表示分布的分布函數(shù)。Shapiro-Wilk的(W檢驗(yàn))夏皮絡(luò)—威爾克檢驗(yàn)當(dāng)時(shí)可以使用。兩個(gè)變量的關(guān)系兩個(gè)數(shù)值型變量線性相關(guān)(服從二元正態(tài)分布)秩相關(guān)(兩個(gè)有序的分類變量)兩個(gè)無序分類變量關(guān)聯(lián)性分析兩個(gè)數(shù)值型變量線性相關(guān)1.計(jì)算Pearson樣本相關(guān)系數(shù)Pearson樣本相關(guān)系數(shù)的取值范圍和含義是:相關(guān)系數(shù)的取值在-1~1之間。>0表示兩變量存在正的線性相關(guān)關(guān)系,

<0表示兩變量存在負(fù)的線性相關(guān)系數(shù)。=1表示兩變量存在完全正相關(guān),=-1表示兩變量存在完全負(fù)相關(guān),=0表示兩變量不存在線性相關(guān)關(guān)系。>0.8表示兩變量之間具有較強(qiáng)的線性關(guān)系,<0.3表示兩變量之間的線性相關(guān)關(guān)系較弱。問題:當(dāng)我們得到相關(guān)系數(shù)后,是否就能直接判斷兩變量之間的關(guān)系?2.相關(guān)系數(shù)的假設(shè)檢驗(yàn):提出零假設(shè):兩變量無線性相關(guān)關(guān)系選擇檢驗(yàn)統(tǒng)計(jì)量:Pearson相關(guān)系數(shù)的檢驗(yàn)統(tǒng)計(jì)量為t統(tǒng)計(jì)量,即其中,t統(tǒng)計(jì)量服從n-2個(gè)自由度的t分布。計(jì)算檢驗(yàn)統(tǒng)計(jì)量的觀測(cè)值和p值。決策。如果p值小于顯著水平,應(yīng)拒絕原假設(shè),認(rèn)為兩變量有線性相關(guān)關(guān)系,否則兩變量不存在線性相關(guān)關(guān)系。應(yīng)用時(shí)注意的問題進(jìn)行線性相關(guān)分析前,可以先繪制散點(diǎn)圖。要求兩變量都來自正態(tài)總體的隨機(jī)變量。出現(xiàn)異常值時(shí)慎用。秩相關(guān)設(shè)

的秩統(tǒng)計(jì)量是

,的秩統(tǒng)計(jì)量是。則Spearman相關(guān)系數(shù)是:對(duì)于Spearman相關(guān)系數(shù),也可以做假設(shè)檢驗(yàn):檢驗(yàn)統(tǒng)計(jì)量:其中t統(tǒng)計(jì)量服從n-2個(gè)自由度的t分布。兩個(gè)無序分類變量關(guān)聯(lián)性分析方法:

檢驗(yàn)檢驗(yàn)統(tǒng)計(jì)量為:其中,統(tǒng)計(jì)量服從自由度為(n-1)(m-1)的分布。

為觀測(cè)頻數(shù),為期望頻數(shù)。多個(gè)數(shù)值型變量可以使用散點(diǎn)圖矩陣多個(gè)分類變量可以使用網(wǎng)狀圖

補(bǔ)充當(dāng)目標(biāo)變量是分類型變量,解釋變量是數(shù)值型變量時(shí)可以利用方差分析的方法,來判斷目標(biāo)變量在不同分類水平下解釋變量的均值是否存在顯著差異。初步結(jié)論變量是否有缺失變量是否有異常值變量是否有冗余變量的分布情況樣本是否有重復(fù)樣本是否存在不平衡類問題簡(jiǎn)單的處理對(duì)于缺失問題可以刪除記錄或者插補(bǔ)對(duì)于異常值可以刪除或

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論