第三章 數據分布特征的描述ppt課件_第1頁
第三章 數據分布特征的描述ppt課件_第2頁
第三章 數據分布特征的描述ppt課件_第3頁
第三章 數據分布特征的描述ppt課件_第4頁
第三章 數據分布特征的描述ppt課件_第5頁
已閱讀5頁,還剩67頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

.,1,哪名運動員的發(fā)揮更穩(wěn)定?,在奧運會女子10米氣手槍比賽中,每個運動員首先進行每組10槍共4組的預賽,然后根據預賽總成績確定進入決賽的8名運動員。決賽時8名運動員再進行10槍射擊,再將預賽成績加上決賽成績確定最后的名次。在2008年8月10日舉行的第29屆北京奧運會女子10米氣手槍決賽中,進入決賽的8名運動員的預賽成績和最后10槍的決賽成績如下表,.,2,最會的比賽結果是,中國運動員郭文珺憑借決賽的穩(wěn)定發(fā)揮,以總成績492.3環(huán)奪得金牌,預賽排在第1名的俄羅斯運動員納塔利婭帕杰林娜以總成績489.1環(huán)獲得銀牌,預賽排在第4名的格魯吉亞運動員妮諾薩盧克瓦澤以總成績487.4環(huán)的成績獲得銅牌,而預賽排在第3名的蒙古運動員卓格巴德拉赫蒙赫珠勒僅以479.6環(huán)的成績名列第8名.由此可見,在射擊比賽中,運動員能否取得好的成績,發(fā)揮的穩(wěn)定性至關重要。那么,怎樣評價一名運動員的發(fā)揮是否穩(wěn)定呢?通過本章內容的學習就能很容易回答這樣的問題。,哪名運動員的發(fā)揮更穩(wěn)定?,.,3,第三章數據分布特征的描述,.,4,數據集中區(qū),數據,一組數據向其中心值聚集或靠攏的傾向和程度;測度集中趨勢就是尋找數據一般水平的代表值或中心值;不同類型的數據用不同的集中趨勢測度值;低層次數據的集中趨勢測度值適用于高層次的測量數據,反過來,高層次數據的集中趨勢測度值并不適用于低層次的測量數據;選用哪一個測度值來反映數據的集中趨勢,要根據所掌握的數據的類型來確定。,集中趨勢(centraltendency),.,5,第一節(jié)集中趨勢的測定,一、分類數據:眾數二、順序數據:中位數和分位數三、數值型數據:平均數四、眾數、中位數和平均數的比較,.,6,一、分類數據:眾數,1、眾數的定義(mode),一組數據中出現次數最多的變量值,用表示主要用于分類數據,也可用于順序數據和數值型數據;一般情況下,只有在數據量較大的情況下,眾數才有意義;是一種位置平均數,.,7,【例1】計算飲料品牌的眾數,【例2】計算某城市居民關注廣告類型的眾數,.,8,【例3】計算甲乙兩城市對住房狀況滿意程度評價的眾數,【例4】在某城市中隨機抽取9個家庭,調查得到每個家庭的人均月收入數據如下(單位:元)。要求計算人均月收入的眾數。,750780108085010802000108016301250,.,9,無眾數原始數據:10591268,一個眾數原始數據:659855,多于一個眾數原始數據:252828364242,2、眾數的特點不惟一性,是一個位置代表值正態(tài)分布或一般的偏態(tài)分布中,一組數據最高峰點所對應的數值即為眾數不受極端值的影響一組數據可能沒有眾數或有幾個眾數,.,10,數值型分組數據眾數的確定,1、眾數的值與相鄰兩組頻數的分布有關,該公式假定眾數組的頻數在眾數組內均勻分布,2、相鄰兩組的頻數相等時,眾數組的組中值即為眾數,3、相鄰兩組的頻數不相等時,眾數采用下列近似公式計算,.,11,【例5】計算50名工人日加工零件數的眾數。,【例6】計算某車間30名工人加工零件數的眾數。,分布的形狀越偏,眾數值偏離眾數組的組中值的程度越大,.,12,二、順序數據:中位數和分位數,1、中位數的定義(median),(一)中位數,數據排序后處于中間位置上的變量值,適宜于開口組資料和某些不能用數字測定的事物;間斷數列無中位數主要用于順序數據,也可用數值型數據,但不能用于分類數據是一種位置平均數,各變量值與中位數的離差絕對值之和最小,即,.,13,位置確定,數值確定,2、中位數的求解,組距分組數據:,.,14,【例7】計算甲乙兩城市對住房狀況滿意程度評價的中位數,2、中位數的求解,.,15,【例8】9個家庭的人均月收入數據原始數據:15007507801080850960200012501630排序:75078085096010801250150016302000位置:123456789,中位數1080,10個家庭的人均月收入數據排序:66075078085096010801250150016302000位置:12345678910,2、中位數的求解,.,16,1、根據位置公式確定中位數所在的組2、采用下列近似公式計算:,該公式假定中位數組的頻數在該組內均勻分布。,組距分組數據:,下限公式(向上累積時用),式中:L表示中位數所在組的下限;中位數所在組的次數;中位數所在組以前各組的累積次數;d中位數所在組的組距;,上限公式(向下累積時用),2、中位數的求解,.,17,【例9】計算50名工人日加工零件數的中位數,.,18,不受極端值的影響,具有穩(wěn)健性;,數據大量重復某一數值時,中位數未必準確,在解釋是特別小心;,研究收入分配時很有用。,(一)中位數,【例】100戶家庭,20戶2口人,400戶3口人,40戶4口人,計算人口的中位數。,.,19,1、排序后處于25%和75%位置上的值,2、不受極端值的影響3、主要用于順序數據,也可用于數值型數據,但不能用于分類數據,四分位數(quartile),(二)分位數,.,20,方法2:較準確算法,方法1:定義算法,四分位數位置的確定方法:,(二)分位數,.,21,方法3:其中表示中位數的位置取整。這樣計算出的四分位數的位置,要么是整數,要么在兩個數之間0.5的位置上方法4:Excel給出的四分位數位置的確定方法如果位置不是整數,則按比例分攤位置兩側數值的差值,(二)分位數,.,22,【例10】計算甲乙兩城市對住房狀況滿意程度評價的四分位數,QL位置=(300)/4=75,QU位置=(3300)/4=225從累計頻數看,QL在“不滿意”這一組別中;QU在“滿意”這一組別中,故四分位數為QL=“不滿意”QU=“滿意”,解:QL位置=(300)/4=75,QU位置=(3300)/4=225從累計頻數看,QL在“不滿意”這一組別中;QU在“一般”這一組別中,故四分位數為QL=“不滿意”QU=“一般”,.,23,【例11】9個家庭的人均月收入數據原始數據:15007507801080850960200012501630排序:75078085096010801250150016302000位置:123456789,方法1,方法2,.,24,平均數(mean)也稱為均值集中趨勢的最常用測度值一組數據的均衡點所在體現了數據的必然性特征易受極端值的影響不適用于分類數據和順序數據根據總體數據計算的,稱為平均數,記為;根據樣本數據計算的,稱為樣本平均數,記為x,三、數值型數據:平均數,.,25,設一組數據為:x1,x2,xn(總體數據xN),樣本平均數,總體平均數,【例12】某售貨小組5個人,某天的銷售額分別為520元、600元、480元、750元、440元,求平均每人日銷售額。,1、簡單平均數未分組數據(Simplemean),.,26,設分組數據各組的組中值為:M1,M2,Mk相應的頻數為:f1,f2,fk,2、加權平均數-分組數據(Weightedmean),.,27,【例13】計算電腦公司銷售量的平均數,【例14】計算50名工人日加工零件數的平均數,.,28,權數對算數平均數的影響,加權算術平均數其數值的大小,不僅受各組變量值大小的影響,而且受各組變量值出現的頻數即權數大小的影響。如果某一組的權數大,說明該組的數據較多,那么該組數據的大小對算術平均數的影響就越大,反之,則越小。,起到權衡輕重的作用,決定平均數的變動范圍,.,29,均值的數學性質,1、各變量值與均值的離差之和等于零,2、各變量值與均值的離差平方和最小,.,30,3、幾何平均數(geometricmean),n個變量值乘積的n次方根適用于計算比率的平均,通常主要用于計算現象的平均增長率當數據中出現0或負值時不宜計算幾何平均數計算公式為,可看作是算數平均數的一種變形,.,31,【例16】一位投資者購持有一種股票,在2008、2009、2010和2011年收益率分別為4.5%、2.1%、25.5%、1.9%。計算該投資者在這四年內的平均收益率。,最初投入10000元,2012年的本利總和應為,當所平均的各比率數值差別不大時,算數平均和幾何平均的結果相差不大,如果各比率的數值相差較大時,二者的差別就很明顯!,3、幾何平均數(geometricmean),.,32,均值的另一種表現形式易受極端值的影響用于數值型數據,用這種形式時,變量的取值不能為0。計算公式為,4、調和平均數(Harmonicmean),.,33,【例15】設市場上某種蔬菜早、中、晚所購金額不同,求平均采購價格。,4、調和平均數(Harmonicmean),.,34,四、眾數、中位數和平均數的比較,.,35,眾數不受極端值影響具有不惟一性數據較多時有意義,且有明顯峰值時應用中位數不受極端值影響數據分布偏斜程度較大時應用平均數易受極端值影響利用了全部數據信息,數學性質優(yōu)良數據對稱分布或接近對稱分布時應用較好當要用樣本信息對總體進行推斷時,平均數就更顯示出它的各種優(yōu)良特性,眾數、中位數、平均數的特點和應用場合,.,36,紅色為該數據類型最適合用的測度值,數據類型與集中趨勢測度值,.,37,離散程度(離中趨勢),數據分布的另一個重要特征反映各變量值遠離其中心值的程度(離散程度)從另一個側面說明了集中趨勢測度值的代表程度不同類型的數據有不同的離散程度測度值,.,38,第二節(jié)離散程度的測定,一、分類數據:異眾比率二、順序數據:四分位間距三、數值型數據:方差和標準差四、相對離散程度:離散系數,.,39,例如,百得便利超市公司50家門店按區(qū)域劃分的眾數是A區(qū)域,該組的次數是20家,所以異眾比率為60%,這說明50家門店按區(qū)域劃分的離散程度比較大,眾數的代表性較差。,一、分類數據,(variationratio),.,40,一、分類數據,【例】計算異眾比率,眾數的代表性不是很好!,.,41,概念計算公式特點,四分位差(內距,四分間距),上四分位數與下四分位數之差,避免了數列中極端值的影響,但去頭棄尾,丟失大量的原始數據,反映了上下四分位數之間(即中間的50%數據)的離散程度或變動范圍。四分位差越大,說明中間這部分數據越分散,而四分位差越小,則說明中間這部分數據越集中。四分位差在一定程度上可用于衡量中位數的代表程度。,二、順序數據,(quartiledeviation),.,42,【例17】計算甲乙兩城市對住房狀況滿意程度評價的四分位差,解:設非常不滿意為1,不滿意為2,一般為3,滿意為4,非常滿意為5已知QL=不滿意=2QU=一般=3四分位差:QD=QU=QL=32=1,.,43,數值型未分組數據的四分位差(7個數據的算例),原始數據:23213032282526排序:21232526283032位置:1234567,.,44,三、數值型數據,.,45,三、數值型數據,(meandeviation),平均絕對離差,.,46,含義:每一天的銷售量與平均數相比,平均相差17臺。,.,47,三、數值型數據,(varianceandstandarddeviation),.,48,通俗點說,一個班上有50個人,我們知道他們語文成績平均分為80,現在只需要知道49個人的成績就能推斷出剩下那個人的成績。你可以隨便報出49個人的成績,但是最后一個人的你不能瞎說,因為平均分已經固定下來了,自由度少一個了。自由度的設定是出于這樣一個理由:在總體平均數未知時,用樣本平均數去計算離差(常用小s)會受到一個限制要計算標準差(小s)就必須先知道樣本平均數,而樣本平均數和n都知道的情況下,數據的總和就是一個常數了。所以,“最后一個”樣本數據就不可以變了,因為它要是變,總和就變了,而這是不允許的。至于有的自由度是n2什么的,都是同樣道理。,自由度(degreeoffreedom),.,49,自由度(degreeoffreedom),1、自由度是指附加給獨立的觀測值的約束或限制的個數2、從字面涵義來看,自由度是指一組數據中可以自由取值的個數3、當樣本數據的個數為n時,若樣本平均數確定后,則附加給n個觀測值的約束個數就是1個,因此只有n-1個數據可以自由取值,其中必有一個數據不能自由取值4、按著這一邏輯,如果對n個觀測值附加的約束個數為k個,自由度則為n-k5、樣本方差用自由度去除,其原因可從多方面解釋,從實際應用角度看,在抽樣估計中,當用樣本方差s2去估計總體方差2時,它是2的無偏估計量。,.,50,原始數據:10591368,樣本方差,樣本標準差,三、數值型數據,.,51,含義:每一天的銷售量與平均數相比,平均相差21.58臺,.,52,相對位置的度量:標準分數(standardscore),三、數值型數據,.,53,標準化值或z分數只是將原始數據進行了線性變換,它并沒有改變一個數據在該組數據中的位置,也沒有改變該組數分布的形狀,而只是將該組數據變?yōu)榫禐?,標準差為1。,相對位置的度量:標準分數(standardscore),.,54,經驗法則表明:當一組數據對稱分布時約有68%的數據在平均數加減1個標準差的范圍之內約有95%的數據在平均數加減2個標準差的范圍之內約有99%的數據在平均數加減3個標準差的范圍之內,在平均數加減3倍標準差的范圍之外的數據,在統計上稱為離群點。,切比雪夫不等式,對于k=2,3,4,該不等式的含義是至少有75%的數據落在平均數加減2個標準差的范圍之內至少有89%的數據落在平均數加減3個標準差的范圍之內至少有94%的數據落在平均數加減4個標準差的范圍之內,相對位置的度量:標準分數(standardscore),.,55,【例】某班學生的平均成績是80分,標準差是10分,如果已知該班學生的考試分數為對稱分布,可以判斷成績在60-100分之間的學生大約占?70-90分之間的大約占多少?,【例】某班學生的平均成績是80分,標準差是10分,如果已知該班學生的考試分數為非對稱分布,可以判斷成績在60-100分之間的學生至少占多少?,【例】在某公司進行的計算機水平測試中,新員工的平均得分是80分,標準差是5分,假設新員工得分的分布是未知的,則得分在65-95分的新員工至少占?,相對位置的度量:標準分數(standardscore),.,56,四、相對離散程度:離散系數,(coefficientofvariation),.,57,可比,可比,身高的差異水平:cm,體重的差異水平:kg,.,58,【例】某年級一、二兩班某門課的平均成績分別為82分和76分,其成績的標準差分別為15.6分和14.8分,比較兩班平均成績代表性的大小。,解:,因為,所以一班平均成績的代表性比二班大。,四、相對離散程度:離散系數,離散系數是相對統計量,其作用主要是用于比較不同樣本的離散程度。離散系數大,說明數據的離散程度也大!,.,59,*為該數據類型最適用的測度值,第二節(jié)離散程度的測定,.,60,第三節(jié)偏態(tài)與峰態(tài)的測定,一、偏態(tài)及其測度二、峰態(tài)及其測度,數據分布的形狀是否對稱、偏斜的程度以及分布的扁平程度。,.,61,偏態(tài)與峰態(tài)分布的形狀,偏態(tài),峰態(tài),.,62,統計學家Pearson于1895年首

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論