第2章 描述統(tǒng)計-表格及圖形_第1頁
第2章 描述統(tǒng)計-表格及圖形_第2頁
第2章 描述統(tǒng)計-表格及圖形_第3頁
第2章 描述統(tǒng)計-表格及圖形_第4頁
第2章 描述統(tǒng)計-表格及圖形_第5頁
已閱讀5頁,還剩38頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

第2章描述性統(tǒng)計:表格與圖形本章要點:單變量數(shù)據(jù)的匯總分類變量,數(shù)值型變量雙變量數(shù)據(jù)的整理與顯示

分類變量+數(shù)值型變量涉及概念:頻數(shù)分布表、條形圖、直方圖、莖葉圖、點圖、列聯(lián)表等。July30,2010男學生更容易逃課嗎?讀完四年大學,一次課也沒有逃過,這樣的學生恐怕不多。2004年5月,中國人民大學財政金融學院的3名學生就逃課問題做了一次調(diào)查。調(diào)查的對象是財政金融學院的大一,大二,大三本科生。樣本的抽取方式是分層抽樣與簡單隨機抽樣結(jié)合,先根據(jù)年級劃分層次,然后對各個班級簡單隨機抽樣,共抽取151名學生組成一個樣本,并對每個學生采用問卷調(diào)查。問卷內(nèi)容包括每周逃課次數(shù)、所逃課程的類型(選修課、專業(yè)課等等)和逃課原因等。調(diào)查得到的男女學生每周平均逃課次數(shù)的匯總表如下July30,2010男學生更容易逃課嗎?逃課情況男女合計幾乎一次不逃2849771到3次2431553到5次64105次以上336其他123合計6289151你認為男學生更容易逃課嗎?用哪些簡單的統(tǒng)計描述支持你的看法?如果要用圖形表現(xiàn)上面的數(shù)據(jù),反映男女學生逃課方面的差異、逃課次數(shù)的構(gòu)成以及男女學生在逃課方面是否具有相似性等等,有哪些圖形可供你選擇使用呢?數(shù)據(jù)的整理與顯示(基本問題)要弄清所面對的數(shù)據(jù)類型,因為不同類型的數(shù)據(jù),所采取的處理方式和方法是不同的對分類數(shù)據(jù)主要是做分類整理3.對數(shù)值型數(shù)據(jù)則主要是做分組整理一、單個分類數(shù)據(jù)的匯總(基本過程)

1.

列出各類別

2.計算各類別的頻數(shù)3.制作頻數(shù)分布表4.用圖形顯示數(shù)據(jù)分類頻數(shù)相對頻數(shù)百分比頻數(shù)ABCDE相對頻數(shù)分布和百分比頻數(shù)分布

分類數(shù)據(jù)的匯總例如:由以下40個人的血型資料

OOABAOAAAOBOBOOAOOAAAAABABAAOOAOOAAAOAOOAB整理可得頻數(shù)分布表如右血型頻數(shù)相對頻數(shù)百分比頻數(shù)(%)A180.4545AB20.055B40.110O160.440合計401100【例】一家市場調(diào)查公司為研究不同品牌飲料的市場占有率,對隨機抽取的一家超市進行了調(diào)查。調(diào)查員在某天對50名顧客購買飲料的類型進行了記錄,如果一個顧客購買某一種類的飲料,就將這一飲料的種類名字記錄一次

。右邊就是記錄的原始數(shù)據(jù)分類數(shù)據(jù)的匯總碳酸飲料碳酸飲料其他礦泉水綠茶綠茶綠茶碳酸飲料其他碳酸飲料礦泉水其他其他碳酸飲料礦泉水礦泉水碳酸飲料果汁綠茶其他碳酸飲料綠茶綠茶碳酸飲料碳酸飲料礦泉水綠茶果汁其他果汁碳酸飲料碳酸飲料碳酸飲料礦泉水礦泉水綠茶碳酸飲料果汁綠茶綠茶果汁綠茶礦泉水其他其他碳酸飲料礦泉水碳酸飲料果汁礦泉水分類數(shù)據(jù)的圖示—條形圖與餅圖條形圖(barchart):在橫軸上標記組名,縱軸標記頻數(shù)、相對頻數(shù)或百分比頻數(shù),以相同寬度的長方形代表每一類別。對于分類數(shù)據(jù),為強調(diào)每組是彼此相互獨立的類別,應該將這些長方形分隔開頻數(shù)分布表定義餅圖(piechart):先畫一個圓圈表示所有數(shù)據(jù),根據(jù)相對頻數(shù)將整個圓分成若干個扇形,這些扇形角度與每一組的相對頻數(shù)一致。分類數(shù)據(jù)的圖示—條形圖與餅圖每個扇區(qū)可以是頻數(shù)、相對頻數(shù)或百分比頻數(shù)飲料類別購買記錄結(jié)構(gòu)圖課后作業(yè)1請對P46練習22數(shù)據(jù)用Excel完成:a)構(gòu)建頻數(shù)分布表b)畫出條形圖c)畫出餅圖統(tǒng)計圖表11

步驟確定互不相疊的分組的組數(shù)確定每組的組距確定每一組的界限二、單個數(shù)值型數(shù)據(jù)的匯總表2-4年終審計所需時間(天)

3.確定組限選擇合理的分組界限以保證每個觀測值僅屬于唯一的組針對數(shù)值型數(shù)據(jù),分類數(shù)據(jù)無需指定組限對于表2-4,第一組以10作為該組下限,14作為該組上限,10~14代表這一組。以此類推確定所有分組統(tǒng)計落入每組的數(shù)據(jù)頻數(shù),得頻數(shù)分布表2-5所示:

4.組中值組中值(classmidpoint):在每個組的下限和上限之間的中間值。在表2-4數(shù)據(jù)中,5個組的組中值分別為12、17、22、27、32

可以看出的信息有:最普遍的審計時間介于15~19天之間,20次審計時間中有8次處在這個范圍內(nèi)只有一次審計時間需要30天或者更長價值:增加我們對數(shù)據(jù)的理解,而觀察原始的,雜亂無章的原始數(shù)據(jù)是不容易得到的

相對頻數(shù)分布和百分比頻數(shù)分布

從表中可以得到的信息有:有40%的審計時間需要15~19天只有5%的審計需要30天或者更長的時間點圖定義點圖(dotplot):橫軸表示觀測值的范圍,每個觀測值由位于坐標軸上方的點表示點圖顯示了數(shù)據(jù)的詳細信息,在比較兩個或更多變量的數(shù)據(jù)分布的時候是非常有利的直方圖定義直方圖(histogram):對頻數(shù)分布,相對頻數(shù)分布,百分比頻數(shù)分布表的圖形概括。把所研究的變量放在橫軸上,把頻數(shù)、相對頻數(shù)或百分數(shù)放在縱軸上來繪制。用矩形表示每個組的頻數(shù)、相對頻數(shù)或百分比頻數(shù)。矩形的底邊是橫軸各組組距,矩形的高度就是各組對應的頻數(shù)、相對頻數(shù)或百分比頻數(shù)。直方圖直方圖與條形圖直方圖中相鄰的長方形都是彼此相鄰,不能斷開(因為組限相鄰,其含義是第一組的下限和最后一組的上限之間任意一個值都是可能取到的)條形圖針對分類數(shù)據(jù),長方形之間是斷開的,代表不同的類別直方圖直方圖能解釋數(shù)據(jù)分布的形狀或形態(tài)中度左偏中度右偏對稱嚴重右偏累積分布定義累積頻數(shù)分布(cumulativefrequencydistribution):不超過每個組的上限的觀測值的數(shù)量例子考慮“小于或等于24”這個組。該組的累積頻數(shù)就是觀測值小于或等于24的所有組的頻數(shù)之和。對于表2-5的頻數(shù)分布,分組10~14、15~19、20~24的頻數(shù)之和為4+8+5=17,表明共有17個觀測值“小于或等于24”,因此,該組的累積頻數(shù)為17。累積分布累積相對頻數(shù)分布(cumulativerelativefrequencydistribution):觀測值小于或等于每個組上限的個數(shù)占總數(shù)的比例累積百分比頻數(shù)(cumulativepercentfrequencydistribution):觀測值小于或等于每個組上限的個數(shù)占總數(shù)的百分數(shù)累積頻數(shù)分布曲線定義累積頻數(shù)分布曲線(ogive):數(shù)據(jù)值標記在橫軸上,縱軸則以累積頻數(shù)、累積相對頻數(shù)或累積百分比頻數(shù)表示“我最恨數(shù)學了,都是數(shù)字。這是一句常聽到的話,可是從來沒有人說過,我最恨錢了,都是數(shù)字?!睌?shù)字不是壞東西,看它在哪里出現(xiàn),如果在老師發(fā)的習題中有數(shù)字,而且很多,那么——哼的怨聲就出來了。如果數(shù)字印在鈔票或支票上,數(shù)字則越多越好。統(tǒng)計圖表25定義莖葉圖(stem-and-leafdisplay):對數(shù)據(jù)進行快速概括的一種圖形,既可以對數(shù)據(jù)進行排序,又能顯示數(shù)據(jù)的分布形狀例子申請霍斯金斯公司某一職位的面試人員測試結(jié)果。本測試需面試者回答150個問題,這些數(shù)據(jù)記錄了個面試人員回答正確的問題個數(shù)三、探索性數(shù)據(jù)分析—莖葉圖

莖葉圖步驟將每個數(shù)據(jù)的前面數(shù)字列在一條豎線的左邊在右側(cè)記錄每個數(shù)據(jù)的最后一個數(shù)字(0~9)比如,上表中的第一行數(shù)據(jù)(112\72\69\97\107)可以構(gòu)造如下莖葉圖莖葉圖最終得到的莖葉圖為對豎線右側(cè)每一行數(shù)字排序,就可得出如下形式的莖葉圖莖葉莖葉圖莖葉圖隱含的分布形態(tài)逆時針旋轉(zhuǎn)90度,與直方圖類似容易手工繪制能夠顯示原始數(shù)值莖葉圖莖葉圖的推廣莖葉圖沒有固定數(shù)目的行和固定的單位若原先的數(shù)據(jù)過于集中,則可以將每一行拆分成兩行或多行(對[0,9]區(qū)間進行劃分)擴展莖葉圖葉子的單位可以是0.1、1、10、100等(還原數(shù)值時需注意單位)

一般莖葉圖莖葉圖擴展莖葉圖以9為首的第一根莖以9為首的第二根莖莖葉圖一般莖葉圖特別說明了單位是10

如果沒有特別說明,莖葉圖的單位都是1

例:由右表數(shù)據(jù)可匯總飲料類型和顧客性別的列聯(lián)表:雙變量數(shù)據(jù)的匯總-列聯(lián)表與散點圖

聯(lián)列表

續(xù)例:由右表數(shù)據(jù)可繪制飲料類型和顧客性別的復式條形圖:雙分類變量數(shù)據(jù)的匯總

聯(lián)列表“查格美食指南”共收集了洛杉磯地區(qū)300家飯店的菜肴價格與質(zhì)量等級的數(shù)據(jù)。其中質(zhì)量等級是一個分類變量,分為:良好、優(yōu)秀和非常好。菜肴價格是一個數(shù)值型變量,范圍為10~49美元。例子:可以得到的信息:質(zhì)量等級為“很好”,菜肴價格在“20~29”這一類的飯店數(shù)量最多,共64家質(zhì)量等級為“非常好”,菜肴價格在“10~19”美元之間的飯店只有兩家最右和最底行分別給出了質(zhì)量等級和菜肴價格的頻數(shù)分布辛普森悖論聯(lián)列表常用來顯示兩個變量的相關性注意!可能得出與原有數(shù)據(jù)完全相反的結(jié)論辛普森悖論例子在過去三年中,法官勒吉特和肯德爾判決的部分案件被提出上訴。上訴法庭對大多數(shù)上訴案件維持原來的判決,但也有部分判決被推翻。以兩個變量:判決(維持或推翻)和法庭類型(民事庭或市政庭)為依據(jù),對每位法官構(gòu)建聯(lián)列表。假設通過綜合法庭類型數(shù)據(jù)將兩個聯(lián)列表合并。綜合后的表包含兩個變量:判決(維持或推翻)和法官(勒吉特或肯德爾)。該表給出了兩位法官的上訴案件被判決維持或推翻的數(shù)量:辛普森悖論88%>86%,肯德爾做的比較好綜合表未綜合表91%>85%,勒吉特做的比較好90%>80%,勒吉特做的比較好矛盾?辛普森悖論分析對兩位法官來說,上訴案件被推翻的比例在市政庭比民事庭要高;法官勒吉特審理的案件大多數(shù)的市政庭,因此綜合后的數(shù)據(jù)偏向于法官肯德爾;對最初的聯(lián)列表,法庭類型是一個隱藏的變量,且其效果不可忽視。啟發(fā)根據(jù)未綜合和綜合的數(shù)據(jù)得出的結(jié)論可能完全相反。需要審查是否存在可能影響結(jié)論的隱藏變量。散點圖和趨勢線定義散點圖(scatterplot):是描述兩個數(shù)值型變量間關系的一種圖形趨勢線(trendline):是顯示變量間關系密切程度的一條直線如下的一組數(shù)據(jù),你能分析人體的脂肪含量與年齡之間有怎樣的關系嗎?

從上表發(fā)現(xiàn),對某個人不一定有此規(guī)律,但對很多個體放在一起,就體現(xiàn)出“人體脂肪隨年齡增長而增加”這一規(guī)律.而表中各年齡對應的脂肪數(shù)是這個年齡人群的樣本平均數(shù).我們也可以對它們作統(tǒng)計圖、表,對這兩個變量有一個直觀上的印象和判斷.下面我們以年齡為橫軸,脂肪含量為縱軸建立直角坐標系,作出各個點,稱該圖為散點圖。如圖:O20253035404550556065年齡脂肪含量510152025303540從剛才的散點圖發(fā)現(xiàn):年齡越大,體內(nèi)脂肪含量越高,點的位置散布在從左下角到右上角的區(qū)域。稱它們成正相關。

但有的兩個變量的相關,如下圖所示:如高原含氧量與海拔高度的相關關系,海平面以上,海拔高度越高,含氧量越少。作出散點圖發(fā)現(xiàn),它們散布在從左上角到右下角的區(qū)域內(nèi)。又如汽車的載重和汽車每消耗1升汽油所行使的平均路程,稱它們成負相關.O42例子探究舊金山市一個音響設備商店的廣告次數(shù)與銷售額的關系。該商店在過去的3個月內(nèi)有10次在周末播出了電視廣告來推動商店的銷售,商家向證實廣告播出次數(shù)和商店在下一周的銷售額之間是否存在著關聯(lián)?散點圖和趨勢線根據(jù)上表中數(shù)據(jù)描繪出的散點圖和趨勢線如下可以得到的信息:廣告次數(shù)和銷售額之間存在著正相關關系,并非所有的點都落在一條線上,所以不是完全相關二:散點圖1、散點圖:將樣本中n個數(shù)據(jù)點(xi,yi)(i=1,2,…,n)描在平面直角坐標系中,以表示具有相關關系的兩個變量的一組數(shù)據(jù)的圖形叫做散點圖.2、正相關、負相關正相關:如果散點圖的點散布在從左下角到右上角的區(qū)域,即一個變量

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論