SAS講義 第二十四課總體均值的估計(jì).doc_第1頁(yè)
SAS講義 第二十四課總體均值的估計(jì).doc_第2頁(yè)
SAS講義 第二十四課總體均值的估計(jì).doc_第3頁(yè)
SAS講義 第二十四課總體均值的估計(jì).doc_第4頁(yè)
SAS講義 第二十四課總體均值的估計(jì).doc_第5頁(yè)
已閱讀5頁(yè),還剩17頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

64a8b237229bded23bd35b9e6974d213.pdf SAS系統(tǒng)和數(shù)據(jù)分析 電子商務(wù)系列第二十四課 總體均值的估計(jì)對(duì)于樣本來(lái)自正態(tài)總體和方差齊性的基本假設(shè),根據(jù)觀察結(jié)果(結(jié)果變量或反映變量)的水平數(shù),一元時(shí)基本的分析方法有檢驗(yàn)、檢驗(yàn),多元時(shí)用多元檢驗(yàn)(或Wilks檢驗(yàn))。一. 計(jì)量資料的統(tǒng)計(jì)指標(biāo)測(cè)定每個(gè)觀察單位某項(xiàng)指標(biāo)值的大小,所得的資料稱為計(jì)量資料(measurement data)又稱測(cè)量資料,這類資料一般具有計(jì)量單位。計(jì)量資料的統(tǒng)計(jì)指標(biāo)分成兩大類:l 表達(dá)計(jì)量資料集中位置的指標(biāo),用以描述觀察值的平均水平,如算術(shù)均值、幾何均值、調(diào)和均值、中位數(shù)、眾數(shù)、百分位數(shù)。l 表達(dá)計(jì)量資料變異的指標(biāo),又稱離散指標(biāo),用以描述觀察值間參差別不齊的程度,即離散度或稱變異度,如全距、標(biāo)準(zhǔn)差、方差、標(biāo)準(zhǔn)誤差、變異系數(shù)、四分位數(shù)間距等。設(shè)原始觀察值為,第組頻數(shù)記為,組中值記為。在不發(fā)生混淆的場(chǎng)合,有時(shí)將下標(biāo)省略,如,有時(shí)簡(jiǎn)記為。1 集中位置的指標(biāo)1) 算術(shù)平均值算術(shù)平均值(arithmetic mean)簡(jiǎn)稱為均值(mean),總體均值用希臘字母表示,樣本均值用表示。算術(shù)平均值的具體計(jì)算方法分為簡(jiǎn)單算術(shù)平均和加權(quán)算術(shù)平均兩種。簡(jiǎn)單算術(shù)平均為:(24.1)加權(quán)算術(shù)平均為:(24.2)算術(shù)平均值有兩個(gè)重要的數(shù)學(xué)性質(zhì):各個(gè)變量值與平均值離差之和等于零,各個(gè)變量值與平均值的離差平方之和為最小值。2) 幾何均值幾何均值(geometric mean)用表示,為觀察值的總乘積開次方根。根據(jù)資料是否分組,也分為簡(jiǎn)單幾何平均和加權(quán)幾何平均兩種方法。簡(jiǎn)單幾何平均為:(24.3)為避免溢出及方便計(jì)算,常用對(duì)數(shù)計(jì)算,也稱對(duì)數(shù)平均值,兩邊取對(duì)數(shù)有:(24.4)3) 加權(quán)幾何平均為:(24.5)幾何均值適用于表達(dá)呈對(duì)數(shù)正態(tài)分布資料的平均水平。也常用于速度、比率等變量的平均。4) 調(diào)和均值調(diào)和均值(harmonic mean )用表示,為觀察值的倒數(shù)求平均,然后再取倒數(shù)而得到的平均值,也稱倒數(shù)平均值。調(diào)和平均值有簡(jiǎn)單調(diào)和平均值與加權(quán)調(diào)和平均值兩種。簡(jiǎn)單調(diào)和平均值為:(24.5)加權(quán)調(diào)和平均值為:(24.6)調(diào)和均值適用于表達(dá)呈極嚴(yán)重的正偏態(tài)分布資料的平均水平。5) 中位數(shù)中位數(shù)(median)用表示,它將總體或樣本的全部觀察值分成兩部分,每部分各有50%個(gè)觀察值,其計(jì)算方法為:先將原始觀察值按由小到大順序排列后,位次處于中間的那個(gè)觀察值為中位數(shù)。觀察值為奇數(shù)時(shí),處于中間的那個(gè)數(shù)為中位數(shù)。偶數(shù)時(shí)處于中間的兩個(gè)數(shù)的均值為中位數(shù)。中位數(shù)是位置平均值,它不受極端值的影響,在具有個(gè)別極大或極小值的分布數(shù)列中,中位數(shù)比算術(shù)平均值更具有代表性。6) 眾數(shù)頻數(shù)最大的變量值稱為眾數(shù)(mode),列為頻數(shù)表的資料,頻數(shù)最大的組的組中值為眾數(shù)。適用于粗略地表示呈單峰分布資料的集中趨勢(shì)。當(dāng)數(shù)據(jù)個(gè)數(shù)較少時(shí),眾數(shù)就是出現(xiàn)次數(shù)最多的個(gè)數(shù)據(jù)。7) 百分位數(shù)百分位數(shù)(percentile)以表示,它將總體或樣本的全部觀察值分成兩個(gè)部分,其中有個(gè)觀察值小于,(100)%個(gè)觀察值大于。如百分之25分位數(shù)或稱第25百分位數(shù),表示有25%個(gè)觀察值小于;75%個(gè)觀察值大于。中位數(shù)就是百分之50分位數(shù)。2 離散程度的指標(biāo)1) 全距全距(range)也稱極差是一種離散指標(biāo),是最大與最小觀察值之差。用極差反映總體分布的離散程度雖然簡(jiǎn)便,但它只從兩端數(shù)值考察,忽略了中間數(shù)據(jù)的變動(dòng)情況,不能說(shuō)明整體的差異程度,尤其是存在極端值情況下,使用極差往往會(huì)造成錯(cuò)誤的結(jié)論。2) 標(biāo)準(zhǔn)差與方差標(biāo)準(zhǔn)差(standard deviation)與方差(variance)是一種常用的離散指標(biāo),結(jié)合均值能給出正態(tài)分布的特征。標(biāo)準(zhǔn)差的平方為方差,標(biāo)準(zhǔn)差(或方差)越大,表示觀察值的分布越分散;反之,標(biāo)準(zhǔn)差(或方差)越小,表示觀察值的分布越集中。如果標(biāo)準(zhǔn)差為0,表示這組觀察值都為一個(gè)相同的值。實(shí)際應(yīng)用時(shí)常以均值標(biāo)準(zhǔn)差的寫法綜合觀察值的集中和離散特征。總體的標(biāo)準(zhǔn)差和方差分別以和表示,樣本的標(biāo)準(zhǔn)差和方差分別以和表示,當(dāng)用樣本標(biāo)準(zhǔn)差作為的估計(jì)值時(shí),有:(24.7)其中為樣本含量,稱為離均差平方和,也可以如下計(jì)算:(24.8)如用頻數(shù)表資料,有:(24.8)3) 變異系數(shù)變異系數(shù)(coefficient of variantion)是一種離散指標(biāo),簡(jiǎn)記為,它是標(biāo)準(zhǔn)差與均值之比,用百分?jǐn)?shù)表示:(24.9)由于無(wú)量度單位,而且消除了原始資料的平均水平的影響,因此常用于比較量度單位不相同的指標(biāo)或者平均水平相差懸殊的指標(biāo)的變異程度。4) 標(biāo)準(zhǔn)誤差標(biāo)準(zhǔn)誤差(standard error)是統(tǒng)計(jì)量的標(biāo)準(zhǔn)差。因?yàn)榻y(tǒng)計(jì)量是樣本觀察值的函數(shù),一旦樣本改變,統(tǒng)計(jì)量的取值也會(huì)隨之改變。為了避免與樣本觀察值的標(biāo)準(zhǔn)差相混淆,在統(tǒng)計(jì)學(xué)上,把反映一群性質(zhì)相同的統(tǒng)計(jì)量離散程度大小的量稱為標(biāo)準(zhǔn)誤差。從理論上來(lái)說(shuō),只要給出了一個(gè)統(tǒng)計(jì)量,就有其相應(yīng)的標(biāo)準(zhǔn)誤差。在參數(shù)估計(jì)中,用樣本的統(tǒng)計(jì)量去估計(jì)參數(shù)時(shí),統(tǒng)計(jì)量的標(biāo)準(zhǔn)誤差越小,表示抽樣誤差小,統(tǒng)計(jì)量較穩(wěn)定,與參數(shù)較接近。用、分別表示統(tǒng)計(jì)量(樣本均值)、(樣本率)、(樣本相關(guān)系數(shù))、(變異系數(shù))的標(biāo)準(zhǔn)誤差,它們的計(jì)算公式分別為:(24.10)(24.11)(24.12)(24.13)5) 四分位數(shù)間距四分位數(shù)間距(interquartile range)是一種離散指標(biāo),它是第3個(gè)四分位數(shù)與第1個(gè)四分位數(shù)之差,即。6) 偏度系數(shù)偏度系數(shù)(skewness)返回分布的偏斜度,簡(jiǎn)記為SKEW。偏斜度反映以平均值為中心的分布的不對(duì)稱程度。正偏斜度表示不對(duì)稱部分的分布更趨向正值。負(fù)偏斜度表示不對(duì)稱部分的分布更趨向負(fù)值。偏斜度的計(jì)算公式為樣本觀察值消除量綱影響的三階中心矩,然后按樣本數(shù)進(jìn)行無(wú)偏修正,定義如下:(24.14)式中為樣本的標(biāo)準(zhǔn)差。7) 峰度系數(shù)峰度系數(shù)(kurtosis)返回?cái)?shù)據(jù)集的峰值,簡(jiǎn)記為KURT。峰值反映與正態(tài)分布相比某一分布的尖銳度或平坦度。正峰值表示相對(duì)尖銳的分布。負(fù)峰值表示相對(duì)平坦的分布。峰值的計(jì)算為樣本觀察值消除量綱影響的四階中心矩減去3(因?yàn)闃?biāo)準(zhǔn)正態(tài)分布的四階原點(diǎn)矩為3),然后按樣本數(shù)進(jìn)行無(wú)偏修正,公式如下:(24.15)式中為樣本的標(biāo)準(zhǔn)差。二. 正態(tài)性檢驗(yàn)用于判斷總體分布是否為正態(tài)分布的檢驗(yàn)稱為正態(tài)性檢驗(yàn)。檢驗(yàn)資料是否服從正態(tài)分布的主要方法有:WilkShapiro(威爾克斯-夏皮羅)的檢驗(yàn)和Dagustino的檢驗(yàn)。原假設(shè)為總體服從正態(tài)分布。1 小樣本的檢驗(yàn)在觀察值為小樣本時(shí),Wilk與Shapiro提出用如下的統(tǒng)計(jì)量:(24.16)它可以看成是數(shù)對(duì)()相關(guān)系數(shù)的平方,所以的取值在0和1之間。系數(shù)按標(biāo)準(zhǔn)正態(tài)分布構(gòu)造,均值為0,標(biāo)準(zhǔn)差為1,且是對(duì)稱值。不同的樣本數(shù)有不同的系列值??梢宰C明,在原假設(shè)為真時(shí),的取值應(yīng)接近于1。2 大樣本的檢驗(yàn)在觀察值為大樣本時(shí),Dagustino建議用以下的統(tǒng)計(jì)量:(24.17)在原假設(shè)為真時(shí),統(tǒng)計(jì)量的標(biāo)準(zhǔn)化后漸近分布為標(biāo)準(zhǔn)正態(tài)分布。三. 總體均值的估計(jì)和檢驗(yàn)1 總體均值的估計(jì)總體均值用表示,總體均值的估計(jì)包括點(diǎn)估計(jì)和區(qū)間估計(jì)。點(diǎn)估計(jì)即用樣本均值來(lái)估計(jì)總體均值:。點(diǎn)估計(jì)雖然簡(jiǎn)單,但未考慮抽樣誤差。區(qū)間估計(jì)即按一定的概率估計(jì)總體均值在哪個(gè)范圍內(nèi),這個(gè)范圍稱為置信區(qū)間,這個(gè)概率稱為可信度或置信度,用表示,常取95%()或99%(),按此確定的可信區(qū)間分別稱之為95%或99%可信區(qū)間。總體均值的區(qū)間估計(jì)因研究的問(wèn)題和已知條件不同而用不同的方法。主要分成三種情況:1) 正態(tài)總體方差已知如果總體服從正態(tài)分布且總體的方差已知,于是樣本的均值分布為:(24.18)對(duì)變量作標(biāo)準(zhǔn)化處理,得當(dāng)統(tǒng)計(jì)量(24.19)稱為檢驗(yàn)。則總體均值的可信區(qū)間為:(24.20)是抽樣誤差,為一定倍數(shù)的抽樣誤差,稱為極限誤差,或誤差范圍。其意義是在給定的置信度的條件下對(duì)總體參數(shù)進(jìn)行區(qū)間估計(jì)所允許的最大誤差。2) 正態(tài)總體方差未知實(shí)際上,總體均值未知而總體方差已知的情況是不常有的,通常的情況是和都未知。設(shè)總體服從正態(tài)分布且總體的方差未知。在這種情況下,可用樣本標(biāo)準(zhǔn)差來(lái)代替總體標(biāo)準(zhǔn)差,這樣就得到了統(tǒng)計(jì)量(24.21)稱為檢驗(yàn)。則總體均值的可信區(qū)間為:(24.22)2 非正態(tài)總體在大多數(shù)實(shí)際問(wèn)題中,不能假定總體服從或近似服從正態(tài)分布。但是,根據(jù)中心極限定理,只要樣本容量足夠大,樣本均值的抽樣分布就近似為正態(tài)分布。若方差已知(通常根據(jù)歷史資料或經(jīng)驗(yàn)得到),則可用公式3.1.20來(lái)計(jì)算總體均值的可信區(qū)間。若未知,則用樣本標(biāo)準(zhǔn)差來(lái)代替總體標(biāo)準(zhǔn)差,總體均值的可信區(qū)間為:(24.23)3 配對(duì)檢驗(yàn)配對(duì)檢驗(yàn)(paried test)用于配對(duì)試驗(yàn)設(shè)計(jì)(paired design),它是按一些非試驗(yàn)因素條件將受試對(duì)象配對(duì)對(duì)子,給予每對(duì)中的個(gè)體以不同的處理。配對(duì)的條件一般為年齡、性別、體重等等。其優(yōu)點(diǎn)是在同一對(duì)的試驗(yàn)對(duì)象間取得均衡,從而提高試驗(yàn)效率。有些試驗(yàn)中就同一受試對(duì)象作比較稱為自身對(duì)照,例如觀察某指標(biāo)不同時(shí)間的變化,或試驗(yàn)前后的變化,也屬于配對(duì)試驗(yàn)。想要比較配對(duì)試驗(yàn)中兩種處理(和)的效果,或者自身對(duì)照中比較試驗(yàn)前后某指標(biāo)(和)的變化??梢韵惹蟪龀蓪?duì)數(shù)據(jù)之差。在這種試驗(yàn)設(shè)計(jì)的情況下,可以認(rèn)為均值總體服從正態(tài)分布且總體的方差未知。用樣本標(biāo)準(zhǔn)差代替總體標(biāo)準(zhǔn)差,然后使用檢驗(yàn),檢驗(yàn)是否來(lái)自均值為0()的總體。因此,配對(duì)檢驗(yàn)公式為:(24.21)4 成組檢驗(yàn)當(dāng)按完全隨機(jī)化設(shè)計(jì)的兩個(gè)樣本均值比較時(shí),可用成組檢驗(yàn)(grouped test),比較的目的是檢驗(yàn)它們各種所代表的總體是否具有相同的均值,其假設(shè)檢驗(yàn),。設(shè)總體,如果和都已知,則(24.22)經(jīng)標(biāo)準(zhǔn)化變換(24.23)如果和都未知,但方差相等,其中未知需要估計(jì)。由于和都是的無(wú)偏估計(jì),集中了各自樣本中有關(guān)的信息,故可以使用合并方差估計(jì)法(Pooled Variance Estimate),有(24.24)然后用樣本合并標(biāo)準(zhǔn)差來(lái)代替中的總體標(biāo)準(zhǔn)差,這樣就得到了統(tǒng)計(jì)量(24.25)如果和都未知的一般場(chǎng)合,即。當(dāng)和分別使用各自方差估計(jì)法(Separate Variance Estimate),即分別使用其相合估計(jì)和代替后,有(24.26)這時(shí)就不再服從分布了,其形式很象統(tǒng)計(jì)量。近似統(tǒng)計(jì)量概率水平的Cochran和Cox近似(1950)是如下統(tǒng)計(jì)量的值:(24.27)用上面修正后的統(tǒng)計(jì)量作出合適的統(tǒng)計(jì)推斷。一般地,Cochran和Cox檢驗(yàn)趨于保守。另外Satterthwaite(1864)就設(shè)法用統(tǒng)計(jì)量去擬合,結(jié)果發(fā)現(xiàn)若取(24.28)但的計(jì)算結(jié)果為非整數(shù)時(shí)取最接近的整數(shù),則近似服從自由度為的分布。當(dāng)樣本數(shù)和較大時(shí),式中的值也將隨之而增大,我們知道,當(dāng)時(shí),自由度為的分布就很接近于正態(tài)分布,故在和較大時(shí),我們將認(rèn)為統(tǒng)計(jì)量服從分布。5 兩組方差的齊性檢驗(yàn)兩個(gè)均值比較的檢驗(yàn),其前提是兩個(gè)樣本所代表的正態(tài)總體具有相同的方差,因此在作檢驗(yàn)前,應(yīng)該作兩個(gè)方差是否齊性(一致)的檢驗(yàn),稱為方差的齊性檢驗(yàn)(test for homogeneity of variance)。設(shè)從正態(tài)總體中獲得的個(gè)樣本均值為,樣本無(wú)偏方差為,從另一正態(tài)總體中獲得的個(gè)樣本均值為,樣本無(wú)偏方差為,且兩個(gè)樣本獨(dú)立。假定和未知?,F(xiàn)在要檢驗(yàn)的原假設(shè)是,備擇假設(shè)是。由于(24.29)(24.30)構(gòu)造統(tǒng)計(jì)量(24.31)如果原假設(shè)是為真的情況下(24.32)對(duì)于給定顯著水平,檢驗(yàn)統(tǒng)計(jì)量的拒絕原假設(shè)的區(qū)域?yàn)榛?。?shí)際計(jì)算值時(shí)常用:較大的樣本方差/較小的樣本方差,所以拒絕區(qū)域只要看。不拒絕時(shí),認(rèn)為兩組方差齊性(homoscedasticity),這時(shí)檢驗(yàn)的前提條件滿足,所以計(jì)算的值及統(tǒng)計(jì)推斷可靠;拒絕時(shí),認(rèn)為兩個(gè)總體方差不齊(heteroscedasticity)這時(shí)不能直接作檢驗(yàn),應(yīng)該采取適當(dāng)?shù)拇胧?。如檢查試驗(yàn)的本身,尋找原因查出可能的解釋;或作變量置換;或用非參數(shù)統(tǒng)計(jì)分析方法;或用檢驗(yàn)。當(dāng)涉及到個(gè)正態(tài)總體的方差相齊性檢驗(yàn),分成兩種情況:樣本容量相等和樣本容量不等。樣本容量相等,假設(shè)為,常用的有兩種檢驗(yàn)方法:最大檢驗(yàn)(Hartley(哈特利)檢驗(yàn))和最大方差檢驗(yàn)(Cochran(卡克倫)檢驗(yàn))。最大檢驗(yàn)用的統(tǒng)計(jì)量為(24.32)最大方差檢驗(yàn)用的統(tǒng)計(jì)量為(24.33)在樣本容量不相等的情況下,可以采用Bartlett檢驗(yàn)。它是從廣義似然比導(dǎo)出。四. 簡(jiǎn)單的描述性統(tǒng)計(jì)proc means過(guò)程SAS系統(tǒng)的BASE軟件提供了一些計(jì)算基礎(chǔ)統(tǒng)計(jì)量的過(guò)程,如:means過(guò)程、summary過(guò)程、univariate過(guò)程、corr過(guò)程、freq過(guò)程和tabulate過(guò)程。這些過(guò)程可完成單變量或多變量的描述統(tǒng)計(jì)量計(jì)算。SAS的means過(guò)程用來(lái)對(duì)數(shù)據(jù)集中的數(shù)值變量計(jì)算簡(jiǎn)單的描述統(tǒng)計(jì)量。1 Means過(guò)程的語(yǔ)句格式Means過(guò)程的主要控制語(yǔ)句如下:proc means 輸入數(shù)據(jù)集名 ;var 變量列表 ;class 變量列表 ;by 變量列表 ;freq 變量 ;weight 變量 ;id 變量列表 ; output ;run ;2 proc means 語(yǔ)句中的。l vardef=df/weight/wgt/n/wdf在方差計(jì)算中規(guī)定除數(shù)d.。1) 例 vardef=df 則d=n1 缺省值2) vardef=n 則d=n3) vardef=weight/wgt 則d=4) vardef=wdf 則d=1l noprint不輸出任何描述統(tǒng)計(jì)量,僅為了創(chuàng)建新的數(shù)據(jù)集。l maxdec=數(shù)字輸出結(jié)果中小數(shù)部分的最大位數(shù)(0至8),缺省值為2。l fw=數(shù)字規(guī)定打印時(shí)每個(gè)統(tǒng)計(jì)量的域?qū)?,缺省值?。l descending規(guī)定輸出數(shù)據(jù)集按_type_值下降的次序(缺省時(shí)為上升)。l order=freq/data/internal/formatted/規(guī)定輸出時(shí)class變量按所指定方式排序。l alpha=數(shù)字設(shè)置計(jì)算置信區(qū)間的置信水平,值在0與1之間。l 統(tǒng)計(jì)量可使用的關(guān)鍵字見表24.1所示:表24.1 proc means語(yǔ)句中可用的統(tǒng)計(jì)量關(guān)鍵字統(tǒng)計(jì)量名稱含義統(tǒng)計(jì)量名稱含義n未丟失的觀測(cè)個(gè)數(shù)mode眾數(shù),出現(xiàn)頻數(shù)最高的數(shù)nmiss丟失的觀測(cè)個(gè)數(shù)sumwgt權(quán)數(shù)和mean算術(shù)平均max最大值stderr均值的標(biāo)準(zhǔn)誤差min最小值sum加權(quán)和range極差,maxminstd標(biāo)準(zhǔn)偏差median中間值var方差t總體均值等于0的t統(tǒng)計(jì)量cv變異系數(shù)的百分?jǐn)?shù)prtt分布的雙尾p值uss加權(quán)平方和clm置信度上限和下限css關(guān)于均值偏差的加權(quán)平方和lclm置信度下限skewness對(duì)稱性的度量偏度uclm置信度上限kurtosis對(duì)尾部陡平的度量峰度3 output語(yǔ)句中的選項(xiàng)。l 輸出數(shù)據(jù)集名。l 統(tǒng)計(jì)量關(guān)鍵字=變量名列表規(guī)定在輸出數(shù)據(jù)集中要包含的統(tǒng)計(jì)量并規(guī)定這些統(tǒng)計(jì)量在新數(shù)據(jù)集中的變量名。means過(guò)程對(duì)output語(yǔ)句的次數(shù)沒有限制,可以使用幾個(gè)output語(yǔ)句來(lái)創(chuàng)建內(nèi)容不同的多個(gè)數(shù)據(jù)集。4 其他語(yǔ)句l var語(yǔ)句規(guī)定要求計(jì)算簡(jiǎn)單描述性統(tǒng)計(jì)量的數(shù)值變量的次序。l by語(yǔ)句按by語(yǔ)句定義的變量進(jìn)行分組計(jì)算其相應(yīng)的簡(jiǎn)單統(tǒng)計(jì)量,要求輸入數(shù)據(jù)集已按by變量排序。l class語(yǔ)句與by語(yǔ)句一樣,可用class變量定義觀測(cè)組,分別計(jì)算各組觀測(cè)的描述統(tǒng)計(jì)量。輸出格式與by不同且事先不需要按class變量排序。l freq語(yǔ)句指定一個(gè)數(shù)值型的freq變量,它的值表示輸入數(shù)據(jù)集中相應(yīng)觀測(cè)出現(xiàn)的頻數(shù)。l weight語(yǔ)句規(guī)定一個(gè)weight變量,它的值表示相應(yīng)觀測(cè)的權(quán)數(shù)。l id語(yǔ)句在輸出數(shù)據(jù)集中增加一個(gè)或幾個(gè)附加變量,目的在于識(shí)別輸出數(shù)據(jù)集里的觀測(cè)。其值為生成這個(gè)觀測(cè)的輸入數(shù)據(jù)集中相應(yīng)觀測(cè)組里id變量具有的最大值。五. 實(shí)例分析1 用output語(yǔ)句創(chuàng)建一個(gè)新的數(shù)據(jù)集例24.1 我們對(duì)原數(shù)據(jù)集survey,用means過(guò)程的output語(yǔ)句創(chuàng)建一個(gè)新的數(shù)據(jù)集meansout,程序如下:proc means data=study.survey;class sex ;var age income;output out=meansout mean=mage mincome sum=total range= ;run ;proc print data=meansout ;run;運(yùn)行的主要結(jié)果見下表24.2所示:表24.2 用proc means過(guò)程的output語(yǔ)句創(chuàng)建一個(gè)新的數(shù)據(jù)集The SAS System OBS SEX _TYPE_ _FREQ_ MAGE MINCOME TOTAL AGE INCOME 1 0 5 24.6 43229.94 123 32 76768.76 2 F 1 2 18.0 43430.21 36 2 14139.69 3 M 1 3 29.0 43096.43 87 31 76768.762 簡(jiǎn)單算術(shù)平均和加權(quán)平均例24.2 某車間20名工人加工某種零件,按生產(chǎn)數(shù)量X分組,每組工人數(shù)為W,求20名工人的平均日產(chǎn)量。其數(shù)據(jù)見表3.3所示。程序如下:表24.3 將工人按生產(chǎn)數(shù)量分組按日生產(chǎn)數(shù)量分組 X工人人數(shù) W142154168175181合計(jì)20data study.aaa01 ;input x w ;cards;14 2 15 4 16 8 17 5 18 1run;proc means data=study.aaa01 mean;var x;run;proc means data=study.aaa01 mean;var x;weight w;run;顯然,直接對(duì)X求簡(jiǎn)單平均值(=16)和用W權(quán)值求出的X加權(quán)平均值(=15.95)是不一樣的。在這里正確的是加權(quán)平均值。3 分類和分組的算術(shù)平均例24.3 對(duì)三個(gè)班class各隨機(jī)抽取5名學(xué)生,記錄他們的性別sex,年齡age,體重weight,身高h(yuǎn)eight。按班級(jí)和性別分組計(jì)算平均值。程序如下:data study.aaa02 ;input class $ sex $ age weight height ;cards;A F 15 46 156 A F 14 41 149A M 15 50 160 A M 13 48 155A M 14 38 150 B M 16 55 165B M 16 60 170 B F 17 50 160B F 16 60 165 B M 17 65 175C F 18 65 165 C F 17 58 160C M 18 70 180 C F 18 61 162C M 17 68 176;run;proc print data=study.aaa02;run;proc means data=study.aaa02 ;var age weight height;run;proc means data=study.aaa02 ;var weight height;by class;class sex;output out=study.newaaa02 mean=meanw meanh ;run;proc print data=study.newaaa02;title Newaaa02;run;提交后,主要的運(yùn)行結(jié)果見表24.4所示:表24.4 在 proc means中使用by和class語(yǔ)句計(jì)算分類和分組平均Newaaa02OBS CLASS SEX _TYPE_ _FREQ_ MEANW MEANH1 A 0 5 44.6000 154.0002 A F 1 2 43.5000 152.5003 A M 1 3 45.3333 155.0004 B 0 5 58.0000 167.0005 B F 1 2 55.0000 162.5006 B M 1 3 60.0000 170.0007 C 0 5 64.4000 168.6008 C F 1 3 61.3333 162.3339 C M 1 2 69.0000 178.0004 計(jì)算T值和P概率值例24.4 我們從學(xué)生總體中抽樣出9名學(xué)生的體重,計(jì)算超出標(biāo)準(zhǔn)體重的數(shù)值。利用這組數(shù)據(jù)來(lái)檢驗(yàn)學(xué)生總體中標(biāo)準(zhǔn)體重的假設(shè)。通過(guò)means過(guò)程計(jì)算的T統(tǒng)計(jì)量和P值,是根據(jù)原假設(shè)均值為0,即H0:=0來(lái)計(jì)算的。用戶可以在計(jì)算前設(shè)定顯著性水平的值,默認(rèn)的值為0.05。means過(guò)程將計(jì)算出大于這組T統(tǒng)計(jì)量的概率值。程序如下:data x ;input x ;cards;-7 -2 1 3 6 10 15 21 30;proc means data=x n mean var std stderr t prt ;run;程序運(yùn)行的主要結(jié)果見下表24.5所示:表24.5 計(jì)算T值和P概率值The SAS SystemAnalysis Variable : XN Mean Variance Std Dev Std Error T Prob|T|-9 8.5555556 138.2777778 11.7591572 3.9197191 2.1826961 0.0606-從計(jì)算結(jié)果可見,T值為2.182.30(臨界值),故在5%的顯著水平上接受假設(shè)H0。如果選擇顯著性水平為10%,這時(shí)T分布的臨界值為1.86,1.860.05的值,故接受H0的假設(shè);若取=0.1,因0.0606|T|-0.3372727 0.3170778 1.0636907 0.3125-輸出結(jié)果分析:T=1.0636907,P=0.31250.5,不能拒絕原假設(shè)u=0,接受原假設(shè),即用該法測(cè)定所得的總體均值與真值之間的差別無(wú)顯著性。六. 詳細(xì)的描述性統(tǒng)計(jì)proc univariate過(guò)程SAS的univariate過(guò)程主要用于對(duì)指定隨機(jī)變量進(jìn)行詳細(xì)的描述性統(tǒng)計(jì)。該過(guò)程除了可以完成means過(guò)程的基本統(tǒng)計(jì)量的計(jì)算外,它還可以生成統(tǒng)計(jì)圖和計(jì)算其他的一些統(tǒng)計(jì)量。兩者的用法基本類似,主要區(qū)別在于means允許使用class語(yǔ)句,而univariate過(guò)程可繪制莖葉圖、盒型圖和計(jì)算各種百分位值。1 單變量統(tǒng)計(jì)分析對(duì)一組單指標(biāo)實(shí)驗(yàn)數(shù)據(jù)進(jìn)行分析常采用兩種方法:l 圖示法包括莖葉圖、盒型圖和正態(tài)概率圖。l 描述統(tǒng)計(jì)量包括矩、分位數(shù)、極端值和頻數(shù)分布表。2 莖葉圖(Stem-and-leaf display)莖葉圖是探索性數(shù)據(jù)分析中對(duì)數(shù)據(jù)的初步形象描述,有點(diǎn)像直方圖,但主要的差異在于莖葉圖是用數(shù)據(jù)代替直方圖中的矩形,這樣既有了直觀的圖示,又有了對(duì)具體數(shù)據(jù)的大致了解。每一個(gè)數(shù)據(jù)分解為三個(gè)部分:l 莖l 葉l 可忽略部分3 盒型圖(Boxplot)我們對(duì)數(shù)據(jù)組分布的粗略描述,常采用“五數(shù)概括”(five number summaries),即數(shù)據(jù)組中的最小數(shù)、下四分位數(shù)、中位數(shù)、上四分位數(shù)與最大數(shù)。但五數(shù)概括沒有象直方圖、莖葉圖那樣給人以直觀的感覺。與五數(shù)概括聯(lián)系在一起的圖像是盒型圖,它與莖葉圖一樣常用于探索性數(shù)據(jù)分析。盒型圖的主要特點(diǎn)如下:l 矩形描述了居中的50%數(shù)據(jù)l 上下兩線段(觸須線)代表上下各25%的數(shù)據(jù)的分布狀況l 矩形盒較短表明數(shù)據(jù)比較集中l(wèi) 兩端的觸須線對(duì)稱或長(zhǎng)短不一反映數(shù)據(jù)的分布特性4 Univariate過(guò)程的語(yǔ)句格式Univariate過(guò)程的主要控制語(yǔ)句如下:proc univariate 輸入數(shù)據(jù)集名 ;var 變量列表 ;by 變量列表 ;freq 變量 ;weight 變量 ;id 變量列表 ;output ;run;1) proc univariate 語(yǔ)句中的。l vardef=df/weight/wgt/n/wdf在方差計(jì)算中規(guī)定除數(shù)d.。同上面的proc univariate 語(yǔ)句中的選項(xiàng)vardef意義相同。l freq要求生成包括變量值、頻數(shù)、百分?jǐn)?shù)和累計(jì)頻數(shù)的頻率表。l normal要求計(jì)算關(guān)于輸入數(shù)據(jù)服從正態(tài)分布的假設(shè)的檢驗(yàn)統(tǒng)計(jì)量。l plot要求生成一個(gè)莖葉圖、一個(gè)盒型圖和一個(gè)正態(tài)概率圖。l round=舍入單位列表規(guī)定var語(yǔ)句中變量的四舍五入的單位。l pctldef=1/2/3/4/5規(guī)定計(jì)算百分位的五種方法, 缺省值為5。2) output語(yǔ)句中的選項(xiàng)。l 提供用戶自己想計(jì)算的百分位數(shù)和規(guī)定在輸出數(shù)據(jù)集中合成的變量名。l 統(tǒng)計(jì)量關(guān)鍵字=變量名 列表規(guī)定在輸出數(shù)據(jù)集中要包含的統(tǒng)計(jì)量并規(guī)定這些統(tǒng)計(jì)量在新數(shù)據(jù)集中的變量名。在這里可以使用的統(tǒng)計(jì)量的關(guān)鍵字名稱見下表24.7:表24.7 univeriate過(guò)程中的統(tǒng)計(jì)量關(guān)鍵字統(tǒng)計(jì)量名稱含義統(tǒng)計(jì)量名稱含義n未丟失的觀測(cè)個(gè)數(shù)mode眾數(shù),出現(xiàn)頻數(shù)最高的數(shù)nmiss丟失的觀測(cè)個(gè)數(shù)t總體均值等于0的t統(tǒng)計(jì)量nobs觀測(cè)個(gè)數(shù)prtt分布的雙尾p值mean算術(shù)平均q3上四分位數(shù)(75%)stderr均值的標(biāo)準(zhǔn)誤差q1下四分位數(shù)(75%)sum加權(quán)和qrange上下四分位數(shù)差(q3-q1)std標(biāo)準(zhǔn)偏差p11%分位數(shù)var方差p55%分位數(shù)cv變異系數(shù)的百分?jǐn)?shù)p1010%分位數(shù)uss加權(quán)平方和p9090%分位數(shù)css關(guān)于均值偏差的加權(quán)平方和p9595%分位數(shù)skewness對(duì)稱性的度量偏度p9999%分位數(shù)kurtosis對(duì)尾部陡平的度量峰度msign符號(hào)統(tǒng)計(jì)量sumwgt權(quán)數(shù)和probm大于符號(hào)秩統(tǒng)計(jì)量的絕對(duì)值概率max最大值signrank符號(hào)秩統(tǒng)計(jì)量min最小值probs大于中心符號(hào)秩統(tǒng)計(jì)量的絕對(duì)值prange極差,maxminnormal檢驗(yàn)正態(tài)性的統(tǒng)計(jì)量median中間值probn檢驗(yàn)正態(tài)分布假設(shè)的概率值3) 其他語(yǔ)句。l var語(yǔ)句規(guī)定要求計(jì)算簡(jiǎn)單描述性統(tǒng)計(jì)量的數(shù)值變量的次序。l by語(yǔ)句按by語(yǔ)句定義的變量進(jìn)行分組計(jì)算其相應(yīng)的簡(jiǎn)單統(tǒng)計(jì)量,要求輸入數(shù)據(jù)集已按by變量排序。l freq語(yǔ)句指定一個(gè)數(shù)值型的freq變量,它的值表示輸入數(shù)據(jù)集中相應(yīng)觀測(cè)出現(xiàn)的頻數(shù)。l weight語(yǔ)句規(guī)定一個(gè)weight變量,它的值表示相應(yīng)觀測(cè)的權(quán)數(shù)。l id語(yǔ)句在輸出數(shù)據(jù)集中增加一個(gè)或幾個(gè)附加變量,目的在于識(shí)別輸出數(shù)據(jù)集里的觀測(cè)。其值為生成這個(gè)觀測(cè)的輸入數(shù)據(jù)集中相應(yīng)觀測(cè)組里id變量具有的最大值。七. 實(shí)例分析_單變量數(shù)據(jù)的詳細(xì)描述統(tǒng)計(jì)量例24.6 有68個(gè)抽樣數(shù)據(jù),現(xiàn)要求計(jì)算此單變量數(shù)據(jù)的描述統(tǒng)計(jì)量,并分析此抽樣數(shù)據(jù)的統(tǒng)計(jì)特征。程序如下:data study.aaa03;input x ;cards;6.5 5.1 6.1 3.9 3.5 7.7 2.11.9 9.6 7.9 7.6 7.8 4.6 6.16.4 2.8 7.6 2.5 4.6 8.1 4.86.9 5.1 2.0 6.4 6.0 4.5 8.08.0 8.6 6.4 4.9 6.4 6.8 4.73.4 7.7 1.2 2.8 0.5 2.6 3.26.5 7.6 3.5 5.7 5.4 2.3 7.42.7 4.2 6.4 6.9 7.2 6.7 6.54.0 7.3 1.1 4.9 2.5 2.9 1.93.6 1.4 2.5 4.4 2.5;proc univariate data=study.aaa03 plot normal;var x;run;程序說(shuō)明:data步產(chǎn)生一個(gè)單變量的數(shù)據(jù)集aaa03,共有68條觀測(cè)。univariate過(guò)程步中各選項(xiàng)的含義是:plot要求繪制莖葉圖、盒型圖和正態(tài)概率圖;normal要求對(duì)抽樣數(shù)據(jù)進(jìn)行正態(tài)性檢驗(yàn)。程序提交后,輸出分別見表24.8(a)(b)(c)所示。運(yùn)行結(jié)果分析如下面所述。1 Moments:矩或稱動(dòng)差。見表3.8(a)所示,輸入數(shù)據(jù)集68條觀測(cè)(n)中的變量x的算術(shù)平均值(mean)為5.019118,總和(sum)為341.3,方差(variance)為5.012017,標(biāo)準(zhǔn)差(std dev)為2.238753,均值的標(biāo)準(zhǔn)誤差(std mean)為0.271489,變異系數(shù)(cv)為44.60452%。由于沒有指定權(quán)數(shù)變量,每一條觀測(cè)x變量的權(quán)數(shù)默認(rèn)值為1,所以權(quán)數(shù)和(sum wgts)為

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論