薛薇-《SPSS統(tǒng)計(jì)分析方法及應(yīng)用》第三章--數(shù)據(jù)預(yù)處理PPT課件_第1頁
薛薇-《SPSS統(tǒng)計(jì)分析方法及應(yīng)用》第三章--數(shù)據(jù)預(yù)處理PPT課件_第2頁
薛薇-《SPSS統(tǒng)計(jì)分析方法及應(yīng)用》第三章--數(shù)據(jù)預(yù)處理PPT課件_第3頁
薛薇-《SPSS統(tǒng)計(jì)分析方法及應(yīng)用》第三章--數(shù)據(jù)預(yù)處理PPT課件_第4頁
薛薇-《SPSS統(tǒng)計(jì)分析方法及應(yīng)用》第三章--數(shù)據(jù)預(yù)處理PPT課件_第5頁
已閱讀5頁,還剩27頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

-,1,第3章SPSS數(shù)據(jù)預(yù)處理,本章教學(xué)內(nèi)容及目標(biāo):掌握SPSS數(shù)據(jù)篩選、排序、計(jì)數(shù)、匯總等基本操作掌握SPSS組距分組的具體操作。,-,2,3.1數(shù)據(jù)的排序,排序目的:數(shù)據(jù)排序便于數(shù)據(jù)的瀏覽,有助于了解數(shù)據(jù)的取值狀況、缺失值數(shù)量的多少等;通過數(shù)據(jù)排序能夠快捷的找到數(shù)據(jù)的最大值和最小值,進(jìn)而可以計(jì)算出數(shù)據(jù)的全距,初步把握和比較數(shù)據(jù)的離散程度;通過數(shù)據(jù)排序能夠快捷地發(fā)現(xiàn)數(shù)據(jù)的異常值,為進(jìn)一步明確它們是否會(huì)對分析產(chǎn)生重要影響提供幫助。,-,3,排序方法:(1)單值排序,指排序變量只有一個(gè)(2)多重排序,首先按照主排序變量的大小次序排序,對于有相同主排序變量的數(shù)據(jù),再按第二排序變量的大小次序依次安排。,-,4,說明:1、數(shù)據(jù)排序是整行數(shù)據(jù)排序,而不是只對某列變量排序;2、多重排序中指定排序變量的次序很關(guān)鍵。先指定的變量優(yōu)先于后指定的變量。多重排序可以在按某個(gè)變量值升序(或降序)排序的同時(shí)再按其他變量值降序(或升序)排序;3、數(shù)據(jù)排序后,原有數(shù)據(jù)的排序次序必然被打亂。,-,5,操作例子:職工住房狀況調(diào)查要求:分析本市戶口和外地戶口家庭的住房面積情況。方法:采用多重排序,主排序變量為本市戶口,【數(shù)據(jù)】【排序個(gè)案】然后指定主排序變量到【排序依據(jù)】中,并在【排列順序】中升序或者降序注意:數(shù)據(jù)排序是整行數(shù)據(jù)排序,不只是對某列變量排序。,-,6,3.2變量的計(jì)算,數(shù)據(jù)計(jì)算的目的:數(shù)據(jù)的轉(zhuǎn)換處理是在原有數(shù)據(jù)的基礎(chǔ)上,計(jì)算產(chǎn)生一些含有更豐富信息的新數(shù)據(jù)。例如根據(jù)職工的基本工資、失業(yè)保險(xiǎn)、獎(jiǎng)金等數(shù)據(jù),計(jì)算實(shí)際月收入,這些新變量具有更直觀更有效的特點(diǎn)。SPSS變量計(jì)算是在原有數(shù)據(jù)的基礎(chǔ)上,根據(jù)用戶給出的SPSS算術(shù)表達(dá)式以及函數(shù),對所有個(gè)案或滿足條件的部分個(gè)案,計(jì)算產(chǎn)生一系列新變量。(1)變量計(jì)算是針對所有個(gè)案(或指定的部分個(gè)案)的,每個(gè)個(gè)案都有自己的計(jì)算結(jié)果。(2)變量計(jì)算的結(jié)果應(yīng)保存到一個(gè)指定變量中,該變量的數(shù)據(jù)類型應(yīng)與計(jì)算結(jié)果的數(shù)據(jù)類型相一致。,-,7,變量計(jì)算中有三個(gè)概念:一、SPSS算術(shù)表達(dá)式(numericexpression)它是由變量、常量、算術(shù)運(yùn)算符、括號(hào)、函數(shù)等組成的式子。運(yùn)算先后順序:自左向右,先算括號(hào)內(nèi)的;先計(jì)算乘方(*),再計(jì)算乘(*)、除(/),最后計(jì)算加(+)、減(),-,8,二、SPSS條件表達(dá)式,1、簡單的表達(dá)式由SPSS關(guān)系運(yùn)算符、變量、常量以及算術(shù)表達(dá)式組成的式子。其中關(guān)系運(yùn)算符:(大于)、=(大于等于)、35、sr=35)and(sr=700)(nl35)|(sr=700),-,10,三是函數(shù)指事先編好的并儲(chǔ)存在SPSS軟件中,能夠事先按照某些特定任務(wù)完成計(jì)算的一段計(jì)算機(jī)程序。運(yùn)行后,會(huì)得到一個(gè)函數(shù)值。結(jié)構(gòu):函數(shù)名(參數(shù))括號(hào)中參數(shù)可以是常量(字符型常量用引號(hào)括起來),也可以是變量或算術(shù)表達(dá)式。參數(shù)可以是多個(gè),需要用逗號(hào)分開。SPSS函數(shù)有算術(shù)函數(shù)、統(tǒng)計(jì)函數(shù)、與分布相關(guān)的函數(shù)、查找函數(shù)、字符函數(shù)、缺失值函數(shù),以及其它函數(shù)等(見課本:p41),三、SPSS函數(shù),-,11,3.2.5變量計(jì)算應(yīng)用舉例(職工基本情況數(shù)據(jù)),操作:【轉(zhuǎn)換】【計(jì)算變量】在【目標(biāo)變量】輸入存放計(jì)算結(jié)果的變量名在【如果個(gè)案滿足條件則包括】選項(xiàng)中輸入條件表達(dá)式。依據(jù)職稱級(jí)別計(jì)算實(shí)發(fā)工資(sr-bx)*0.5(0.3),-,12,3.3數(shù)據(jù)選取一、數(shù)據(jù)選取的目的數(shù)據(jù)選取就是根據(jù)分析的需要,從已收集到的大批量數(shù)據(jù)(總體)中按照一定的規(guī)則抽取部分?jǐn)?shù)據(jù)(樣本)參與分析的過程,通常也稱為抽樣。SPSS可根據(jù)指定的抽樣方法從數(shù)據(jù)編輯窗口中選出部分樣本以實(shí)現(xiàn)數(shù)據(jù)選取,這樣后面的分析操作就只針對選出的數(shù)據(jù),直到用戶取消這種選取為止。提高數(shù)據(jù)的分析效率,檢驗(yàn)?zāi)P偷男枰ú糠謹(jǐn)?shù)據(jù)參與建模,剩余用于模型檢驗(yàn)),-,13,二、選取的基本方式(1)選取全部數(shù)據(jù)(Allcases)(2)按指定條件選?。↖fconditionissatisfied)SPSS要求用戶以條件表達(dá)式給出數(shù)據(jù)選取的條件,SPSS將自動(dòng)對數(shù)據(jù)編輯窗口中的所有個(gè)案進(jìn)行條件判斷。那些滿足條件的個(gè)案,即條件判斷為真的個(gè)案將被自動(dòng)選取出來,而那些條件判斷為假的個(gè)案則不被選中。,-,14,(3)隨機(jī)抽樣(Randomsampleofcases),即對數(shù)據(jù)編輯窗口中的所有個(gè)案進(jìn)行隨機(jī)篩選,包括如下兩種方式:第一,近似抽樣(Approximately)近似抽樣要求用戶給出一個(gè)百分比數(shù)值,SPSS將按照這個(gè)比例自動(dòng)從數(shù)據(jù)編輯窗口中隨機(jī)抽取相應(yīng)百分比數(shù)目的個(gè)案。注:由于SPSS在樣本抽樣方面的技術(shù)特點(diǎn),抽取出的個(gè)案總數(shù)不一定恰好精確地等于用戶指定的百分比數(shù)目,會(huì)有小的偏差,因而稱為近似抽樣。,-,15,第二,精確抽樣(Exactly)精確抽樣要求用戶給出兩個(gè)參數(shù)。第一個(gè)參數(shù)是希望選取的個(gè)案數(shù),第二個(gè)參數(shù)是指定在前幾個(gè)個(gè)案中選取。SPSS自動(dòng)在數(shù)據(jù)編輯窗口的前若干個(gè)個(gè)案中隨機(jī)精確地抽出相應(yīng)個(gè)數(shù)的個(gè)案來。,-,16,(4)選取某一區(qū)域內(nèi)的樣本(Basedontimeorcaserange),即選取數(shù)據(jù)編輯窗口中樣本號(hào)在指定范圍內(nèi)的所有個(gè)案,要求給出這個(gè)范圍的上、下界個(gè)案號(hào)碼。這種抽樣方法適用于時(shí)間序列數(shù)據(jù)。(5)通過過濾變量選取樣本(Usefiltervariable),即依據(jù)過濾變量的取值進(jìn)行樣本選取。要求指定一個(gè)變量作為過濾變量,變量值為非0或非系統(tǒng)缺失值的個(gè)案將被選中。這種方法通常用于排除包含系統(tǒng)缺失值的個(gè)案。,-,17,說明:(1)完成數(shù)據(jù)選取后,以后的SPSS分析操作僅針對那些被選中的個(gè)案直到用戶再次改變數(shù)據(jù)的選取為止。(2)采用指定條件選取和隨機(jī)抽樣方法進(jìn)行數(shù)據(jù)選取后,SPSS將在數(shù)據(jù)編輯窗口中自動(dòng)生成一個(gè)名為filter_$的新變量,取值為1或0。1表示本個(gè)案被選中,0表示未被選中。該變量是SPSS產(chǎn)生的中間變量,如果刪除它則自動(dòng)取消樣本抽樣。,-,18,三、應(yīng)用舉例(住房狀況調(diào)查數(shù)據(jù))1、選擇本市戶口的住戶樣本【數(shù)據(jù)】【選擇個(gè)案】選擇【如果條件滿足】項(xiàng),然后選擇“戶口狀況”=12、對70%的隨機(jī)樣本進(jìn)行分析【數(shù)據(jù)】【選擇個(gè)案】選擇【隨機(jī)個(gè)案樣本】項(xiàng),然后輸入比例數(shù)0.7,-,19,SPSS對未選中的個(gè)案的處理方式:【過濾掉未選定的變量】表示對未被選中的個(gè)案打“/”【刪除未選定個(gè)案】表示從數(shù)據(jù)窗口中刪除未被選擇的個(gè)案【將選定個(gè)案復(fù)制到新數(shù)據(jù)集】表示篩選出的個(gè)案復(fù)制到一個(gè)新的數(shù)據(jù)編輯窗口中。,-,20,3.4計(jì)數(shù),目的:SPSS實(shí)現(xiàn)的計(jì)數(shù)是對所有個(gè)案或滿足某條件的部分個(gè)案,計(jì)算若干變量中有幾個(gè)變量的值落在指定的區(qū)間內(nèi),并將計(jì)數(shù)結(jié)果存入一個(gè)新變量中的過程。例如對大學(xué)畢業(yè)班學(xué)生的成績進(jìn)行綜合測評(píng)時(shí),可以依次計(jì)算每個(gè)學(xué)生的若干門課程中有幾門課程得了優(yōu),有幾門課程得了良,有幾門課程不及格。SPSS實(shí)現(xiàn)計(jì)數(shù)的關(guān)鍵步驟是:指定哪些變量參與計(jì)數(shù),計(jì)數(shù)的結(jié)果存入哪個(gè)新變量中指定計(jì)數(shù)區(qū)間(尤為關(guān)鍵)認(rèn)識(shí)個(gè)案的結(jié)構(gòu)特征及權(quán)重,-,21,計(jì)數(shù)區(qū)間的描述形式:按單個(gè)變量值計(jì)數(shù)【value】按系統(tǒng)缺失值或用戶缺失值計(jì)數(shù)【systemoruser-missing】按從最大值到最小值區(qū)間的計(jì)數(shù)【nthroughm】,如從80到89【80through89】小于等于某指定值區(qū)間【lowestthroughn】大于等于某指定值區(qū)間【nthroughhighest】,-,22,計(jì)數(shù)應(yīng)用舉例(住房狀況調(diào)查),問題:分析多少家庭對目前住房滿意且近年不買住房操作:【轉(zhuǎn)換】【對個(gè)案內(nèi)的值計(jì)數(shù)】然后在【數(shù)字變量】中選擇參與計(jì)數(shù)變量“住房滿意”和“未來三年”在【目標(biāo)變量】中存入計(jì)數(shù)結(jié)果的變量名,并在【目標(biāo)標(biāo)簽】中輸入相應(yīng)的變量名標(biāo)簽。如本題變量名為gs,-,23,在【定義值】中的計(jì)數(shù)區(qū)間定義為【值】,并輸入1(表示計(jì)數(shù)變量的取值為1)在結(jié)果gs變量中,如果家庭的計(jì)數(shù)結(jié)果為2,則為該家庭對目前住房滿意且不計(jì)劃買房。還可以進(jìn)一步計(jì)算百分比,-,24,3.5分類匯總,分類匯總指按照某分類變量進(jìn)行分類計(jì)算分類匯總的應(yīng)用舉例(住房狀況調(diào)查)(1)分析本市與外地戶口家庭目前人均住房面積是否有較大差距;(2)未來打算買房的平均面積是否有差距分類變量是“戶口狀況”,匯總變量分別為“人均面積”和“計(jì)劃面積”。,-,25,分類匯總操作:【數(shù)據(jù)】【匯總】指定分類變量“戶口狀況”到【分組變量】框中,指定匯總變量“人均面積”和“計(jì)劃面積”到【變量摘要】框中按【函數(shù)】,指定匯總變量時(shí)計(jì)算哪些統(tǒng)計(jì)量。Spss默認(rèn)計(jì)算為均值mean.可以指定分類匯總變量3種保存方式,其中【創(chuàng)建只包含匯總變量的新數(shù)據(jù)集】選項(xiàng)指結(jié)果保存到一個(gè)新的數(shù)據(jù)編輯窗口,需要給它起名注意:SPSS會(huì)自動(dòng)剔除那些系統(tǒng)缺失值得樣本。,-,26,3.6數(shù)據(jù)分組,即根據(jù)統(tǒng)計(jì)分析的需要,按某種標(biāo)準(zhǔn),重新劃分不同的組別。數(shù)據(jù)分組是對定距數(shù)據(jù)進(jìn)行粗略分析的主要工具。組距分組:指將全部區(qū)間劃分成若干個(gè)區(qū)間,并將同一區(qū)間的變量作為一組。步驟:排序,確定組數(shù),確定組距=數(shù)據(jù)分組應(yīng)用舉例(住房狀況調(diào)查)問題:分析被調(diào)查家庭人均住房面積的分布,-,27,操作:【轉(zhuǎn)換】【重新編碼成不同變量】選擇分組變量“人均面積”到【數(shù)字變量】中在【輸出變量】框中的【名稱】后輸入存放分組結(jié)果的變量名,如mj,并按【變更】確認(rèn)。還可以在【標(biāo)簽】后輸入相應(yīng)的變量名標(biāo)簽根據(jù)分析要求在【舊值和新值】內(nèi)逐個(gè)定義各分組區(qū)間。,-,28,3.7數(shù)據(jù)預(yù)處理的其它功能,3.7.1數(shù)據(jù)轉(zhuǎn)置(略)將數(shù)據(jù)編輯窗口中的數(shù)據(jù)進(jìn)行行、列互換【數(shù)據(jù)】【轉(zhuǎn)置】要指定數(shù)據(jù)轉(zhuǎn)置后要保留哪些變量,將他們選入【變量】框中;還要指定轉(zhuǎn)置后各變量名如何命名,應(yīng)選擇一個(gè)取

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論