文件第2章數(shù)據(jù)統(tǒng)計處_第1頁
文件第2章數(shù)據(jù)統(tǒng)計處_第2頁
文件第2章數(shù)據(jù)統(tǒng)計處_第3頁
文件第2章數(shù)據(jù)統(tǒng)計處_第4頁
文件第2章數(shù)據(jù)統(tǒng)計處_第5頁
已閱讀5頁,還剩26頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、第2章 數(shù)據(jù)統(tǒng)計處理實例2.1 常量、變量和表達式2.2 構(gòu)建新變量2.3 自建數(shù)據(jù)文件處理實例12.4 已輸入數(shù)據(jù)文件的處理實例2統(tǒng)計口徑社會撫養(yǎng)費俗稱超生、計劃外罰款,是指對不符合法定條件生育子女的公民征收的費用。廣東省衛(wèi)計委公布2012年度全省社會撫養(yǎng)費征收金額為14.56億元,而廣東省財政廳提供的26.13億元。衛(wèi)計委的金額是指2012年度違法生育者所實際繳納的金額。而財政廳提供的26.13億元為2012年度財政決算數(shù)。該26.13億元為2012年度全省社會撫養(yǎng)費入庫金額,是根據(jù)各市縣財政部門上報的決算數(shù)匯總形成的全省決算數(shù),既包括2012年度違法生育者所繳納的金額,也包括往年違法生育

2、者所繳納的金額。廣東省衛(wèi)計委稱,之所以會出現(xiàn)往年違法生育者繳納社會撫養(yǎng)費的情況,一是由于財政核算采用收付實現(xiàn)制,二是由于一部分往年違法生育者確有實際困難,按廣東省社會撫養(yǎng)費征收管理辦法的規(guī)定采取了分期繳納的方式。2013年12月18日國家統(tǒng)計局和廣州市國土房管局同時發(fā)布了11月廣州房價數(shù)據(jù)。國家統(tǒng)計局稱廣州房價同比上漲20.9%,環(huán)比上漲0.8%。而廣州市國土房管局說,同比下降7.1%,環(huán)比下降了10.6%?,F(xiàn)代快報,2013.12.22.A3版問題:1、什么是同比、什么是環(huán)比2、為什么有差異,那個數(shù)據(jù)更準確一些?調(diào)查顯示,廣州的官方數(shù)據(jù)算出房價下降,根本原因在于它把原來沒有包括在內(nèi)的從化、增

3、城兩個遠郊縣級市納入,以其低房價拉低整體的價格數(shù)據(jù)。這兩個地方房價不到萬元,而廣州市區(qū)房價達到四五萬元。這就是說,廣州市數(shù)據(jù)所說的房價下降,根本就是一個虛假的數(shù)字。今年納入兩個遠郊區(qū)的數(shù)據(jù),與去年納入兩個遠郊區(qū)的數(shù)據(jù),可以比;今年不納入兩個遠郊區(qū)的數(shù)據(jù),與去年不納入兩個遠郊區(qū)的數(shù)據(jù),也可以比;但今年納入兩個遠郊區(qū)的數(shù)據(jù),與去年不納入兩個遠郊區(qū)的數(shù)據(jù),根本就不是可比的數(shù)據(jù)。廣州市國土房管局為何有興趣玩這種“房價下降”的把戲呢?無非是房價調(diào)控成了一個考核指標。如果房價上漲不能在數(shù)字上有一個被遏制的表現(xiàn),國土房管局乃至地方政府都要被追究責任。所以到了要交賬時,它們就需要一個可供考核的數(shù)字。 2.1

4、常量、變量和表達式樣本(Case)是指記錄或事件。調(diào)查多少人或單位,就有多少樣本,常用不同的行表示。變量(Variable)是指調(diào)查的項目、指標或問題,常用不同的列來表示。SPSS僅對列變量進行各種加、減、乘、除運算,即對所有樣本進行運算。若要對部分樣本進行運算,就需先對行變量(樣本)進行檢索、篩選、分類。變量的取值稱變量值,也就是被調(diào)查對象提供的具體調(diào)查數(shù)據(jù)。 2.1.1 常量常量包括數(shù)值型常量,在引號中的字符串常量,或按日期格式表示的日期和時間型常量等三種,其中日期型常量用得比較少。1、常量的定義 數(shù)值型常量有兩種書寫方式。一種是定點(小數(shù)點位置固定)普通書寫方式,例如26、38.4等。另

5、一種是浮點科學記數(shù)法,常用于表示特別大或特別小的數(shù)字,例如1.23D3、2.56E-2、3.86-1,分別表示1230、0.0256、0.386。其中D3、E-2、-1表示10的3、-2、-1次冪。字符串常量是指被單引號或雙引號包括起來的一串字符。如果字符串中本身帶有單引號,則該字符串須使用雙引號括起來。例如“Girls Book”。2、觀察值的錄入1)數(shù)據(jù)錄入方法SPSS輸入數(shù)據(jù)方法多種多樣,一般按行(樣本或觀測量)輸入。輸入前要弄清多少(m)個變量、多少(n)個樣本,以便輸入m列n行。這和EXCEL完全不同。數(shù)據(jù)輸入和EXCEL電子表格相同,這里不在多述。2)變量標簽和變量值標簽的定義標簽

6、是SPSS特有的對變量或變量值的進一步說明或注釋,因為本資料使用年數(shù)長、人數(shù)多,若無特殊說明容易造成誤會而無法使用。變量標簽、變量值標簽具有一個可選擇的屬性,即可以定義、也可以不定義標簽。若變量名(值)本身十分清楚,如學生考試成績87分,變量為學生成績,變量值為87,則不需要定義值標簽。但有些就必須要定義值標簽,如性別變量的值1、2;出生地變量的值A(chǔ)、B、C、D、E等等。變量標簽(Variable Labels)變量標簽Label是對變量名的附加的進一步說明。由于一般變量名的組成字符比較短,很難表示變量的確切含義,資料存放時間長了難免會忘記。如何對變量名的含義加以詳細說明和注釋,就要用變量標簽

7、。標簽可包括空格、編號和漢字在內(nèi)。在統(tǒng)計輸出中可在與變量名相對應的位置顯示該變量的標簽,這樣有助于分析、輸出易讀的結(jié)果。例如:在SPSS自帶文件“Cars. sav”中,變量名mpg對應的變量標簽:Miles pre Gallon (每加侖汽油行多少英里),變量名weight對應的變量標簽Vehicle Weight(車輛重量),變量名horse對應的變量標簽Horsepower(馬力)。變量值標簽,簡稱值標簽(Value Labels)在數(shù)據(jù)處理中,同樣的數(shù)值代表的內(nèi)容可能完全不一樣。變量值標簽是對變量值作進一步說明和注釋。尤其是對分類變量,往往都要定義其取值的標簽。因此,在貼標簽之前,要弄

8、清變量或變量值代表的意義。變量值標簽內(nèi)容可包括空格和編號等。貼標簽或分類時,還應注意歷史上編碼、分類的連續(xù)性,如職業(yè)編碼和行業(yè)編碼等。變量標簽及值標簽定義方法 變量標簽(Label)在SPSS屏幕左下方的Variable View選項下,在Label列下直接輸入對應變量的標簽。變量值標簽(Values Label)定義比較麻煩,先用類似方式打開“Value Labels”對話框如圖2.1,在第一個矩形框中輸入變量值;在第二個矩形框中輸入對應值的標簽(對該變量含義的解釋),按左面第一個按鈕“Add”,值標簽加入到值標簽清單中。例如,定義變量SEX,值表示男性;f表示女性。則先在第一個小框中輸入“

9、m”,再把插入點光標移至第二個矩形框中,輸入“男性”,按“Add” 按鈕,清單中顯示:m=“男性”;然后,在第一個小矩形框中輸入“f”,在第二個矩形框中輸入“女性”,再按“Add”按鈕,清單中又增加了一個值標簽。至此,所有值標簽定義完畢。注意:這里定義的f、m與數(shù)據(jù)輸入的大小寫、書寫格式必須一致。對變量值標簽的修改,只要在“Variable Label”后最下面的矩形框中點擊原錯誤標簽,該標簽的數(shù)值和標簽,顯示在矩形框內(nèi),重新輸入新定義的值或值標簽。按Change鍵原值改變?yōu)樾露x的值;按Remove鍵原值移走。2.1.2 變量輸入數(shù)據(jù)(觀察值)之前首先要定義變量的屬性,即定義變量名、變量類型

10、、變量長度(包括小數(shù)位數(shù))、變量標簽(或值標簽),和變量的格式(顯示寬度、對齊方式、缺失值標記等)。定義變量有兩種方法。鼠標放置于某變量名位置上,鼠標光標呈現(xiàn)一向下的箭頭,左鍵快速雙擊該變量名;或用鼠標左鍵單擊某變量名,然后用鼠標點擊屏幕左下方的Variable View,就可打開變量定義狀態(tài)欄如圖2.3。由此可依次定義變量名、變量類型、變量長度、小數(shù)位數(shù)、變量標簽等。變量類型一般默認為數(shù)值型,變量長度默認為f8.2,標簽默認為無。注意:Width和Columns之間的差異。1)變量名的定義若不輸入變量名,而直接輸入變量值,則系統(tǒng)按變量的輸入順序給出的變量名的默認值為:VAR00001、VAR

11、00002、VAR00003依此類推。于是,可轉(zhuǎn)入Variable View后,用鍵盤輸入自己定義的變量名。如將“VAR1”、“SEX”等作為變量名。在該變量名后出現(xiàn)一系列變量其他屬性的默認值。您可以修改或直接予以確認。變量默認值的修改,有三種情況。一種是方框右邊帶有三點,表示有二級對話框可供選擇或展開,例如Type、Values和Missing;右邊帶有上下箭頭的,表示可通過尖頭,將默認值增加或減少,也可直接將該數(shù)修改;右邊為空白的,可直接輸入相關(guān)值。 2)變量命名應遵循的原則:變量名由若干字符組成。首字符是字母、中文或特殊符號,但不能是空格或數(shù)字;其后可為字母、數(shù)字、中文、特殊符號“”、“

12、$”、“”,但 “?”“!”和“*”字符除外;最后一個字符不能以下劃線“_”和圓點“”,以免引起誤會。 變量名不能與SPSS保留字相同,以免引起混亂。SPSS有ALL、AND、BY、EQ、GE、GT、LE、LT、NE、NOT、OR、TO、WITH等13個保留字。 系統(tǒng)不區(qū)分變量名中的大小寫字符。例如:ABC和abc被認為是同一個變量。如:“A_s1”,“a.8$1”,“南京產(chǎn)量”等都是合法變量名;而“Name_123”,“ name_1”,“_J13name”,“Name?1”,“all”,“Fem le”,“2var”等都是不合法變量名,計算機無法接受的變量名。同學們可以輸入一下看能否作為變

13、量名。3)變量類型和寬度的定義鼠標光標對準Variable View屏幕下Type選項下,某變量對應的按鈕Numeric,單擊其右部,或用鼠標左鍵單擊其三點,展開定義變量類型對話框如圖2.4所示。SPSS變量有三種基本類型:數(shù)值型、字符型、日期型。數(shù)值型變量又按不同要求分為六種,因此共可定義八種類型的變量。變量的系統(tǒng)默認長度一般為F8.2,其中8是顯示寬度,2是小數(shù)點后面的位數(shù),但可通過主菜單Edit中的“Options”重新設置。寬度Width是指在數(shù)據(jù)窗中該變量所占的列數(shù)。應該區(qū)分定義變量類型時指定的寬度,與定義格式時的寬度。定義變量格式寬度應該綜合考慮變量類型定義的總長度,和變量名所占寬

14、度,取其較大的一個作為該變量定義格式寬度。圖2.4中“width”右面的方框內(nèi)顯示的是內(nèi)存所占寬度,下面“decimal”右面的方框中顯示的是小數(shù)位數(shù)。若要改變系統(tǒng)默認值,可將插入點光標移至方框內(nèi),即可用鍵盤刪除原值,輸入合適的值。 標準數(shù)值型變量(Numeric)默認總長度8、小數(shù)位數(shù)為2位、小數(shù)點用圓點。其變量值可用標準數(shù)值格式輸入,也可以用科學記數(shù)法輸入。輸入時使用科學記數(shù)法,如-364、527-2、5.6467E5,顯示出來的都是標準數(shù)值格式。 帶逗點的數(shù)值型變量(Comma)默認總長度8、小數(shù)位數(shù)為2位(除非另外指定)、用圓點作小數(shù)點、其整數(shù)值部分自右向左每三位用一個逗點作分隔符。如

15、6,452.72、82,435.1。 為什么用圓點表示小數(shù)點,而逗點表示整數(shù)值的分隔符呢?能否交換一下?有部分人就標新立異進行了這樣的交換。SPSS采用圓點數(shù)值型變量(Dot),用逗點作為小數(shù)點,整數(shù)部分自右向左每三位用一個圓點作分隔符。 浮點或科學記數(shù)法(Scientific notation)默認總長度8、小數(shù)位數(shù)為2。標準格式用一位整數(shù)、若干小數(shù)和指數(shù)所構(gòu)成。表示指數(shù)的字母可以用E、D,可帶正負號;甚至指數(shù)部分不用字母D或E,直接用符號表示。如123,可以用1.23E2、1.23D2、1.23E2、1.232等方式輸入或顯示。 帶美元符號的數(shù)值型變量(Dollar)默認總長度8(包括“$

16、”符號在內(nèi))、小數(shù)位數(shù)為2,顯示其有效數(shù)字前帶有“$”,用逗點作分隔符、用圓點作小數(shù)點。輸入時可以帶、也可以不帶“$”,由系統(tǒng)自動加上“$”符號和分隔符。當輸入的數(shù)值小數(shù)位數(shù)超過格式規(guī)定時,系統(tǒng)自動進行四舍五入處理。自定義型幣制(Custom Currency)變量是一種由用戶利用Edit菜單下的Option功能定義的(圖2.5)。CCA、CCB、CCC、CCD和CCE可以定義五種不同的貨幣。字符型變量(string)默認長度8位,變量值是一串字符。字符型變量分:由8個及其以下字符組成的短字符變量,和由8個以上字符組成的長字符變量。前者使用范圍較寬,使用時受限制少,使用較頻繁。字符型中的大寫、

17、小寫字母被系統(tǒng)認為是截然不同的兩種字符,字符型變量不能參與算術(shù)運算。 日期型變量(Date)可表示日期,也可表示時間。日期的表示形式多種多樣,SPSS共收集了27種不同的表示方法。實際使用較少,這里從略。SPSS變量最常用的是標準數(shù)值型、短字符串兩種基本變量。 3)用戶缺失值定義對年齡、身高和婚姻狀態(tài)的調(diào)查中,或?qū)€人經(jīng)濟狀況和性知識等方面調(diào)查中,由于涉及到個人隱私,使記錄的數(shù)據(jù)缺失、失真,這就是用戶缺失值(Missing Value)。再如,數(shù)據(jù)有明顯邏輯性錯誤,而又無法查詢其真實數(shù)據(jù)。用戶可以用不常見的數(shù)字或字符來定義自己的缺失值,如對數(shù)值型變量定義缺失值為-9、對字符型變量定義缺失值為U

18、等。這種定義分兩部分,遇到缺失值就用該定義的值輸入;告訴計算機某值為缺失值。用戶缺省值作為單獨一項參加頻數(shù)、頻率統(tǒng)計,但不參加有效百分比的統(tǒng)計。另一種因機器無法運算(如除數(shù)為0,或遇到用戶缺失值)產(chǎn)生的缺失值,叫系統(tǒng)缺失值。 在Variable View屏幕下,打開Missing列對話框如圖2.6所示。有4種方式可選擇來定義用戶缺失值。無缺失值,這也是系統(tǒng)的默認狀態(tài)。 離散缺失值(Discrete missing values)。 連續(xù)缺失值(Range of missing values)。一個連續(xù)范圍加一個離散值為缺失值(Range plus one missing value)。4)變量

19、顯示格式的定義變量的屏幕顯示格式包括兩個內(nèi)容,分別是變量屏幕顯示寬度(Column)和變量左右對齊方式(Align)。變量屏幕顯示列寬度默認值是8位,但可通過箭頭調(diào)整其寬度值。width后面的方框內(nèi)顯示的是內(nèi)存總寬度。數(shù)值型變量對齊方式的默認值是右對齊Right,字符型變量系統(tǒng)默認的對齊方式是左對齊Left,但可通過調(diào)整其為中間對齊Center,或其他對齊方式。對齊方式對數(shù)據(jù)運算并無任何影響。2.1.3 表達式*在某種條件下需要對原始資料進行計算(Compute)、樣本選擇(Select Cases & If對話框)以形成新變量,則應運用邏輯運算符或關(guān)系運算符對部分樣本進行選擇。如根據(jù)出生年月

20、計算周歲年齡。SPSS的基本運算共有三種:數(shù)學運算、關(guān)系運算、邏輯運算,相應運算的算符如表2.2。1)算術(shù)表達式算術(shù)運算符可以連接數(shù)值型的常數(shù)、變量和函數(shù)構(gòu)成算術(shù)表達式,其運算結(jié)果為數(shù)值型常數(shù)。應該注意的是,常數(shù)、變量、函數(shù)和算術(shù)表達式的輸入必須在英文狀態(tài)下,而不能在中文狀態(tài)下,否則無法計算;必須嚴格執(zhí)行計算機格式而不是手寫格式,例3X必須寫為3*X。在運算表達式中,運算的優(yōu)先順序為:括號、函數(shù)、乘冪、乘或除,加或減的順序,同一優(yōu)先級的,從左到右運算。乘冪是*,而不是,這與EXCEL等軟件不同的。 2)比較表達式 比較算符建立的是兩個量之間的比較關(guān)系式,由系統(tǒng)判斷關(guān)系是否成立。如果比較關(guān)系成立

21、,比較表達式的值為“真”(1),否則為“假”(0)。相互比較兩個量的類型必須一致,無論進行比較的兩個量是字符型還是數(shù)值型,比較的結(jié)果均是邏輯型常量。表2.2中列出的比較算符均有兩種表示方法,用符號表示和用字母表示,這兩種算符是等價的。例如A5和A GT 5是等價的;假如A6,表達式A5為真,其值為1;假如A5,表達式A5的值為假,值為0。 3)邏輯表達式 邏輯算符即布爾算符有兩種表示方法,用符號表示和用字母表示,這兩種算符也是等價的,例如AB與A and B是等價的。邏輯算符與邏輯型的變量,或其值為邏輯型的比較表達式構(gòu)成邏輯表達式,邏輯表達式的值為邏輯型常量。 “邏輯與”運算符&(或and)前

22、后的兩個量均為真時,邏輯表達式的值為“真”,否則為“假”;如邏輯表達式:ABC0只有當A的值大于B的值,且C為正數(shù)時,該邏輯表達式的值為“真”。對于(A=3 & B=2 & C=6),該邏輯表達式的值為“真”;如實際C=0,則該邏輯表達式的值為“假”?!斑壿嫽颉边\算符|(或or)前后的兩個量只要有一個為“真”時,邏輯表達式的值為“真”。只有當操作符前后兩個量均為假時,邏輯表達式的值才為“假”?!斑壿嫹恰边\算符(或not)是前置算符,它對其后面的變量作“邏輯非”運算。NOT后面的量值為“真”,則NOT運算結(jié)果為“假”。邏輯與的運算順序高于邏輯或。在SPSS中不存在語句ifthanelse,也沒有

23、for next。不能使用5X=75 & year=60如果挑選出高考成績(SCORE)在520-570分的城市(AREA=City)考生,和500-550元的農(nóng)村(rural)考生,則輸入表達式可以為:Score=520 & Score =500 & Score =16 & age =59 & sex=1 | age16 & age =54 & sex=2計算一個新變量,往往需要賦予相應的類型與標簽說明,在目標變量下方單擊Type & Label按鈕,就可打開變量類型與標簽對話框,直接定義新變量的標簽label和變量類型Type,默認設置是數(shù)值型Numeric。為說明函數(shù)的使用,再舉如下一例

24、?!纠?-2】用隨機變數(shù)發(fā)生器UNIFORM建立200個男女學生模擬的出生年月及各門課程的成績,計算各同學的年齡。在第一個變量第200個樣本處任意輸入一數(shù)據(jù),比如50;假定每個學生都出生在1975-1985年,則輸入模擬值 year=RND(1975+UNIFORM(10)輸入20人出生月份(1-12月份)模擬值 month=RND(1+UNIFORM(11)輸入各人性別變量的模擬值sex= RND(1+UNIFORM(1)假定2010年11月1日進行調(diào)查,可計算每人年齡為AGE=2010-YEAR (IF MONTH=11)即出生月份在10月以前,年齡為(2010-出生年份);若出生月份在1

25、1月以后,年齡為(2010-1-出生年份)。設置本人各門功課的成績,假定每人各門課成績?yōu)?5分以上,100分以下,呈均勻分布:MATH=RND(55+UNIFORM(45)ENGLISH=RND(55+UNIFORM(45)CHINESE=RND(55+UNIFORM(45)最后將第一列刪除。2.2.2 構(gòu)建新變量的主要函數(shù)SPSS函數(shù)的使用不如EXCEL函數(shù)使用得那么頻繁,這是由兩類軟件性質(zhì)、服務對象所決定的。首先,EXCEL軟件面向大眾,主要服務于非專業(yè)統(tǒng)計人群,處理小而靈活的數(shù)據(jù);SPSS軟件面向?qū)I(yè)統(tǒng)計人員,主要處理大容量的數(shù)據(jù)。其次,SPSS軟件的很多統(tǒng)計過程本身就可直接處理數(shù)據(jù),或

26、本身都提供了若干數(shù)據(jù)預處理的具體方案,不需要專門用轉(zhuǎn)換函數(shù)進行數(shù)據(jù)處理了。再次,EXCEL軟件的函數(shù)可以處理一維函數(shù)、也可以進行兩維函數(shù)的處理;而SPSS軟件坐標是固定的,因此幾乎沒有兩維數(shù)據(jù)處理能力。但是,在SPSS數(shù)據(jù)轉(zhuǎn)換中,函數(shù)往往起著關(guān)鍵性的作用。 在SPSS16函數(shù)庫共收集有日期和時間函數(shù)、累計分布函數(shù)、隨機數(shù)產(chǎn)生函數(shù)、字符串函數(shù)、逆分布函數(shù)、算術(shù)函數(shù)、統(tǒng)計函數(shù)、缺失值定義函數(shù)、邏輯函數(shù)和數(shù)值與字符相互轉(zhuǎn)換函數(shù)增加到18類184種函數(shù)。根據(jù)本人20年使用經(jīng)驗,SPSS數(shù)據(jù)轉(zhuǎn)換中最經(jīng)常用的也就是算術(shù)函數(shù)、統(tǒng)計函數(shù)、缺失值定義函數(shù)、邏輯函數(shù)等4類十來個(表2.3)。函數(shù)的表示方法是在函數(shù)

27、關(guān)鍵字后面括號中寫入相應的數(shù)值,函數(shù)自變量。函數(shù)自變量有的要求使用單個值,或變量名;有的允許使用表達式;少數(shù)可以使用“:”來隔開多個變量名。如果使用變量名或帶有變量名的表達式作為自變量,則必須在使用該函數(shù)前對這些變量賦值。SPSS比較常見的函數(shù)大致有: 1)算術(shù)函數(shù):2)統(tǒng)計函數(shù)MAX(數(shù)值,數(shù)值,),返回帶有多個(2)數(shù)值中的最大合法值。MEAN(數(shù)值,數(shù)值,),返回多個(2)數(shù)值的平均數(shù)。MOD(數(shù)值,模數(shù),),返回被模除后的余數(shù),模數(shù)不能為零。NVALUE(數(shù)值,數(shù)值,)返回有效變量個數(shù)。SD(數(shù)值,數(shù)值,),返回所有(2)數(shù)值的標準差。VARIANCE(數(shù)值,數(shù)值,),返回所有(2)數(shù)

28、值的方差。3)分布函數(shù):NORMAL(標準差)返回一個來自均值為0,給定大于零標準差分布總體的隨機數(shù)。UNIFORM(最大值)返回一個均勻分布范圍在0到最大值之間的隨機數(shù)。 在錄入數(shù)據(jù)之前首先要對如何處理數(shù)據(jù)有個設想,即根據(jù)調(diào)查樣本、調(diào)查內(nèi)容,準備計算哪些變量,做什么樣的統(tǒng)計處理,準備生成哪些統(tǒng)計圖表。本例將對每個變量做一般性統(tǒng)計描述處理,并對兩個變量建立散點圖。 1、數(shù)據(jù)處理的構(gòu)思【例2-3】調(diào)查了10個學生的數(shù)學、物理、化學和英語的學習成績?nèi)绫?.4,現(xiàn)進行數(shù)據(jù)匯總,要求每人每門課程的平均成績。首先,設定變量名,由于軟件對變量名有很多具體的規(guī)定,給定的變量名往往無法表達其真實涵義,因此要給

29、變量名標注合適的標簽或注釋,使得變量和文件能長久保存而不至于產(chǎn)生混亂,并使輸出資料十分醒目、清楚,易于理解。其次,要確定變量的類型,資料的形式一般有兩種,一種以0-9數(shù)字表達的數(shù)字變量,一種是以中文、數(shù)字或英文表達的字符變量。前者可用F6.2表示,即6位數(shù)而帶2位小數(shù),后者用String表示。原則上,可以直接用中文將學生姓名、性別輸入而不作任何改變,但這樣工作量大,實際意義并不大。因此,輸入計算機之前往往先將問卷進行編碼,將個人的學號(姓名)作為地址碼用數(shù)字表示,該變量相應由字符型轉(zhuǎn)變?yōu)閿?shù)字型。性別編碼時,男為m、女為f。另外,對于未答、缺測、缺考、情況不清的編碼,常使用不可能出現(xiàn)的字符表示。

30、如字符變量用U、數(shù)據(jù)變量用-9表示,編碼結(jié)果見表2.4。2.4 已輸入數(shù)據(jù)文件的處理實例2很多文件數(shù)據(jù)不是直接輸入,而是由其他數(shù)據(jù)庫軟件轉(zhuǎn)換而來,或已經(jīng)輸入的數(shù)據(jù)。這時需對原數(shù)據(jù)文件進行邏輯檢查,而后進行適當數(shù)據(jù)處理?!纠?-4】打開SPSS軟件,如C盤下的Progam files,接著打開SPSSInc SPSS16Samples目錄下的Cars.sav文件。將變量名、變量標簽進行漢化處理,將英制變量轉(zhuǎn)換為公制變量,并制作合適的圖表。1、變量名、變量標簽的漢化打開SPSS數(shù)據(jù)庫以后,用鼠標左鍵單擊File菜單下的Open選項,接著打開Cars文件?;緮?shù)據(jù)中列變量為研究變量的變量名(Variables),行變量為樣本 (Cases)。當鼠標輕放在變量名上就會顯示出該變量的標簽或

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論