第7講數(shù)據(jù)的編碼、錄入與整理.ppt_第1頁
第7講數(shù)據(jù)的編碼、錄入與整理.ppt_第2頁
第7講數(shù)據(jù)的編碼、錄入與整理.ppt_第3頁
第7講數(shù)據(jù)的編碼、錄入與整理.ppt_第4頁
第7講數(shù)據(jù)的編碼、錄入與整理.ppt_第5頁
已閱讀5頁,還剩43頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

第7講數(shù)據(jù)的編碼 錄入與整理 獲取數(shù)據(jù) 建立數(shù)據(jù)文件 數(shù)據(jù)清洗 數(shù)據(jù)轉(zhuǎn)換 加工整理 選擇合適方法進(jìn)行統(tǒng)計(jì)分析 解釋分析結(jié)果 輔助決策 數(shù)據(jù)從哪來 數(shù)據(jù)從哪里來 1 企業(yè)內(nèi)部數(shù)據(jù)庫2 問卷調(diào)查 網(wǎng)絡(luò)問卷 街頭問卷 3 訪談4 網(wǎng)絡(luò)搜索5 專業(yè)的數(shù)據(jù)機(jī)構(gòu)提供 如 辛迪加數(shù)據(jù) 6 文獻(xiàn)資料7 實(shí)驗(yàn) 一 數(shù)據(jù)的編碼概念 原理就是把通過問卷調(diào)查獲得的資料轉(zhuǎn)變?yōu)镾PSS能夠識(shí)別的數(shù)據(jù)文件 為各種統(tǒng)計(jì)分析做好準(zhǔn)備 數(shù)據(jù)編碼概念數(shù)據(jù)編碼是指把需要加工處理的數(shù)據(jù)庫信息 用特定的數(shù)字來表示的一種技術(shù) 根據(jù)一定數(shù)據(jù)結(jié)構(gòu)和目標(biāo)的定性特征 將數(shù)據(jù)轉(zhuǎn)換為代碼或編碼字符 在數(shù)據(jù)傳輸中表示數(shù)據(jù)的組成 并作為傳送 接受和處理的一組規(guī)則和約定 二 數(shù)據(jù)問卷與編碼 舉例 問卷量表 二 數(shù)據(jù)問卷與編碼 舉例 問卷編碼方案 三 編碼類型 1 非數(shù)值型數(shù)據(jù)的編碼非數(shù)值型數(shù)據(jù)的編碼 首先要確定編碼規(guī)則 然后根據(jù)規(guī)則對(duì)變量賦予分值 雙值型變量的編碼多采用 0 1 或 1 2 來賦值 如編碼示例中的第1題多值型變量的編碼采用 1 2 3 來賦值 如編碼示例中的第2題通常對(duì)非數(shù)值型數(shù)據(jù)編碼 主要起到分組的作用 不能進(jìn)行各種算術(shù)運(yùn)算 三 編碼類型 2 數(shù)值型數(shù)據(jù)的編碼數(shù)值型數(shù)據(jù)的編碼就是根據(jù)調(diào)查問卷的評(píng)分標(biāo)準(zhǔn)對(duì)變量賦予分值 通常采用三點(diǎn)計(jì)分 四點(diǎn)計(jì)分和五點(diǎn)計(jì)分等方式進(jìn)行評(píng)分如選項(xiàng)A B C計(jì)分為1 2 3如選項(xiàng)A B C D計(jì)分為1 2 3 4編碼示例中的第5 6題就是屬于數(shù)值型編碼第5題是正向數(shù)值型 被選項(xiàng)的程度越高 分值越大 第6題是反向數(shù)值型 被選項(xiàng)的程度越高 分值越小 三 編碼類型 多項(xiàng)選擇題多項(xiàng)選擇題就是題目答案的選項(xiàng)是多選項(xiàng) 標(biāo)準(zhǔn)定義有兩種 二分法和多重分類法任意多項(xiàng)二分法表示每一次可以任選幾個(gè)選項(xiàng) 編碼方法把每一個(gè)被選項(xiàng)作為一個(gè)變量來定義 每個(gè)變量只能選擇 1或0 如編碼示例中的第4題 三 編碼類型 多項(xiàng)選擇題多選項(xiàng)多重分類法限定了一次最多可以選擇項(xiàng)目的個(gè)數(shù) 不能直接對(duì)題目進(jìn)行編碼 必須先確定最多選擇 并給每個(gè)選項(xiàng)建立一個(gè)變量 如編碼示例中的第3題 四 缺失值的處理 數(shù)據(jù)清洗 概念缺失值是指在數(shù)據(jù)采集與整理過程中丟失的內(nèi)容 往往會(huì)給統(tǒng)計(jì)分析帶來一些麻煩和誤差 類型用戶缺失值在問卷調(diào)查中把不回答的選項(xiàng)當(dāng)作缺失值來處理缺失值可用研究者能識(shí)別的數(shù)字來表示如 0 9 99 系統(tǒng)缺失值指計(jì)算機(jī)默認(rèn)的缺失方式 如輸入數(shù)據(jù)空缺 輸入非法字符等通常把缺失值標(biāo)記為 四 缺失值的處理 缺失值處理方法替代法 采用統(tǒng)計(jì)命令或在相關(guān)統(tǒng)計(jì)功能中利用參數(shù)替代Transform ReplaceMissingValues剔除法 剔除有缺失值的題目或剔除有缺失值的整份問卷 五 數(shù)據(jù)處理中的操作術(shù)語 個(gè)案 Cases 一個(gè)研究對(duì)象就是一個(gè)個(gè)案 一個(gè)個(gè)案就是一條記錄 在數(shù)據(jù)表格中表示為 一行 樣本 Sample 是指具有共同屬性的所有研究對(duì)象 如學(xué)生的所有信息樣本包含多個(gè)個(gè)案 在數(shù)據(jù)表格中表示為 n行 變量 Variable 是指問卷中每一個(gè)問題 數(shù)據(jù)庫里字段 數(shù)據(jù)表格中表示為 一列 量值 Value 是指問卷中的答案 也稱為觀測值 在SPSS系統(tǒng)里 單元格中的數(shù)值就是變量值 六 SPSS窗口與定義變量 啟動(dòng)SPSS后進(jìn)入數(shù)據(jù)編輯窗口 顯示為一個(gè)空文件 輸入數(shù)據(jù)前首先要定義變量 六 SPSS窗口 數(shù)據(jù)窗口輸出窗口代碼窗口腳本窗口 七 定義變量 定義變量所包含的內(nèi)容 變量名 Name 變量的名稱變量類型 Type 變量的類型寬度 Width 存儲(chǔ)變量值的最大值 1 可存儲(chǔ)1個(gè)字節(jié)的字符 2 可存儲(chǔ)1個(gè)漢字 小數(shù)位數(shù) Decimals 變量為數(shù)值類型時(shí) 小數(shù)后的位數(shù)變量標(biāo)簽 Label 對(duì)變量名的注釋 光標(biāo)在變量名上時(shí) 會(huì)顯示該標(biāo)簽變量值標(biāo)簽 Values 變量標(biāo)簽的取值缺失值 MissingValues 定義缺失的值 例如 當(dāng)定義99為缺失值時(shí) 當(dāng)該變量的值為99時(shí) 把它認(rèn)為是缺失值顯示數(shù)據(jù)的列寬 Colums 與上面 寬度 不同 它只管顯示對(duì)齊方式 Align 左對(duì)齊 右對(duì)齊 居中量度類型 Measure 定比變量 Scale 定序變量 Ordinal 定類變量 Nominal 只用于統(tǒng)計(jì)制圖時(shí)坐標(biāo)軸變量的區(qū)分和SPSS決策樹模塊的變量定義 七 定義變量 單擊數(shù)據(jù)編輯窗口左下方的 VariableView 標(biāo)簽或雙擊列的題頭 Var 打開變量定義窗口 進(jìn)行變量定義 七 定義變量 定義變量名在定義變量窗口中Name下的單元格中輸入變量名變量名必須以字母開頭 長度不超過8個(gè)SPSS保留的關(guān)鍵詞不能作為變量名AND OR NOT WITH TO BY GT GE LT LE EQ NE ALL等SPSS中允許使用中文變量名 但盡量不要使用 以免出現(xiàn)兼容性問題 七 定義變量 定義變量類型 寬度及小數(shù)位數(shù)在Type下單擊單元格 打開變量類型窗口 選擇變量類型常用變量類型有 數(shù)值型 Numeric 日期型 Date 貨幣型 Dollar 字符型 String 在Width Decimal下單元格 選擇寬度和小數(shù)位數(shù) 系統(tǒng)默認(rèn)為 8 和 2 或者在變量類型窗口中設(shè)置 七 定義變量 定義變量標(biāo)簽在Label下單擊單元格 輸入變量標(biāo)簽SPSS允許變量標(biāo)簽長度為255字節(jié)定義變量值標(biāo)簽變量值標(biāo)簽是對(duì)變量的每一可能取值進(jìn)一步描述 當(dāng)變量是定類或定序變量時(shí) 非常有用 變量值標(biāo)簽系統(tǒng)默認(rèn)為None在Values下單擊單元格 打開變量值標(biāo)簽窗口 輸入變量值標(biāo)簽 1 代表男 2 代表女 選中顯示值標(biāo)簽按鈕 可以通過下拉框錄入性別 七 定義變量 定義缺失值在Missing下單擊單元格 打開缺失值窗口 輸入缺失值Nomissingvalues 沒有缺失值Discretemissingvalues 定義1 3個(gè)單一數(shù)為缺失值Rangeplusoneoptionaldiscretemissingvalues 定義指定范圍為缺失值 同時(shí)指定另外一個(gè)不在這一范圍的單一數(shù)為缺失值 七 定義變量 變量定義的信息復(fù)制如果有多個(gè)變量的類型相同 可以先定義一個(gè)變量 然后把該變量定義的信息復(fù)制給新變量操作步驟 先定義一個(gè)變量在該變量行號(hào)上單擊右鍵 在快捷菜單中選擇 Copy 選擇同類型新變量所在行 單擊右鍵 在快捷菜單中選擇 Paste 八 數(shù)據(jù)的錄入與導(dǎo)入 SPSS作為一款數(shù)據(jù)分析軟件 其實(shí)并不善于作數(shù)據(jù)錄入 目前 多數(shù)市場調(diào)研公司都使用EpiData軟件作問卷錄入 然后再將錄入結(jié)果導(dǎo)入SPSS中 而對(duì)于互聯(lián)網(wǎng)公司而言 更多的是使用數(shù)據(jù)庫或 CSV格式文件 SPSS具有強(qiáng)大的與其他軟件共享數(shù)據(jù)文件的功能 能導(dǎo)入多種格式的數(shù) 八 數(shù)據(jù)的導(dǎo)入 Excel文件 例一 1 數(shù)據(jù)的導(dǎo)入將EXCEL文件2 recode xls導(dǎo)入到SPSS中啟動(dòng)SPSS 步驟 File Open Data 數(shù)據(jù)導(dǎo)入后 查看 VariableView 標(biāo)簽中的字段名 類型 寬度等 把導(dǎo)入后的數(shù)據(jù)文件保存為2 recode sav 八 數(shù)據(jù)的導(dǎo)入 例一 2 把Access中shift MIS accdb中的 學(xué)生表 信息導(dǎo)入到SPSS中 直接打開數(shù)據(jù)源步驟 文件 打開數(shù)據(jù)庫 新查詢 按照向?qū)瓿?九 數(shù)據(jù)的整理 概念數(shù)據(jù)整理是對(duì)錄入的數(shù)據(jù)進(jìn)行轉(zhuǎn)換 檢測 量表統(tǒng)分 個(gè)案選擇 文件拆分與合并等操作 使原始數(shù)據(jù)生成后續(xù)研究所需要的數(shù)據(jù) 包含 文件級(jí)數(shù)據(jù)整理 變量級(jí)數(shù)據(jù)整理 其他數(shù)據(jù)整理 九 數(shù)據(jù)的整理 操作SPSS實(shí)現(xiàn)數(shù)據(jù)整理的功能主要集中在 Data 和 Transform 兩個(gè)菜單 九 數(shù)據(jù)的整理 部分操作 RecodeComputeSortSelectcasesWeightcasesCount 九 數(shù)據(jù)的整理 Recode 數(shù)據(jù)分值的轉(zhuǎn)換數(shù)據(jù)分值的轉(zhuǎn)換是通過對(duì)數(shù)據(jù)進(jìn)行重新編碼來實(shí)現(xiàn)的 在SPSS中主要通過Recode命令來實(shí)現(xiàn) 九 數(shù)據(jù)的整理 數(shù)據(jù)分值的轉(zhuǎn)換IntoSameVariables 編碼后數(shù)據(jù)存放在原變量中 覆蓋原數(shù)據(jù)IntoDifferentVariables 編碼后數(shù)據(jù)存放在新定義的變量中 保留原數(shù)據(jù) 九 數(shù)據(jù)的整理 例二 假設(shè)一套量表共10題 每題有A B C三個(gè)選項(xiàng) 現(xiàn)有10個(gè)被試作答 要求根據(jù)評(píng)分規(guī)則 將被試的原始數(shù)據(jù)選擇轉(zhuǎn)換為量表分?jǐn)?shù)注意 1 2 4 7 8 10 正向題3 5 6 9 反向題 九 數(shù)據(jù)的整理 原數(shù)據(jù) 轉(zhuǎn)換后數(shù)據(jù) 九 數(shù)據(jù)的整理 操作步驟 數(shù)據(jù)輸入 打開數(shù)據(jù)文件 2 recode sav Transform Recode IntoDifferentVariables打開 Recode 對(duì)話框 定義新變量名打開 OldandNewValue 對(duì)話框 定義轉(zhuǎn)換規(guī)則或者在代碼窗口輸入 九 數(shù)據(jù)的整理 Compute 量表的統(tǒng)分在數(shù)據(jù)錄入過程中 輸入的是最原始 最穩(wěn)定的反應(yīng)選項(xiàng) 但在后續(xù)的統(tǒng)計(jì)分析中通常需要對(duì)量表的總分進(jìn)行推斷統(tǒng)計(jì) 量表的統(tǒng)分工作包括分量表的統(tǒng)分和總量表的統(tǒng)分 SPSS中通常用 Compute 命令實(shí)現(xiàn)量表的統(tǒng)分工作注 變量計(jì)算的目的分為1 數(shù)據(jù)的轉(zhuǎn)換處理 新變量更具有直觀有效的特點(diǎn) 如 根據(jù)顧客的消費(fèi)總金額和消費(fèi)時(shí)間計(jì)算平均消費(fèi)以預(yù)測理想客戶 根據(jù)購房客戶的貸款總額和按揭方案計(jì)算指標(biāo)來評(píng)價(jià)客戶的風(fēng)險(xiǎn)大小 2 對(duì)數(shù)據(jù)原有分布狀態(tài)進(jìn)行轉(zhuǎn)換 如 利用對(duì)數(shù)或多項(xiàng)式轉(zhuǎn)換對(duì)非正態(tài)或非線性數(shù)據(jù)進(jìn)行處理 對(duì)時(shí)間序列進(jìn)行平穩(wěn)化處理等 九 數(shù)據(jù)的整理 量表統(tǒng)分 例三 以分值轉(zhuǎn)化后的數(shù)據(jù)文件2 recode sav為例 假定該量表由2個(gè)分量表構(gòu)成 其中1個(gè)量表由第1 2 5 8 9題組成 另一個(gè)量表由第3 4 6 7 10題組成 計(jì)算出每一個(gè)被試的分量表分和總量表分 九 數(shù)據(jù)的整理 操作步驟 打開數(shù)據(jù)文件2 recode sav Transform Compute 計(jì)算分量表分flb1 flb2和總量表分zlb 或者輸入代碼 統(tǒng)分結(jié)果保存為2 lb sav 九 數(shù)據(jù)的整理 SortCases 數(shù)據(jù)的排序個(gè)案排序 Data SortCases 變量排序 Data SortVariables注 排序使我們初步了解數(shù)據(jù)的離散程度 發(fā)現(xiàn)數(shù)據(jù)的異常值 九 數(shù)據(jù)的整理 例四 以數(shù)據(jù)文件2 lb sav為例 找出變量zlb的高低分組的分組 一般以總個(gè)案的40 為界限確定高低分 九 數(shù)據(jù)的整理 操作步驟 打開數(shù)據(jù)文件2 lb savData SortCases將分?jǐn)?shù)排序 確定高分組和低分組的起點(diǎn)分?jǐn)?shù)值將變量zlb轉(zhuǎn)換為變量zlb1 重新編碼 將高分組和低分組進(jìn)行分組 因?yàn)橐钥倐€(gè)案的40 為界限確定高低分 所以高分組和低分組各取4個(gè)個(gè)案10 40 4 4個(gè)個(gè)案 根據(jù)排序可以確定高分組和低分組的起點(diǎn)分?jǐn)?shù)值分別為22和20 九 數(shù)據(jù)的整理 SlecteCases 數(shù)據(jù)的限選例五 以SPSS系統(tǒng)隨帶數(shù)據(jù)文件Anxiety sav為例要求限選前20個(gè)個(gè)案進(jìn)行后續(xù)統(tǒng)計(jì)分析 注 數(shù)據(jù)限選目的1 提高數(shù)據(jù)分析效率2 檢驗(yàn)?zāi)P偷男枰?九 數(shù)據(jù)的整理 數(shù)據(jù)的限選 選擇所有個(gè)案按指定條件選擇個(gè)案對(duì)個(gè)案進(jìn)行隨機(jī)抽樣按比例大概抽樣精確抽樣按范圍選擇個(gè)案 多余數(shù)據(jù)保留在原表中 多余數(shù)據(jù)被刪除 九 數(shù)據(jù)的整理 操作步驟 打開數(shù)據(jù)文件Anxiety sav Data SelectCases設(shè)置前20個(gè)個(gè)案 九 數(shù)據(jù)的整理 WeightCases 數(shù)據(jù)加權(quán)打開數(shù)據(jù)文件蔬菜銷售 sav 例六 統(tǒng)計(jì)該菜場當(dāng)天平均菜價(jià) 九 數(shù)據(jù)的整理 Count 數(shù)據(jù)的計(jì)數(shù)SPSS有一項(xiàng)特定變量計(jì)數(shù)功能 可以計(jì)數(shù)一個(gè)觀測變量中滿足特定要求的那些變量值出現(xiàn)的次數(shù) 并將

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論