




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
數(shù)智化人力資源管理主編徐明霞
唐玉潔數(shù)據(jù)清洗第五章第二篇方法篇1.了解數(shù)據(jù)關(guān)聯(lián)、數(shù)據(jù)合并2.了解數(shù)據(jù)轉(zhuǎn)換與數(shù)據(jù)規(guī)約3.理解數(shù)據(jù)質(zhì)量評(píng)估的標(biāo)準(zhǔn)4.掌握數(shù)據(jù)集成的內(nèi)涵5.掌握數(shù)據(jù)清洗的內(nèi)涵和方法學(xué)習(xí)目標(biāo)知識(shí)結(jié)構(gòu)圖引導(dǎo)案例大數(shù)據(jù)也要“清洗”專家建議加快大數(shù)據(jù)清洗基地建設(shè),保護(hù)信息安全據(jù)新華社電(記者張辛欣張旭東)大數(shù)據(jù)也要清洗?是的,你沒看錯(cuò)。數(shù)字化、智能化時(shí)代,大數(shù)據(jù)產(chǎn)業(yè)急需通過“清洗”技術(shù)對(duì)數(shù)據(jù)進(jìn)行甄別、篩選和應(yīng)用,剔除無效信息,加強(qiáng)隱私保護(hù)。在青島召開的2016全球大數(shù)據(jù)應(yīng)用研究論壇上,多位業(yè)內(nèi)專家建議我國加快大數(shù)據(jù)清洗基地建設(shè)。大數(shù)據(jù)應(yīng)用于生活,信息的甄別和提取是第一步。大數(shù)據(jù)清洗,就是用電腦把不規(guī)則的數(shù)據(jù)制作成規(guī)則的數(shù)據(jù),讓它們發(fā)揮價(jià)值。“如同河水必須經(jīng)過凈化才能飲用一樣,過濾、漂白、殺毒的過程,就是大數(shù)據(jù)的‘清洗’過程。”中國大數(shù)據(jù)行業(yè)領(lǐng)軍人物、貴陽大數(shù)據(jù)交易所執(zhí)行總裁王叁壽在會(huì)上說。專家認(rèn)為,大數(shù)據(jù)的清洗,不僅有利于提高搜索處理效率,還能加速大數(shù)據(jù)產(chǎn)業(yè)與各行各業(yè)的融合,加快應(yīng)用步伐。比如,通過對(duì)家電、物流等多個(gè)行業(yè)數(shù)據(jù)整合、過濾,能更好地設(shè)計(jì)出智能家居方案等?!按髷?shù)據(jù)清洗也是安全使用的前提。”科大訊飛高級(jí)副總裁張友國說。加強(qiáng)大數(shù)據(jù)清洗,將對(duì)用戶信息多一層保護(hù)。與會(huì)專家認(rèn)為,隨著大數(shù)據(jù)產(chǎn)業(yè)快速發(fā)展,數(shù)據(jù)清洗的重要性與日俱增,建議加快大數(shù)據(jù)清洗基地建設(shè),同步構(gòu)建大數(shù)據(jù)安全體系,用新方法來解決大數(shù)據(jù)安全問題。思考:如何來提高人力資源數(shù)據(jù)的質(zhì)量?第一節(jié)數(shù)據(jù)集成第二節(jié)數(shù)據(jù)轉(zhuǎn)換與數(shù)據(jù)規(guī)約第三節(jié)數(shù)據(jù)清洗的內(nèi)涵與方法目錄第四節(jié)人力資源數(shù)據(jù)清洗第一節(jié)數(shù)據(jù)集成第一章第二篇方法篇一、數(shù)據(jù)關(guān)聯(lián)數(shù)據(jù)關(guān)聯(lián)的神奇之處就在于,它很容易就能夠與其他關(guān)聯(lián)數(shù)據(jù)組合在一起,從而構(gòu)成新的知識(shí),這也是探索并使用關(guān)聯(lián)數(shù)據(jù)的最好理由。它打破了傳統(tǒng)的數(shù)據(jù)管理技術(shù)的封閉、不宜重組的問題,讓數(shù)據(jù)從原來的孤島中解放出來,使數(shù)據(jù)關(guān)聯(lián)成為數(shù)據(jù)共享中一種奇妙的新技術(shù)。二、數(shù)據(jù)合并數(shù)據(jù)合并其實(shí)是數(shù)據(jù)文件的合并。在實(shí)際操作過程中,有時(shí)候需要把多個(gè)數(shù)據(jù)文件合并為一個(gè)數(shù)據(jù)文件。例如,一個(gè)公司在全國各地有30多個(gè)分公司,每個(gè)月公司總部需要把各分公司的人員工資情況合并到一個(gè)數(shù)據(jù)文件中,這就是一個(gè)數(shù)據(jù)合并的過程。每個(gè)子公司的人員工作情況數(shù)據(jù)文件中的變量(或者屬性)都相同,不同的只是人員。合并數(shù)據(jù)文件一般分為添加變量(或稱為合并變量)和添加個(gè)案(或稱為合并記錄、合并個(gè)案)。三、數(shù)據(jù)集成數(shù)據(jù)集成,即將來自多個(gè)數(shù)據(jù)源的數(shù)據(jù),如數(shù)據(jù)庫、數(shù)據(jù)立方(多維數(shù)據(jù)庫)、普通數(shù)據(jù)文件等,結(jié)合在一起形成統(tǒng)一的數(shù)據(jù)集合,以便為后續(xù)的數(shù)據(jù)分析提供完整的數(shù)據(jù)基礎(chǔ)。數(shù)據(jù)集成一般有三種基本策略,分別是聯(lián)邦數(shù)據(jù)庫(federateddatabase)、數(shù)據(jù)倉庫(datawarehousing)、中介者(mediation)。數(shù)據(jù)表的連接方式包括以下四種(圖5-1)。第二節(jié)數(shù)據(jù)轉(zhuǎn)換與數(shù)據(jù)規(guī)約第一章第二篇方法篇一、數(shù)據(jù)轉(zhuǎn)換(一)數(shù)據(jù)類別轉(zhuǎn)換數(shù)據(jù)的字段類型包括數(shù)值型、文本型和日期時(shí)間型。一般來講,最常見的是將文本型轉(zhuǎn)換為數(shù)值型,以方便機(jī)器學(xué)習(xí)算法的后續(xù)處理。定類數(shù)據(jù)也稱定性數(shù)據(jù),用于標(biāo)明數(shù)據(jù)所描述的主題對(duì)象的類別或者屬性、名稱,如人名、事物名等。定序數(shù)據(jù)也稱序列數(shù)據(jù),用于對(duì)事物所具有的屬性順序進(jìn)行描述,可以用數(shù)字或序號(hào)進(jìn)行排序,進(jìn)行比較。轉(zhuǎn)換數(shù)據(jù)分類一、數(shù)據(jù)轉(zhuǎn)換(二)數(shù)據(jù)規(guī)范化數(shù)據(jù)規(guī)范化是指將數(shù)據(jù)按比例縮放,使其落入一個(gè)小的特定區(qū)間(如“-1,1”或“0,1”),以利于進(jìn)行數(shù)據(jù)挖掘。常見的數(shù)據(jù)規(guī)范化方法包括:1.小數(shù)縮放2.最小—最大規(guī)范化3.標(biāo)準(zhǔn)差規(guī)范化一、數(shù)據(jù)轉(zhuǎn)換(三)數(shù)據(jù)泛化數(shù)據(jù)泛化,指的是用更抽象(更高層次)的概念來取代低層次的數(shù)據(jù)對(duì)象。例如,員工基本信息中的年齡,原始數(shù)據(jù)是連續(xù)性的數(shù)值,如20—60歲,可以映射到更高層次的概念,如20—30歲、31—40歲、41—50歲、51—60歲。二、數(shù)據(jù)規(guī)約1.KMO檢驗(yàn)2.巴特利(Bartlett)球形檢驗(yàn)因子分析的一般過程(一)判斷數(shù)據(jù)是否符合因子分析的要求(二)確定因子個(gè)數(shù)(三)確定公因子并進(jìn)行賦值數(shù)據(jù)規(guī)約的主要目的就是從原有巨大數(shù)據(jù)集中獲得一個(gè)精簡(jiǎn)的數(shù)據(jù)集,并使這一精簡(jiǎn)數(shù)據(jù)集保持原有數(shù)據(jù)集的信息完整性。第三節(jié)數(shù)據(jù)清洗的內(nèi)涵與方法第一章第二篇方法篇一、數(shù)據(jù)清洗的內(nèi)涵數(shù)據(jù)清洗通常是通過清洗臟數(shù)據(jù)、填寫缺失的值、光滑噪聲數(shù)據(jù)、清洗重復(fù)數(shù)據(jù)、識(shí)別或刪除離群點(diǎn)并解決不一致性來“清理”數(shù)據(jù)。數(shù)據(jù)清洗的主要目標(biāo)有格式標(biāo)準(zhǔn)化、異常數(shù)據(jù)清除、錯(cuò)誤糾正、重復(fù)數(shù)據(jù)的清除。二、數(shù)據(jù)質(zhì)量評(píng)估標(biāo)準(zhǔn)在清洗數(shù)據(jù)之前,要對(duì)已經(jīng)獲得的數(shù)據(jù)質(zhì)量進(jìn)行評(píng)估,高質(zhì)量的數(shù)據(jù)有著不同的評(píng)判標(biāo)準(zhǔn),比較實(shí)用的標(biāo)準(zhǔn)是特定用戶對(duì)數(shù)據(jù)的期望程度。在這個(gè)標(biāo)準(zhǔn)之下結(jié)合數(shù)據(jù)分析要求,將數(shù)據(jù)質(zhì)量的評(píng)估標(biāo)準(zhǔn)具體化為以下四個(gè)方面:1.準(zhǔn)確性2.完整性3.一致性4.及時(shí)性三、數(shù)據(jù)清洗的方法1.臟數(shù)據(jù)處理臟數(shù)據(jù)也叫作壞數(shù)據(jù),通常是指與期待的數(shù)據(jù)不一樣、會(huì)影響系統(tǒng)正常行為的數(shù)據(jù)。比如,源系統(tǒng)中的數(shù)據(jù)不在給定的范圍內(nèi)或?qū)τ趯?shí)際業(yè)務(wù)毫無意義,或數(shù)據(jù)格式非法,以及在源系統(tǒng)中存在不規(guī)范的編碼和含糊的業(yè)務(wù)邏輯。對(duì)于臟數(shù)據(jù)的處理,一般用結(jié)構(gòu)化、規(guī)范化和可關(guān)聯(lián)的方法。三、數(shù)據(jù)清洗的方法2.缺失值處理(1)直接刪除(2)填補(bǔ)(3)重新獲取三、數(shù)據(jù)清洗的方法2.缺失值處理(1)直接刪除(2)填補(bǔ)(3)重新獲取三、數(shù)據(jù)清洗的方法2.缺失值處理(1)直接刪除(2)填補(bǔ)(3)重新獲取如果在某些指標(biāo)非常重要且缺失率比較高的情況下,就需要向相關(guān)人員了解是否通過其他渠道獲得相關(guān)數(shù)據(jù),甚至某些情況下可能要重新組織數(shù)據(jù)的采集。三、數(shù)據(jù)清洗的方法3.噪聲數(shù)據(jù)處理(1)分箱法(2)聚類法(3)回歸法(4)估算分析法(5)3σ原則分箱法一般有三種,等深分箱法、等寬分箱法(圖5-2)和用戶自定義分箱法(圖5-3)。三、數(shù)據(jù)清洗的方法3.噪聲數(shù)據(jù)處理(1)分箱法(2)聚類法(3)回歸法(4)估算分析法(5)3σ原則聚類法是指將數(shù)據(jù)集合分組為若干個(gè)簇,在簇外的值即為孤立點(diǎn),這些孤立點(diǎn)就是噪聲數(shù)據(jù),應(yīng)當(dāng)刪除或替換。聚類法可以發(fā)現(xiàn)異常數(shù)據(jù),如圖5-4所示。三、數(shù)據(jù)清洗的方法3.噪聲數(shù)據(jù)處理(1)分箱法(2)聚類法(3)回歸法(4)估算分析法(5)3σ原則回歸法試圖發(fā)現(xiàn)兩個(gè)相關(guān)變量之間的變化模式,通過使數(shù)據(jù)符合一個(gè)函數(shù)來平滑處理數(shù)據(jù),即通過建立數(shù)學(xué)模型來預(yù)測(cè)下一個(gè)數(shù)值,包括線性回歸和非線性回歸。利用回歸分析方法所獲得的擬合函數(shù),能夠幫助平滑數(shù)據(jù)及去除其中的噪聲,如圖5-5所示。三、數(shù)據(jù)清洗的方法3.噪聲數(shù)據(jù)處理(1)分箱法(2)聚類法(3)回歸法(4)估算分析法(5)3σ原則對(duì)于極個(gè)別的異常數(shù)據(jù),還可以采取估算分析法,例如,可以使用平均值、中值、mode估算方法等來實(shí)現(xiàn)。此外,在估算之前,應(yīng)該首先分析該異常值是自然異常值還是人為的。如果是人為的,則可以用估算值來估算,除此之外還可以使用統(tǒng)計(jì)模型來預(yù)測(cè)異常數(shù)據(jù)觀測(cè)值。三、數(shù)據(jù)清洗的方法3.噪聲數(shù)據(jù)處理(1)分箱法(2)聚類法(3)回歸法(4)估算分析法(5)3σ原則3σ原則是指如果數(shù)據(jù)服從正態(tài)分布,那么在3σ原則下,異常數(shù)據(jù)為一組測(cè)定值中與平均值的偏差超過3倍標(biāo)準(zhǔn)差的值。因此,如果數(shù)據(jù)服從正態(tài)分布,那么距離平均值3σ之外的值出現(xiàn)的概率為p(│x-μ│>3σ)≤0.003(屬于小概率事件),即可以認(rèn)為是異常數(shù)據(jù)。如果數(shù)據(jù)不服從正態(tài)分布,也可以用遠(yuǎn)離平均值的多少倍標(biāo)準(zhǔn)差來描述,如圖5-6所示。三、數(shù)據(jù)清洗的方法4.冗余數(shù)據(jù)處理冗余有兩層含義,第一層含義是指多余的不需要的部分,第二層含義是指人為增加的重復(fù)部分。因此冗余數(shù)據(jù)既包含與分析處理的問題無關(guān)的數(shù)據(jù),也包含重復(fù)的數(shù)據(jù),通常采用過濾數(shù)據(jù)的方法來處理冗余數(shù)據(jù)。(1)重復(fù)過濾(2)條件過濾三、數(shù)據(jù)清洗的方法5.數(shù)據(jù)格式與內(nèi)容處理在數(shù)據(jù)集中,如果數(shù)據(jù)是由系統(tǒng)日志而來,那么通常在格式和內(nèi)容方面與元數(shù)據(jù)的描述一致。而如果數(shù)據(jù)是由人工收集或用戶填寫而來,則有很大可能在格式和內(nèi)容上存在一些問題。數(shù)據(jù)格式與內(nèi)容的問題包含以下幾類。(1)時(shí)間、日期、數(shù)值、全半角等顯示格式不一致(2)內(nèi)容中有不該存在的字符(3)內(nèi)容與該字段應(yīng)有內(nèi)容不符三、數(shù)據(jù)清洗的方法6.邏輯錯(cuò)誤處理在數(shù)據(jù)清洗時(shí),會(huì)發(fā)現(xiàn)一些使用簡(jiǎn)答邏輯推理就可以直接發(fā)現(xiàn)問題的數(shù)據(jù),這部分?jǐn)?shù)據(jù)也要進(jìn)行處理,防止數(shù)據(jù)分析結(jié)果出現(xiàn)偏差。這些數(shù)據(jù)的問題是不符合邏輯的,如重復(fù)記錄、異常值和極端值等,通常稱其為邏輯錯(cuò)誤。邏輯錯(cuò)誤處理主要包含以下三種情況:(1)去重(2)去除不合理值(3)修正矛盾內(nèi)容第四節(jié)人力資源數(shù)據(jù)清洗第一章第二篇方法篇一、缺失值填補(bǔ)圖5-7選中數(shù)據(jù)區(qū)域以圖5-7為例,表中為某地區(qū)高校學(xué)生的平均身高數(shù)據(jù),其中,男女性身高都有缺失值。選中男性身高的數(shù)據(jù)區(qū)域,可以使用快捷鍵“Ctrl+G”,也可以采用選擇菜單。一、缺失值填補(bǔ)圖5-8定位使用快捷鍵“Ctrl+G”,會(huì)彈出“定位”對(duì)話框(圖5-8),選中“定位條件”;采用選擇菜單:單擊“開始”—“查找和選擇”—“定位條件”。一、缺失值填補(bǔ)在彈出的“定位條件”對(duì)話框,選擇“空值”(這里示例的表格中缺失值處是空值,可以根據(jù)實(shí)際需求對(duì)應(yīng)選擇)。單擊“確定”,如圖5-9所示。圖5-9定位條件一、缺失值填補(bǔ)回到數(shù)據(jù)表,會(huì)發(fā)現(xiàn)所有缺失值處出現(xiàn)灰色的底色(圖5-10),則證明所有缺失值都被選中。那么如何填充這些空值呢?圖5-10選中缺失值一、缺失值填補(bǔ)一般會(huì)選擇采用樣本的平均值來代替缺失值,假設(shè)這里的平均值為178,使用鍵盤輸入“178”,然后按“Ctrl+Enter”組合鍵。這樣,剛才所有被選中的缺失值所處的單元格里都變成了178,如圖5-11所示。圖5-11填充缺失值①Left函數(shù),用于從左截取字符串,公式為=Left(值所在單元格,截取長度)②Right函數(shù),用于從右截取字符串,公式為=Right(值所在單元格,截取長度)③Mid函數(shù),用于從中間截取字符串,公式為=Mid(值所在單元格,開始位置,截取長度),如根據(jù)身份證號(hào)提取出生年月。二、數(shù)據(jù)截取或分列(一)采用函數(shù)截取字段二、數(shù)據(jù)截取或分列(二)采用分列功能進(jìn)行分列以圖5-12為例,從網(wǎng)上爬取的崗位薪資表中,薪資信息是文本形式,但下一步進(jìn)行的數(shù)據(jù)分析需要數(shù)值型的薪資信息,我們需要從文本中提取數(shù)字并進(jìn)行相應(yīng)的處理。圖5-12崗位薪酬表二、數(shù)據(jù)截取或分列(二)采用分列功能進(jìn)行分列如圖5-13所示,選擇要進(jìn)行清洗的數(shù)據(jù)B列,單擊“數(shù)據(jù)”—“分列”。圖5-13選擇數(shù)據(jù)二、數(shù)據(jù)截取或分列(二)采用分列功能進(jìn)行分列如圖5-14所示,在彈出向?qū)Т暗牡?步選擇“分隔符號(hào)”選項(xiàng),單擊“下一步”;在第2步選擇分隔符號(hào)的“其他”選項(xiàng)并填入“/”,單擊“下一步”;在第3步選擇“常規(guī)”,單擊“完成”,即完成了第一次數(shù)據(jù)分列。圖5-14第一次數(shù)據(jù)分列二、數(shù)據(jù)截取或分列(二)采用分列功能進(jìn)行分列再次選擇B列數(shù)據(jù),依照上述操作以“-”為分隔符號(hào)完成第二次數(shù)據(jù)分列并替換C列的內(nèi)容。將D列命名為單位,在D2單元格中輸入函數(shù)=RIGHT(C2,1),雙擊填充柄向下完成填充,復(fù)制D列數(shù)據(jù)在D列粘貼為“值”。選擇C列數(shù)據(jù),單擊“查找和選擇”—“替換”,在“查找內(nèi)容”輸入“萬”,單擊“全部替換”,將“查找內(nèi)容”換成“千”,單擊“全部替換”。替換完成后,依次將E、F、G列命名為最低薪資、最高薪資和平均值,分別在E2、F2、G2中輸入函數(shù)=IF(D2=“萬”,B2*10000,B2*1000)、=IF(D2=“萬”,C2*10000,C2*1000)、=AVERAGE(E2:F2),雙擊填充柄向下完成填充。最終結(jié)果如圖5-15所示。圖5-15分列完成結(jié)果三、去除重復(fù)項(xiàng)以人員花名冊(cè)中的姓名重復(fù)項(xiàng)為例。先選中姓名所在列,切換到“開始”選項(xiàng)卡,在“樣式”組中,單擊“條件格式”的下三角按鈕,在彈出的下拉列表中,單擊“突出顯示單元格規(guī)則”,在彈出的菜單中單擊“重復(fù)值”,彈出“重復(fù)值”對(duì)話框,可編輯背景填充顏色等格式設(shè)置(圖5-1
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 內(nèi)部審計(jì)機(jī)構(gòu)管理辦法
- 制鹽公司基金管理辦法
- 冬天暖棚蜜蜂管理辦法
- 公益互助基金管理辦法
- 單片機(jī)驅(qū)動(dòng)電梯控制系統(tǒng)設(shè)計(jì)
- 畜禽肌內(nèi)脂肪沉積與代謝調(diào)控基因的研究進(jìn)展
- 民企退休人員管理辦法
- 體檢信息保密管理辦法
- 目標(biāo)設(shè)定:投資發(fā)展部績(jī)效考核指標(biāo)
- 北京首個(gè)露營管理辦法
- 湖南長沙長郡中學(xué)高一分班考試化學(xué)試卷
- 衡水市武強(qiáng)縣事業(yè)單位考試歷年真題
- 髖臼周圍截骨術(shù)治療成人髖關(guān)節(jié)發(fā)育不良
- 各科門診診所技術(shù)操作規(guī)程
- 新教材人教版高中化學(xué)選擇性必修1全冊(cè)課時(shí)練習(xí)及章末檢測(cè)含解析
- 浙江省建設(shè)工程施工費(fèi)用定額相關(guān)費(fèi)用計(jì)算程序表及費(fèi)用取費(fèi)費(fèi)率換算表【實(shí)用文檔】doc
- 《Windows網(wǎng)絡(luò)操作系統(tǒng)》教學(xué)教案
- GB/T 23280-2009開式壓力機(jī)精度
- GB/T 20041.21-2008電纜管理用導(dǎo)管系統(tǒng)第21部分:剛性導(dǎo)管系統(tǒng)的特殊要求
- GB/T 17213.4-2015工業(yè)過程控制閥第4部分:檢驗(yàn)和例行試驗(yàn)
- 教師師風(fēng)師德培訓(xùn) 課件
評(píng)論
0/150
提交評(píng)論