元數據及數據質量介紹_第1頁
元數據及數據質量介紹_第2頁
元數據及數據質量介紹_第3頁
元數據及數據質量介紹_第4頁
元數據及數據質量介紹_第5頁
已閱讀5頁,還剩34頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、元數據及數據質量介紹20160303議程內容議程內容 數據管控數據管控 元數據元數據 數據質量數據質量 問題與討論問題與討論2 3/7/2022 Confidential隨著數據倉庫的不斷成長,你能回答下面的問題嗎?3 3/7/2022源系統發(fā)生變化源系統發(fā)生變化后數據倉庫到底需要修改多少程序?發(fā)生了多少次變化?從年初到現在哪些系統變化變化最頻繁頻繁?某個ETLETL加工程序到底經過多少開發(fā)人員的修改修改?每次改動的內容是什么?哪個源系統的數據質量數據質量最好?哪個小組開發(fā)質量最高?哪些字段采用了公共代碼?代碼映射規(guī)則是什么?哪些字段是需要做變形的敏感字段?在不同環(huán)境下同步的變形策略是什么?企

2、業(yè)級信息管控體系企業(yè)級信息管控企業(yè)級信息管控戰(zhàn)略性和策略性管理,項目所有權和優(yōu)先次序設定數據管理數據管理界定日常持續(xù)創(chuàng)建、使用和廢止數據的職責元數據管理元數據管理用來描述如何、何時和由誰來負責數據的接收、創(chuàng)建、訪問、修改和格式的數據數據標準數據標準數據的業(yè)務、技術規(guī)范性文檔數據質量數據質量數據滿足特定使用的適用度,包括完整性和業(yè)務規(guī)則遵從性數據整合數據整合對各主題進行數據清理、轉換、整合和豐富的流程數據安全與隱私數據安全與隱私各業(yè)務主題對安全性和保密性的要求,包括審計能力主數據管理主數據管理數據資產以及定義企業(yè)運營的關系人員、流程和技術人員、流程和技術企業(yè)級信息管控數據管理主數據主數據管理管理

3、數據數據質量質量元數據元數據管理管理數據模型數據模型&業(yè)務視圖業(yè)務視圖數據安全數據安全與隱私與隱私數據數據整合整合數據數據標準標準4 3/7/2022數據管控實施的三個方向5 3/7/2022 Confidential平臺:數據管控團隊的工作必須建立在自動化的高效的信息平臺。接口:企業(yè)的信息系統之間應按照數據管控接口規(guī)范進行交互。模板:信息系統向數據管控平臺提交數據可以通過標準模板。技術流程:根據管控要求建立可執(zhí)行工作流程,并嚴格執(zhí)行工作流程。規(guī)范:企業(yè)的各工作崗位有數據管控團隊制訂的工作規(guī)范。制度:企業(yè)須建立數據管控的制度。流程流程組織: 建立企業(yè)級的數據管控團隊是數據管控的基礎。角

4、色:團隊中按照管控的內容進行崗位的設置,即角色。職責:不同的角色擁有詳細的工作職責。組織組織數據管控特點數據管控特點企業(yè)的分析型應用發(fā)展到一定的成熟度,就能發(fā)現數據管控的價值。數據管控是跨系統、跨部門跨系統、跨部門的管理。數據管控必須有先進的管理方法論支持。數據管控是需要長期的、漸進式的長期的、漸進式的工作。數據倉庫是執(zhí)行數據管控理想的平臺。6 3/7/2022 Confidential企業(yè)數據管控成熟度企業(yè)數據管控成熟度7 3/7/2022 Confidential系統A系統B系統n人員流程數據A數據B系統A系統B系統n人員數據管控部門系統A系統B系統n人員流程統一的數據管控系統標準企業(yè)級數

5、據管控環(huán)境數據管控部門系統A系統B非系統人員流程標準服務符合業(yè)界規(guī)范的雙向數據管控系統系統n成熟度1:未知級成熟度2:被動級成熟度3:主動級成熟度4:預測級數據管控成熟度模型數據管控成熟度模型我們建立了企業(yè)數據管控成熟度模型,該模型能夠使企業(yè)識別和量化數據管控的成熟度,為企業(yè)的下一步數據管控提供指導。你的企業(yè)處在哪一級? Unaware:未知的 Reactive:被動的 Proactive:能動的 Predictive:預測的8 3/7/2022 Confidential回報回報人員、流程、技術的整合程度人員、流程、技術的整合程度風險風險數據管控平臺架構 Database數據管控知識庫Meta

6、dataDQDSETL數據管控平臺 B/S應用DDLExcelXMLSource DataSQL登錄瀏覽搜索管理下載分析管管理理安安全全MartPDMStage用戶層用戶層DBAAdmin Application Platform (TAP)業(yè)務單元MVC獨立單元系統管理數據標準元數據數據質量需求管理數據安全靈活查詢訪問層訪問層應用層應用層模型層模型層數據層數據層數據管控平臺 C/S應用ETLDBCPerl開發(fā)開發(fā)應用應用需求開發(fā)SDM信息調研版本控制測試ETL開發(fā)工作模板控制批量加工數據管控平臺應用數據管控平臺應用10 3/7/2022 Confidential業(yè)業(yè)務務應應用用數據管控門戶數

7、據管控門戶數據管控的統一的登錄網站,下列的數據管控系統均部署在數據管控門戶上元數據元數據元數據是數據管控的IT基礎,包含業(yè)務元數據和技術元數據。建立企業(yè)級的元數據管理平臺,支持雙向的、動態(tài)的元數據。數據質量數據質量企業(yè)級的數據質量管理平臺,擁有統一的檢查規(guī)則管理、檢查規(guī)則的審批流程定義,并在各業(yè)務系統上部署檢查Agent程序,匯總檢查結果與錯誤明細。數據標準數據標準數據標準管理平臺,數據標準的維護與發(fā)布,標準與元數據建立對應關系。在各業(yè)務系統部署標準執(zhí)行監(jiān)控Agent程序,統計標準執(zhí)行情況。數據安全數據安全統一的數據安全管理平臺,根據與元數據的關系,定義數據在整個業(yè)務線、數據線的安全管理規(guī)則。

8、需求管理需求管理管理需求生命周期,需求確認、需求跟蹤、需求變更等內容,以及需求與開發(fā)模塊之間的關系,需求與最終的接口、映射加工內容等元數據的關系。倉庫資源計費倉庫資源計費通過給出資源(磁盤、CPU)的價格,計算出應用在中消耗的資源成本,以計算應用的ROI靈活查詢靈活查詢基于B/S的靈活查詢平臺,能進行企業(yè)BI知識管理,數據挖掘與分析。管控知識庫管控知識庫數據管控的培訓與交流平臺、支持遠程網絡培訓、倉庫WiKi、學習材料下載、BI信息發(fā)布、提供企業(yè)的BI用戶交流、用戶投訴與反饋等技技術術應應用用數據生命周期數據生命周期數據生命周期管理平臺,能夠在企業(yè)范圍統一定義的數據生命周期,數據的業(yè)務請求級別

9、,備份策略,數據分布。企業(yè)級企業(yè)級ECTL統一的ECTL平臺,定義與規(guī)劃高效率的ECTL流程與策略,并能有效的嵌入其他管控工具。EDW開發(fā)開發(fā)集成的EDW、BI應用開發(fā)管理平臺。議程內容議程內容 數據管控數據管控 元數據元數據 數據質量數據質量 問題與討論問題與討論11 3/7/2022 Confidential什么是元數據什么是元數據 定義 官方定義(CWM):描述數據的信息。Metadata is structured information that describes the characteristics/attributes of a data element. 數據分析界定義:分

10、散在企業(yè)中的關鍵數據描述關鍵數據描述。Metadata describes critical elements of data scattered across the organization. 通俗的說:如果數據倉庫是一座城市的話,元數據就是城市的地圖。12 3/7/2022 Confidential數據倉庫元數據元數據的國際標準元數據的國際標準CWMCWM公共倉庫元模型(CWM: Common Warehouse Metamodel) 是為數據倉庫及商業(yè)智能環(huán)境間方便地交換元數據而制定的一個標準,其主要目的是在異構環(huán)境下,幫助不同的數據倉庫工具、平臺和元數據知識庫進行元數據交換。CWM模

11、型為數據倉庫和商業(yè)智能(BI)工具之間共享元數據,制定了一整套關于語法和語義的規(guī)范。它主要包含以下四個方面的規(guī)范:CWM元模型(Metamodel):描述數據倉庫系統的模型; CWM XML:CWM元模型的XML表示; CWM DTD:DW/BI共享元數據的交換格式;CWM IDL:DW/BI共享元數據的應用程序訪問接口(API)。 13 3/7/2022 Confidential CWM標準涉及到的元數據模型結構 數據倉庫為什么需要元數據管理數據倉庫為什么需要元數據管理 普通應用系統為什么不需要元數據管理? 表的數量少 數據加工簡單 數據來源單一 訪問方式單一 交鑰匙的應用 數據倉庫為什么必

12、須元數據管理? 上下游系統多,變更頻繁 數據加工復雜 用戶訪問方式復雜 維護周期長 某銀行的DW數據舉例:上游系統60個,下游系統20多個,倉庫內部的表12000多個,運行的ETL任務6000多個,每個月都有新版本上線14 3/7/2022 Confidential元數據元數據架構架構功能清單元數據功能清單元數據16 3/7/2022 Confidential元數據瀏覽元數據地圖瀏覽元數據統計信息瀏覽全局版本比對全局版本比對DW來源系統元數據DW集市元數據DW/PDM元數據LDM元數據ETL、映射信息元數據數據文件元數據用戶查詢樣例元數據對象版本查看與比對影響分析影響分析血緣分析血緣分析元數據

13、質量分析孤立對象分析全局檢索用戶注釋元數據下載批量元數據加載元數據加載元數據緩沖區(qū)管理元數據版本回滾業(yè)務元數據管理源系統元數據管理DW集市元數據管理DW/PDM元數據管理LDM元數據管理ETL元數據管理數據文件元數據管理查詢樣例管理元數據上傳元數據模板管理元數據橋接器管理版本管理管理執(zhí)行元數據自動更新模塊自動更新模塊ETL相關數據同步SQL解析處理模塊元數據瀏覽的靈活性元數據瀏覽的靈活性元數據對象關系呈立體網狀立體網狀看本體看本體查看對象本身定義,例如表的名稱、注釋等信息。向上看向上看查看對象所屬對象的定義,例如表所歸屬的數據庫。向下看向下看查看對象包含的對象的定義,例如表所包含的字段、索引等

14、。向前看向前看查看對象的上游信息對象,例如該表的數據的來源表。向后看向后看查看對象的下游信息對象,例如該表的數據的目標表??礆v史看歷史查看對象的歷史變更信息。例如該表在上一個版本中的內容??从燕徔从燕彶榭磁c對象有關系的其他對象,例如涉及該表的腳本等信息。17 3/7/2022 Confidential歷史歷史對象對象所屬所屬對象對象包含包含對象對象目標目標對象對象來源來源對象對象本體本體對象對象友鄰友鄰對象對象友鄰友鄰對象對象友鄰友鄰對象對象友鄰友鄰對象對象核心價值:元數據分析功能核心價值:元數據分析功能18 3/7/2022 Confidential影響分析向下向下分析一個元數據對象對下游對

15、象的影響。血緣分析與影響分析的方向相反,向上向上追溯一個對象的數據來源。全鏈分析從某對象出發(fā),向上下游雙方向進行分析?;盍Ψ治龇治鲆粋€數據庫對象被訪問的頻度頻度。孤立對象分析分析數據準備區(qū)(SData)、物理模型區(qū)(PData)中的孤立元數據對象。一致性分析定期分析元模型中的元數據是否與實際情況一致一致。版本比對選擇任意兩個時點的版本進行比對。質量分析分析數據倉庫中的元數據的質量。徹底解決影響徹底解決影響/ /血緣分析放大的問題血緣分析放大的問題由于DW的LDM大多采用三范式建模,因此LDM的核心表會有大量的來源與目標,一旦做影響分析,結果就會擴散放大。最終導致分析結果無法使用。采用智能SQL

16、解析器模塊,能分析數據的真實來源與目標。此項技術是業(yè)界領先的。19 3/7/2022 Confidential非精細化非精細化解析結果解析結果精細化精細化解析結果解析結果系統簡要介紹元數據系統簡要介紹元數據20 3/7/2022 Confidential選擇的元數據管理的選擇的元數據管理的1010個理由個理由1.完美結合數據庫的產品,充分利用數據庫性能數據庫性能。2.完美結合的數據倉庫實施方法論,貼合項目實際。3.是CWM規(guī)范制定者之一,符合業(yè)界標準的元數據產品。4.能快速動態(tài)生成全域元數據地圖全域元數據地圖,DW信息一目了然。5.徹底解決影響解決影響/血緣分析放大血緣分析放大的問題。6.能夠

17、直接導入LDM,并以圖形化顯示。7.是企業(yè)級數據管控架構的基礎。8.元數據驅動數據倉庫開發(fā)過程,支持模型設計、ETL開發(fā)。9.可擴展性好,能夠無縫實現企業(yè)級元數據管理。10. 功能強大,性能卓越,性價比高。21 3/7/2022 Confidential議程內容議程內容 數據管控數據管控 元數據元數據 數據質量數據質量 問題與討論問題與討論22 3/7/2022 Confidential中國金融行業(yè)數據質量管理的發(fā)展中國金融行業(yè)數據質量管理的發(fā)展歷程歷程23 3/7/2022 Confidential20032006200820101.簡單的檢查腳本。2.少量的技術和業(yè)務檢查規(guī)則。3.沒有專門

18、的數據質量檢查團隊,包含在ETL工作中。4.被動式檢查,救火隊式工作。1.第一次開發(fā)出數據質量檢查管理系統,并且在建行DW部署。2.大量的技術檢查,少量的業(yè)務檢查。3.有了專門的質量小組。1.數據管理平臺開發(fā)完成,數據質量與元數據、數據標準等集成在一起,并在建行、工行部署。2.大量的技術和業(yè)務檢查規(guī)則。3. 主動的技術檢查;被動的業(yè)務檢查。1.完善數據管理平臺。2.抽象出規(guī)范化的金融行業(yè)的業(yè)務檢查規(guī)則。3:推動質量檢查的閉環(huán)工作。4:實現主動式的業(yè)務檢查。數據質量管理的指標數據質量管理的指標 我們需要什么樣的數據我們需要什么樣的數據 完整的 所需求的數據是否都已經獲得 一致的 從不同應用獲得數

19、據能否保持一致 有效的 數據是否容易理解而不被曲解 準確的 數據是否在任何時間點都反應了數據的真實情況 相關的 有關聯的數據之間的關系是否準確有效 及時的 從信息產生到數據可用需要多長時間24 3/7/2022 Confidential數據質量問題成因魚骨圖分析數據質量問題成因魚骨圖分析 數據質量問題來源廣泛、復雜25 3/7/2022 Confidential培訓培訓管理管理激勵激勵上崗培訓進修目標責任心優(yōu)先級反饋獎勵元數據元數據模型定義加工完整性精確性度量度量有效性數據數據傳遞傳遞及時性漏傳基礎基礎設施設施OS網絡硬件實施實施復查產品產品性能缺陷測試配置覆蓋率數據數據變化頻度流程流程設計優(yōu)

20、化架構架構設計工具數據質量問題氣泡圖分析數據質量問題氣泡圖分析26 3/7/2022 Confidential項目組數據管理團隊企業(yè)客戶可控 范圍 不可控技術 質量性質 業(yè)務唯一性唯一性完整性完整性管理管理客戶信息客戶信息源系統源系統系統調研系統調研樣本數據樣本數據開發(fā)開發(fā)測試測試外鍵外鍵主鍵主鍵架構架構值域值域業(yè)務規(guī)則業(yè)務規(guī)則模型模型有效性有效性相關性相關性溝通溝通及時性及時性數據質量改進流程數據質量改進流程 PDCAPDCAPDCA環(huán)簡稱Deming Cycle,由質量大師戴明發(fā)明P計劃 D執(zhí)行 C檢查 A行動沒有形成這個閉環(huán),就不會有質量的改進根據PDCA原理,設計出適合企業(yè)的質量提升流

21、程27 3/7/2022 Confidential計劃計劃PDCA環(huán)環(huán)執(zhí)行執(zhí)行檢查檢查行動行動PDCA例子P:在眾多的質量問題中選擇某一個問題準備改進。D:在部分分支機構執(zhí)行質量改進方案。C:通過DW反饋評估質量改進效果。A:制定數據質量改進指引,下發(fā)全部機構,并監(jiān)督改進情況。戴明名言戴明名言: 質量無須驚人之舉。每個人都有客戶,如果他不知道自己的客戶是誰,也不知道客戶需要的是什么,那么他還沒有了解自己的工作。質量提高不是來自于檢驗而是來源于過程的改進。質量提高不是來自于檢驗而是來源于過程的改進。企業(yè)買不到高質量的方法。質量以滿足客戶的需求為原則質量以滿足客戶的需求為原則數據流轉概述:核心系統

22、核心系統的數據文件通過文件傳輸平臺文件傳輸平臺傳輸到數據倉庫數據倉庫,數據倉庫加工數據后傳送給數據集市數據集市。問題:數據集市報告數據倉庫傳送的數據有錯誤,但是據數據倉庫的技術人員反饋,以前出過類似情況,這可能是核心系統下數錯誤,也不排除文件傳輸平臺漏數的情況,因此,數據集市應該就這個質量問題找誰?數據集市應該就這個質量問題找誰?28 3/7/2022 Confidential核心系統文件傳輸平臺數據倉庫數據集市A:找數據倉庫B:找文件傳輸平臺C:找核心系統D:按順序全找正確答案:A企業(yè)要建立起下游即用戶,用戶永遠是第一的原則,任何系統都要接受下游投訴并妥善處理的原則。完善開發(fā)管理流程完善開發(fā)

23、管理流程 DW相關應用開發(fā)遵守軟件開發(fā)管理流程 建立三套隔離環(huán)境:開發(fā)及SIT測試、UAT測試、生產29 3/7/2022 Confidential數據管控的數據質量組織角色與職數據管控的數據質量組織角色與職責責數據質量組組長數據質量組組長(1)數據質量組個人工作計劃收集,制定中長期工作計劃定期向項目經理匯報數據質量治理情況協調本組與數據倉庫各小組之間的工作數據質量專家顧問數據質量專家顧問(1)為數據質量工作制定中長期的建設規(guī)劃熟悉模型建設,應用開發(fā),為數據質量組工作提供指導審核數據質量組組間的工作聯系單和檢核腳本質量問題外部聯絡與追蹤人員質量問題外部聯絡與追蹤人員(1)數據質量組與源系統工作

24、聯系單的收集與跟蹤數據倉庫運維過程中事故記錄與日常問題的整理數據質量知識庫的維護日常檢查人員日常檢查人員(1-2)每日數據記錄,代碼檢查,主鍵重復等日常檢查的結果查看與報告數據質量運行平臺系統的維護專項檢查人員專項檢查人員(1-2)處理臨時性的協同工單數據質量問題檢查專項的數據質量問題治理檢查數據倉庫的數據治理與改進30 3/7/2022 Confidential數據管控的數據質量問題治理流程數據管控的數據質量問題治理流程31 3/7/2022 Confidential數據管理平臺數據質量管理子系統數據管理平臺數據質量管理子系統架構架構32 3/7/2022 Confidential數據質量管

25、理的手段與工具數據質量管理的手段與工具 數據質量手段分類 數據收集手段 數據分析手段 文檔技術手段 結果展現手段 問題與改進手段 QA控制手段33 3/7/2022 Confidential 數據質量技術與工具 數據質量指標積分卡 數據質量管理平臺(含元數據、數據標準) 用戶調查表、溝通 成本分析、問題起源分析、時間行動分析 評估與選擇、頭腦風暴、優(yōu)先級技術 過程文檔、項目管理 圖表(清單、柱圖、原因效果矩陣圖、帕累托圖、數據流程圖) 質量回顧、質量循環(huán) 知識庫、論壇 培訓數據質量指標積分卡數據質量指標積分卡34 3/7/2022 Confidential- Summary Scorecard

26、 Example -權權重重得得分分加加權權貢貢獻獻評評級級完整性6%85%5.1% B精確性(現實角度)10%74%7.4% C精確性(獲取角度)10%92%9.2% A精確性 (數據概括)6%78%4.7% C+非副本記錄20%47%9.4% F一致性20%46%9.2% F及時性10%56%5.6% F可訪問性6%77%4.6% C+清晰度6%74%4.4% C可用性6%86%5.2% B總總計計100%65% F功能清單數據質量功能清單數據質量35 3/7/2022 Confidential數據質量瀏覽檢查任務運行情況日期匯總檢查任務運行情況類型匯總單個檢查任務執(zhí)行情況圖表我關注的檢查

27、任務ETL錯誤瀏覽數據質量清潔度指標瀏覽檢查類型清單與明細瀏覽檢查任務清單與明細瀏覽檢查任務與元數據關系瀏覽檢查任務執(zhí)行結果瀏覽錯誤數據瀏覽與下載質量登記簿瀏覽全局檢索用戶注釋檢查類型管理檢查任務管理數據質量清潔度指標管理檢查任務批量加載檢查任務腳本在線測試質量登記簿管理關注任務管理檢查任務批量參數設置元數據變更影響分析ETL錯誤與質量登記簿關聯檢查任務執(zhí)行結果與質量登記簿關聯管理執(zhí)行ETL嵌入嵌入模塊批量運行模塊離線檢查模塊應用服務器定時執(zhí)行模塊自動報表系統簡要介紹數據質量系統簡要介紹數據質量36 3/7/2022 Confidential某金融客戶的部分質量檢查規(guī)則某金融客戶的部分質量檢查

28、規(guī)則37 3/7/2022 Confidential編號檢查名稱檢查描述檢查任務數2,001 SDATA層代碼檢查檢查SDATA層代碼檢查是否存在非法值8932,002 SDATA主鍵重復檢查檢查ODS提供的源數據存在重復記錄的情況1,6682,003 SDATA空記錄數檢查檢查sdata提供的源表是否存在空記錄的情況5532,004 SDATA標準代碼檢查監(jiān)控標準代碼相關問題342,005 SDATA空記錄檢查(周末允許為空)SDATA空記錄檢查(周末允許為空)522,007 SDATA業(yè)務規(guī)則檢查檢查sdata提供的源表是否符合正常的業(yè)務規(guī)則722,008 SDATA非法日期格式檢查檢查源表非法日期格式,即不在這三種格式中的日期(YYYY-MM-DD,YYYYMMDD,YYMMDD)512,009 SDATA空記錄檢查(帳單日非空,其它時段不管)SDATA空記錄檢查(帳單日非空,其它時段不管)12,010 SDATA層字段亂碼檢查SDATA層字段亂碼檢查12,011 SDATA前天記錄數/數值上下波動率檢查(帶閾值) SDATA前天記錄數/數值上下波動率檢查(帶閾值)12,012 SDATA上月記錄數/數值上下波動率檢查(帶閾值)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論