




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、1. 信息資源標準化數據標準化主要實現了數據格式、內容和語義的映射、轉換,實現編碼一致化、面向主題集成、數據聚合等功能。通過數據交換、采集,形成的基礎業(yè)務數據,通過數據整合進一步的數據ETL(數據抽取、轉換、加載),按照定制的標準信息規(guī)范進行匹配映射(Match)、數據格式轉換(Transform),并對重復數據進行數據清洗(Cleanse)、過濾(Filtrate)、聚合(Aggregate),最后多維加載(Load)后形成標準化數據。采用數據同步工具和ETL工具完成數據抽取、同步等整合工作,并通過任務調度管理實現對整合工具的集中管理和執(zhí)行。數據采集時可以按信息資源平臺的要求將數據標準化。在
2、采集抽取數據時沒有按信息資源平臺轉換為標準數據的數據,需要按信息資源平臺的要求轉換成標準的數據如字典的統(tǒng)一。2. 數據加工管理2.1. 數據抽取數據抽取是利用抽取工具,建立抽取模型,將多個數據源數據匯總到一個數據庫的過程。2.2. 數據清洗由于數據來自多個業(yè)務系統(tǒng),而且包含歷史數據,需要按照一定的規(guī)劃把數據進行清洗,整個數據清洗的對象應包括不完整的數據、錯誤的數據、重復的數據等三大類。2.3. 數據轉換數據轉換主要實現數據標準化的過程,信息資源平臺的數據,來自多個業(yè)務系統(tǒng),有些數據源沒有按照統(tǒng)一的標準規(guī)范設計,因此會造成數據難以與其他數據共享。數據轉換應實現按照統(tǒng)一的數據標準和既定的格式轉換規(guī)
3、則,對數據的整理和格式統(tǒng)一。2.4. 數據裝載數據裝載操作效率是數據資源平臺需要考慮的重要環(huán)節(jié)。投標人應詳細描述針對本項目的不同數據資源所應采用的數據裝載策略。2.5. 數據標識數據標識主要為了突出數據的關鍵性信息,便于實時的統(tǒng)計和更有效的比對,進而獲取符合用戶業(yè)務辦理相關的結果。3. 數據整合處理系統(tǒng)3.1. 數據處理流程數據中心的構建,基礎和核心的工作是需要對來自各方的數據進行充分的整合和處理,對獲取的各類源數據,需要進行大量的數據梳理、分析,并作相關的數據整理工作,通過數據梳理和轉換工作,把不同來源的數據基于數據標準,轉換成標準化數據后,再進行入庫,從而保證進入數據中心的數據質量,不產生
4、垃圾數據,從而為數據中心的全局應用奠定基礎。數據處理的流程如下圖所示:數據的處理流程主要如下:1、獲取源數據通過數據共享交換對接和實施,獲取各單位的原始數據,并暫存在數據緩沖庫中,這部分的數據結構和原始數據的數據結構相同。2、數據整合處理對緩沖庫中存儲的數據,基于數據標準,對原始的數據進行整合處理,包括企業(yè)關鍵碼標準化處理、企業(yè)基礎數據整合處理 、企業(yè)許可數據整合處理、企業(yè)監(jiān)管數據整合處理、其他政府部門數據整合處理、電子統(tǒng)計報表數據導入處理、歷史數據整合處理等。通過整合處理,把非標準化的原始數據轉換成標準化的數據。3、數據中心數據入庫對整合處理后的數據按照數據的性質,分別進入到基礎數據庫和業(yè)務
5、數據庫中。3.2. 食品安全監(jiān)管數據整合處理分析3.2.1. 企業(yè)關鍵碼標準化處理目前,有關企業(yè)的各類信息都分散在XX省XX監(jiān)管平臺、網上辦事大廳XX分廳以及相關部門的行政審批系統(tǒng),不同的系統(tǒng)對企業(yè)的唯一編碼各不相同,目前存在三種方式:² 企業(yè)組織機構代碼² 企業(yè)工商登記注冊號² 統(tǒng)一社會信用代碼 ² 企業(yè)XX行業(yè)相關許可證號由于不同的業(yè)務系統(tǒng)是由不同的開發(fā)商開發(fā)的,在企業(yè)編碼的標識上各不統(tǒng)一的,為了實現基于企業(yè)為主線,首先需要以企業(yè)關鍵碼為關聯,對各方匯聚的有關企業(yè)的各類信息進行關聯整合,形成企業(yè)綜合資源,為后續(xù)的企業(yè)綜合分析提供數據支撐。因此 ,需要
6、基于企業(yè)編碼標準,對采集的原始企業(yè)業(yè)務數據的企業(yè)編碼進行標準化處理。企業(yè)關鍵碼標準化處理涉及的工作包括 :1、基礎數據獲取通過共享交換對接、文件導入等多種方式,獲取有關企業(yè)的基礎數據等。2、企業(yè)關鍵碼梳理分析根據調研情況,針對XX市企業(yè)基礎數據的實際情況和國家推行三碼合一的政策,采用依次以信用代碼、組織機構代碼、工商登記注冊號、許可證號對從各方獲取的企業(yè)信息進行梳理分析,和企業(yè)關鍵碼進行比對,制定企業(yè)關鍵碼標準化的處理規(guī)則。3、企業(yè)關鍵碼數據標準化對各方匯聚的企業(yè)關鍵碼數據按照標準化處理規(guī)則進行轉換、補充等處理。3.2.2. 企業(yè)基礎信息整合處理在不同的業(yè)務系統(tǒng)中,對企業(yè)基礎信息描述有有差異、
7、包括企業(yè)字段和相關的數據結構的設計等,因此,需要對各方匯聚的企業(yè)基礎信息按照統(tǒng)一的企業(yè)基礎數據標準,進行整合處理,構建企業(yè)基礎數據庫。3.2.3. 企業(yè)許可數據整合處理目前,XX市相關企業(yè)許可數據主要分布在兩個渠道:網上辦事大廳XX分廳XX省XX監(jiān)管平臺等。1、網上辦事大廳XX分廳許可數據整合處理通過網上辦事大廳XX分廳進行受理和審批,則通過和網上辦事大廳XX分廳進行對接,獲取相關的企業(yè)許可數據。對獲取的企業(yè)許可數據按照統(tǒng)一的數據標準進行整合處理,經過規(guī)則轉換后形成標準的企業(yè)許可數據導入到數據中心。2、XX省XX監(jiān)管平臺企業(yè)許可數據導入若屬于XX省監(jiān)督管理局辦理的許可事項,則對接XX省監(jiān)督管理
8、局的數據中心,獲取XX市XX相關企業(yè)的許可信息,按照企業(yè)的許可標準導入到市局數據中心。3.2.4. 企業(yè)監(jiān)管數據整合處理以企業(yè)為主線,對分散在不同渠道的企業(yè)監(jiān)管數據進行梳理,按照數據標準要求,對和企業(yè)相關的監(jiān)管數據進行整合處理并入庫。需要進行整合處理的監(jiān)管數據大類包括:² 四品一械企業(yè)日常監(jiān)管數據² 四品一械 企業(yè)行政執(zhí)法數據² 四品一械企業(yè)抽樣檢驗數據² 四品一械企業(yè)信用數據² 食品追溯數據² 廣告監(jiān)管系統(tǒng)的抓取視頻、抓拍圖片和抓取音頻等廣告監(jiān)測數據² 其他3.2.5. 電子統(tǒng)計報表數據導入處理對XX市XX監(jiān)督管理局上報省
9、局的統(tǒng)計報表數據(以電子表格方式),對這部分數據也需要導入到數據中心,提供全局應用的數據支撐。3.3. 數據整合處理功能3.3.1. 數據抽取在融合數據庫中,必須從不同的操作型數據庫系統(tǒng)以及其它形式外部數據源中有選擇地抽取數據,而不應該將所有源數據全部塞入融合數據庫。在具體的抽取過程中,還必須根據是增量裝載工作還是初始完全裝載等不同情況的變化規(guī)劃抽取任務。有效的數據抽取對于數據倉庫的成功很關鍵,需要合理細致地制訂數據抽取策略。數據抽取的要點主要有:u 數據源確認:確認數據的源系統(tǒng)(或文件)和結構;列出對事實表的每一個數據項和事實對于每個目標數據項,找出源數據項一個數據元素有多個來源,選擇最好的
10、來源確認一個目標字段的多個源字段,建立合并規(guī)則確認一個目標字段的多個源字段,建立分離規(guī)則確定默認值檢查缺失值的源數據u 抽取方法:針對每個數據源,定義抽取過程是人工抽取還是基于工具抽??;u 抽取頻率:對于每個數據源,確定數據抽取的頻率,每天、每星期、每季度,基礎數據裝載等等;u 時間窗口:對于每個數據源,表示出抽取過程進行的時間窗口;u 工作順序:決定抽取任務中某項工作是否必須等到前面的工作成功完成,才能開始;u 異常處理:決定如何處理無法抽取的輸入記錄。3.3.2. 數據轉換抽取得到的數據是沒有經過加工的數據,不能直接應用于融合數據中心。首先,所有抽取的數據必須按照標準數據集轉換為融合數據庫
11、可以使用的數據。擁有可以用來后續(xù)建立數據倉庫進行戰(zhàn)略決策的信息,并且提供對外數據共享與服務,而操作型系統(tǒng)的數據不能滿足這個要求;其次,抽取得到的數據其質量可能還達不到融合數據中心的要求,所以必須在進入融合數據庫之前提高數據的質量。在將抽取的數據載入庫之前,不可避免地要執(zhí)行各種類型的數據轉換。必須保證在所有的數據整合到一起之后,數據的組合不能違反任何商業(yè)規(guī)則。這期間需要考慮融合數據庫中需要的數據結構和數據元素,結合源數據格式、數據取值和質量要求可以知道如何綜合采用多種類型的轉換工作來符合融合數據庫的要求。數據轉換的基本任務包括:u 數據或記錄的選擇u 對所選擇的數據或記錄進行分離或合并處理u 轉
12、化:包括多種對數據記錄的單獨字段的基本轉化,以對不同源系統(tǒng)數據進行標準化,并使這些字段對用戶來說可用和可理解u 豐富:對單個字段數據進行重新分配和簡化其中主要的轉換類型有格式修正、字段的解碼、計算值和導出值、單個字段的分離、信息的合并、特征集合轉化、度量單位的轉化、日期/時間轉化、匯總、鍵的重構等等。實施數據轉換的過程中,要結合使用轉換工具和手工技術。使用自動的工具可以提高效率和準確性,更重要的是,自動轉換工具可以記錄元數據,確定的轉換參數和規(guī)則都會作為元數據被工具存儲起來,成為數據倉庫整個元數據組成的一部分,可以被其他部分共享,當由于商業(yè)規(guī)則或者數據定義發(fā)生變化而帶來轉換功能變化時,可以將這
13、些變化輸入工具,轉換的元數據會由工具自動進行調整。使用轉換工具的理想目標當然是徹底排除手工的方法,但在實際中卻是不可能實現的。即使是使用最精良的轉換工作組合,也會存在必須使用手工開發(fā)內部程序的需要,需要進行復雜的手工編碼和人工測試工作。采用手工技術,不但成本和錯誤率攀升,也會在數據庫環(huán)境中產生一些相互獨立的程序,手工方法最大的缺點是所帶來的元數據的記錄、管理、維護問題。清洗的過程中可以檢查錯誤的拼寫,檢查多個數據源之間編碼,或者補充數據的錯誤值,也可以排除從多個數據源系統(tǒng)中取同一個數值時出現的重復問題。對數據元素的標準化也是數據轉換過程的一個很重要的組成部分。要對數據類型進行標準化,并且對不同
14、數據源的相同數值的長度進行補充。語義的標準化也是一個重要的任務。你要解決同義和同音異義的問題。當相同的字段名在不同的數據源系統(tǒng)中代表不同的意義的時候,需要解決這個同音異義的問題。數據轉換過程解決了從不同數據源提取數據的解決方法。你要組合一個源記錄中提取的數據,或者對很多源記錄中提取的數據進行組合。另一方面,數據轉換還包括了清洗沒有用的源數據,并將它們進行新的組合。在數據準備階段,對數據的分類和聚類是很重要的部分。l 基本功能種類解釋選擇: 從源系統(tǒng)中選擇整個記錄或者部分記錄。分離/合并:對源系統(tǒng)中的數據進行分離操作或者合并操作。轉化: 對源系統(tǒng)進行標準化和可理解化。匯總: 將最低粒度數據進行匯
15、總。清晰: 對單個字段數據進行重新分配和簡化l 轉換類型(1)格式修正(2)字段的解碼(3)計算值和導出值(4)單個字段的分離(5)信息的合并(6)特征集合轉化(7)度量單位的轉化(8)關鍵字重新構造(9)匯總(10)日期/時間轉化l 數據整合和合并數據整合和合并是將相關的源數據組合成一致的數據結構,裝入整合層數據庫。(1)實體識別問題數據來源于多個不同的客戶系統(tǒng),對相同客戶可能分別有不同的鍵碼,將它們組合成一條單獨的記錄(2)多數據源相同屬性不同值的問題不同系統(tǒng)中得到的值存在一些差別 ,需要給出合理的值3.3.3. 數據裝載向融合數據庫中轉移數據的過程中存在多種情況,一般存在三種類型的數據裝載:u 初始裝載:第一次對所有的數據庫表進行遷移;u 增量裝載:根據需要定期裝載應用運行過程中發(fā)生的變化;u 完全刷新:完全刷新是指完全刷新一個或多個表的內容,并重新裝載新的數據。在裝載過程中,一般會用到四種方式:u 裝載:如果要裝載的目標表已經存在,而且也有數據存在于表中,裝載過程就會抹去已有的數據,應用輸入文件中新的數據。如果裝載的
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 發(fā)動機油品對性能影響研究考核試卷
- 供水設施維護考核試卷
- 田徑場地施工質量控制考核試卷
- 機器學習在虛擬貨幣市場趨勢分析中的應用考核試卷
- 公司出納工作總結合集14篇
- 兔年新春七言對聯
- 商務局機關黨支部自我剖析材料
- 武侯區(qū)人才日活動方案
- 植樹節(jié)三月份活動方案
- 法庭企業(yè)團建活動方案
- 2025-2030年中國雙J輸尿管支架行業(yè)市場現狀供需分析及投資評估規(guī)劃分析研究報告
- 2025-2030中國豆腐產業(yè)消費趨勢及未來發(fā)展預測分析報告
- 出國培訓考試試題及答案
- 2024年中國中小企業(yè)融資發(fā)展報告
- 2023年10月全國高等教育自學考試《英語(二)》真題及答案
- 2025年高二語文下學期期末考試語言文字運用專項練習含答案解析
- 2025解除勞動合同協議書范本
- 湖南省永州市2025屆七下數學期末質量檢測試題含解析
- 2025屆福建省泉州七中學七下數學期末聯考試題含解析
- 2024-2025 學年七年級英語下學期期末模擬卷 (深圳專用)原卷
- 2025公需課《新質生產力與現代化產業(yè)體系》考核試題庫及答案
評論
0/150
提交評論