數(shù)據(jù)治理能力提升轉(zhuǎn)項目培訓(xùn)-數(shù)據(jù)架構(gòu)_第1頁
數(shù)據(jù)治理能力提升轉(zhuǎn)項目培訓(xùn)-數(shù)據(jù)架構(gòu)_第2頁
數(shù)據(jù)治理能力提升轉(zhuǎn)項目培訓(xùn)-數(shù)據(jù)架構(gòu)_第3頁
數(shù)據(jù)治理能力提升轉(zhuǎn)項目培訓(xùn)-數(shù)據(jù)架構(gòu)_第4頁
數(shù)據(jù)治理能力提升轉(zhuǎn)項目培訓(xùn)-數(shù)據(jù)架構(gòu)_第5頁
已閱讀5頁,還剩40頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

數(shù)據(jù)治理能力專項培訓(xùn)——數(shù)據(jù)架構(gòu)一、DAMA數(shù)據(jù)架構(gòu)二、數(shù)據(jù)倉庫邏輯架構(gòu)三、數(shù)據(jù)倉庫技術(shù)架構(gòu)四、湖倉一體化平臺架構(gòu)

目錄1.DAMA數(shù)據(jù)管理知識體系1定義了與組織戰(zhàn)略協(xié)調(diào)的管理數(shù)據(jù)資產(chǎn)藍圖,以建立戰(zhàn)略性數(shù)據(jù)需求及滿足需求的總體設(shè)計2以數(shù)據(jù)模型的精確形式,進行發(fā)現(xiàn)、分析、展示和溝通數(shù)據(jù)需求的過程3以數(shù)據(jù)價值最大化為目標(biāo),在整個數(shù)據(jù)生命周期中,從計劃到銷毀的各種操作活動4確保數(shù)據(jù)隱私和機密性得到維護,數(shù)據(jù)不被破壞,數(shù)據(jù)被適當(dāng)訪問5包括與數(shù)據(jù)存儲、應(yīng)用程序和組織之間的數(shù)據(jù)移動和整合相關(guān)的過程6用于管理非結(jié)構(gòu)化媒體數(shù)據(jù)和信息的生命周期過程,包括計劃、實施和控制活動,尤其是指支持法律法規(guī)遵從性要求所需的文檔7包括核心共享數(shù)據(jù)的持續(xù)協(xié)調(diào)和維護,使關(guān)鍵業(yè)務(wù)實體的真實信息,以準(zhǔn)確、及時和相關(guān)聯(lián)的方式在各系統(tǒng)間得到一致使用8包括計劃、實施和控制流程來管理決策支持?jǐn)?shù)據(jù),并使知識工作者通過分析報告從數(shù)據(jù)中獲得價值9包括規(guī)劃、實施和控制活動,以便能夠訪問高質(zhì)量的集成元數(shù)據(jù),包括定義、模型、數(shù)據(jù)流和其他至關(guān)重要的信息(對理解數(shù)據(jù)及其創(chuàng)建、維護和訪問系統(tǒng)有幫助)10包括規(guī)劃和實施質(zhì)量管理技術(shù),以測量、評估和提高數(shù)據(jù)在組織內(nèi)的適用性利用大數(shù)據(jù)技術(shù)建立能源集團統(tǒng)一的湖倉一體化平臺,實現(xiàn)數(shù)據(jù)采集、存儲、處理、分析和服務(wù)的統(tǒng)一管理,提高信息和數(shù)據(jù)的響應(yīng)時間,提高生產(chǎn)經(jīng)營管理工作效率,有利于壓縮開支,降低管理成本,推進數(shù)字化轉(zhuǎn)型發(fā)展。DAMA框架知識領(lǐng)域說明

數(shù)據(jù)建模和設(shè)計數(shù)據(jù)存儲和操作數(shù)據(jù)安全

數(shù)據(jù)集合與

互操作

文件和內(nèi)容管理參考數(shù)據(jù)和主數(shù)據(jù)管理數(shù)據(jù)倉庫和商務(wù)智能

元數(shù)據(jù)處理

數(shù)據(jù)質(zhì)量數(shù)據(jù)架構(gòu)

數(shù)據(jù)治理123567891042.DAMA數(shù)據(jù)架構(gòu)定義與目標(biāo)定義:識別企業(yè)的數(shù)據(jù)需求(無論數(shù)據(jù)結(jié)構(gòu)入湖),并設(shè)計和維護總藍圖以滿足這些需求。使用總藍圖來指導(dǎo)數(shù)據(jù)集成、控制數(shù)據(jù)資產(chǎn),并使數(shù)據(jù)投資與業(yè)務(wù)戰(zhàn)略保持一致。目標(biāo)1.識別數(shù)據(jù)存儲和處理需求。2.設(shè)計結(jié)構(gòu)和計劃以滿足企業(yè)當(dāng)前和長期的數(shù)據(jù)需求。3.戰(zhàn)略性地為組織做好準(zhǔn)備,快速發(fā)展其產(chǎn)品、服務(wù)和數(shù)據(jù),以利用新興技術(shù)中固有的商機。數(shù)據(jù)架構(gòu)常見的業(yè)務(wù)驅(qū)動因素如下:1.利用新興技術(shù)所帶來的業(yè)務(wù)優(yōu)勢,從戰(zhàn)略上幫助組織快速改變產(chǎn)品、服務(wù)和數(shù)據(jù)。2.將業(yè)務(wù)需求轉(zhuǎn)換為數(shù)據(jù)和應(yīng)用需求,以確保能夠為業(yè)務(wù)流程處理提供有效數(shù)據(jù)。3.管理復(fù)雜數(shù)據(jù)和信息,并傳遞至整個企業(yè)。4.確保業(yè)務(wù)和IT技術(shù)保持一致。5.為企業(yè)改革、轉(zhuǎn)型和提高適應(yīng)性提供支撐。數(shù)據(jù)架構(gòu)的主要成果包括:

1.數(shù)據(jù)存儲和處理需求。2.設(shè)計滿足企業(yè)當(dāng)前和長期數(shù)據(jù)需求的結(jié)構(gòu)和規(guī)劃等3.DAMA數(shù)據(jù)架構(gòu)語境關(guān)系圖企業(yè)架構(gòu)類型:數(shù)據(jù)架構(gòu)的設(shè)計與實施同其他架構(gòu)緊密相連,企業(yè)組織中的架構(gòu)主要包括:組織架構(gòu)、業(yè)務(wù)架構(gòu)、IT技術(shù)架構(gòu)、數(shù)據(jù)架構(gòu)等。每個架構(gòu)都不是孤立存在的。要么對其他架構(gòu)產(chǎn)生影響、要么受制于其他架構(gòu)。企業(yè)數(shù)據(jù)架構(gòu)包含企業(yè)數(shù)據(jù)模型與數(shù)據(jù)流。3.DAMA企業(yè)數(shù)據(jù)架構(gòu)3.DAMA企業(yè)數(shù)據(jù)架構(gòu)-企業(yè)數(shù)據(jù)模型企業(yè)數(shù)據(jù)模型:企業(yè)數(shù)據(jù)模型是一個整體的,企業(yè)級的獨立實施的概念或邏輯數(shù)據(jù)模型,為企業(yè)提供通用的、一致的數(shù)據(jù)視圖。明顯特征:1.企業(yè)主題域(必須要在整個企業(yè)模型中保持一致)2.各主題域的實體和關(guān)系3.歸屬于同一主題域的詳細邏輯概述4.具體到應(yīng)用或項目的邏輯和物理模型企業(yè)數(shù)據(jù)模型建設(shè)方法:自上而下、自下而上或者混合模式;自上而下是從主題域開始,先設(shè)計主題,再逐步設(shè)計下層模型。而采用自下而上的方法時,主題域結(jié)構(gòu)則是基于現(xiàn)有邏輯數(shù)據(jù)模型向上提煉抽象而成。通常推薦兩種方法相結(jié)合,即自下而上地從分析現(xiàn)有模型開始,自上而下地設(shè)計主題模型,通過兩種方法的結(jié)合來共同完成企業(yè)數(shù)據(jù)模型的設(shè)計工作3.DAMA企業(yè)數(shù)據(jù)架構(gòu)-企業(yè)數(shù)據(jù)模型3.DAMA企業(yè)數(shù)據(jù)架構(gòu)-企業(yè)數(shù)據(jù)模型企業(yè)數(shù)據(jù)模型:組織對企業(yè)內(nèi)數(shù)據(jù)實體、數(shù)據(jù)屬性和它們之間關(guān)系的理解。各層級模型(概念模型、邏輯模型、物理模型)是企業(yè)數(shù)據(jù)模型的組成部分。模型鏈接定義和管理了模型的橫向(關(guān)聯(lián))和縱向(層級)關(guān)系。3.DAMA企業(yè)數(shù)據(jù)架構(gòu)-數(shù)據(jù)流數(shù)據(jù)流是一種記錄數(shù)據(jù)血緣的數(shù)據(jù)加工過程,用于描述數(shù)據(jù)如何在業(yè)務(wù)流程和系統(tǒng)中流動。端到端的數(shù)據(jù)流包含了數(shù)據(jù)起源于哪里,在哪里存儲和使用,在不同流程和系統(tǒng)內(nèi)或之間如何轉(zhuǎn)化。數(shù)據(jù)流映射記錄了數(shù)據(jù)與以下內(nèi)容的聯(lián)系:1.業(yè)務(wù)流程中的應(yīng)用2.某個環(huán)境中的數(shù)據(jù)存儲或數(shù)據(jù)庫3.網(wǎng)段(有助于安全映射)4.業(yè)務(wù)角色5.出現(xiàn)局部差異的位置一、DAMA數(shù)據(jù)架構(gòu)二、數(shù)據(jù)倉庫邏輯架構(gòu)三、數(shù)據(jù)倉庫技術(shù)架構(gòu)四、湖倉一體化平臺架構(gòu)

目錄

數(shù)據(jù)倉庫(英語:DataWarehouse,簡稱數(shù)倉、DW),是一個用于存儲、分析、報告的數(shù)據(jù)系統(tǒng)。數(shù)據(jù)倉庫的目的是構(gòu)建面向分析的集成化數(shù)據(jù)環(huán)境,為企業(yè)提供決策支持(DecisionSupport)。數(shù)據(jù)倉庫本身并不“生產(chǎn)”任何數(shù)據(jù),其數(shù)據(jù)來源于不同外部系統(tǒng);同時數(shù)據(jù)倉庫自身也不需要“消費”任何的數(shù)據(jù),其結(jié)果開放給各個外部應(yīng)用使用,這也是為什么叫“倉庫”,而不叫“工廠”的原因。1.數(shù)據(jù)倉庫概念2.數(shù)據(jù)倉庫特點1.面向主題,數(shù)據(jù)倉庫中的數(shù)據(jù)是按照一定的主題域進行組織的。2.集成匯總,將所需數(shù)據(jù)從原來的數(shù)據(jù)中集成出來后進入數(shù)據(jù)倉庫,操作性數(shù)據(jù)映射成決策可用的格式。3.數(shù)據(jù)倉庫為決策分析提供決策支持,數(shù)據(jù)全,具有較高的質(zhì)量。4.效率夠高,按年、季、月、周、日分析數(shù)據(jù),最快可在一天之類看到前一日的數(shù)據(jù)分析。5.能夠為較多系統(tǒng)提供數(shù)據(jù)支撐,數(shù)據(jù)隨時間變化不斷更新,實現(xiàn)數(shù)據(jù)共享支撐全局應(yīng)用。6.通過對元數(shù)據(jù)進行管理,實現(xiàn)對數(shù)據(jù)資產(chǎn)的管理。3.ETL-概念ETL,是英文Extract-Transform-Load的縮寫,用來描述將數(shù)據(jù)從來源端經(jīng)過萃?。╡xtract)、轉(zhuǎn)置(transform)、加載(load)至目的端的過程。ETL一詞較常用在數(shù)據(jù)倉庫,但其對象并不限于數(shù)據(jù)倉庫。ETL負責(zé)將分布的、異構(gòu)數(shù)據(jù)源中的數(shù)據(jù)如關(guān)系數(shù)據(jù)、平面數(shù)據(jù)文件等抽取到臨時中間層后進行清洗、轉(zhuǎn)換、集成,最后加載到數(shù)據(jù)倉庫或數(shù)據(jù)集市中,成為聯(lián)機分析處理、數(shù)據(jù)挖掘的基礎(chǔ)。目的是將企業(yè)中的分散、零亂、標(biāo)準(zhǔn)不統(tǒng)一的數(shù)據(jù)整合到一起,為企業(yè)的決策提供分析依據(jù)。ETL是數(shù)據(jù)倉庫中的非常重要的一環(huán)。它是承前啟后的必要的一步。相對于關(guān)系數(shù)據(jù)庫,數(shù)據(jù)倉庫技術(shù)沒有嚴(yán)格的數(shù)學(xué)理論基礎(chǔ),它更面向?qū)嶋H工程應(yīng)用。所以從工程應(yīng)用的角度來考慮,按著物理數(shù)據(jù)模型的要求加載數(shù)據(jù)并對數(shù)據(jù)進行一些系列處理,處理過程與經(jīng)驗直接相關(guān),同時這部分的工作直接關(guān)系數(shù)據(jù)倉庫中數(shù)據(jù)的質(zhì)量,從而影響到聯(lián)機分析處理和數(shù)據(jù)挖掘的結(jié)果的質(zhì)量。3.ETL-導(dǎo)圖4.數(shù)據(jù)倉庫導(dǎo)圖5.數(shù)據(jù)倉庫分層架構(gòu)背景:當(dāng)企業(yè)發(fā)展到一定階段,數(shù)據(jù)庫無法承載大量的數(shù)據(jù)承載,尤其在數(shù)據(jù)多而繁雜的情況下,對于使用者,需要數(shù)可以更加清晰且有邏輯的適用;對于維護者可以高效有序的進行維護,分層數(shù)據(jù)設(shè)計,即數(shù)據(jù)倉庫分層架構(gòu)應(yīng)運而生。簡單來解釋,就是把大量數(shù)據(jù)更有邏輯的組合在一起,并且同時方便使用者和創(chuàng)建者進行操作與應(yīng)用。ODSDWDDWSADSETLETLETLDIMdws_purchasesum_day分層架構(gòu)原因1.清晰的數(shù)據(jù)結(jié)構(gòu):每一個分層的數(shù)據(jù)都有其作用域,這樣在使用數(shù)據(jù)時能夠更加方便地進行定位和理解。2.數(shù)據(jù)血緣追蹤:可以簡單這樣理解,數(shù)據(jù)倉庫最終給業(yè)務(wù)方呈現(xiàn)的是一個可以直接使用的業(yè)務(wù)表,但是該表會依賴很多源表,如果其中一張表出現(xiàn)了問題,需要快速、準(zhǔn)確的定位問題,并清楚其危害(影響)范圍,分層可以很好的解決這個問題。例如下圖:ODSDWDADSDWSods_purchasedetail_dayods_persion_allods_org_allods_post_alldwd_purchasedetail_daydwd_persion_alldwd_org_alldwd_post_allads_person_purchasesum_day分層架構(gòu)原因3.減少重復(fù)開發(fā):通過數(shù)據(jù)分層,在開發(fā)一些通用的中間層時,能夠很大程度減少可重復(fù)開發(fā)。4.復(fù)雜問題簡單化:將一個復(fù)雜的任務(wù)分解成多個步驟來完成,每一層只處理單一的步驟。比較簡單,也容易理解,而且便于維護數(shù)據(jù)的準(zhǔn)確性。當(dāng)數(shù)據(jù)出現(xiàn)問題后,不需要修復(fù)所有的數(shù)據(jù),只需要從有問題步驟開始修復(fù)即可。4.數(shù)據(jù)倉庫邏輯架構(gòu)5.某網(wǎng)上商城數(shù)據(jù)倉庫案例一、DAMA數(shù)據(jù)架構(gòu)二、數(shù)據(jù)倉庫邏輯架構(gòu)三、數(shù)據(jù)倉庫技術(shù)架構(gòu)四、湖倉一體化平臺架構(gòu)

目錄1.最早的數(shù)據(jù)倉庫技術(shù)架構(gòu)最早的數(shù)據(jù)倉庫,是以單機數(shù)據(jù)庫為載體,數(shù)據(jù)的存儲、計算都在同一數(shù)據(jù)庫內(nèi),資源較小,只存結(jié)構(gòu)化數(shù)據(jù)。后來出現(xiàn)多數(shù)據(jù)庫數(shù)據(jù)倉庫,大大提升了計算、存儲、以及高可用能力。這一時期,結(jié)構(gòu)化數(shù)據(jù)庫有了較大的發(fā)展,有DB2、Oracle、Mysql等等。特點:存儲數(shù)據(jù)量較小、計算能力較弱。單節(jié)點的數(shù)據(jù)倉庫ETL2.Hadoop的出現(xiàn)2003年谷歌發(fā)表了三篇論文:GFS—GoogleFileSystem描述數(shù)據(jù)存儲的思想,解決了海量數(shù)據(jù)如何存儲的問題。MapReduce—描述分布式運算系統(tǒng),解決了海量數(shù)據(jù)如何計算的問題。bigtable—快速查詢的google的分布式數(shù)據(jù)庫,解決了海量數(shù)據(jù)如何快速查詢的問題。DougCutting將Google的三篇文章用Java重新實現(xiàn)HDFS(HadoopDistributedFileSystem)Hadoop的分布式文件存儲系統(tǒng),用于解決海量數(shù)據(jù)存儲的問題。MapReduce—MapReduce,解決海量數(shù)據(jù)分布式計算問題。bigtable—Hbase,解決海量數(shù)據(jù)的快速查詢問題。3.Hadoop組件架構(gòu)Hadoop是以HDFS為核心存儲,以MapReduce為基本計算模型的批量數(shù)據(jù)處理基礎(chǔ)設(shè)施,圍繞HDFS和MR,產(chǎn)生了一系列的組件,不斷完善整個大數(shù)據(jù)平臺的數(shù)據(jù)處理能力,例如面向KV的HBase、面向SQL的Hive、面向工作流的PIG等。以Hadoop為核心的數(shù)據(jù)存儲及數(shù)據(jù)處理技術(shù)逐漸成為數(shù)據(jù)處理中的“中流砥柱”。技術(shù)棧如圖:

在企業(yè)信息化的過程中,隨著信息化工具的升級和新工具的應(yīng)用,數(shù)據(jù)量變的越來越大,數(shù)據(jù)格式越來越多,決策要求越來越苛刻,數(shù)據(jù)倉庫技術(shù)在大數(shù)據(jù)場景中被廣泛使用。(離線數(shù)倉定時跑批)3.Hadoop離線數(shù)倉4.批處理與流處理批處理:當(dāng)我們處理相對大量的數(shù)據(jù)時,如果此數(shù)據(jù)的來源是與流數(shù)據(jù)處理不兼容的舊系統(tǒng)或遺留系統(tǒng),批處理是一種很好的解決方案。批處理通常適用于不需要實時分析的場景,以及處理大量數(shù)據(jù)的能力比處理所述數(shù)據(jù)的速度更重要的場景(可以接受較慢的分析結(jié)果,比如:賬單、客戶訂單、工資單等)流處理:如果我們需要實時分析結(jié)果,那么流處理是唯一的方法。使用數(shù)據(jù)流將其輸入分析工具,在生成數(shù)據(jù)的那一刻,就能夠獲得幾乎即時的結(jié)果。流處理在欺詐檢測中很有用,因為流處理允許實時檢測異常。流處理的延遲通常以秒或毫秒為單位,因為在流處理中,數(shù)據(jù)在到達磁盤之前會被分析。流處理通常被用于:欺詐識別、日志監(jiān)控、客戶行為分析、分析社交媒體。4.批處理和流處理的區(qū)別3.Spark誕生ApacheSpark是專為大規(guī)模數(shù)據(jù)處理而設(shè)計的快速通用的計算引擎。Spark是UCBerkeleyAMPlab(加州大學(xué)伯克利分校的AMP實驗室)所開源的類HadoopMapReduce的通用并行框架,Spark,擁有HadoopMapReduce所具有的優(yōu)點;但不同于MapReduce的是——Job中間輸出結(jié)果可以保存在內(nèi)存中,從而不再需要讀寫HDFS,因此Spark能更好地適用于數(shù)據(jù)挖掘與機器學(xué)習(xí)等需要迭代的MapReduce的算法。Spark是一種與Hadoop相似的開源集群計算環(huán)境,但是兩者之間還存在一些不同之處,這些有用的不同之處使Spark在某些工作負載方面表現(xiàn)得更加優(yōu)越,換句話說,Spark啟用了內(nèi)存分布數(shù)據(jù)集,除了能夠提供交互式查詢外,它還可以優(yōu)化迭代工作負載。特點:拆分批量時間,一秒執(zhí)行一次,偽實時。4.Flink誕生ApacheFlink是一個框架和分布式處理引擎,用于在無邊界和有邊界數(shù)據(jù)流上進行有狀態(tài)的計算。Flink能在所有常見集群環(huán)境中運行,并能以內(nèi)存速度和任意規(guī)模進行計算。ApacheFlink功能強大,支持開發(fā)和運行多種不同種類的應(yīng)用程序。它的主要特性包括:批流一體化、精密的狀態(tài)管理、事件時間支持以及精確一次的狀態(tài)一致性保障等。Flink不僅可以運行在包括YARN、Mesos、Kubernetes在內(nèi)的多種資源管理框架上,還支持在裸機集群上獨立部署。特點:實時檢測數(shù)據(jù),到來一條就處理一條,是真正的實時。5.數(shù)據(jù)平臺能力6.架構(gòu)演進-傳統(tǒng)離線+實時數(shù)倉-Lambda架構(gòu)

在Lambda架構(gòu)中,為了計算一些實時指標(biāo),就在原來的離線數(shù)倉基礎(chǔ)之上增加了一個實時計算的鏈路,并對數(shù)據(jù)源做流式改造:把消息發(fā)送到消息隊列中(大數(shù)據(jù)中常用Kafka),實時計算去消費消息隊列中的數(shù)據(jù),完成實時指標(biāo)計算,推送到下游的數(shù)據(jù)服務(wù)中去,由數(shù)據(jù)服務(wù)層完成離線與實時結(jié)果的合并。架構(gòu)圖如下:7.架構(gòu)演進-實時數(shù)倉-Kappa架構(gòu)

Kappa架構(gòu)的核心思想是通過改進流計算系統(tǒng)來解決數(shù)據(jù)全量處理的問題,使得實時計算和批處理過程使用同一套代碼。此外Kappa架構(gòu)認為只有在有必要的時候才會對歷史數(shù)據(jù)進行重復(fù)計算,而如果需要重復(fù)計算時,Kappa架構(gòu)下可以啟動很多個實例進行重復(fù)計算,方式是通過上游重放完成(從數(shù)據(jù)源拉取數(shù)據(jù)重新計算)。架構(gòu)圖如下:Kappa架構(gòu)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論