湖倉(cāng)一體構(gòu)建企業(yè)數(shù)字化基座_第1頁(yè)
湖倉(cāng)一體構(gòu)建企業(yè)數(shù)字化基座_第2頁(yè)
湖倉(cāng)一體構(gòu)建企業(yè)數(shù)字化基座_第3頁(yè)
湖倉(cāng)一體構(gòu)建企業(yè)數(shù)字化基座_第4頁(yè)
湖倉(cāng)一體構(gòu)建企業(yè)數(shù)字化基座_第5頁(yè)
已閱讀5頁(yè),還剩38頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

湖倉(cāng)一體,構(gòu)建企業(yè)數(shù)字化新基座國(guó)際數(shù)據(jù)管理協(xié)會(huì)(

DAMA)中國(guó)大數(shù)據(jù)平臺(tái)架構(gòu)演進(jìn)1湖倉(cāng)一體架構(gòu)構(gòu)建與探索2湖倉(cāng)一體化平臺(tái)應(yīng)用實(shí)踐3湖倉(cāng)一體化平臺(tái)未來(lái)發(fā)展趨勢(shì)4目錄CONTENTS大數(shù)據(jù)平臺(tái)架構(gòu)演進(jìn)1湖倉(cāng)一體架構(gòu)構(gòu)建與探索2湖倉(cāng)一體化平臺(tái)應(yīng)用實(shí)踐3湖倉(cāng)一體化平臺(tái)未來(lái)發(fā)展趨勢(shì)4目錄CONTENTS數(shù)據(jù)庫(kù)到數(shù)據(jù)倉(cāng)庫(kù)演進(jìn)1960s,IBM,IMS(InformationManagement

System)1970s,IBM,the1stSQLDBMS-

DB21980s,IBM,datawarehouseforBI,ODS|Fact|Dimension|

DM數(shù)據(jù)倉(cāng)庫(kù)到數(shù)據(jù)湖演進(jìn)兩者沒(méi)有直接的技術(shù)繼承性2000s,HTTP/WW

(WorldWideWeb)的興起1998,Google成立2004,

Google,MapReducepaper,大規(guī)模數(shù)據(jù)處理引擎第一次面世。(MapReduce

+

GFS)奠定了此后大數(shù)據(jù)平臺(tái)的技術(shù)基礎(chǔ)2006,

Yahoo,

Apache

Hadoop,實(shí)現(xiàn)并開(kāi)源MapReduce和GFS

(即HDFS),Hadoop生態(tài)的發(fā)展勢(shì)不可擋2010,Facebook,ApacheHive,SQL

Hadoop2011,Pentaho,

a

BI

softwarepany,提出了“數(shù)據(jù)湖”概念數(shù)據(jù)倉(cāng)庫(kù)到數(shù)據(jù)湖演進(jìn)數(shù)據(jù)在寫入時(shí)已預(yù)聚合服務(wù)具體某些類型的OLAP分析無(wú)法利用原始數(shù)據(jù)做即時(shí)、探索性的分析2011,Pentaho,

a

BI

softwarepany,提出了“數(shù)據(jù)湖”概念,點(diǎn)出Hadoop作為一種實(shí)現(xiàn)2011,Hontonworks成立,大力推廣和發(fā)展Hadoop生態(tài)數(shù)據(jù)倉(cāng)庫(kù) 數(shù)據(jù)湖存儲(chǔ)原始數(shù)據(jù)使用Hadoop管理數(shù)據(jù),處理數(shù)據(jù)供OLAP分析,和即時(shí)探索分析數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)倉(cāng)庫(kù)到數(shù)據(jù)湖演進(jìn)2011,Hontonworks成立,大力推廣和發(fā)展Hadoop生態(tài)2014,PwC(某著名企業(yè)),PwCTechnology

ForecastHadoop基礎(chǔ)架構(gòu),用于可擴(kuò)展的數(shù)據(jù)湖基礎(chǔ)設(shè)施數(shù)據(jù)湖到湖倉(cāng)一體演進(jìn)2010s,

Al應(yīng)用興起,數(shù)據(jù)量越來(lái)越大,類型越來(lái)越多(文字、圖片、視頻、聲音)2013,Databricks成立2014,

Spark問(wèn)世,

Databricks圍繞Spark,搭建商用數(shù)據(jù)平臺(tái)SaaS2016,

Databricks

,實(shí)現(xiàn)Delta

Lake,支持類DBMS的功能,如transaction2020,Databricks,提出Lakehouse概念數(shù)據(jù)湖到湖倉(cāng)一體演進(jìn)2020,

Databricks,提出Lakehouse概念湖倉(cāng)一體數(shù)據(jù)湖存儲(chǔ)原始數(shù)據(jù)使用Hadoop管理數(shù)據(jù),處理數(shù)供OLAP分析,和即時(shí)探索分析不支持transaction,缺乏consistency和isolation以支持并發(fā)的append和readunstructured/blob數(shù)據(jù)支持差存儲(chǔ)原始數(shù)據(jù)支持OLAP分析和即時(shí)探索分析支持transaction,實(shí)現(xiàn)consistency和isolation支持并發(fā)的append和read支持unstructured等類型的數(shù)據(jù)<其他特征>數(shù)據(jù)庫(kù)->數(shù)據(jù)倉(cāng)庫(kù)->數(shù)據(jù)湖->湖倉(cāng)一體湖倉(cāng)一體存儲(chǔ)原始數(shù)據(jù)支持OLAP分析和即時(shí)探索分析支持transaction,實(shí)現(xiàn)consistency和isolation支持并發(fā)的append和read支持unstructured等類型的數(shù)據(jù)<其他特征>數(shù)據(jù)庫(kù)存textclob/blob(unstructured)數(shù)據(jù)CRUD+ACID

transactionSQL

Query數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)在寫入時(shí)已預(yù)聚合服務(wù)具體某些類型的OLAP分析無(wú)法利用原始數(shù)據(jù)做即時(shí)、探索性的分析數(shù)據(jù)湖存儲(chǔ)原始數(shù)據(jù)使用Hadoop管理數(shù)據(jù),處理數(shù)供OLAP分析,和即時(shí)探索分析不支持transaction,缺乏consistency和isolation以支持并發(fā)的append和readunstructured/blob數(shù)據(jù)支持差數(shù)據(jù)倉(cāng)庫(kù)

VS

數(shù)據(jù)湖

VS

湖倉(cāng)一體對(duì)比維度數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)湖湖倉(cāng)一體數(shù)據(jù)格式封閉的專有格式開(kāi)放格式開(kāi)放格式存儲(chǔ)的數(shù)據(jù)類型結(jié)構(gòu)化數(shù)據(jù),對(duì)半結(jié)構(gòu)化數(shù)據(jù)的支持有限所有類型:結(jié)構(gòu)化數(shù)據(jù),半結(jié)構(gòu)化數(shù)據(jù),文本數(shù)據(jù)·非結(jié)構(gòu)化(原始)數(shù)據(jù)所有類型:結(jié)構(gòu)化數(shù)據(jù)·半結(jié)構(gòu)化數(shù)據(jù),文本數(shù)據(jù)·非結(jié)構(gòu)化(原始)數(shù)據(jù)數(shù)據(jù)訪問(wèn)僅支持SQL訪問(wèn),無(wú)法直接訪問(wèn)文件通過(guò)開(kāi)放API可以直接訪問(wèn)到文件,并且支持SQL、R丶Python以及其他語(yǔ)言通過(guò)開(kāi)放API可以直接訪問(wèn)到文件,并且支持SQL、R、Python以及其他語(yǔ)言可靠性通過(guò)ACID事務(wù)提供高質(zhì)量、可靠的數(shù)據(jù)低質(zhì)量、數(shù)據(jù)沼澤通過(guò)ACID事務(wù)提供高質(zhì)量、可靠的數(shù)據(jù)數(shù)據(jù)治理和安全為表提供行/列級(jí)的細(xì)粒度安全性和治理安全性不佳,因?yàn)樾枰獙踩詰?yīng)用于文件為表提供行/列級(jí)的細(xì)粒度安全性和治理性能高低高擴(kuò)展性按比例擴(kuò)展成本會(huì)成倍增加擴(kuò)展可以以低成本保存任何數(shù)量的數(shù)據(jù)而不考慮類型擴(kuò)展可以以低成本保存任何數(shù)量的數(shù)據(jù)·而不考慮類型用戶場(chǎng)景支持僅限于BI、SQL應(yīng)用程序和決策支持僅限于機(jī)器學(xué)習(xí)一個(gè)架構(gòu)就支持BI、SQL以及機(jī)器學(xué)習(xí)數(shù)據(jù)湖靈活性

VS

數(shù)據(jù)倉(cāng)庫(kù)成長(zhǎng)性湖倉(cāng)一體兼具數(shù)據(jù)湖的靈活性與數(shù)據(jù)倉(cāng)庫(kù)的成長(zhǎng)性數(shù)據(jù)倉(cāng)湖與數(shù)據(jù)湖融合數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)湖湖倉(cāng)一體(Lake

House)演進(jìn)演進(jìn)事務(wù)支持schema演進(jìn)數(shù)據(jù)類型豐富多負(fù)載支持BI支持實(shí)時(shí)性開(kāi)放性存算分離湖倉(cāng)一體關(guān)鍵技術(shù)特性湖倉(cāng)一體架構(gòu)成為下一站燈塔面對(duì)企業(yè)海量大數(shù)據(jù)場(chǎng)景下的聯(lián)機(jī)交易、非結(jié)構(gòu)化數(shù)據(jù)治理的需求,以及數(shù)據(jù)倉(cāng)庫(kù)/數(shù)據(jù)湖架構(gòu)的局限,湖倉(cāng)一體架構(gòu)下打通了數(shù)倉(cāng)和數(shù)據(jù)湖,并融合了兩種架構(gòu)的優(yōu)勢(shì),底層多套存儲(chǔ)系統(tǒng)并存且互相數(shù)據(jù)共享,形成了資源池,上層各引擎可以通過(guò)一體的封裝接口訪問(wèn),實(shí)現(xiàn)了聯(lián)機(jī)交機(jī)分析的同時(shí)支持。湖倉(cāng)一體企業(yè)數(shù)字化新基座服務(wù)管理API網(wǎng)關(guān)組件管理調(diào)用管理……元數(shù)據(jù)貼源數(shù)據(jù)數(shù)據(jù)質(zhì)量明細(xì)數(shù)據(jù)數(shù)據(jù)血緣標(biāo)簽數(shù)據(jù)數(shù)據(jù)標(biāo)準(zhǔn)指標(biāo)數(shù)據(jù)……應(yīng)用數(shù)據(jù)數(shù)據(jù)服務(wù)體系數(shù)據(jù)資產(chǎn)湖倉(cāng)一體的技術(shù)底座運(yùn)營(yíng)分析搜索推薦廣告營(yíng)銷風(fēng)控分析業(yè)務(wù)資源管理數(shù)據(jù)分析數(shù)據(jù)運(yùn)營(yíng)可視化BI大數(shù)據(jù)平臺(tái)架構(gòu)演進(jìn)1湖倉(cāng)一體架構(gòu)構(gòu)建與探索2湖倉(cāng)一體化平臺(tái)應(yīng)用實(shí)踐3湖倉(cāng)一體化平臺(tái)未來(lái)發(fā)展趨勢(shì)4目錄CONTENTS現(xiàn)代企業(yè)的分析應(yīng)用需求在不斷轉(zhuǎn)變,傳統(tǒng)的“湖倉(cāng)分離”模式,一定程度上實(shí)現(xiàn)了功能的互相補(bǔ)充,但難于滿足企業(yè)在數(shù)據(jù)運(yùn)營(yíng)、價(jià)值挖掘、運(yùn)維等方面的更高需求。湖倉(cāng)一體化平臺(tái)結(jié)合數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)湖

各自的優(yōu)點(diǎn),將數(shù)據(jù)倉(cāng)庫(kù)

的豐富管理功能和性能優(yōu)

化能力與支持多種數(shù)據(jù)格

式的低成本存儲(chǔ)的數(shù)據(jù)湖

的活性結(jié)合起來(lái)

。統(tǒng)計(jì)分析向預(yù)測(cè)分析轉(zhuǎn)變單領(lǐng)域分析向跨領(lǐng)域分析轉(zhuǎn)變被動(dòng)分析向主動(dòng)分析轉(zhuǎn)變非實(shí)時(shí)分析向?qū)崟r(shí)分析轉(zhuǎn)變結(jié)構(gòu)化數(shù)據(jù)分析向多元化數(shù)據(jù)分析轉(zhuǎn)變12345需

求轉(zhuǎn)

變湖倉(cāng)一體關(guān)鍵特征1事務(wù)支持5開(kāi)放性62數(shù)據(jù)的模型化和數(shù)據(jù)治理3BI支持4存算分離78支持多種數(shù)據(jù)類型支持各種工作負(fù)載端到端流數(shù)據(jù)重復(fù)性企業(yè)同時(shí)維護(hù)了一個(gè)數(shù)據(jù)湖和多個(gè)數(shù)倉(cāng),這無(wú)疑會(huì)帶來(lái)數(shù)據(jù)冗余,湖倉(cāng)一體統(tǒng)一了一切,它去除了數(shù)據(jù)的重復(fù)性。高存儲(chǔ)成本數(shù)倉(cāng)和數(shù)據(jù)湖都是為了降低數(shù)據(jù)存儲(chǔ)的成本,最為廉價(jià)的方式是結(jié)合這些技術(shù)來(lái)降低成本,這就是湖倉(cāng)一體架構(gòu)的目標(biāo)。報(bào)表和分析應(yīng)用之間的差異使用湖倉(cāng)一體后,報(bào)表分析師和數(shù)據(jù)科學(xué)家兩個(gè)團(tuán)隊(duì)可以在同一數(shù)據(jù)架構(gòu)上進(jìn)行工作,避免不必要的重復(fù)。引入湖倉(cāng)一體,對(duì)于海量數(shù)據(jù)進(jìn)行catalog,能夠更有效地幫助提升分析數(shù)據(jù)的時(shí)效性。數(shù)據(jù)停滯潛在不兼容性帶來(lái)的風(fēng)險(xiǎn)湖倉(cāng)一體靈活的架構(gòu),可以兼容數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)湖未來(lái)新的技術(shù)。湖倉(cāng)一體能解決的主要問(wèn)題第一代數(shù)倉(cāng)平臺(tái)第二代兩層的湖倉(cāng)一體化平臺(tái)第三代Lakehouse湖倉(cāng)一體化平臺(tái)結(jié)構(gòu)化數(shù)據(jù)數(shù)據(jù)倉(cāng)庫(kù)報(bào)表BI報(bào)表BI報(bào)表BI數(shù)據(jù)科學(xué)機(jī)器學(xué)習(xí)數(shù)據(jù)科學(xué)機(jī)器學(xué)習(xí)數(shù)據(jù)倉(cāng)庫(kù)結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)元數(shù)據(jù)、緩存和索引層湖倉(cāng)一體構(gòu)建核心要素可靠的湖上數(shù)據(jù)管理支持機(jī)器學(xué)習(xí)與數(shù)據(jù)科學(xué)高性能的SQL引擎三大開(kāi)源架構(gòu)對(duì)比分析比較維度DeltaHudiIcebergSparkSparkSparkACID

updatesHDFS,S3(Databricks),

OSSHDFSHDFS,S3Upserts/Delete/Merge/UpdateDelete/Merge/UpdateUpserts/DeleteNoStreamingsinkYesYesYes(notready?)Streaming

sourceYesNoNoFileFormatsParquetAvro,ParquetParquet,

ORCData

SkippingFile-LevelMax-Minstats+Z-Ordering

(Databricks)File-LevelMax-Minstats+BloomFilterFile-LevelMax-Min

FilteringConcurrencycontrolOptimisticOptimisticOptimisticData

ValidationYes(Databricks)NoYesMergeon

readNoYesNoSchemaEvolutionYesYesYesFileI/OCacheYes(Databricks)NoNoCleanupManualAutomaticNopactionManualAutomaticNo湖倉(cāng)一體架構(gòu)設(shè)計(jì)五大原則首要原則是加入解耦和存儲(chǔ)。計(jì)算和存儲(chǔ)的解耦,可使系統(tǒng)靈活地按需升級(jí)并擴(kuò)展計(jì)算服務(wù)。計(jì)算和存儲(chǔ)解耦原則一數(shù)據(jù)以多種形態(tài)和形式呈現(xiàn),因此數(shù)據(jù)的存儲(chǔ)方式應(yīng)具靈活性,以適應(yīng)數(shù)據(jù)的不同形態(tài)和用途。目標(biāo)驅(qū)動(dòng)存儲(chǔ)層原則二確保數(shù)據(jù)處于核心地位,以圍繞數(shù)據(jù)開(kāi)展所需服務(wù)為關(guān)鍵?;跀?shù)據(jù)開(kāi)展數(shù)據(jù)抽取、處理、編目和分析等不同類型的服務(wù)。模塊化體系架構(gòu)原則三聚焦于功能而非技術(shù)體現(xiàn)靈活性,一定要聚焦于組件所完成的功能,進(jìn)而可輕隨技術(shù)的發(fā)展而替換舊技術(shù)。原則四活動(dòng)編目避免數(shù)據(jù)湖淪為數(shù)據(jù)沼澤的關(guān)鍵。編目上需具有明確的治理原則,有助于確保數(shù)據(jù)充分記錄到數(shù)據(jù)湖中。原則五湖倉(cāng)一體架構(gòu)構(gòu)建與探索數(shù)據(jù)源數(shù)據(jù)集成與開(kāi)發(fā)ERPCRM圖像/視頻/音頻日志文件數(shù)據(jù)接入HDFSS3RDBOSSHive數(shù)據(jù)湖Catalog統(tǒng)一元數(shù)據(jù)管理元數(shù)據(jù)多引擎共享計(jì)算查詢層數(shù)據(jù)倉(cāng)庫(kù)E-MapReduce計(jì)算引擎多源數(shù)據(jù)即席查詢Trino(Presto)聯(lián)邦查詢引擎人工智能機(jī)器學(xué)習(xí)服務(wù)層數(shù)據(jù)治理與服務(wù)數(shù)據(jù)運(yùn)維監(jiān)控用戶數(shù)據(jù)科學(xué)家數(shù)據(jù)分析師業(yè)務(wù)人員SaaS服務(wù)API調(diào)用Kafka數(shù)據(jù)入湖元數(shù)據(jù)注冊(cè)湖倉(cāng)一體化數(shù)據(jù)中臺(tái)總體方案架構(gòu)公共數(shù)據(jù)資源數(shù)據(jù)湖業(yè)務(wù)模型組合統(tǒng)一數(shù)據(jù)模型統(tǒng)一數(shù)據(jù)標(biāo)簽統(tǒng)一數(shù)據(jù)指標(biāo)統(tǒng)一數(shù)據(jù)維度公共維度組合企業(yè)數(shù)據(jù)倉(cāng)庫(kù)產(chǎn)品主題流水主題營(yíng)銷主題資產(chǎn)主題客戶主題協(xié)議主題財(cái)務(wù)主題渠道主題經(jīng)營(yíng)主題數(shù)據(jù)集市考核主題數(shù)據(jù)集市財(cái)務(wù)主題數(shù)據(jù)集市人資主題數(shù)據(jù)集市其他主題數(shù)據(jù)集市數(shù)據(jù)服務(wù)指標(biāo)市場(chǎng)維度市場(chǎng)標(biāo)簽市場(chǎng)模型市場(chǎng)API市場(chǎng)規(guī)則市場(chǎng)場(chǎng)景賦能BI分析&報(bào)表駕駛艙精準(zhǔn)營(yíng)銷智能風(fēng)控生產(chǎn)管理企業(yè)知識(shí)庫(kù)運(yùn)維監(jiān)控任務(wù)監(jiān)控?cái)?shù)據(jù)源監(jiān)控運(yùn)行監(jiān)控?cái)?shù)據(jù)監(jiān)控?cái)?shù)據(jù)治理數(shù)據(jù)質(zhì)量數(shù)據(jù)標(biāo)準(zhǔn)元數(shù)據(jù)管理主數(shù)據(jù)管理數(shù)據(jù)安全數(shù)據(jù)生命周期數(shù)據(jù)服務(wù)API數(shù)據(jù)集成離線開(kāi)發(fā)數(shù)據(jù)開(kāi)發(fā) 數(shù)據(jù)查詢倉(cāng)庫(kù)模型設(shè)計(jì)數(shù)據(jù)存儲(chǔ)數(shù)據(jù)調(diào)度數(shù)據(jù)分發(fā)安全管控實(shí)時(shí)計(jì)算實(shí)時(shí)數(shù)據(jù)采集Flink任務(wù)開(kāi)發(fā)實(shí)時(shí)任務(wù)監(jiān)控Kafka消息字典數(shù)據(jù)源管理Kafka監(jiān)控項(xiàng)目管理任務(wù)管理數(shù)據(jù)同步同步任務(wù)管理同步任務(wù)監(jiān)控?cái)?shù)據(jù)源管理可視化任務(wù)創(chuàng)建數(shù)據(jù)預(yù)處理數(shù)據(jù)科學(xué)特征工程 模型訓(xùn)練模型評(píng)估模型發(fā)布模型應(yīng)用自動(dòng)學(xué)習(xí)智能發(fā)布數(shù)據(jù)服務(wù)API網(wǎng)關(guān)限流策略資源組管理API注冊(cè)API授權(quán)數(shù)據(jù)分析數(shù)據(jù)查詢模型設(shè)計(jì)項(xiàng)目管理模型監(jiān)控Cube管理模型調(diào)優(yōu)…………統(tǒng)一數(shù)據(jù)采集全域數(shù)據(jù)資產(chǎn)數(shù)據(jù)能力基礎(chǔ)建設(shè)(界面輔助工具)湖倉(cāng)一體化數(shù)據(jù)中臺(tái)核心價(jià)值湖倉(cāng)一體化數(shù)據(jù)中臺(tái)五大核心功能統(tǒng)一數(shù)據(jù)集成,界面化數(shù)據(jù)集成能力打通元數(shù)據(jù),提供統(tǒng)一的元數(shù)據(jù)管理能力對(duì)不同存儲(chǔ)的數(shù)據(jù)提供統(tǒng)一的開(kāi)發(fā)管理能力一站式、全托管、云原生智能化的敏捷數(shù)據(jù)平臺(tái)能力企業(yè)級(jí)高性能、穩(wěn)定性、可靠性湖倉(cāng)一體化數(shù)據(jù)中臺(tái)核心價(jià)值湖倉(cāng)一體數(shù)據(jù)中臺(tái)核心三大價(jià)值企業(yè)人效方面的提升相較于傳統(tǒng)的大數(shù)據(jù)基礎(chǔ)平臺(tái),單點(diǎn)重復(fù)式的煙囪開(kāi)發(fā)建設(shè)到基于敏捷數(shù)據(jù)平臺(tái)數(shù)據(jù)資產(chǎn)之上進(jìn)行高度復(fù)用的協(xié)同開(kāi)發(fā),整體開(kāi)發(fā)模式和研發(fā)效率是質(zhì)的改變,大大提升人效。企業(yè)數(shù)據(jù)建設(shè)及使用效率的提升相較于傳統(tǒng)大數(shù)據(jù)基礎(chǔ)平臺(tái),湖倉(cāng)一體的敏捷數(shù)據(jù)平臺(tái)實(shí)現(xiàn)存算一體的升級(jí)和迭代,進(jìn)行數(shù)據(jù)全鏈路血緣關(guān)系數(shù)據(jù)資產(chǎn)沉淀,形成統(tǒng)一公司內(nèi)數(shù)據(jù)門戶,大大提升企業(yè)數(shù)據(jù)資產(chǎn)的使用效率。全面支撐企業(yè)未來(lái)大規(guī)模業(yè)務(wù)智能落地湖倉(cāng)一體的敏捷數(shù)據(jù)平臺(tái)是一套企業(yè)級(jí)的大數(shù)據(jù)&AI基礎(chǔ)設(shè)施,幫助企業(yè)建立數(shù)據(jù)資產(chǎn)、實(shí)現(xiàn)數(shù)據(jù)業(yè)務(wù)化、進(jìn)而推進(jìn)全線業(yè)務(wù)智能化,實(shí)現(xiàn)數(shù)據(jù)驅(qū)動(dòng)下的企業(yè)數(shù)據(jù)智能創(chuàng)新,全面支撐企業(yè)未來(lái)大規(guī)模業(yè)務(wù)智能落地。目標(biāo)大數(shù)據(jù)平臺(tái)架構(gòu)演進(jìn)1湖倉(cāng)一體架構(gòu)構(gòu)建與探索2湖倉(cāng)一體化平臺(tái)應(yīng)用實(shí)踐3湖倉(cāng)一體化平臺(tái)未來(lái)發(fā)展趨勢(shì)4目錄CONTENTS案例一、某商業(yè)銀行構(gòu)建湖倉(cāng)一體金融大數(shù)據(jù)平臺(tái)全行各業(yè)務(wù)線數(shù)據(jù)量不斷增加,業(yè)務(wù)側(cè)對(duì)數(shù)據(jù)需求非常迫切舊有的開(kāi)發(fā)模式導(dǎo)致大量的數(shù)據(jù)需求積壓數(shù)據(jù)孤島行內(nèi)煙囪式的數(shù)據(jù)平臺(tái)建設(shè)導(dǎo)致“數(shù)據(jù)孤島”帶來(lái)大量的數(shù)據(jù)拉取和整合的工作量。項(xiàng)目背景:客戶為某全國(guó)性商業(yè)銀行,由于全行的數(shù)據(jù)散落在各個(gè)業(yè)務(wù)系統(tǒng)中,沒(méi)有進(jìn)行有效整合,造成多個(gè)信息孤島,無(wú)法支撐未來(lái)共享性應(yīng)用。希望通過(guò)構(gòu)建湖倉(cāng)一體金融大數(shù)據(jù)平臺(tái),提高開(kāi)發(fā)效率。數(shù)據(jù)開(kāi)發(fā)周期長(zhǎng) 協(xié)同效能低業(yè)務(wù)倒逼IT的煙囪式的數(shù)據(jù)平臺(tái)的投資建設(shè),耗費(fèi)了龐大資金和人力投入;協(xié)同效能的提升問(wèn)題凸顯。投入成本高耗費(fèi)了大量的人力物力以及時(shí)間,導(dǎo)致業(yè)務(wù)側(cè)的投訴和抱怨,工作效率嚴(yán)重滯后。湖倉(cāng)一體金融大數(shù)據(jù)平臺(tái)解決方案引入湖倉(cāng)一體化平臺(tái),將行內(nèi)的基礎(chǔ)數(shù)據(jù)需求按照業(yè)務(wù)劃分為數(shù)據(jù)湖、數(shù)據(jù)倉(cāng)庫(kù)和信息庫(kù),即”一湖兩庫(kù)”將主流的數(shù)據(jù)處理引擎集成在大數(shù)據(jù)服務(wù)云平臺(tái)中,再將這些數(shù)據(jù)服務(wù)以租戶渠道方式作為接口開(kāi)放;用戶通過(guò)自助或者固定的應(yīng)用服務(wù)渠道來(lái)獲得大數(shù)據(jù)服務(wù),構(gòu)建了1800+節(jié)點(diǎn)的大數(shù)據(jù)集群。案例一、某商業(yè)銀行構(gòu)建湖倉(cāng)一體金融大數(shù)據(jù)平臺(tái)協(xié)議 渠道地域 機(jī)構(gòu)客戶 事件產(chǎn)品 營(yíng)銷財(cái)務(wù)客戶資產(chǎn)數(shù)據(jù)倉(cāng)庫(kù)分行特色數(shù)據(jù)數(shù)據(jù)湖(全量數(shù)據(jù))綜合化業(yè)務(wù)數(shù)據(jù)貼源數(shù)據(jù)總行數(shù)據(jù)集團(tuán)信息庫(kù)檢索數(shù)據(jù)知識(shí)圖譜批處理引擎流處理引擎查詢引擎數(shù)據(jù)服務(wù)引擎層檢索引擎 批流一體引擎直連引擎異步查詢框架引擎數(shù)據(jù)服務(wù)租戶渠道層數(shù)據(jù)集市AI/BI卡風(fēng)控?fù)p益預(yù)查詢客戶畫(huà)像信用評(píng)分智能營(yíng)銷某商業(yè)銀行湖倉(cāng)一體大數(shù)據(jù)平臺(tái)架構(gòu)圖應(yīng)用服務(wù)租戶接入層分析師工作臺(tái)數(shù)據(jù)科學(xué)家工作臺(tái)績(jī)效考核風(fēng)險(xiǎn)計(jì)量會(huì)計(jì)核算分行特色業(yè)務(wù)……案例一、某商業(yè)銀行構(gòu)建湖倉(cāng)一體金融大數(shù)據(jù)平臺(tái)按需分配基于存算分離的架構(gòu)部署,有效的節(jié)約了存儲(chǔ)成本,真正做到資源的“按需分配”。降低投入提高效率將大數(shù)據(jù)、數(shù)據(jù)倉(cāng)庫(kù)等服務(wù)在湖倉(cāng)一體大數(shù)據(jù)平臺(tái)上部署,降低了建設(shè)、部署、運(yùn)維等環(huán)節(jié)的投入,體現(xiàn)在在多個(gè)租戶間平攤大數(shù)據(jù)中心的建設(shè)、運(yùn)維成本,提高大數(shù)據(jù)中心的使用效率。數(shù)據(jù)存得下用得好對(duì)于單租戶,省去了維護(hù)大數(shù)據(jù)、數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)帶來(lái)的龐大資金和人力投入,降低了建設(shè)、部署、運(yùn)維等環(huán)節(jié)的使用門檻,最終讓湖倉(cāng)一體的金融數(shù)據(jù)存得下、流得動(dòng)、用得好。湖倉(cāng)一體獲得收益案例二、某電商集團(tuán)構(gòu)建湖倉(cāng)一體AI計(jì)算中臺(tái)項(xiàng)目背景:某電商集團(tuán)的機(jī)器學(xué)習(xí)平臺(tái)團(tuán)隊(duì),主要圍繞集團(tuán)的電商和金融業(yè)務(wù),做推薦/排序、文本/圖像分類、反作弊/反欺詐、智能風(fēng)控等技術(shù)。當(dāng)前的業(yè)務(wù)體量和復(fù)雜性已然進(jìn)入到開(kāi)源“無(wú)人區(qū)”,開(kāi)源數(shù)據(jù)湖方案在性能和成本方面都無(wú)法滿足業(yè)務(wù)發(fā)展的要求。安排專人專項(xiàng)負(fù)責(zé)訓(xùn)練數(shù)據(jù)同步,工作量巨大訓(xùn)練數(shù)據(jù)體量大,導(dǎo)致耗時(shí)多,無(wú)法滿足實(shí)時(shí)訓(xùn)練的要求新寫SQL數(shù)據(jù)處理query,無(wú)法復(fù)用Hive

SQL原有query123主要痛點(diǎn)案例二、某電商集團(tuán)構(gòu)建湖倉(cāng)一體AI計(jì)算中臺(tái)湖倉(cāng)一體AI計(jì)算中臺(tái)解決方案為了解決客戶的痛點(diǎn)問(wèn)題,公司產(chǎn)品團(tuán)隊(duì)和客戶機(jī)器學(xué)習(xí)平臺(tái)團(tuán)隊(duì)聯(lián)合共建湖倉(cāng)一體新技術(shù),打通數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)湖,構(gòu)建了一個(gè)跨湖和倉(cāng)的AI計(jì)算中臺(tái)。數(shù)據(jù)倉(cāng)庫(kù)產(chǎn)品全面升級(jí)網(wǎng)絡(luò)基礎(chǔ)設(shè)施,打通用戶VPC私域,且依托Hive數(shù)據(jù)庫(kù)一鍵映射和強(qiáng)大完善的SQL/PAI引擎能力,將數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)湖技術(shù)體系無(wú)縫對(duì)接,實(shí)現(xiàn)湖和的倉(cāng)統(tǒng)一且智能化管理和調(diào)度。案例二、某電商集團(tuán)構(gòu)建湖倉(cāng)一體AI計(jì)算中臺(tái)湖倉(cāng)一體新架構(gòu),實(shí)現(xiàn)客戶價(jià)值如下:融合了數(shù)據(jù)湖和數(shù)據(jù)倉(cāng)庫(kù)的優(yōu)勢(shì),在靈活性和效率上找到最佳平衡??焖贅?gòu)建了一套統(tǒng)一的AI計(jì)算中臺(tái),極大提升該機(jī)器學(xué)習(xí)平臺(tái)團(tuán)隊(duì)的業(yè)務(wù)支撐能力。無(wú)須進(jìn)行數(shù)據(jù)搬遷和作業(yè)遷移,即可將一套作業(yè)無(wú)縫靈活調(diào)度在數(shù)倉(cāng)集群和數(shù)據(jù)湖集群中。SQL數(shù)據(jù)處理任務(wù)被廣泛運(yùn)行到數(shù)據(jù)倉(cāng)庫(kù)集群,性能有明顯提升。云原生的彈性資源和EMR集群資源形成互補(bǔ),兩套體系之間進(jìn)行資源的削峰填谷,不僅減少作業(yè)排隊(duì),且降低整體成本。案例三、某汽車集團(tuán)構(gòu)建湖倉(cāng)一體車聯(lián)網(wǎng)服務(wù)中臺(tái)實(shí)現(xiàn)目標(biāo)某汽車集團(tuán)市場(chǎng)全面推廣車聯(lián)網(wǎng)服務(wù),所有新上市的汽車都標(biāo)配了車載數(shù)據(jù)通信模塊(DCM)利用這一模塊,可以在用戶同意的情況下將車輛數(shù)據(jù)傳輸?shù)胶笈_(tái)的車聯(lián)網(wǎng)系統(tǒng),

經(jīng)過(guò)分析、

處理之后,

為客戶提供各種連接服務(wù)幫助駕駛員更安全地使用汽車、

依據(jù)駕駛行為數(shù)據(jù),

幫助安全的駕駛員獲得汽車保險(xiǎn)折扣等1. 如何注入、

存儲(chǔ)、

解碼、轉(zhuǎn)換、分析數(shù)百萬(wàn)輛車實(shí)時(shí)產(chǎn)生的海量數(shù)據(jù)。3.

為了應(yīng)對(duì)這一挑戰(zhàn),

集團(tuán)需要建立可以高效存儲(chǔ)數(shù)據(jù)的湖倉(cāng)一體車聯(lián)網(wǎng)服務(wù)中臺(tái)2.

數(shù)百萬(wàn)輛聯(lián)網(wǎng)汽車每時(shí)每刻所產(chǎn)生的數(shù)據(jù)量之大是令人難以置信的面臨挑戰(zhàn)案例三、某汽車集團(tuán)構(gòu)建湖倉(cāng)一體車聯(lián)網(wǎng)服務(wù)中臺(tái)湖倉(cāng)一體車聯(lián)網(wǎng)服務(wù)中臺(tái)解決方案集團(tuán)搭建車聯(lián)網(wǎng)服務(wù)中臺(tái),

利用湖倉(cāng)一體平臺(tái)的強(qiáng)大功能,

采用無(wú)服務(wù)器架構(gòu),

僅用

7

個(gè)月的時(shí)間就完成了整個(gè)系統(tǒng)的開(kāi)發(fā)、

部署和上線。在技術(shù)上,

采用無(wú)服務(wù)器架構(gòu)、

能快速進(jìn)入市場(chǎng)、

低延時(shí)、

實(shí)時(shí)接收和存儲(chǔ)

PB

級(jí)的數(shù)據(jù)(包括關(guān)系和非關(guān)系型數(shù)據(jù))

具有分析和預(yù)測(cè)功能。湖倉(cāng)一體架構(gòu)作為車聯(lián)網(wǎng)服務(wù)中臺(tái)的核心,

關(guān)鍵功能包括數(shù)據(jù)注入、

解碼、

轉(zhuǎn)換和分析。

客戶在不同專用數(shù)據(jù)存儲(chǔ)之間某著名企業(yè)數(shù)據(jù),

并使用這些數(shù)據(jù)進(jìn)行分析和預(yù)測(cè)。案例三、某汽車集團(tuán)構(gòu)建湖倉(cāng)一體車聯(lián)網(wǎng)服務(wù)中臺(tái)客戶收益:帶來(lái)的收益包括節(jié)約成本、

實(shí)現(xiàn)大規(guī)模數(shù)據(jù)某著名企業(yè)以及其便利性。這個(gè)項(xiàng)目需要處理海量的數(shù)據(jù),

利用湖倉(cāng)一體平臺(tái)的功能建立起成本優(yōu)化模型,客戶極大地降低了云資源的使用成本。采用無(wú)服務(wù)架構(gòu),實(shí)現(xiàn)了架構(gòu)的自動(dòng)靈活擴(kuò)展,

在每日的出行高峰期可以自動(dòng)擴(kuò)展?jié)M足系統(tǒng)的性能要求,在空閑時(shí)段則縮減規(guī)模,

降低成本。運(yùn)維成本也大幅度降低,

構(gòu)建的業(yè)務(wù)系統(tǒng)實(shí)現(xiàn)了高度自動(dòng)化運(yùn)維,

極大地節(jié)省了人力成本。

在業(yè)務(wù)層面,穩(wěn)定、可靠、

高效的車聯(lián)網(wǎng)服務(wù)系統(tǒng)也有助于公司為用戶提供更好的服務(wù)。大數(shù)據(jù)平臺(tái)架構(gòu)演進(jìn)1

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論