




已閱讀5頁,還剩17頁未讀, 繼續(xù)免費閱讀
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
_ -可編輯修改- 大數(shù)據(jù)處理技術(shù)參考架構(gòu) 二一五年十二月 _ -可編輯修改- 目目 錄錄 1.背景背景.1 2.技技術(shù)術(shù)目目標(biāo)標(biāo).2 3.技技術(shù)術(shù)要求要求.2 4.大數(shù)據(jù)大數(shù)據(jù)處處理理業(yè)務(wù)場業(yè)務(wù)場景景.3 5.大數(shù)據(jù)大數(shù)據(jù)處處理技理技術(shù)對術(shù)對比比.4 5.1.MPP 與 HADOOP&SPARK技術(shù)對比.4 5.2.HADOOP&SPARK技術(shù)優(yōu)勢.6 5.3.HADOOP框架對比.6 5.4.HADOOP使用情況.7 5.5.HADOOP血緣關(guān)系.8 5.6.行業(yè)大數(shù)據(jù)應(yīng)用場景對比分析.12 6.大數(shù)據(jù)大數(shù)據(jù)處處理參考架構(gòu)理參考架構(gòu).13 6.1.參考架構(gòu).13 6.2.與 JAVAEE 體系對比.14 6.3.參考架構(gòu)運行狀態(tài).15 7.總結(jié)總結(jié)與思考與思考.16 附附錄錄:名:名詞詞解解釋釋.18 _ -可編輯修改- 1. 背景背景 隨著大數(shù)據(jù)時代的到來,數(shù)據(jù)由海量拓展為多樣,在注重計算速度的同時更 加關(guān)注挖掘有價值的數(shù)據(jù)。以 IOE 體系為核心的數(shù)據(jù)計算和存儲方式越來越不 能滿足目前大數(shù)據(jù)處理在性能和成本上的綜合要求。為適應(yīng)對大數(shù)據(jù)處理的要 求,眾多的分布式計算平臺隨之興起,在對眾多分布式計算平臺進(jìn)行權(quán)衡的同時, 增強(qiáng)自主創(chuàng)新能力,以滿足人民銀行對信息技術(shù)安全可控的要求。 在核心應(yīng)用自主研發(fā)、核心知識自主掌控的氛圍下,保障大數(shù)據(jù)技術(shù)達(dá)到靈 活可用的目標(biāo),確保數(shù)據(jù)和信息的有效、及時,確保信息系統(tǒng)的可靠、靈活。同時, 充分的利用開源產(chǎn)品透明公開的關(guān)鍵信息,做到對技術(shù)細(xì)節(jié)的掌控和驗證,開源 產(chǎn)品的特點也更能夠激發(fā)開發(fā)者的熱情并推進(jìn)技術(shù)的快速變革。 在“互聯(lián)網(wǎng)+”的戰(zhàn)略布局下,當(dāng)利用信息通信技術(shù)把互聯(lián)網(wǎng)和包括金融行業(yè) 在內(nèi)的相關(guān)行業(yè)結(jié)合起來時,能夠更加合理和充分的利用大數(shù)據(jù)技術(shù)促進(jìn)互聯(lián) 網(wǎng)金融的健康發(fā)展。當(dāng)前互聯(lián)網(wǎng)金融的格局中,由傳統(tǒng)金融機(jī)構(gòu)和非金融機(jī)構(gòu)組 成。傳統(tǒng)金融機(jī)構(gòu)的發(fā)展方向主要為傳統(tǒng)金融業(yè)務(wù)的互聯(lián)網(wǎng)創(chuàng)新以及電商化創(chuàng) 新、手機(jī) APP 服務(wù)等;非金融機(jī)構(gòu)的發(fā)展方向則主要是指利用互聯(lián)網(wǎng)技術(shù)進(jìn)行金 融運作的電子商務(wù)企業(yè)、P2P 模式的網(wǎng)絡(luò)借貸平臺,眾籌模式的網(wǎng)絡(luò)投資平臺或 掌上理財服務(wù),以及第三方支付平臺等。在金融行業(yè)新興業(yè)態(tài)下,為促進(jìn)互聯(lián)網(wǎng) 金融的健康發(fā)展,為全面提升互聯(lián)網(wǎng)金融服務(wù)能力和普惠水平,為有效防范互聯(lián) 網(wǎng)金融風(fēng)險及其外溢效應(yīng)而提供技術(shù)支撐。 在金融領(lǐng)域,新生業(yè)態(tài)層出不窮,金融機(jī)構(gòu)日益多樣化,金融資產(chǎn)的流動性 快速上升,金融體系的關(guān)聯(lián)度、復(fù)雜度大幅提高。金融業(yè)的快速發(fā)展和創(chuàng)新,使 貨幣政策操作環(huán)境、傳導(dǎo)渠道發(fā)生重大變化。在數(shù)據(jù)的處理分析上,對原有的宏 觀審慎分析框架及其有效性、準(zhǔn)確性提出了挑戰(zhàn)。 _ -可編輯修改- 2. 技技術(shù)術(shù)目目標(biāo)標(biāo) 獲得最優(yōu)系統(tǒng)價值,滿足大數(shù)據(jù)的處理性能,節(jié)約系統(tǒng)建設(shè)成本。 充分利用開源產(chǎn)品,做到對技術(shù)細(xì)節(jié)的掌控和驗證,以保障大數(shù)據(jù)技術(shù) 達(dá)到靈活可用。 增強(qiáng)自主創(chuàng)新能力,滿足人民銀行對信息技術(shù)安全可控的要求。 有效提供技術(shù)支撐,適應(yīng)金融行業(yè)新興業(yè)態(tài)下對大數(shù)據(jù)技術(shù)的需要。 3. 技技術(shù)術(shù)要求要求 在滿足海量數(shù)據(jù)高效處理的同時,對用戶的訪問能夠保持較高的實時性,快 速響應(yīng)用戶的請求。 采用的大數(shù)據(jù)技術(shù)架構(gòu)能夠支持水平擴(kuò)展(Scale-out),適應(yīng)未來五年對大數(shù) 據(jù)存儲和處理的需要。 采用的大數(shù)據(jù)技術(shù)架構(gòu)能夠支持故障的檢測和自動快速恢復(fù),確保系統(tǒng)的 高可用性。 在滿足大數(shù)據(jù)業(yè)務(wù)場景性能要求的同時,采用更加經(jīng)濟(jì)的大數(shù)據(jù)技術(shù)解決 方案。 _ -可編輯修改- 4. 大數(shù)據(jù)大數(shù)據(jù)處處理理業(yè)務(wù)場業(yè)務(wù)場景景 以統(tǒng)計分析類的業(yè)務(wù)場景為例,針對大數(shù)據(jù)的處理主要經(jīng)過采集、存儲、校 驗、審核、匯總、計算、分析挖掘等過程,在數(shù)據(jù)粒度上,既要包逐筆的標(biāo)準(zhǔn)化源 數(shù)據(jù),還要包括不同層次的總量指標(biāo)數(shù)據(jù),從而實現(xiàn)對統(tǒng)計體系業(yè)務(wù)的全覆蓋、 無遺漏。統(tǒng)計分析類大數(shù)據(jù)處理、報表展現(xiàn)和信息發(fā)布的典型流程如下圖所示: 統(tǒng)計分析類業(yè)務(wù)的特點主要包括: 在每個處理環(huán)節(jié)中,均能夠為業(yè)務(wù)操作員提供實時的業(yè)務(wù)處理情況或處 理結(jié)果的查詢。 校驗、匯總、計算等環(huán)節(jié)中,所涉及到的運算規(guī)則均定義在數(shù)據(jù)庫或配置 文件中,在執(zhí)行處理之前,需要獲取運算規(guī)則。 在報表數(shù)據(jù)生成或信息發(fā)布環(huán)節(jié),能夠提供逐筆數(shù)據(jù)、指標(biāo)數(shù)據(jù)、匯總數(shù) 據(jù)和報表數(shù)據(jù)的實時查詢,并能夠通過 BI 工具訪問以上數(shù)據(jù)。 統(tǒng)計類的數(shù)據(jù)查詢多為綜合查詢,條件通??捎捎脩粼诓樵兦岸ㄖ?,有 查詢響應(yīng)實時性、查詢條件多樣性、查詢多表關(guān)聯(lián)性的特點。 能夠靈活的通過數(shù)據(jù)挖掘技術(shù)對數(shù)據(jù)進(jìn)行價值分析,例如:R 語言。 能夠靈活的使用數(shù)據(jù)可視化技術(shù)對數(shù)據(jù)進(jìn)行互動展現(xiàn),例如:EChars。 統(tǒng)計系統(tǒng)業(yè)務(wù)量以每月增量 40 億筆進(jìn)行估算(以每筆 1KB 估算,約 4TB/月 增量數(shù)據(jù);每筆數(shù)據(jù)平均包含 20 個字段),現(xiàn)有存量數(shù)據(jù)大約在 20TB。 增量數(shù) 據(jù)在當(dāng)月 5-8 日進(jìn)行校驗、審核等處理,數(shù)據(jù)處理過程希望在 T+0 完成。實時查 詢業(yè)務(wù)為用戶隨機(jī)進(jìn)行。在使用數(shù)據(jù)進(jìn)行分布式計算時,一般情況當(dāng)月 4TB 的數(shù) 據(jù)全部參與計算。比較復(fù)雜場景之一是邏輯校驗部分的算法,按不同的規(guī)則,有 的規(guī)則會使用到當(dāng)月的全部增量數(shù)據(jù)參與校驗,有的規(guī)則會按金融機(jī)構(gòu)維度使 用當(dāng)前機(jī)構(gòu)的歷史數(shù)據(jù)參與校驗。 _ -可編輯修改- 5. 大數(shù)據(jù)大數(shù)據(jù)處處理技理技術(shù)對術(shù)對比比 目前對海量數(shù)據(jù)進(jìn)行分布式處理的技術(shù)主要分為兩類: MPP(Massively Parallel Processing)大規(guī)模并行處理技術(shù); MPP 技術(shù)大多用于數(shù)據(jù)倉庫領(lǐng)域,是將任務(wù)并行的分散到多個服務(wù)器節(jié)點 上,在每個節(jié)點上計算完成后,將各自部分的結(jié)果匯總在一起得到最終的結(jié)果的 一項技術(shù),典型的代表例如:Teradata,HP Vertica,EMC Greenplum,GBase,Oracle Exadata 等。 Apache Hadoop、Spark 技術(shù)。 Hadoop&Spark 是由 Apache 基金會所開發(fā)的分布式系統(tǒng)基礎(chǔ)架構(gòu),它所解 決的核心問題是,通過部署在低廉的硬件上的、可以協(xié)同工作的軟件組件,來完 成分布式數(shù)據(jù)存儲、高吞吐量數(shù)據(jù)訪問、以及高負(fù)載的分布式計算。近些年在眾 多行業(yè)都得到廣泛應(yīng)用。 5.1. MPP 與與 Hadoop&Spark 技技術(shù)對術(shù)對比比 集群規(guī)模上,MPP 技術(shù)支持近百個節(jié)點(中國大陸很少有 100+節(jié)點的案例)。 Hadoop&Spark 技術(shù)支持幾千個節(jié)點。 擴(kuò)容影響上,MPP 技術(shù)擴(kuò)容通常導(dǎo)致停機(jī)、服務(wù)中斷;數(shù)據(jù)需要重新分布, 性能嚴(yán)重下降。Hadoop&Spark 技術(shù)擴(kuò)容無需停機(jī)、服務(wù)不中斷;數(shù)據(jù)無需重新分 布,新數(shù)據(jù)自動被分配到新的節(jié)點中,性能沒有影響。 數(shù)據(jù)分布方式上,MPP 技術(shù)以預(yù)定義數(shù)據(jù)分布策略,按列進(jìn)行散列或輪詢分 布;真實數(shù)據(jù)通常有傾斜,將導(dǎo)致數(shù)據(jù)不均勻分布,對計算效率影響較大。 Hadoop&Spark 技術(shù)中,數(shù)據(jù)按預(yù)配置的塊大小自動均勻分布,通過 blockmap 映 射表查詢數(shù)據(jù)位置;數(shù)據(jù)分布均勻、擴(kuò)容無需停機(jī)。 處理數(shù)據(jù)量上,MPP 技術(shù)在數(shù)十 TB 級別。Hadoop&Spark 技術(shù)在 PB 級別。 容錯能力上,MPP 技術(shù)不存放中間結(jié)果,出錯時需要重新執(zhí)行整個任務(wù)。 Hadoop&Spark 技術(shù)存放中間結(jié)果,出錯時只需要重新運行出錯的子任務(wù) 并發(fā)能力上,MPP 技術(shù)多用于分析型應(yīng)用場景,數(shù)據(jù)裝載時建立索引較慢; 通常不超過數(shù)百個并發(fā)。Hadoop&Spark 技術(shù)數(shù)據(jù)裝載快,采用公平調(diào)度/配 額調(diào)度;可支持上億用戶并發(fā)數(shù)據(jù)插入、查詢、檢索。 數(shù)據(jù)存儲對象,MPP 技術(shù)支持結(jié)構(gòu)化數(shù)據(jù),Hadoop&Spark 技術(shù)支持結(jié)構(gòu)化、 半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)。 _ -可編輯修改- 應(yīng)用運算邏輯實現(xiàn)方式上,MPP 技術(shù) SQL 語言,Hadoop&Spark 技術(shù)支持 SQL2003、部分 PL/SQL、R、Java、Scala 等。 數(shù)據(jù)訪問接口,MPP 技術(shù)支持 JDBC、ODBC,Hadoop&Spark 技術(shù)支持 JDBC、ODBC、R 語言接口等。 MPPHadoop&Spark 集群集群規(guī)規(guī)模模近百個節(jié)點(中國大陸很少 有 100+節(jié)點的案例) 幾千個節(jié)點 動態(tài)擴(kuò)動態(tài)擴(kuò)展展 運算能力運算能力 擴(kuò)容通常導(dǎo)致停機(jī)、服務(wù)中 斷; 數(shù)據(jù)需要重新分布,性能嚴(yán) 重下降。 擴(kuò)容無需停機(jī)、服務(wù)不中斷; 擴(kuò)容時數(shù)據(jù)無需重新分布,新數(shù)據(jù)自動 被分配到新的節(jié)點中,性能沒有影響。 數(shù)據(jù)分布數(shù)據(jù)分布 方式方式 數(shù)據(jù)以預(yù)定義的分布策略, 按列進(jìn)行散列或輪詢分布; 真實數(shù)據(jù)通常有傾斜,將導(dǎo) 致數(shù)據(jù)不均勻分布, 對計算效率影響較大。 數(shù)據(jù)以預(yù)定義的塊大小自動均勻分 布, 通過 blockmap 映射表查詢數(shù)據(jù)位 置; 數(shù)據(jù)分布均勻、擴(kuò)容無需停機(jī)。 處處理數(shù)據(jù)理數(shù)據(jù) 量量 數(shù)十 TBPB 容容錯錯能力能力不存放中間結(jié)果,出錯時需 要重新執(zhí)行整個任務(wù) 存放中間結(jié)果,出錯時只需要重新 運行出錯的子任務(wù) 并并發(fā)發(fā)能力能力用于分析型應(yīng)用場景,數(shù)據(jù) 裝載時建立索引較慢; 通常不超過數(shù)百個并發(fā)。 數(shù)據(jù)裝載快,采用公平調(diào)度/配額調(diào) 度; 可支持上億用戶并發(fā)數(shù)據(jù)插入、查詢、 檢索。 數(shù)據(jù)存數(shù)據(jù)存儲儲 對對象象 結(jié)構(gòu)化數(shù)據(jù)結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù) 應(yīng)應(yīng)用運算用運算 邏輯邏輯 實現(xiàn)實現(xiàn)方式方式 SQL 語言SQL2003、部分 PL/SQL、 R、Java、Scala 等 _ -可編輯修改- MPPHadoop&Spark 數(shù)據(jù)數(shù)據(jù)訪問訪問 接口接口 JDBC、ODBCJDBC、ODBC、R 語言接口等 索引索引支持支持(rowkey 索引、二維索引、全文 關(guān)鍵字索引) 5.2. Hadoop&Spark 技技術(shù)優(yōu)勢術(shù)優(yōu)勢 存儲、處理、分析 PB 級別的結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)。 低成本運算能力,使用低成本的存儲和服務(wù)器構(gòu)建,僅花費 40%左右價格, 便可以達(dá)到甚至超越 IOE 架構(gòu)的性能。 動態(tài)擴(kuò)展運算能力,擴(kuò)容無需停機(jī)、服務(wù)不中斷,數(shù)據(jù)無需重新分布,新數(shù) 據(jù)自動被分配到新的節(jié)點中,性能沒有影響。 高擴(kuò)展能力,集群規(guī)??蓴U(kuò)展至幾千個節(jié)點 。 高容錯能力,數(shù)據(jù)處理過程中存放中間結(jié)果,出錯時只需要重新運行出錯的 子任務(wù)。 應(yīng)用運算邏輯,支持 Java、R 語言、Scala 、SQL2003 等。 5.3. Hadoop 框架框架對對比比 Apache HadoopCloudera CDHHortonworks HDP 開源程度開源程度完全開源部分開源 (包含免費版/企業(yè)版) 完全開源 (包含免費版/企業(yè) 版) 技技術(shù)術(shù)支持支持無每年按節(jié)點數(shù)量收費每年按節(jié)點數(shù)量 收費 集群部署集群部署復(fù)雜容易容易 _ -可編輯修改- 51% 24% 25% 開開源源版版本本發(fā)發(fā)行行版版(免免費費)發(fā)發(fā)行行版版(付付費費) Apache HadoopCloudera CDHHortonworks HDP 集群集群監(jiān)監(jiān)控控較易容易容易 集群管理集群管理較易容易容易 專專有代有代碼碼依依賴賴無有 (如:管理工具) 無 主要特點主要特點Apache Hadoop 已經(jīng)形成生態(tài)系統(tǒng), 除了包含 HDFS、YARN、Map Reduce,還包含了很 多其他 Apache 項目, 如: HBase、Hive、ZooKe eper、Ambari、Sqoop 等等,使用者可以根 據(jù)需要自由組合。 通過添加專有代碼實現(xiàn) 的 Cloudera Manager 完 成集群的部署和管理, 并對集群的節(jié)點及服務(wù) 進(jìn)行實時監(jiān)控。 所有解決方案都 通過 Apache Software Foundation 以項目形式開發(fā), HDP 內(nèi)無需專用擴(kuò) 展。避免隨著擴(kuò)展 而背離主干,以及 隨之而來的兼容性 問題。 5.4. Hadoop 使用情況使用情況 根據(jù)咨詢機(jī)構(gòu) Wikibon 在 2014 年進(jìn)行的一項調(diào)查,部署 Hadoop 的機(jī)構(gòu)中, 僅有 25%是付費用戶,而有 51%是基于 Hadoop 的開源版本自行開發(fā),還有 24% 的用戶則是使用 Cloudera、Hortonworks 等 Hadoop 開發(fā)商推出的免費版本。 _ -可編輯修改- 5.5.Hadoop 血血緣緣關(guān)系關(guān)系 IBM BigInsights 是基于 Apache Hadoop 框架的存儲,管理和分析 Internet 級 別數(shù)據(jù)量的半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的方案,具備企業(yè)級管理、工作流管理、安 全管理、可視化挖掘與展現(xiàn)等能力,能與現(xiàn)有基礎(chǔ)設(shè)施和大數(shù)據(jù)流計算技術(shù)集成。 產(chǎn)品設(shè)計思路是基于 Apache Hadoop 框架,在保持完全 100% Apache Hadoop 兼容的情況下,加入 IBM 的項目和研究開發(fā)的分析能力。整體架構(gòu)如下圖所示: _ -可編輯修改- EMC Pivotal HD 是 EMC 公司進(jìn)行自主研發(fā)的 Hadoop 商業(yè)化產(chǎn)品,在 2013 年 2 月獨立推出的商業(yè)發(fā)行版(2013 年以前 EMC 和 MapR 公司在 Hadoop 領(lǐng)域為合作伙伴)。Pivotal HD 產(chǎn)品包括 Hadoop 2.0 的 MapReduce 和 HDFS,可 以利用 Hive、HBase、Pig 開發(fā)語言、Yarn 資源管理、Mahout 分析工具和 Zookeeper 工具等。還包括 Hardware Virtual Extensions(HVE)組件,它可以讓 Hadoop 集群知道自己是建立在虛擬機(jī)還是物理服務(wù)器上。整體架構(gòu)如下圖所示: MapR Hadoop 是 MapR Technologies 公司于 2011 年正式發(fā)布的產(chǎn)品,目標(biāo) 是使 Hadoop 變?yōu)橐粋€速度更快、可靠性更高、更易于管理、使用更加方便的分 布式計算服務(wù)和存儲平臺,同時性能也不斷提高。它將極大的擴(kuò)大了 Hadoop 的 使用范圍和方式。它包含了開源社區(qū)許多流行的工具和功能,例如 Hbase、Hive。 它還 100%與 Apache Hadoop 的 API 兼容。目前有 M3(免費版)和 M5(收費版)兩 個版本。整體架構(gòu)如下圖所示: _ -可編輯修改- 天云天云趨勢趨勢科技科技 Hadoop 解決方案主要基于 Hortonworks 發(fā)行版,同時也提供 了對 Cloudera Hadoop 發(fā)行版的支持。整體架構(gòu)如下圖所示: 音智達(dá)音智達(dá) Hadoop 解決方案基于 Cloudera Hadoop 發(fā)行版。整體架構(gòu)如下圖所 示: 浪潮浪潮 Hadoop 解決方案基于 Intel Hadoop 發(fā)行版。整體架構(gòu)如下圖所示: _ -可編輯修改- 華為華為 FusionInsight Hadoop 是完全基于 Apache Hadoop 組件構(gòu)建的 Hadoop 產(chǎn)品,在 Apache Hadoop 版本的基礎(chǔ)上對 HBase、HDFS 和 MapReduce 等組件增 加了 HA、查詢和分析功能,進(jìn)行了性能優(yōu)化,并及時回饋 Hadoop 社區(qū),保持版 本同步,接口與社區(qū)版本完全一致。整體架構(gòu)如下圖所示: 星星環(huán)環(huán)科技科技 Transwarp Data Hub( (TDH) )基于 Apache Hadoop 組件構(gòu)建,并在 此基礎(chǔ)之上研發(fā)了交互式 SQL 分析引擎 Inceptor、實時 NoSQL 數(shù)據(jù)庫 Hyperbase 和 Transwarp Manager 等引擎。同時支持 R 語言數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)、 實時流處理、全文搜索和圖計算和系統(tǒng)安裝及集群配置功能。整體架構(gòu)如下圖所 示: _ -可編輯修改- 5.6.行行業(yè)業(yè)大數(shù)據(jù)大數(shù)據(jù)應(yīng)應(yīng)用用場場景景對對比分析比分析 基于基于 MPP 的數(shù)據(jù)的數(shù)據(jù)倉庫倉庫Hadoop & Spark阿里云阿里云 工商工商銀銀行行Teradata信息庫 建建設(shè)銀設(shè)銀行行Teradata 交通交通銀銀行行Teradata 廣廣發(fā)銀發(fā)銀行行Oracle 中國中國銀聯(lián)銀聯(lián) 風(fēng)險控制與交易查詢 (Cloudera) 實時查詢采用 Hadoop-HBase 民生民生銀銀行行 大數(shù)據(jù)分析平臺(星環(huán)科技) 實時查詢采用基于 Hadoop-HBase 的星 環(huán) Hyperbase 恒豐恒豐銀銀行行 數(shù)據(jù)倉庫(星環(huán)科技) 實時查詢采用基于 Hadoop-HBase 的星 環(huán) Hyperbase 北京北京銀銀行行 歷史明細(xì)數(shù)據(jù)查詢、司法查詢 (東方國信) 上海上海銀銀行行 核心系統(tǒng)及 數(shù)據(jù)分析 天弘基金天弘基金 核心系統(tǒng)及 數(shù)據(jù)分析 眾安保眾安保險險 核心系統(tǒng)及 數(shù)據(jù)分析 新新華華保保險險精準(zhǔn)營銷分析(Cloudera) 中國中國聯(lián)聯(lián)通通 通話及短信息記錄輿情分析 (東方國信) 美美團(tuán)團(tuán)網(wǎng)網(wǎng) 大數(shù)據(jù)分析平臺(Apache) 實時查詢采用 Hadoop-HBase 和 MySQL _ -可編輯修改- 6. 大數(shù)據(jù)大數(shù)據(jù)處處理參考架構(gòu)理參考架構(gòu) 6.1. 參考架構(gòu)參考架構(gòu) 結(jié)合統(tǒng)計分析 Web 應(yīng)用的數(shù)據(jù)處理典型場景,在 Hadoop&Spark 開源框架 中,分布式文件系統(tǒng) HDFS、資源調(diào)度引擎 YARN、內(nèi)存計算引擎 Spark、挖掘分 析引擎 SparkR、分布式遷移引擎 Sqoop 等較為符合統(tǒng)計類應(yīng)用場景。 分布式文件系統(tǒng) HDFS,是 Hadoop 體系中數(shù)據(jù)存儲管理的基礎(chǔ),也是高度 容錯的系統(tǒng),能檢測和應(yīng)對硬件故障,用于在低成本的通用硬件上運行。資源調(diào) 度引擎 YARN,是通用資源管理系統(tǒng),可以為上層應(yīng)用提供統(tǒng)一的資源管理和調(diào) 度。計算引擎 MapReduce,用以進(jìn)行大數(shù)據(jù)量的計算。Hadoop 的 MapReduce 與 Common、HDFS 一起,構(gòu)成了 Hadoop 發(fā)展初期的三個組件。分布式數(shù)據(jù)倉庫 Hive 是建立在 Hadoop 基礎(chǔ)上的數(shù)據(jù)倉庫架構(gòu),為數(shù)據(jù)倉庫的管理提供的主要功 能包括:數(shù)據(jù) ETL 工具、數(shù)據(jù)存儲管理和大型數(shù)據(jù)集的查詢和分析能力。分布式 協(xié)作服務(wù) ZooKeeper,提供了統(tǒng)一命名服務(wù)、狀態(tài)同步服務(wù)、集群管理、分布式應(yīng) 用配置項的管理等。ZooKeeper 通過封裝好復(fù)雜、易出錯的關(guān)鍵服務(wù),將簡單易 用的接口和性能高效、功能穩(wěn)定的服務(wù)提供給用戶。分布式遷移引擎 Sqoop 主要 作用是在結(jié)構(gòu)化數(shù)據(jù)存儲與 Hadoop 之間進(jìn)行數(shù)據(jù)交換。Sqoop 可以將一個關(guān)系 型數(shù)據(jù)庫(如:MySQL、DB2 等)中的數(shù)據(jù)導(dǎo)入 Hadoop 的 HDFS、Hive 中,也可以 將 HDFS、Hive 中的數(shù)據(jù)導(dǎo)入關(guān)系型數(shù)據(jù)庫中。內(nèi)存計算引擎 Spark 是與 Hadoop 相似的開源集群計算環(huán)境,Spark 啟用了內(nèi)存分布數(shù)據(jù)集,基于內(nèi)存進(jìn)行分布式 計算,除了能夠提供交互式查詢外,還可以優(yōu)化迭代工作負(fù)載。配置管理監(jiān)控服 務(wù) Ambari 是基于 Web 的工具,用于配置、管理和監(jiān)視 Hadoop 集群,并支持 HDFS、MapReduce、Hive、ZooKeeper、Sqoop 等框架。Ambari 還提供了集群狀況 儀表盤,以及查看 MapReduce、Hive 應(yīng)用程序的能力,以友好的用戶界面對它們 的性能進(jìn)行診斷。 下圖基于 Apache Hadoop 的開源框架,給出了大數(shù)據(jù)處理的參考架構(gòu)。 _ -可編輯修改- 統(tǒng)計類系統(tǒng)數(shù)據(jù)處理流程主要包括以下步驟:采集(解壓報文等文件操作)- 校驗(每筆數(shù)據(jù)各字段的格式校驗、各筆數(shù)據(jù)之間的邏輯關(guān)系校驗等)-審核(與歷 史數(shù)據(jù)的比對,同期/上期;或執(zhí)行自定義審核 SQL、算法等)-匯總計算(指標(biāo)計算、 數(shù)據(jù)匯總等)-查詢-數(shù)據(jù)分析-報表-信息發(fā)布。結(jié)合統(tǒng)計類系統(tǒng)的處理流程,對于 現(xiàn)有系統(tǒng)的數(shù)據(jù),可以通過分布式遷移引擎 Sqoop 將數(shù)據(jù)同步至分布式文件系 統(tǒng) HDFS 中加以分析利用。對于采集數(shù)據(jù)的校驗審核、匯總計算等應(yīng)用功能,可 以通過分布式數(shù)據(jù)倉庫 Hive 或直接內(nèi)存計算引擎 Spark 進(jìn)行異步計算和處理。 對于數(shù)據(jù)處理過程中的狀態(tài)跟蹤和監(jiān)控以及簡要的信息發(fā)布,可以通過分布式 數(shù)據(jù)庫 HBase 直接從 HDFS 中獲取相應(yīng)的信息。 6.2. 與與 JavaEE 體系體系對對比比 通過下圖的對比不難看出,大數(shù)據(jù)處理參考架構(gòu)中的各類引擎主要是拓展 JavaEE 體系中業(yè)務(wù)邏輯層與數(shù)據(jù)持久層對大數(shù)據(jù)的支撐。 6.3. 參考架構(gòu)運行狀參考架構(gòu)運行狀態(tài)態(tài) 通過下圖的能夠看出,參考架構(gòu)在運行時,各引擎在主機(jī)節(jié)點中均會有對應(yīng) 的進(jìn)程,YARN 的集群在運行時提供了資源的調(diào)度和管理,ZooKeeper 的集群在 運行時為各引擎提供了高可用的保障。Spark 引擎中的進(jìn)程分為 Master 和 Worker,當(dāng)節(jié)點故障時,由協(xié)作服務(wù) ZooKeeper 進(jìn)行 Master 切換,保障 Spark 的 _ -可編輯修改- 持續(xù)可用。 _ -可編輯修改- 7. 總結(jié)總結(jié)與思考與思考 大數(shù)據(jù)是指不用隨機(jī)分析法(如:抽樣調(diào)查)這樣的捷徑,而采用所有數(shù)據(jù)進(jìn) 行分析處理。大數(shù)據(jù)的主要特點包括:海量的、高增長率的(Volume),數(shù)據(jù)處理 模式的高效性(Velocity),數(shù)據(jù)來源、種類的多樣化(Variety),待探勘的數(shù)據(jù)價值 (Value)。 從業(yè)務(wù)角度來看,在數(shù)據(jù)來源和種類多樣化的環(huán)境中為了能夠更加深入的 對數(shù)據(jù)價值進(jìn)行探勘,還需要注重以下幾方面: 1. 數(shù)據(jù)來源的準(zhǔn)確。大數(shù)據(jù)應(yīng)用的核心是挖掘數(shù)據(jù)價值,而挖掘數(shù)據(jù)價值 的前提是數(shù)據(jù)來源的準(zhǔn)確性。沒有準(zhǔn)確的數(shù)據(jù)來源,很難得到有價值的結(jié)果。 2. 數(shù)據(jù)質(zhì)量的持久。為了充分挖掘大數(shù)據(jù)的價值,業(yè)務(wù)系統(tǒng)必須持久的保 證數(shù)據(jù)質(zhì)量。高質(zhì)量的數(shù)據(jù)不僅僅體現(xiàn)在質(zhì)量管控,更要有持續(xù)的治理。業(yè)務(wù)系 統(tǒng)中需要有完善的數(shù)據(jù)質(zhì)量管理流程,能夠作用于數(shù)據(jù)生命周期的不同階段。 3. 數(shù)據(jù)標(biāo)準(zhǔn)的一致。大數(shù)據(jù)在挖掘分析之前需要先將數(shù)據(jù)標(biāo)準(zhǔn)化,利用標(biāo) 準(zhǔn)化后的數(shù)據(jù)進(jìn)行分析。單個業(yè)務(wù)系統(tǒng)內(nèi)部的數(shù)據(jù)標(biāo)準(zhǔn)化主要體現(xiàn)在數(shù)據(jù)無量 綱化處理,即:解決數(shù)據(jù)的可比性(如:指標(biāo)數(shù)據(jù)的定性轉(zhuǎn)定量處理)。多個業(yè)務(wù)系 統(tǒng)之間的數(shù)據(jù)標(biāo)準(zhǔn)化主要體現(xiàn)在數(shù)據(jù)的公共維度所遵循標(biāo)準(zhǔn)的一致性上。業(yè)務(wù) 系統(tǒng)在規(guī)劃階段,必須充分使用人民銀行公共代碼規(guī)范,將業(yè)務(wù)數(shù)據(jù)的公共維度 與規(guī)范統(tǒng)一,并遵循人民銀行信息技術(shù)標(biāo)準(zhǔn)體系。 4. 數(shù)據(jù)價值的探索。在大數(shù)據(jù)時代中業(yè)務(wù)系統(tǒng)已經(jīng)逐漸由功能是價值轉(zhuǎn)變 為數(shù)據(jù)是價值,對大數(shù)據(jù)價值的挖掘是探索性的。大數(shù)據(jù)的出現(xiàn)填補(bǔ)了無數(shù)的空 白,面對海量的、高增長率的、種類多樣化的大數(shù)據(jù)僅采用傳統(tǒng)的數(shù)據(jù)分析方法 是不夠的,需要采用大數(shù)據(jù)的思維模式,例如:由傳統(tǒng)的因果思維轉(zhuǎn)變?yōu)橄嚓P(guān)思 維,深入的探索數(shù)據(jù)的關(guān)聯(lián)性。從而能夠更加有效的進(jìn)行預(yù)測分析、輔助決策, 為央行履職提供更強(qiáng)有力的支撐。 面對海量、高增長率、多樣化信息資產(chǎn)的諸多特點,在技術(shù)上我們需要引入 新的處理模式以具有更強(qiáng)的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力。 結(jié)合統(tǒng)計分析類業(yè)務(wù)在數(shù)據(jù)處理和數(shù)據(jù)展現(xiàn)環(huán)節(jié)的特點進(jìn)行分析以及對原 型系統(tǒng)的測試情況,數(shù)據(jù)處理環(huán)節(jié)采用 Hadoop&Spark 技術(shù)較為適宜,主要包括: 采集(解壓報文、每筆數(shù)據(jù)各字段的格式校驗等文件操作)、校驗(各字段的合規(guī) _ -可編輯修改- 校驗、數(shù)據(jù)之間的邏輯關(guān)系校驗等)、審核(與歷史數(shù)據(jù)比對,同期/上期;或執(zhí)行 審核 SQL、算法等)、匯總計算(指標(biāo)計算、數(shù)據(jù)匯總等) 各環(huán)節(jié)處理情況監(jiān)控、 以及挖掘分析(基于全量數(shù)據(jù))、數(shù)據(jù)存儲(TBPB)、數(shù)據(jù)整合加工和數(shù)據(jù)分發(fā)。 數(shù)據(jù)展現(xiàn)環(huán)節(jié)采用關(guān)系型數(shù)據(jù)庫集群技術(shù)較為適宜,主要包括:報表、綜合查詢 (具有實時、多表關(guān)聯(lián)、自定義條件或表樣的特點)、多維分析(如:維度表、事實 表)。 在研發(fā)能力方面,現(xiàn)有的技術(shù)團(tuán)隊在 Hadoop&Spark 技術(shù)方面的技能和經(jīng)驗 比較欠缺,特別是大數(shù)據(jù)相關(guān)的技術(shù)正處于成長階段,技術(shù)團(tuán)隊豐富的實踐經(jīng)驗 尤為重要,否則難以快速響應(yīng)和處理突發(fā)問題。具有大數(shù)據(jù)處理需求的系統(tǒng)在建 設(shè)過程中,可以考慮通過與實施經(jīng)驗豐富的、有較強(qiáng)的自主研發(fā)能力的大數(shù)據(jù)技 術(shù)平臺廠商或技術(shù)團(tuán)隊進(jìn)行合作。一方面,能夠通過借鑒外界成熟的實踐經(jīng)驗, 來應(yīng)對研發(fā)能力不足所帶來的風(fēng)險;另一方面,能夠引入外界技術(shù)力量對系統(tǒng)研 發(fā)過程進(jìn)行指導(dǎo),促進(jìn)大數(shù)據(jù)技術(shù)團(tuán)隊的組建。 _ -可編輯修改- 附附錄錄:名:名詞詞解解釋釋 大數(shù)據(jù)大數(shù)據(jù):由維克托邁爾-舍恩伯格和肯尼斯庫克耶在 2008 年 8 月提出,大 數(shù)據(jù)指不用隨機(jī)分析法(如:抽樣調(diào)查)這樣的捷徑,而采用所有數(shù)據(jù)進(jìn)行分析處 理。全球最具權(quán)威的 IT 研究與顧問咨詢機(jī)構(gòu) Gartner 將大數(shù)據(jù)定義為,需要新處 理模式才能具有更強(qiáng)的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長率和 多樣化的信息資產(chǎn)。IBM 提出大數(shù)據(jù)的 5V 特點,Volume(大量)、Velocity(高速)、 Variety(多樣)、Value(價值)和 Veracity(真實性)。2015 年 8 月國務(wù)院在促進(jìn)大 數(shù)據(jù)發(fā)展行動綱要中指出,大數(shù)據(jù)是以容量大、類型多、存取速度快、應(yīng)用價值 高為主要特征的數(shù)據(jù)集合,正快速發(fā)展為對數(shù)量巨大、來源分散、格式多樣的數(shù) 據(jù)進(jìn)行采集、存儲和關(guān)聯(lián)分析,從中發(fā)現(xiàn)新知識、創(chuàng)造新價值、提升新能力的新 一代信息技術(shù)和服務(wù)業(yè)態(tài)。 互互聯(lián)聯(lián)網(wǎng)網(wǎng)+:“互聯(lián)網(wǎng)+”是把互聯(lián)網(wǎng)的創(chuàng)新成果與經(jīng)濟(jì)社會各領(lǐng)域深度融合,推 動技術(shù)進(jìn)步、效率提升和組織變革,提升實體經(jīng)濟(jì)創(chuàng)新力和生產(chǎn)力,形成更廣泛 的以互聯(lián)網(wǎng)為基礎(chǔ)設(shè)施和創(chuàng)新要素的經(jīng)濟(jì)社會發(fā)展新形態(tài)。 IOE:指服務(wù)器提供商 IBM,數(shù)據(jù)庫提供商 Oracle,存儲設(shè)備提供商 EMC 的 簡稱。 互互聯(lián)聯(lián)網(wǎng)金融網(wǎng)金融:是傳統(tǒng)金融機(jī)構(gòu)與互聯(lián)網(wǎng)企業(yè)利用互聯(lián)網(wǎng)技術(shù)和信息通信技術(shù) 實現(xiàn)資金融通、支付、投資和信息中介服務(wù)的新型金融業(yè)務(wù)模式。 P2P 借借貸貸:peer to peer 網(wǎng)絡(luò)借貸的一種模式,包括個體網(wǎng)絡(luò)借貸(即 P2P 網(wǎng) 絡(luò)借貸)和網(wǎng)絡(luò)小額貸款。個體網(wǎng)絡(luò)借貸是指個體和個體之間通過互聯(lián)網(wǎng)平臺實 現(xiàn)的直接借貸。 眾籌眾籌:股權(quán)眾籌融資,主要是指通過互聯(lián)網(wǎng)形式進(jìn)行公開小額股權(quán)融資的活 動。股權(quán)眾籌融資必須通過股權(quán)眾籌融資中介機(jī)構(gòu)平臺(互聯(lián)網(wǎng)網(wǎng)站或其他類似 的電子媒介)進(jìn)行。 第三方支付平臺第三方支付平臺:指一些和產(chǎn)品所在國家以及國內(nèi)外各大銀行簽約、并具備 一定實力和信譽(yù)保障的第三方獨立機(jī)構(gòu)提供的交易支持平臺。 x86 架構(gòu)架構(gòu)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 藥品認(rèn)證倉庫管理辦法
- 幼兒心理保健管理辦法
- 育嬰員職業(yè)簡介課件模板
- 福州初三一模數(shù)學(xué)試卷
- 電力單招數(shù)學(xué)試卷
- 東博高考數(shù)學(xué)試卷
- 弱電施工安全培訓(xùn)課件
- 費縣一年級數(shù)學(xué)試卷
- 2025年麗水青田縣人民醫(yī)院縣中醫(yī)醫(yī)院招聘編外聘用人員52人筆試歷年專業(yè)考點(難、易錯點)附帶答案詳解
- 2025年浙江杭州市蕭山區(qū)第一人民醫(yī)院醫(yī)共體招聘編外人員20人筆試歷年專業(yè)考點(難、易錯點)附帶答案詳解
- 河源市突發(fā)事件總體應(yīng)急預(yù)案
- JJF(冀) 240-2024 點線規(guī)校準(zhǔn)規(guī)范
- 油氣田地面工程詳解
- 2025年中國電梯檢驗檢測市場全面調(diào)研及行業(yè)投資潛力預(yù)測報告
- RoHS及REACH培訓(xùn)材料課件
- 員工宿舍表格模板
- 天然氣計量與標(biāo)準(zhǔn)化-洞察分析
- 《護(hù)理不良事件》課件
- 無創(chuàng)眶周抗衰規(guī)范
- 2024年1月黑龍江高中學(xué)業(yè)水平合格考政治試卷真題(含答案詳解)
- 花崗巖路面鋪設(shè)工藝流程
評論
0/150
提交評論