大數(shù)據(jù)職業(yè)發(fā)展方向_第1頁(yè)
大數(shù)據(jù)職業(yè)發(fā)展方向_第2頁(yè)
大數(shù)據(jù)職業(yè)發(fā)展方向_第3頁(yè)
已閱讀5頁(yè),還剩8頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、大數(shù)據(jù)職業(yè)發(fā)展方向一、大數(shù)據(jù)的概念及特點(diǎn):大數(shù)據(jù)本身就是一個(gè)很抽象的概念, 提及大數(shù)據(jù)很多人也只能從數(shù)據(jù)量上去感知大數(shù)據(jù) 的規(guī)模, 大數(shù)據(jù)被定義為 “代表著人類認(rèn)知過(guò)程的進(jìn)步, 數(shù)據(jù)集的規(guī)模是無(wú)法在可容忍的時(shí) 間內(nèi)用目前的技術(shù)、方法和理論去獲取、管理、處理的數(shù)據(jù)。大數(shù)據(jù)不是一種新技術(shù), 也不是一種新產(chǎn)品, 而是一種新現(xiàn)象, 是近來(lái)研究的一個(gè)技術(shù) 熱點(diǎn)。大數(shù)據(jù)具有以下 4 個(gè)特點(diǎn),即 4 個(gè)“ V”:(1) 數(shù)據(jù)體量 (Volumes) 巨大。大型數(shù)據(jù)集,從 TB 級(jí)別,躍升到 PB 級(jí)別。(2) 數(shù)據(jù)類別 (Variety) 繁多。數(shù)據(jù)來(lái)自多種數(shù)據(jù)源,數(shù)據(jù)種類和格式?jīng)_破了以前所限定 的結(jié)構(gòu)化數(shù)

2、據(jù)范疇,囊括了半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)。(3) 價(jià)值 (Value) 密度低。 以視頻為例, 連續(xù)不間斷監(jiān)控過(guò)程中, 可能有用的數(shù)據(jù)僅僅一 兩秒鐘。(4) 處理速度 (Velocity) 快。包含大量在線或?qū)崟r(shí)數(shù)據(jù)分析處理的需求, 1 秒定律。最后 這一點(diǎn)也是和傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)有著本質(zhì)的不同。 物聯(lián)網(wǎng)、 云計(jì)算、 移動(dòng)互聯(lián)網(wǎng)、 車聯(lián)網(wǎng)、 手機(jī)、平板電腦、 PC 以及遍布地球各個(gè)角落的各種各樣的傳感器,無(wú)一不是數(shù)據(jù)來(lái)源或者 承載的方式。二、大數(shù)據(jù)處理流程:從大數(shù)據(jù)的特征和產(chǎn)生領(lǐng)域來(lái)看, 大數(shù)據(jù)的來(lái)源相當(dāng)廣泛, 由此產(chǎn)生的數(shù)據(jù)類型和應(yīng)用 處理方法千差萬(wàn)別。 但是總的來(lái)說(shuō), 大數(shù)據(jù)的基本處理流程大都

3、是一致的。 整個(gè)處理流程可 以概括為四步,分別是采集、導(dǎo)入和預(yù)處理、統(tǒng)計(jì)和分析,最后是數(shù)據(jù)挖掘。三、大數(shù)據(jù)分解結(jié)構(gòu):第一層面是理論, 理論是認(rèn)知的必經(jīng)途徑, 也是被廣泛認(rèn)同和傳播的基線。 我會(huì)從大數(shù)據(jù)的特征定義理解行業(yè)對(duì)大數(shù)據(jù)的整體描繪和定性; 從對(duì)大數(shù)據(jù)價(jià)值的探討來(lái)深入解析大數(shù) 據(jù)的珍貴所在; 從對(duì)大數(shù)據(jù)的現(xiàn)在和未來(lái)去洞悉大數(shù)據(jù)的發(fā)展趨勢(shì); 從大數(shù)據(jù)隱私這個(gè)特別 而重要的視角審視人和數(shù)據(jù)之間的長(zhǎng)久博弈。我將分別從云計(jì)算、 分處理、 存儲(chǔ)到形成結(jié)果的第二層面是技術(shù), 技術(shù)是大數(shù)據(jù)價(jià)值體現(xiàn)的手段和前進(jìn)的基石。布式處理技術(shù)、 存儲(chǔ)技術(shù)和感知技術(shù)的發(fā)展來(lái)說(shuō)明大數(shù)據(jù)從采集、 整個(gè)過(guò)程。第三層面是實(shí)踐,

4、實(shí)踐是大數(shù)據(jù)的最終價(jià)值體現(xiàn)。實(shí)踐(Utilization)4-個(gè)人的大數(shù)據(jù) 晏企業(yè)的大數(shù)據(jù)2-政府的大數(shù)據(jù)1互聯(lián)網(wǎng)的大故據(jù)技術(shù)(Technology)2-價(jià)值探討-ZJf羨現(xiàn)在和未來(lái)4-犬鱷吧理論(Theory)1 - - 1 s_-IMiE*四、大數(shù)據(jù)相關(guān)的技術(shù):1、云技術(shù)一一大數(shù)據(jù)常和云計(jì)算聯(lián)系到一起,因?yàn)閷?shí)時(shí)的大型數(shù)據(jù)集分析需要分布式處理框架來(lái)向數(shù)十、數(shù)百或甚至數(shù)萬(wàn)的電腦分配工作??梢哉f(shuō),云計(jì)算充當(dāng)了工業(yè)革命時(shí)期的發(fā)動(dòng)機(jī)的角色,而大數(shù)據(jù)則是電。提供拭于每蛍 業(yè)務(wù)故據(jù)的創(chuàng)通過(guò)云計(jì)算技木的 不斷發(fā)展降低大數(shù) 退業(yè)務(wù)的成本2、分布式處理技術(shù): 分布式處理系統(tǒng)可以將不同地點(diǎn)的或具有不同功能的或擁

5、有 不同數(shù)據(jù)的多臺(tái)計(jì)算機(jī)用通信網(wǎng)絡(luò)連接起來(lái), 在控制系統(tǒng)的統(tǒng)一管理控制下, 協(xié)調(diào)地完成信 息處理任務(wù) -這就是分布式處理系統(tǒng)的定義。目前最常用的是 Hadoop 技術(shù), Hadoop 是一個(gè)實(shí)現(xiàn)了 MapReduce 模式的能夠?qū)Υ罅繑?shù) 據(jù)進(jìn)行分布式處理的軟件框架,是以一種可靠、高效、可伸縮的方式進(jìn)行處理的。Hadoop 用到的一些技術(shù)有:HDFS: Hadoop分布式文件系統(tǒng)(Distributed File System ) - HDFS (HadoopDistributed FileSystem)Map Reduce:并行計(jì)算框架HBase:類似Google BigTable的分布式 N

6、oSQL列數(shù)據(jù)庫(kù)。Hive:數(shù)據(jù)倉(cāng)庫(kù)工具。Zookeeper:分布式鎖設(shè)施,提供類似Google Chubby的功能。Avro:新的數(shù)據(jù)序列化格式與傳輸工具,將逐步取代Hadoop原有的IPC機(jī)制。Pig:大數(shù)據(jù)分析平臺(tái),為用戶提供多種接口。Ambari:Hadoop 管理工具,可以快捷的監(jiān)控、部署、管理集群。Sqoop:用于在Hadoop與傳統(tǒng)的數(shù)據(jù)庫(kù)間進(jìn)行數(shù)據(jù)的傳遞。3、存儲(chǔ)技術(shù)大數(shù)據(jù)可以抽象的分為大數(shù)據(jù)存儲(chǔ)和大數(shù)據(jù)分析,這兩者的關(guān)系是: 大數(shù)據(jù)存儲(chǔ)的目的是支撐大數(shù)據(jù)分析。4、感知技術(shù) 大數(shù)據(jù)的采集和感知技術(shù)的發(fā)展是緊密聯(lián)系的。以傳感器技術(shù),指紋 識(shí)別技術(shù),RFID技術(shù),坐標(biāo)定位技術(shù)等為基

7、礎(chǔ)的感知能力提升同樣是物聯(lián)網(wǎng)發(fā)展的基石。五、大數(shù)據(jù)人才方向:目前,大數(shù)據(jù)方面主要有五大人才方向: 大數(shù)據(jù)核心研發(fā)方向(系統(tǒng)研發(fā)) ; 大數(shù)據(jù)性能調(diào)優(yōu)方向; 大數(shù)據(jù)挖掘、分析方向; 大數(shù)據(jù)運(yùn)維、云計(jì)算方向 數(shù)據(jù)分析師方向( CDA、 CPDA)大數(shù)據(jù)是一項(xiàng)基于 Java的分布式架構(gòu)技術(shù),用來(lái)管理及分析海量數(shù)據(jù)。大數(shù)據(jù)核心研發(fā)(系統(tǒng)研發(fā))方向:基礎(chǔ)課程篇:1、 Java基礎(chǔ)課程(大數(shù)據(jù)任何方向必學(xué)內(nèi)容)2、Linux基礎(chǔ)一一基礎(chǔ)課程(大數(shù)據(jù)任何方向必學(xué)內(nèi)容)3、 Shell編程一一從程序員的角度來(lái)看,Shell本身是一種用 C語(yǔ)言編寫的程序,從用戶的角度來(lái)看,ShelI是用戶與Linux操作系統(tǒng)溝

8、通的橋梁。用戶既可以輸入命令執(zhí)行,又可以利用 Shell腳本編程,完成更加復(fù)雜的操作。軟件語(yǔ)言篇:4、 Hadoop是一個(gè)開發(fā)和運(yùn)行處理大規(guī)模數(shù)據(jù)的軟件平臺(tái),是Appach的一個(gè)用java語(yǔ)言實(shí)現(xiàn)開源軟件框架,實(shí)現(xiàn)在大量計(jì)算機(jī)組成的集群中對(duì)海量數(shù)據(jù)進(jìn)行分布式計(jì)算。5、HDFS6、YARN7、Map Reduce8ETL (數(shù)據(jù)倉(cāng)庫(kù)技術(shù))9、Hive (數(shù)據(jù)倉(cāng)庫(kù)工具)10、Sqoop11、Flume12、HBase13、Storm14、Scala15、KafkaMQ16、Spark17、Spark核心源碼剖析18、CM管理19、CDH集群HDFSHadoop分布式文件系統(tǒng)(HDFS)被設(shè)計(jì)成適合

9、運(yùn)行在通用硬件(commodityhardware) 上的分布式文件系統(tǒng)。全 稱: Hadoop Distributed File System簡(jiǎn) 稱: hdfs實(shí) 質(zhì): 分布式文件系統(tǒng)作 用: 作為 Apache Nutch 的基礎(chǔ)架構(gòu)特 點(diǎn): 高容錯(cuò)性適 用: 大規(guī)模數(shù)據(jù)集原理:HDFS就像一個(gè)傳統(tǒng)的分級(jí)文件系統(tǒng)??梢詣?chuàng)建、刪除、移動(dòng)或重命名文件,等等。HDFS是Hadoop兼容最好的標(biāo)準(zhǔn)文件系統(tǒng),因?yàn)?Hadoop是一個(gè)綜 合性的文件系統(tǒng)抽象, 所以HDFS不是Hadoop必須的。所以也可以理解為Hadoop是一個(gè)框架,HDFS是Hadoop中的一個(gè)部件。優(yōu) 點(diǎn):1)存儲(chǔ)超大文件,存儲(chǔ)文

10、件為TB,甚至PB;2)流式數(shù)據(jù)讀取,一次寫入多次讀取,是最高效的訪問(wèn)模式;3 )商用硬件,設(shè)計(jì)運(yùn)行普通的廉價(jià)的PC上。缺 點(diǎn): 1)數(shù)據(jù)訪問(wèn)延遲高,設(shè)計(jì)于大吞吐量數(shù)據(jù)的,這是以一定的延遲為代價(jià);2) 文件數(shù)受限,存儲(chǔ)的文件總數(shù)受限于NameNode 的內(nèi)存容量;3)不支持多用戶寫入,也不支持任意修改文件。替代品:1)DataStax不是文件系統(tǒng),而是一個(gè)開源的代碼,NoSQL鍵/值存儲(chǔ),依靠快速的數(shù)據(jù)訪問(wèn)。2)CEPH 一個(gè)開源代碼,是一家名為 Inktank 做多種存儲(chǔ)系統(tǒng)的商業(yè)軟件。 其特點(diǎn)是高性能并行文件系統(tǒng)。3)Dispersed Storage Network Cleversafe

11、 這一新產(chǎn)品將 Hadoop MapReduce 與企業(yè)分散存儲(chǔ)網(wǎng)絡(luò)系統(tǒng)相融合??邕^(guò)集群完全分配元數(shù)據(jù),也不依賴于復(fù)制,Cleversafe 認(rèn)為與 HDFS相比,Dispersed Storage Network 的速度 更快,更可靠。4)Lustre 是一個(gè)開發(fā)源代碼的高性能文件系統(tǒng),一些人聲稱在性能敏感區(qū)域其可以作為 HDFS的一個(gè)替代方案。YARNApache Hadoop YARN (另一種資源協(xié)調(diào)者) 是一種新的 Hadoop 資源管理器, 它 是一個(gè)通用資源管理系統(tǒng), 可為上層應(yīng)用提供統(tǒng)一的資源管理和調(diào)度, 它的引入為集群在利 用率、資源統(tǒng)一管理和數(shù)據(jù)共享等方面帶來(lái)了巨大好處。Y

12、ARN從某種那個(gè)意義上來(lái)說(shuō)應(yīng)該算做是一個(gè)云操作系統(tǒng),它負(fù)責(zé)集群的資源管理。實(shí) 質(zhì):一種新的 Hadoop 資源管理器作 用:修復(fù) MapReduce 實(shí)現(xiàn)里的明顯不足,并對(duì)可伸縮性(支持一萬(wàn)個(gè)節(jié)點(diǎn)和二十萬(wàn)個(gè) 內(nèi)核的集群)、可靠性和集群利用率進(jìn)行了提升缺 點(diǎn):這種架構(gòu)存在不足,主要表現(xiàn)在大型集群上。當(dāng)集群包含的節(jié)點(diǎn)超過(guò)4,000 個(gè)時(shí)(其中每個(gè)節(jié)點(diǎn)可能是多核的) ,就會(huì)表現(xiàn)出一定的不可預(yù)測(cè)性。其中一個(gè)最大的 問(wèn)題是級(jí)聯(lián)故障, 由于要嘗試復(fù)制數(shù)據(jù)和重載活動(dòng)的節(jié)點(diǎn), 所以一個(gè)故障會(huì)通過(guò)網(wǎng) 絡(luò)泛洪形式導(dǎo)致整個(gè)集群嚴(yán)重惡化。優(yōu) 點(diǎn):大大減小了 JobTracker (也就是現(xiàn)在的 ResourceMan

13、ager)的資源消耗,并且讓監(jiān) 測(cè)每一個(gè) Job 子任務(wù) (tasks) 狀態(tài)的程序分布式化了,更安全、更優(yōu)美。MapReduceMapReduce是一種編程模型,用于大規(guī)模數(shù)據(jù)集(大于1TB)的并行運(yùn)算。概念"Map (映射)"和"Reduce (歸約)”,是它們的主要思想,都是從函數(shù)式編程語(yǔ)言里借來(lái)的,還 有從矢量編程語(yǔ)言里借來(lái)的特性。它極大地方便了編程人員在不會(huì)分布式并行編程的情況 下,將自己的程序運(yùn)行在分布式系統(tǒng)上。本 質(zhì):一種編程模型用 途:大規(guī)模數(shù)據(jù)集的并行運(yùn)算特 點(diǎn):分布可靠應(yīng) 用:大規(guī)模的算法圖形處理、文字處理等 主要功能: 1 )數(shù)據(jù)劃分和計(jì)算任

14、務(wù)調(diào)度;2)數(shù)據(jù) / 代碼互定位;3)系統(tǒng)優(yōu)化;4)出錯(cuò)檢測(cè)和恢復(fù)。技術(shù)特點(diǎn): 1 )向“外”橫向擴(kuò)展,而非向“上”縱向擴(kuò)展2)失效被認(rèn)為是常態(tài)3)把處理向數(shù)據(jù)遷移4)順序處理數(shù)據(jù)、避免隨機(jī)訪問(wèn)數(shù)據(jù)5)為應(yīng)用開發(fā)者隱藏系統(tǒng)層細(xì)節(jié)6)平滑無(wú)縫的可擴(kuò)展性ETL (數(shù)據(jù)倉(cāng)庫(kù)技術(shù))用來(lái)描述將數(shù)據(jù)從來(lái)源端經(jīng)過(guò)抽取( extract )、轉(zhuǎn)換( transform )、加載( load ) 至目的端的過(guò)程。ETL 一詞較常用在數(shù)據(jù)倉(cāng)庫(kù),但其對(duì)象并不限于數(shù)據(jù)倉(cāng)庫(kù)。ETL 是構(gòu)建數(shù)據(jù)倉(cāng)庫(kù)的重要一環(huán), 用戶從數(shù)據(jù)源抽取出所需的數(shù)據(jù), 經(jīng)過(guò)數(shù)據(jù)清洗 , 最終按照預(yù)先定義好的數(shù)據(jù)倉(cāng)庫(kù)模型,將數(shù)據(jù)加載到數(shù)據(jù)倉(cāng)庫(kù)中去。

15、軟件名稱: Extract-Transform-Load過(guò) 程:數(shù)據(jù)抽取、清洗、轉(zhuǎn)換、裝載應(yīng) 用: Informatica 、 Datastage 、OW、B數(shù)據(jù)集成:快速實(shí)現(xiàn) ETL特 性:正確性、 完整性、 一致性、 完備性、 有效性、 時(shí)效性和可獲取性等幾個(gè)特性。 影響特性原因: 業(yè)務(wù)系統(tǒng)不同時(shí)期系統(tǒng)之間數(shù)據(jù)模型不一致; 業(yè)務(wù)系統(tǒng)不同時(shí)期業(yè)務(wù)過(guò) 程有變化; 舊系統(tǒng)模塊在運(yùn)營(yíng)、 人事、財(cái)務(wù)、辦公系統(tǒng)等相關(guān)信息的不 一致;遺留系統(tǒng)和新業(yè)務(wù)、管理系統(tǒng)數(shù)據(jù)集成不完備帶來(lái)的不一致性。轉(zhuǎn)換過(guò)程: 1)空值處理:可捕獲字段空值,進(jìn)行加載或替換為其他含義數(shù)據(jù),并可根 據(jù)字段空值實(shí)現(xiàn)分流加載到不同目標(biāo)庫(kù)。

16、2)規(guī)范化數(shù)據(jù)格式: 可實(shí)現(xiàn)字段格式約束定義,對(duì)于數(shù)據(jù)源中時(shí)間、數(shù)值、 字符等數(shù)據(jù),可自定義加載格式。3)拆分?jǐn)?shù)據(jù):依據(jù)業(yè)務(wù)需求對(duì)字段可進(jìn)行分解4)驗(yàn)證數(shù)據(jù)正確性:可利用 Lookup 及拆分功能進(jìn)行數(shù)據(jù)驗(yàn)證5)數(shù)據(jù)替換:對(duì)于因業(yè)務(wù)因素,可實(shí)現(xiàn)無(wú)效數(shù)據(jù)、缺失數(shù)據(jù)的替換。6)Lookup :查獲丟失數(shù)據(jù) Lookup實(shí)現(xiàn)子查詢,并返回用其他手段獲取的 缺失字段,保證字段完整性。7)建立ETL過(guò)程的主外鍵約束:對(duì)無(wú)依賴性的非法數(shù)據(jù),可替換或?qū)С龅?錯(cuò)誤數(shù)據(jù)文件中,保證主鍵唯一記錄的加載。功能特點(diǎn): 1)管理簡(jiǎn)單2 )標(biāo)準(zhǔn)定義數(shù)據(jù)3 )拓展新型應(yīng)用Hive (數(shù)據(jù)倉(cāng)庫(kù)工具)hive 是基于 Hado

17、op 的一個(gè)數(shù)據(jù)倉(cāng)庫(kù)工具, 可以將結(jié)構(gòu)化的數(shù)據(jù)文件映射為一張數(shù)據(jù)庫(kù)表,并提供簡(jiǎn)單的 sql查詢功能,可以將 sql語(yǔ)句轉(zhuǎn)換為 MapReduce任務(wù)進(jìn)行運(yùn)行。Hive 是建立在 Hadoop 上的數(shù)據(jù)倉(cāng)庫(kù)基礎(chǔ)構(gòu)架。它提供了一系列的工具,可以用來(lái)進(jìn)行數(shù)據(jù)提取轉(zhuǎn)化加載 (ETL),這是一種可以存儲(chǔ)、 查詢和分析存儲(chǔ)在 Hadoop中的大規(guī)模數(shù) 據(jù)的機(jī)制。兼容性: hadoop 生態(tài)圈依 賴: jdk , hadoop定 義: 在 Hadoop 上的數(shù)據(jù)倉(cāng)庫(kù)基礎(chǔ)構(gòu)架適 用: Hive 構(gòu)建在基于靜態(tài)批處理的 Hadoop 之上, Hadoop 通常都有較高的延遲 并且在作業(yè)提交和調(diào)度的時(shí)候需要大量的

18、開銷。 因此, Hive 并不能夠在大規(guī) 模數(shù)據(jù)集上實(shí)現(xiàn)低延遲快速的查詢。特 性: 1)支持索引,加快數(shù)據(jù)查詢。2) 不同的存儲(chǔ)類型,例如,純文本文件、HBase 中的文件。3) 將元數(shù)據(jù)保存在關(guān)系數(shù)據(jù)庫(kù)中,大大減少了在查詢過(guò)程中執(zhí)行語(yǔ)義檢查的 時(shí)間。4)可以直接使用存儲(chǔ)在 Hadoop 文件系統(tǒng)中的數(shù)據(jù)。5)內(nèi)置大量用戶函數(shù) UDF 來(lái)操作時(shí)間、字符串和其他的數(shù)據(jù)挖掘工具,支 持用戶擴(kuò)展 UDF 函數(shù)來(lái)完成內(nèi)置函數(shù)無(wú)法實(shí)現(xiàn)的操作。6) 類SQL的查詢方式,將 SQL查詢轉(zhuǎn)換為 Map Reduce的job 在Hadoop集 群上執(zhí)行。體系結(jié)構(gòu): 1)用戶接口用戶接口主要有三個(gè): CLI, C

19、lient 和 WUI2 )元數(shù)據(jù)存儲(chǔ) Hive 將元數(shù)據(jù)存儲(chǔ)在數(shù)據(jù)庫(kù)中,如 mysql 、 derby3 )解釋器、 編譯器、 優(yōu)化器、 執(zhí)行器解釋器、 編譯器、 優(yōu)化器完成 HQL查詢語(yǔ)句從詞法分析、語(yǔ)法分析、編譯、優(yōu)化以及查詢計(jì)劃的生成。生 成的查詢計(jì)劃存儲(chǔ)在 HDFS 中,并在隨后由 MapReduce 調(diào)用執(zhí)行。SqoopSqoop 是一款開源的工具,主要用于在 Hadoop(Hive) 與傳統(tǒng)的數(shù)據(jù)庫(kù) (mysql 、 postgresql.)間進(jìn)行數(shù)據(jù)的傳遞,可以將一個(gè)關(guān)系型數(shù)據(jù)庫(kù)(例如 :MySQLOracle ,Postgres 等)中的數(shù)據(jù)導(dǎo)進(jìn)到 Hadoop的HDFS中,

20、也可以將 HDFS勺數(shù)據(jù) 導(dǎo)進(jìn)到關(guān)系型數(shù)據(jù)庫(kù)中。特 點(diǎn):可以通過(guò) hadoop 的 mapreduce 把數(shù)據(jù)從關(guān)系型數(shù)據(jù)庫(kù)中導(dǎo)入數(shù)據(jù)到HDFS。flumeFlume 是 Cloudera 提供的一個(gè)高可用的,高可靠的,分布式的海量日志采集、聚 合和傳輸?shù)南到y(tǒng), Flume 支持在日志系統(tǒng)中定制各類數(shù)據(jù)發(fā)送方,用于收集數(shù)據(jù);同時(shí), Flume 提供對(duì)數(shù)據(jù)進(jìn)行簡(jiǎn)單處理,并寫到各種數(shù)據(jù)接受方(可定制)的能力。中文名:水槽特 點(diǎn):聚合和傳輸?shù)南到y(tǒng)實(shí) 質(zhì):孵化項(xiàng)目是經(jīng)濟(jì)方面的用于 , 一項(xiàng)鑒定成功,付諸實(shí)施的項(xiàng)目。功 能: 1)日志收集;2)數(shù)據(jù)處理HBaseHBase是一個(gè)分布式的、面向列的開源數(shù)據(jù)

21、庫(kù),一個(gè)結(jié)構(gòu)化數(shù)據(jù)的分布式存儲(chǔ)系統(tǒng)。HBase不同于一般的關(guān)系數(shù)據(jù)庫(kù),它是一個(gè)適合于非結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)的數(shù)據(jù)庫(kù)。另一個(gè)不同的是HBase基于列的而不是基于行的模式。結(jié) 構(gòu):分布式存儲(chǔ)系統(tǒng)優(yōu) 點(diǎn):HBase - Hadoop Database,是一個(gè)高可靠性、高性能、面向列、可伸縮的分布式存儲(chǔ)系統(tǒng),利用HBase技術(shù)可在廉價(jià)PCServer上搭建起大規(guī) 模結(jié)構(gòu)化存儲(chǔ)集群。模 型:邏輯模型主要從用戶角度出發(fā);物理模型主要從實(shí)現(xiàn) Hbase 的角度來(lái)討論;StormStorm 是一個(gè)分布式的,可靠的,容錯(cuò)的數(shù)據(jù)流處理系統(tǒng)。它會(huì)把工作任務(wù)委托給 不同類型的組件,每個(gè)組件負(fù)責(zé)處理一項(xiàng)簡(jiǎn)單特定的任務(wù)。 St

22、orm 集群的輸入流由一個(gè)被稱 作 spout 的組件管理, spout 把數(shù)據(jù)傳遞給 bolt , bolt 要么把數(shù)據(jù)保存到某種存儲(chǔ)器,要 么把數(shù)據(jù)傳遞給其它的 bolt 。優(yōu) 點(diǎn):1)簡(jiǎn)單的編程模型。類似于Map Reduce降低了并行批處理復(fù)雜性,Storm降低了進(jìn)行實(shí)時(shí)處理的復(fù)雜性。2) 可以使用各種編程語(yǔ)言。你可以在Storm之上使用各種編程語(yǔ)言。默 認(rèn)支持 Clojure、Java、Ruby和Python。要增加對(duì)其他語(yǔ)言的支持, 只需實(shí)現(xiàn)一個(gè)簡(jiǎn)單的 Storm 通信協(xié)議即可。3)容錯(cuò)性。 Storm 會(huì)管理工作進(jìn)程和節(jié)點(diǎn)的故障。4)水平擴(kuò)展。計(jì)算是在多個(gè)線程、進(jìn)程和服務(wù)器之間并

23、行進(jìn)行的。5) 可靠的消息處理。Storm 保證每個(gè)消息至少能得到一次完整處理。任 務(wù)失敗時(shí),它會(huì)負(fù)責(zé)從消息源重試消息。6) 快速。系統(tǒng)的設(shè)計(jì)保證了消息能得到快速的處理,使用?MQ乍為其底 層消息隊(duì)列。7)本地模式。 Storm 有一個(gè)“本地模式” ,可以在處理過(guò)程中完全模擬 Storm 集群。這讓你可以快速進(jìn)行開發(fā)和單元測(cè)試。缺 點(diǎn): 1)單調(diào)乏味性;2 )脆弱性;3 )可伸縮性差;使用性: Storm 有許多應(yīng)用領(lǐng)域,包括實(shí)時(shí)分析、在線機(jī)器學(xué)習(xí)、信息流處理、連 續(xù)性的計(jì)算、分布式 RPC ETL等。術(shù) 語(yǔ): Storm 的術(shù)語(yǔ)包括 Stream 、Spout 、Bolt 、Task、Worker、Stream Grouping 和 Topology 。同 品:可以和 Storm 相提并論的系統(tǒng)有 Esper、Streambase 、HStreaming 和 YahooS4。其中和Storm最接近的就是 S4。ScalaScala 是一門多范式的編程語(yǔ)言,一種類似 java 的編程語(yǔ)言,設(shè)計(jì)初衷是實(shí)現(xiàn)可 伸縮的語(yǔ)言、并集成面向?qū)ο?/p>

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論