大數(shù)據(jù)職業(yè)發(fā)展方向

上傳人：m*** IP屬地：天津上傳時(shí)間：2022-03-08 格式：DOC 頁(yè)數(shù)：13 大小：107.50KB 積分：12 舉報(bào) 版權(quán)申訴

已閱讀5頁(yè)，還剩8頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說(shuō)明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、大數(shù)據(jù)職業(yè)發(fā)展方向一、大數(shù)據(jù)的概念及特點(diǎn)：大數(shù)據(jù)本身就是一個(gè)很抽象的概念，提及大數(shù)據(jù)很多人也只能從數(shù)據(jù)量上去感知大數(shù)據(jù) 的規(guī)模，大數(shù)據(jù)被定義為 “代表著人類認(rèn)知過(guò)程的進(jìn)步，數(shù)據(jù)集的規(guī)模是無(wú)法在可容忍的時(shí) 間內(nèi)用目前的技術(shù)、方法和理論去獲取、管理、處理的數(shù)據(jù)。大數(shù)據(jù)不是一種新技術(shù)，也不是一種新產(chǎn)品，而是一種新現(xiàn)象，是近來(lái)研究的一個(gè)技術(shù) 熱點(diǎn)。大數(shù)據(jù)具有以下 4 個(gè)特點(diǎn)，即 4 個(gè)“ V”：(1) 數(shù)據(jù)體量 (Volumes) 巨大。大型數(shù)據(jù)集，從 TB 級(jí)別，躍升到 PB 級(jí)別。(2) 數(shù)據(jù)類別 (Variety) 繁多。數(shù)據(jù)來(lái)自多種數(shù)據(jù)源，數(shù)據(jù)種類和格式?jīng)_破了以前所限定的結(jié)構(gòu)化數(shù)

2、據(jù)范疇，囊括了半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)。(3) 價(jià)值 (Value) 密度低。以視頻為例，連續(xù)不間斷監(jiān)控過(guò)程中，可能有用的數(shù)據(jù)僅僅一兩秒鐘。(4) 處理速度 (Velocity) 快。包含大量在線或?qū)崟r(shí)數(shù)據(jù)分析處理的需求， 1 秒定律。最后這一點(diǎn)也是和傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)有著本質(zhì)的不同。物聯(lián)網(wǎng)、云計(jì)算、移動(dòng)互聯(lián)網(wǎng)、車聯(lián)網(wǎng)、手機(jī)、平板電腦、 PC 以及遍布地球各個(gè)角落的各種各樣的傳感器，無(wú)一不是數(shù)據(jù)來(lái)源或者承載的方式。二、大數(shù)據(jù)處理流程：從大數(shù)據(jù)的特征和產(chǎn)生領(lǐng)域來(lái)看，大數(shù)據(jù)的來(lái)源相當(dāng)廣泛，由此產(chǎn)生的數(shù)據(jù)類型和應(yīng)用處理方法千差萬(wàn)別。但是總的來(lái)說(shuō)，大數(shù)據(jù)的基本處理流程大都

3、是一致的。整個(gè)處理流程可以概括為四步，分別是采集、導(dǎo)入和預(yù)處理、統(tǒng)計(jì)和分析，最后是數(shù)據(jù)挖掘。三、大數(shù)據(jù)分解結(jié)構(gòu)：第一層面是理論，理論是認(rèn)知的必經(jīng)途徑，也是被廣泛認(rèn)同和傳播的基線。我會(huì)從大數(shù)據(jù)的特征定義理解行業(yè)對(duì)大數(shù)據(jù)的整體描繪和定性；從對(duì)大數(shù)據(jù)價(jià)值的探討來(lái)深入解析大數(shù) 據(jù)的珍貴所在；從對(duì)大數(shù)據(jù)的現(xiàn)在和未來(lái)去洞悉大數(shù)據(jù)的發(fā)展趨勢(shì)；從大數(shù)據(jù)隱私這個(gè)特別而重要的視角審視人和數(shù)據(jù)之間的長(zhǎng)久博弈。我將分別從云計(jì)算、分處理、存儲(chǔ)到形成結(jié)果的第二層面是技術(shù)，技術(shù)是大數(shù)據(jù)價(jià)值體現(xiàn)的手段和前進(jìn)的基石。布式處理技術(shù)、存儲(chǔ)技術(shù)和感知技術(shù)的發(fā)展來(lái)說(shuō)明大數(shù)據(jù)從采集、整個(gè)過(guò)程。第三層面是實(shí)踐，

4、實(shí)踐是大數(shù)據(jù)的最終價(jià)值體現(xiàn)。實(shí)踐(Utilization)4-個(gè)人的大數(shù)據(jù) 晏企業(yè)的大數(shù)據(jù)2-政府的大數(shù)據(jù)1互聯(lián)網(wǎng)的大故據(jù)技術(shù)(Technology)2-價(jià)值探討-ZJf羨現(xiàn)在和未來(lái)4-犬鱷吧理論(Theory)1 - - 1 s_-IMiE*四、大數(shù)據(jù)相關(guān)的技術(shù):1、云技術(shù)一一大數(shù)據(jù)常和云計(jì)算聯(lián)系到一起，因?yàn)閷?shí)時(shí)的大型數(shù)據(jù)集分析需要分布式處理框架來(lái)向數(shù)十、數(shù)百或甚至數(shù)萬(wàn)的電腦分配工作?？梢哉f(shuō)，云計(jì)算充當(dāng)了工業(yè)革命時(shí)期的發(fā)動(dòng)機(jī)的角色，而大數(shù)據(jù)則是電。提供拭于每蛍業(yè)務(wù)故據(jù)的創(chuàng)通過(guò)云計(jì)算技木的不斷發(fā)展降低大數(shù) 退業(yè)務(wù)的成本2、分布式處理技術(shù)：分布式處理系統(tǒng)可以將不同地點(diǎn)的或具有不同功能的或擁

5、有不同數(shù)據(jù)的多臺(tái)計(jì)算機(jī)用通信網(wǎng)絡(luò)連接起來(lái)，在控制系統(tǒng)的統(tǒng)一管理控制下，協(xié)調(diào)地完成信息處理任務(wù) -這就是分布式處理系統(tǒng)的定義。目前最常用的是 Hadoop 技術(shù)， Hadoop 是一個(gè)實(shí)現(xiàn)了 MapReduce 模式的能夠?qū)Υ罅繑?shù) 據(jù)進(jìn)行分布式處理的軟件框架，是以一種可靠、高效、可伸縮的方式進(jìn)行處理的。Hadoop 用到的一些技術(shù)有：HDFS: Hadoop分布式文件系統(tǒng)(Distributed File System ) - HDFS (HadoopDistributed FileSystem)Map Reduce:并行計(jì)算框架HBase:類似Google BigTable的分布式 N

6、oSQL列數(shù)據(jù)庫(kù)。Hive:數(shù)據(jù)倉(cāng)庫(kù)工具。Zookeeper:分布式鎖設(shè)施，提供類似Google Chubby的功能。Avro:新的數(shù)據(jù)序列化格式與傳輸工具，將逐步取代Hadoop原有的IPC機(jī)制。Pig：大數(shù)據(jù)分析平臺(tái)，為用戶提供多種接口。Ambari:Hadoop 管理工具，可以快捷的監(jiān)控、部署、管理集群。Sqoop:用于在Hadoop與傳統(tǒng)的數(shù)據(jù)庫(kù)間進(jìn)行數(shù)據(jù)的傳遞。3、存儲(chǔ)技術(shù)大數(shù)據(jù)可以抽象的分為大數(shù)據(jù)存儲(chǔ)和大數(shù)據(jù)分析，這兩者的關(guān)系是：大數(shù)據(jù)存儲(chǔ)的目的是支撐大數(shù)據(jù)分析。4、感知技術(shù) 大數(shù)據(jù)的采集和感知技術(shù)的發(fā)展是緊密聯(lián)系的。以傳感器技術(shù)，指紋識(shí)別技術(shù)，RFID技術(shù)，坐標(biāo)定位技術(shù)等為基

7、礎(chǔ)的感知能力提升同樣是物聯(lián)網(wǎng)發(fā)展的基石。五、大數(shù)據(jù)人才方向：目前，大數(shù)據(jù)方面主要有五大人才方向：大數(shù)據(jù)核心研發(fā)方向(系統(tǒng)研發(fā)) ；大數(shù)據(jù)性能調(diào)優(yōu)方向；大數(shù)據(jù)挖掘、分析方向；大數(shù)據(jù)運(yùn)維、云計(jì)算方向數(shù)據(jù)分析師方向( CDA、 CPDA)大數(shù)據(jù)是一項(xiàng)基于 Java的分布式架構(gòu)技術(shù)，用來(lái)管理及分析海量數(shù)據(jù)。大數(shù)據(jù)核心研發(fā)（系統(tǒng)研發(fā)）方向：基礎(chǔ)課程篇：1、 Java基礎(chǔ)課程（大數(shù)據(jù)任何方向必學(xué)內(nèi)容）2、Linux基礎(chǔ)一一基礎(chǔ)課程（大數(shù)據(jù)任何方向必學(xué)內(nèi)容）3、 Shell編程一一從程序員的角度來(lái)看，Shell本身是一種用 C語(yǔ)言編寫的程序，從用戶的角度來(lái)看，ShelI是用戶與Linux操作系統(tǒng)溝

8、通的橋梁。用戶既可以輸入命令執(zhí)行，又可以利用 Shell腳本編程，完成更加復(fù)雜的操作。軟件語(yǔ)言篇：4、 Hadoop是一個(gè)開發(fā)和運(yùn)行處理大規(guī)模數(shù)據(jù)的軟件平臺(tái)，是Appach的一個(gè)用java語(yǔ)言實(shí)現(xiàn)開源軟件框架，實(shí)現(xiàn)在大量計(jì)算機(jī)組成的集群中對(duì)海量數(shù)據(jù)進(jìn)行分布式計(jì)算。5、HDFS6、YARN7、Map Reduce8ETL （數(shù)據(jù)倉(cāng)庫(kù)技術(shù)）9、Hive （數(shù)據(jù)倉(cāng)庫(kù)工具）10、Sqoop11、Flume12、HBase13、Storm14、Scala15、KafkaMQ16、Spark17、Spark核心源碼剖析18、CM管理19、CDH集群HDFSHadoop分布式文件系統(tǒng)（HDFS）被設(shè)計(jì)成適合

9、運(yùn)行在通用硬件（commodityhardware）上的分布式文件系統(tǒng)。全稱： Hadoop Distributed File System簡(jiǎn) 稱： hdfs實(shí) 質(zhì)：分布式文件系統(tǒng)作用：作為 Apache Nutch 的基礎(chǔ)架構(gòu)特點(diǎn)：高容錯(cuò)性適用：大規(guī)模數(shù)據(jù)集原理：HDFS就像一個(gè)傳統(tǒng)的分級(jí)文件系統(tǒng)?？梢詣?chuàng)建、刪除、移動(dòng)或重命名文件，等等。HDFS是Hadoop兼容最好的標(biāo)準(zhǔn)文件系統(tǒng)，因?yàn)?Hadoop是一個(gè)綜合性的文件系統(tǒng)抽象，所以HDFS不是Hadoop必須的。所以也可以理解為Hadoop是一個(gè)框架，HDFS是Hadoop中的一個(gè)部件。優(yōu) 點(diǎn)：1）存儲(chǔ)超大文件，存儲(chǔ)文

10、件為TB,甚至PB;2）流式數(shù)據(jù)讀取，一次寫入多次讀取，是最高效的訪問(wèn)模式；3 ）商用硬件，設(shè)計(jì)運(yùn)行普通的廉價(jià)的PC上。缺點(diǎn)： 1）數(shù)據(jù)訪問(wèn)延遲高，設(shè)計(jì)于大吞吐量數(shù)據(jù)的，這是以一定的延遲為代價(jià);2）文件數(shù)受限，存儲(chǔ)的文件總數(shù)受限于NameNode 的內(nèi)存容量;3）不支持多用戶寫入，也不支持任意修改文件。替代品：1）DataStax不是文件系統(tǒng)，而是一個(gè)開源的代碼，NoSQL鍵/值存儲(chǔ)，依靠快速的數(shù)據(jù)訪問(wèn)。2）CEPH 一個(gè)開源代碼，是一家名為 Inktank 做多種存儲(chǔ)系統(tǒng)的商業(yè)軟件。其特點(diǎn)是高性能并行文件系統(tǒng)。3）Dispersed Storage Network Cleversafe

11、這一新產(chǎn)品將 Hadoop MapReduce 與企業(yè)分散存儲(chǔ)網(wǎng)絡(luò)系統(tǒng)相融合?？邕^(guò)集群完全分配元數(shù)據(jù)，也不依賴于復(fù)制，Cleversafe 認(rèn)為與 HDFS相比，Dispersed Storage Network 的速度更快，更可靠。4）Lustre 是一個(gè)開發(fā)源代碼的高性能文件系統(tǒng)，一些人聲稱在性能敏感區(qū)域其可以作為 HDFS的一個(gè)替代方案。YARNApache Hadoop YARN （另一種資源協(xié)調(diào)者）是一種新的 Hadoop 資源管理器，它是一個(gè)通用資源管理系統(tǒng)，可為上層應(yīng)用提供統(tǒng)一的資源管理和調(diào)度，它的引入為集群在利用率、資源統(tǒng)一管理和數(shù)據(jù)共享等方面帶來(lái)了巨大好處。Y

12、ARN從某種那個(gè)意義上來(lái)說(shuō)應(yīng)該算做是一個(gè)云操作系統(tǒng)，它負(fù)責(zé)集群的資源管理。實(shí) 質(zhì)：一種新的 Hadoop 資源管理器作用：修復(fù) MapReduce 實(shí)現(xiàn)里的明顯不足，并對(duì)可伸縮性（支持一萬(wàn)個(gè)節(jié)點(diǎn)和二十萬(wàn)個(gè) 內(nèi)核的集群）、可靠性和集群利用率進(jìn)行了提升缺點(diǎn)：這種架構(gòu)存在不足，主要表現(xiàn)在大型集群上。當(dāng)集群包含的節(jié)點(diǎn)超過(guò)4,000 個(gè)時(shí)（其中每個(gè)節(jié)點(diǎn)可能是多核的），就會(huì)表現(xiàn)出一定的不可預(yù)測(cè)性。其中一個(gè)最大的問(wèn)題是級(jí)聯(lián)故障，由于要嘗試復(fù)制數(shù)據(jù)和重載活動(dòng)的節(jié)點(diǎn)，所以一個(gè)故障會(huì)通過(guò)網(wǎng) 絡(luò)泛洪形式導(dǎo)致整個(gè)集群嚴(yán)重惡化。優(yōu) 點(diǎn)：大大減小了 JobTracker （也就是現(xiàn)在的 ResourceMan

13、ager）的資源消耗，并且讓監(jiān) 測(cè)每一個(gè) Job 子任務(wù) （tasks）狀態(tài)的程序分布式化了，更安全、更優(yōu)美。MapReduceMapReduce是一種編程模型，用于大規(guī)模數(shù)據(jù)集（大于1TB）的并行運(yùn)算。概念"Map （映射）"和"Reduce （歸約）”，是它們的主要思想，都是從函數(shù)式編程語(yǔ)言里借來(lái)的，還有從矢量編程語(yǔ)言里借來(lái)的特性。它極大地方便了編程人員在不會(huì)分布式并行編程的情況下，將自己的程序運(yùn)行在分布式系統(tǒng)上。本質(zhì)：一種編程模型用途：大規(guī)模數(shù)據(jù)集的并行運(yùn)算特點(diǎn)：分布可靠應(yīng) 用：大規(guī)模的算法圖形處理、文字處理等主要功能： 1 ）數(shù)據(jù)劃分和計(jì)算任

14、務(wù)調(diào)度；2）數(shù)據(jù) / 代碼互定位；3）系統(tǒng)優(yōu)化；4）出錯(cuò)檢測(cè)和恢復(fù)。技術(shù)特點(diǎn)： 1 ）向“外”橫向擴(kuò)展，而非向“上”縱向擴(kuò)展2）失效被認(rèn)為是常態(tài)3）把處理向數(shù)據(jù)遷移4）順序處理數(shù)據(jù)、避免隨機(jī)訪問(wèn)數(shù)據(jù)5）為應(yīng)用開發(fā)者隱藏系統(tǒng)層細(xì)節(jié)6）平滑無(wú)縫的可擴(kuò)展性ETL （數(shù)據(jù)倉(cāng)庫(kù)技術(shù)）用來(lái)描述將數(shù)據(jù)從來(lái)源端經(jīng)過(guò)抽取（ extract ）、轉(zhuǎn)換（ transform ）、加載（ load ）至目的端的過(guò)程。ETL 一詞較常用在數(shù)據(jù)倉(cāng)庫(kù)，但其對(duì)象并不限于數(shù)據(jù)倉(cāng)庫(kù)。ETL 是構(gòu)建數(shù)據(jù)倉(cāng)庫(kù)的重要一環(huán)，用戶從數(shù)據(jù)源抽取出所需的數(shù)據(jù)，經(jīng)過(guò)數(shù)據(jù)清洗 , 最終按照預(yù)先定義好的數(shù)據(jù)倉(cāng)庫(kù)模型，將數(shù)據(jù)加載到數(shù)據(jù)倉(cāng)庫(kù)中去。

15、軟件名稱： Extract-Transform-Load過(guò) 程：數(shù)據(jù)抽取、清洗、轉(zhuǎn)換、裝載應(yīng) 用： Informatica 、 Datastage 、OW、B數(shù)據(jù)集成：快速實(shí)現(xiàn) ETL特性：正確性、完整性、一致性、完備性、有效性、時(shí)效性和可獲取性等幾個(gè)特性。影響特性原因：業(yè)務(wù)系統(tǒng)不同時(shí)期系統(tǒng)之間數(shù)據(jù)模型不一致；業(yè)務(wù)系統(tǒng)不同時(shí)期業(yè)務(wù)過(guò) 程有變化；舊系統(tǒng)模塊在運(yùn)營(yíng)、人事、財(cái)務(wù)、辦公系統(tǒng)等相關(guān)信息的不一致；遺留系統(tǒng)和新業(yè)務(wù)、管理系統(tǒng)數(shù)據(jù)集成不完備帶來(lái)的不一致性。轉(zhuǎn)換過(guò)程： 1）空值處理：可捕獲字段空值，進(jìn)行加載或替換為其他含義數(shù)據(jù)，并可根據(jù)字段空值實(shí)現(xiàn)分流加載到不同目標(biāo)庫(kù)。

16、2）規(guī)范化數(shù)據(jù)格式：可實(shí)現(xiàn)字段格式約束定義，對(duì)于數(shù)據(jù)源中時(shí)間、數(shù)值、字符等數(shù)據(jù)，可自定義加載格式。3）拆分?jǐn)?shù)據(jù)：依據(jù)業(yè)務(wù)需求對(duì)字段可進(jìn)行分解4）驗(yàn)證數(shù)據(jù)正確性：可利用 Lookup 及拆分功能進(jìn)行數(shù)據(jù)驗(yàn)證5）數(shù)據(jù)替換：對(duì)于因業(yè)務(wù)因素，可實(shí)現(xiàn)無(wú)效數(shù)據(jù)、缺失數(shù)據(jù)的替換。6）Lookup :查獲丟失數(shù)據(jù) Lookup實(shí)現(xiàn)子查詢，并返回用其他手段獲取的缺失字段，保證字段完整性。7）建立ETL過(guò)程的主外鍵約束：對(duì)無(wú)依賴性的非法數(shù)據(jù)，可替換或?qū)С龅?錯(cuò)誤數(shù)據(jù)文件中，保證主鍵唯一記錄的加載。功能特點(diǎn)： 1）管理簡(jiǎn)單2 ）標(biāo)準(zhǔn)定義數(shù)據(jù)3 ）拓展新型應(yīng)用Hive （數(shù)據(jù)倉(cāng)庫(kù)工具）hive 是基于 Hado

17、op 的一個(gè)數(shù)據(jù)倉(cāng)庫(kù)工具，可以將結(jié)構(gòu)化的數(shù)據(jù)文件映射為一張數(shù)據(jù)庫(kù)表，并提供簡(jiǎn)單的 sql查詢功能，可以將 sql語(yǔ)句轉(zhuǎn)換為 MapReduce任務(wù)進(jìn)行運(yùn)行。Hive 是建立在 Hadoop 上的數(shù)據(jù)倉(cāng)庫(kù)基礎(chǔ)構(gòu)架。它提供了一系列的工具，可以用來(lái)進(jìn)行數(shù)據(jù)提取轉(zhuǎn)化加載（ETL）,這是一種可以存儲(chǔ)、查詢和分析存儲(chǔ)在 Hadoop中的大規(guī)模數(shù) 據(jù)的機(jī)制。兼容性： hadoop 生態(tài)圈依賴： jdk ， hadoop定義：在 Hadoop 上的數(shù)據(jù)倉(cāng)庫(kù)基礎(chǔ)構(gòu)架適用： Hive 構(gòu)建在基于靜態(tài)批處理的 Hadoop 之上， Hadoop 通常都有較高的延遲并且在作業(yè)提交和調(diào)度的時(shí)候需要大量的

18、開銷。因此， Hive 并不能夠在大規(guī) 模數(shù)據(jù)集上實(shí)現(xiàn)低延遲快速的查詢。特性： 1）支持索引，加快數(shù)據(jù)查詢。2）不同的存儲(chǔ)類型，例如，純文本文件、HBase 中的文件。3）將元數(shù)據(jù)保存在關(guān)系數(shù)據(jù)庫(kù)中，大大減少了在查詢過(guò)程中執(zhí)行語(yǔ)義檢查的時(shí)間。4）可以直接使用存儲(chǔ)在 Hadoop 文件系統(tǒng)中的數(shù)據(jù)。5）內(nèi)置大量用戶函數(shù) UDF 來(lái)操作時(shí)間、字符串和其他的數(shù)據(jù)挖掘工具，支持用戶擴(kuò)展 UDF 函數(shù)來(lái)完成內(nèi)置函數(shù)無(wú)法實(shí)現(xiàn)的操作。6）類SQL的查詢方式，將 SQL查詢轉(zhuǎn)換為 Map Reduce的job 在Hadoop集群上執(zhí)行。體系結(jié)構(gòu)： 1）用戶接口用戶接口主要有三個(gè)： CLI， C

19、lient 和 WUI2 ）元數(shù)據(jù)存儲(chǔ) Hive 將元數(shù)據(jù)存儲(chǔ)在數(shù)據(jù)庫(kù)中，如 mysql 、 derby3 ）解釋器、編譯器、優(yōu)化器、執(zhí)行器解釋器、編譯器、優(yōu)化器完成 HQL查詢語(yǔ)句從詞法分析、語(yǔ)法分析、編譯、優(yōu)化以及查詢計(jì)劃的生成。生成的查詢計(jì)劃存儲(chǔ)在 HDFS 中，并在隨后由 MapReduce 調(diào)用執(zhí)行。SqoopSqoop 是一款開源的工具，主要用于在 Hadoop（Hive）與傳統(tǒng)的數(shù)據(jù)庫(kù) （mysql 、 postgresql.）間進(jìn)行數(shù)據(jù)的傳遞，可以將一個(gè)關(guān)系型數(shù)據(jù)庫(kù)（例如：MySQLOracle ,Postgres 等）中的數(shù)據(jù)導(dǎo)進(jìn)到 Hadoop的HDFS中，

20、也可以將 HDFS勺數(shù)據(jù) 導(dǎo)進(jìn)到關(guān)系型數(shù)據(jù)庫(kù)中。特點(diǎn)：可以通過(guò) hadoop 的 mapreduce 把數(shù)據(jù)從關(guān)系型數(shù)據(jù)庫(kù)中導(dǎo)入數(shù)據(jù)到HDFS。flumeFlume 是 Cloudera 提供的一個(gè)高可用的，高可靠的，分布式的海量日志采集、聚合和傳輸?shù)南到y(tǒng)， Flume 支持在日志系統(tǒng)中定制各類數(shù)據(jù)發(fā)送方，用于收集數(shù)據(jù)；同時(shí)， Flume 提供對(duì)數(shù)據(jù)進(jìn)行簡(jiǎn)單處理，并寫到各種數(shù)據(jù)接受方（可定制）的能力。中文名：水槽特點(diǎn)：聚合和傳輸?shù)南到y(tǒng)實(shí) 質(zhì)：孵化項(xiàng)目是經(jīng)濟(jì)方面的用于 , 一項(xiàng)鑒定成功，付諸實(shí)施的項(xiàng)目。功能： 1）日志收集；2）數(shù)據(jù)處理HBaseHBase是一個(gè)分布式的、面向列的開源數(shù)據(jù)

21、庫(kù)，一個(gè)結(jié)構(gòu)化數(shù)據(jù)的分布式存儲(chǔ)系統(tǒng)。HBase不同于一般的關(guān)系數(shù)據(jù)庫(kù)，它是一個(gè)適合于非結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)的數(shù)據(jù)庫(kù)。另一個(gè)不同的是HBase基于列的而不是基于行的模式。結(jié) 構(gòu)：分布式存儲(chǔ)系統(tǒng)優(yōu) 點(diǎn)：HBase - Hadoop Database，是一個(gè)高可靠性、高性能、面向列、可伸縮的分布式存儲(chǔ)系統(tǒng)，利用HBase技術(shù)可在廉價(jià)PCServer上搭建起大規(guī) 模結(jié)構(gòu)化存儲(chǔ)集群。模型：邏輯模型主要從用戶角度出發(fā)；物理模型主要從實(shí)現(xiàn) Hbase 的角度來(lái)討論；StormStorm 是一個(gè)分布式的，可靠的，容錯(cuò)的數(shù)據(jù)流處理系統(tǒng)。它會(huì)把工作任務(wù)委托給不同類型的組件，每個(gè)組件負(fù)責(zé)處理一項(xiàng)簡(jiǎn)單特定的任務(wù)。 St

22、orm 集群的輸入流由一個(gè)被稱作 spout 的組件管理， spout 把數(shù)據(jù)傳遞給 bolt ， bolt 要么把數(shù)據(jù)保存到某種存儲(chǔ)器，要么把數(shù)據(jù)傳遞給其它的 bolt 。優(yōu) 點(diǎn)：1）簡(jiǎn)單的編程模型。類似于Map Reduce降低了并行批處理復(fù)雜性，Storm降低了進(jìn)行實(shí)時(shí)處理的復(fù)雜性。2）可以使用各種編程語(yǔ)言。你可以在Storm之上使用各種編程語(yǔ)言。默認(rèn)支持 Clojure、Java、Ruby和Python。要增加對(duì)其他語(yǔ)言的支持，只需實(shí)現(xiàn)一個(gè)簡(jiǎn)單的 Storm 通信協(xié)議即可。3）容錯(cuò)性。 Storm 會(huì)管理工作進(jìn)程和節(jié)點(diǎn)的故障。4）水平擴(kuò)展。計(jì)算是在多個(gè)線程、進(jìn)程和服務(wù)器之間并

23、行進(jìn)行的。5）可靠的消息處理。Storm 保證每個(gè)消息至少能得到一次完整處理。任務(wù)失敗時(shí)，它會(huì)負(fù)責(zé)從消息源重試消息。6）快速。系統(tǒng)的設(shè)計(jì)保證了消息能得到快速的處理，使用？MQ乍為其底層消息隊(duì)列。7）本地模式。 Storm 有一個(gè)“本地模式” ，可以在處理過(guò)程中完全模擬 Storm 集群。這讓你可以快速進(jìn)行開發(fā)和單元測(cè)試。缺點(diǎn)： 1）單調(diào)乏味性；2 ）脆弱性；3 ）可伸縮性差；使用性： Storm 有許多應(yīng)用領(lǐng)域，包括實(shí)時(shí)分析、在線機(jī)器學(xué)習(xí)、信息流處理、連續(xù)性的計(jì)算、分布式 RPC ETL等。術(shù) 語(yǔ)： Storm 的術(shù)語(yǔ)包括 Stream 、Spout 、Bolt 、Task、Worker、Stream Grouping 和 Topology 。同品：可以和 Storm 相提并論的系統(tǒng)有 Esper、Streambase 、HStreaming 和 YahooS4。其中和Storm最接近的就是 S4。ScalaScala 是一門多范式的編程語(yǔ)言，一種類似 java 的編程語(yǔ)言，設(shè)計(jì)初衷是實(shí)現(xiàn)可伸縮的語(yǔ)言、并集成面向?qū)ο?/p>

人人文庫(kù)> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無(wú)特殊說(shuō)明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

大數(shù)據(jù)職業(yè)發(fā)展方向

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

大數(shù)據(jù)職業(yè)發(fā)展方向

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔