大數(shù)據(jù)考點(diǎn)總結(jié)_第1頁(yè)
大數(shù)據(jù)考點(diǎn)總結(jié)_第2頁(yè)
大數(shù)據(jù)考點(diǎn)總結(jié)_第3頁(yè)
大數(shù)據(jù)考點(diǎn)總結(jié)_第4頁(yè)
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、名詞解釋 1.Hadoop:是一個(gè)開源分布式計(jì)算平臺(tái),為用戶提供了系統(tǒng)底層細(xì)節(jié)透明的分布式基礎(chǔ)架構(gòu)。基于Java語(yǔ)言開發(fā)的,具有很好的跨平臺(tái)特性,并且可以部署在廉價(jià)的計(jì)算機(jī)集群中。核心是分布式文件系統(tǒng)HDFS(Hadoop Distributed File System)和MapReduce。2.HDFS: 是Hadoop的一個(gè)分布式文件系統(tǒng),它的主要設(shè)計(jì)理念為存儲(chǔ)超大文件,最高效的訪問(wèn)模式是一次寫入、多次讀取,運(yùn)行在普通廉價(jià)的服務(wù)器上。3.Hbase: 是一個(gè)高可靠、高性能、面向列、可伸縮的分布式數(shù)據(jù)庫(kù),主要用來(lái)存儲(chǔ)非結(jié)構(gòu)化和半結(jié)構(gòu)化的松散數(shù)據(jù)。 $ hbase shell4.Spark:

2、AMP實(shí)驗(yàn)室于2009年開發(fā),基于內(nèi)存計(jì)算的大數(shù)據(jù)并行計(jì)算框架,可用于構(gòu)建大型的、低延遲的數(shù)據(jù)分析應(yīng)用程序5.推薦系統(tǒng): 是自動(dòng)聯(lián)系用戶和物品的一種工具,通過(guò)研究用戶的興趣偏好,進(jìn)行個(gè)性化計(jì)算,幫助用戶從海量信息中去發(fā)掘自己潛在的需求6.網(wǎng)絡(luò)爬蟲 :又稱為網(wǎng)絡(luò)蜘蛛,是一種按照一定的規(guī)則,自動(dòng)的抓取萬(wàn)維網(wǎng)信息的程序或者腳本。7.大數(shù)據(jù): 一種規(guī)模大到在獲取、存儲(chǔ)、管理、分析方面大大超出了傳統(tǒng)數(shù)據(jù)庫(kù)能力范圍的數(shù)據(jù)集合(1.數(shù)據(jù)量大 2.數(shù)據(jù)類型多 3.處理速度快 4價(jià)值密度低即Volume、Variety、Value、Velocity)8.物聯(lián)網(wǎng):物物相連的互聯(lián)網(wǎng),是互聯(lián)網(wǎng)的延伸,它利用局部網(wǎng)絡(luò)或

3、互聯(lián)網(wǎng)等通信技術(shù)把傳感器、控制器、機(jī)器、人員和物等通過(guò)新的方式聯(lián)在一起,形成人與物、物與物相聯(lián),實(shí)現(xiàn)信息化和遠(yuǎn)程管理控制9.云計(jì)算:通過(guò)整合和管理分布在網(wǎng)絡(luò)各處的計(jì)算資源,提供可伸縮的、廉價(jià)的分布式計(jì)算能力,通過(guò)互聯(lián)網(wǎng)以統(tǒng)一界面,向大量的用戶提供服務(wù)的一種模式10數(shù)據(jù)可視化:將大型集中的數(shù)據(jù)以圖形圖像形式表示,并利用數(shù)據(jù)分析和開發(fā)工具發(fā)現(xiàn)其中未知信息的處理過(guò)程簡(jiǎn)答題 1.hadoop有哪些組件以及功能?答:主要組件有分布式文件系統(tǒng)HDFS,為海量數(shù)據(jù)提供存儲(chǔ); 分布式并行編程模型Mapreduce為用戶提供強(qiáng)大的計(jì)算能力。2.MapReduce的運(yùn)行過(guò)程是什么樣的?答:從分布式文件系統(tǒng)讀入數(shù)據(jù)

4、、執(zhí)行Map任務(wù)輸出中間結(jié)果、通過(guò) Shuffle階段把中間結(jié)果分區(qū)排序整理后發(fā)送給Reduce任務(wù)、執(zhí)行Reduce任務(wù)得到最終結(jié)果并寫入分布式文件系統(tǒng)。(執(zhí)行map函數(shù)把一組鍵值對(duì)按照相關(guān)的規(guī)則映射成一組新的鍵值對(duì),并交由歸約函數(shù)處理)3.Hbase的主要功能組件有哪些?答:(1)庫(kù)函數(shù):鏈接到每個(gè)客戶端(2)一個(gè)Master主服務(wù)器 (3)許多個(gè)Region服務(wù)器4.Hbase與傳統(tǒng)的數(shù)據(jù)庫(kù)有什么區(qū)別? 答(1)數(shù)據(jù)類型:關(guān)系數(shù)據(jù)庫(kù)采用關(guān)系模型,HBase則采用了更加簡(jiǎn)單的數(shù)據(jù)模型(2)數(shù)據(jù)操作:關(guān)系數(shù)據(jù)庫(kù)中包含了豐富的操作,HBase操作只有簡(jiǎn)單的插入、查詢、刪除、清空等(3)存儲(chǔ)模式

5、:關(guān)系數(shù)據(jù)庫(kù)是基于行模式存儲(chǔ)的,HBase是基于列存儲(chǔ)的。(4)數(shù)據(jù)索引:關(guān)系數(shù)據(jù)庫(kù)通常可以針對(duì)不同列構(gòu)建復(fù)雜的多個(gè)索引,以提高數(shù)據(jù)訪問(wèn)性能。HBase只有一個(gè)索引行鍵(5)數(shù)據(jù)維護(hù):在關(guān)系數(shù)據(jù)庫(kù)中,更新操作會(huì)用最新的當(dāng)前值去替換記錄中原來(lái)的舊值,舊值被覆蓋后就不會(huì)存在。而在HBase中執(zhí)行更新操作時(shí),并不會(huì)刪除數(shù)據(jù)舊的版本(6)可伸縮性:關(guān)系數(shù)據(jù)庫(kù)很難實(shí)現(xiàn)橫向擴(kuò)展,縱向擴(kuò)展的空間也比較有限。而hbase正好相反。5.數(shù)據(jù)可視化思想及其作用?答:數(shù)據(jù)可視化技術(shù)的基本思想是將數(shù)據(jù)庫(kù)中每一個(gè)數(shù)據(jù)項(xiàng)作為單個(gè)圖元素表示,大量的數(shù)據(jù)集構(gòu)成數(shù)據(jù)圖像,同時(shí)將數(shù)據(jù)的各個(gè)屬性值以多維數(shù)據(jù)的形式表示,可以從不同的

6、維度觀察數(shù)據(jù),從而對(duì)數(shù)據(jù)進(jìn)行更深入的觀察和分析作用:1)觀測(cè)、跟蹤數(shù)據(jù)2)分析數(shù)據(jù)3)輔助理解數(shù)據(jù)4)增強(qiáng)數(shù)據(jù)吸引力6.云計(jì)算,物聯(lián)網(wǎng),大數(shù)據(jù)之間聯(lián)系答:區(qū)別:大數(shù)據(jù)側(cè)重于對(duì)海量數(shù)據(jù)的存儲(chǔ)、處理和分析;云計(jì)算本質(zhì)上通過(guò)網(wǎng)絡(luò)以服務(wù)的方式將計(jì)算服務(wù)提供給用戶;物聯(lián)網(wǎng)的主要是實(shí)現(xiàn)物物相連。聯(lián)系:云計(jì)算為大數(shù)據(jù)提供了技術(shù)基礎(chǔ),大數(shù)據(jù)為云計(jì)算提供了用武之地;物聯(lián)網(wǎng)是大數(shù)據(jù)的重要來(lái)源,大數(shù)據(jù)也為物聯(lián)網(wǎng)數(shù)據(jù)分析提供支撐;云計(jì)算為物聯(lián)網(wǎng)提供海量的數(shù)據(jù)存儲(chǔ)能力,物聯(lián)網(wǎng)為云計(jì)算提供了廣闊的應(yīng)用空間。7.關(guān)系型數(shù)據(jù)庫(kù)和非關(guān)系型數(shù)據(jù)庫(kù)區(qū)別?答:(1)關(guān)系數(shù)據(jù)庫(kù):是建立在關(guān)系模型基礎(chǔ)上的數(shù)據(jù)庫(kù),借助于集合代數(shù)等數(shù)學(xué)概念

7、和方法來(lái)處理數(shù)據(jù)庫(kù)中的數(shù)據(jù)優(yōu)勢(shì):以完善的關(guān)系代數(shù)理論作為基礎(chǔ),有嚴(yán)格的標(biāo)準(zhǔn),支持事務(wù)ACID四性,借助索引機(jī)制可以實(shí)現(xiàn)高效的查詢,技術(shù)成熟,有專業(yè)公司的技術(shù)支持劣勢(shì):可擴(kuò)展性較差,無(wú)法較好支持海量數(shù)據(jù)存儲(chǔ),數(shù)據(jù)模型過(guò)于死板、無(wú)法較好支持Web2.0應(yīng)用,事務(wù)機(jī)制影響了系統(tǒng)的整體性能等(2)NoSQL數(shù)據(jù)庫(kù):是建立在非關(guān)系模型基礎(chǔ)上的數(shù)據(jù)集優(yōu)勢(shì):可以支持超大規(guī)模數(shù)據(jù)存儲(chǔ),靈活的數(shù)據(jù)模型可以很好地支持Web2.0應(yīng)用,具有強(qiáng)大的橫向擴(kuò)展能力等劣勢(shì):缺乏數(shù)學(xué)理論基礎(chǔ),復(fù)雜查詢性能不高,大都不能實(shí)現(xiàn)事務(wù)強(qiáng)一致性,很難實(shí)現(xiàn)數(shù)據(jù)完整性,技術(shù)尚不成熟,缺乏專業(yè)團(tuán)隊(duì)的技術(shù)支持,維護(hù)較困難等8.spark由哪些

8、組件構(gòu)成?答: Spark的生態(tài)系統(tǒng)主要包含了Spark Core、歷史數(shù)據(jù)交互查詢Spark SQL、實(shí)時(shí)數(shù)據(jù)流數(shù)據(jù)處理Spark Streaming、歷史數(shù)據(jù)的數(shù)據(jù)挖掘MLLib和圖結(jié)構(gòu)數(shù)據(jù)處理GraphX 等組件9.大數(shù)據(jù)給思維方式的改變?答:在數(shù)據(jù)基礎(chǔ)上傾向全體數(shù)據(jù)而不是抽樣數(shù)據(jù),在分析方法上注重相關(guān)分析而不是因果分析在分析效果上更加追求效率而不是絕對(duì)精確10.大數(shù)據(jù)在醫(yī)療,通信等行業(yè)的應(yīng)用產(chǎn)生的影響以及具體帶來(lái)什么改變?醫(yī)療:1.看病難或?qū)⒊蔀橐粋€(gè)傳說(shuō)2.臨床輔助的決策支持系統(tǒng)的應(yīng)用:這個(gè)系統(tǒng)可以為醫(yī)生臨床治療提供決策依據(jù),有助于確保醫(yī)療質(zhì)量,可以使醫(yī)生從耗時(shí)過(guò)長(zhǎng)的簡(jiǎn)單咨詢工作中解脫出來(lái),

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論