【MOOC】Spark編程基礎(chǔ)-廈門大學(xué) 中國(guó)大學(xué)慕課MOOC答案_第1頁
【MOOC】Spark編程基礎(chǔ)-廈門大學(xué) 中國(guó)大學(xué)慕課MOOC答案_第2頁
【MOOC】Spark編程基礎(chǔ)-廈門大學(xué) 中國(guó)大學(xué)慕課MOOC答案_第3頁
【MOOC】Spark編程基礎(chǔ)-廈門大學(xué) 中國(guó)大學(xué)慕課MOOC答案_第4頁
【MOOC】Spark編程基礎(chǔ)-廈門大學(xué) 中國(guó)大學(xué)慕課MOOC答案_第5頁
已閱讀5頁,還剩14頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

【MOOC】Spark編程基礎(chǔ)-廈門大學(xué)中國(guó)大學(xué)慕課MOOC答案第1章大數(shù)據(jù)技術(shù)概述單元測(cè)驗(yàn)1、【單選題】大數(shù)據(jù)計(jì)算模式有以下四種,對(duì)電子商務(wù)網(wǎng)站購(gòu)物平臺(tái)數(shù)據(jù)的實(shí)時(shí)分析處理過程屬于哪一種?本題答案:【流計(jì)算】2、【單選題】大數(shù)據(jù)技術(shù)及其代表性的軟件種類很多,不同的技術(shù)有其不同應(yīng)用場(chǎng)景,都對(duì)應(yīng)著不同的大數(shù)據(jù)計(jì)算模式,請(qǐng)問軟件產(chǎn)品Pregel主要應(yīng)用于以下哪種計(jì)算模式?本題答案:【圖計(jì)算】3、【單選題】經(jīng)過多年的發(fā)展,Hadoop生態(tài)系統(tǒng)不斷完善和成熟,目前已經(jīng)包含多個(gè)子項(xiàng)目,其中YARN的主要功能是?本題答案:【負(fù)責(zé)集群資源調(diào)度管理的組件】4、【單選題】Hadoop生態(tài)系統(tǒng)中用于構(gòu)建數(shù)據(jù)倉(cāng)庫(kù)并允許用戶輸入SQL語句進(jìn)行查詢的功能組件是?本題答案:【Hive】5、【單選題】MapReduce的一個(gè)基本設(shè)計(jì)思想是?本題答案:【計(jì)算向數(shù)據(jù)靠攏】6、【單選題】Hadoop的生態(tài)系統(tǒng)組件之一Sqoop的功能是?本題答案:【用來在Hadoop和關(guān)系數(shù)據(jù)庫(kù)之間的交換數(shù)據(jù),改進(jìn)數(shù)據(jù)的互操作性】7、【單選題】以下哪一項(xiàng)不是Hadoop的缺點(diǎn)?本題答案:【數(shù)據(jù)文件被分布存儲(chǔ)到多臺(tái)機(jī)器上】8、【單選題】網(wǎng)絡(luò)中很多數(shù)據(jù)是以圖的形式呈現(xiàn)的,比如社交網(wǎng)絡(luò)、交通事故,現(xiàn)場(chǎng)證據(jù)采集等,為了解決大型圖的分布式計(jì)算問題,最適合采用以下哪種計(jì)算框架:本題答案:【Pregel】9、【單選題】用戶在使用HDFS時(shí),仍然可以像普通文件系統(tǒng)那樣用文件名去訪問文件,以下哪個(gè)選項(xiàng)是正確的訪問方式?本題答案:【把文件名發(fā)送給名稱節(jié)點(diǎn),根據(jù)文件名在名稱節(jié)點(diǎn)上找到數(shù)據(jù)塊的實(shí)際存儲(chǔ)信息,客戶端再到數(shù)據(jù)節(jié)點(diǎn)上獲取數(shù)據(jù)】10、【多選題】大數(shù)據(jù)處理的基本流程有以下哪四個(gè)步驟?本題答案:【數(shù)據(jù)采集#存儲(chǔ)管理#處理分析#結(jié)果呈現(xiàn)】11、【多選題】目前學(xué)術(shù)界和業(yè)界比較認(rèn)可的關(guān)于大數(shù)據(jù)的四個(gè)特點(diǎn)是?本題答案:【數(shù)據(jù)量大#數(shù)據(jù)類型多#處理速度快#價(jià)值密度低】12、【多選題】Hadoop兩大核心組成部分是什么?本題答案:【分布式文件系統(tǒng)HDFS#分布式計(jì)算框架MapReduce】13、【多選題】與Hadoop相比,Spark主要有以下哪些優(yōu)點(diǎn)?本題答案:【提供多種數(shù)據(jù)集操作類型而不僅限于MapReduce#提供了內(nèi)存計(jì)算,帶來了更高的迭代運(yùn)算效率#基于DAG的任務(wù)調(diào)度執(zhí)行機(jī)制】14、【多選題】YARN是負(fù)責(zé)集群資源調(diào)度管理的組件。不同的計(jì)算框架統(tǒng)一運(yùn)行在YARN框架之上,具有哪些優(yōu)點(diǎn):本題答案:【計(jì)算資源按需伸縮#不同負(fù)載應(yīng)用混搭,集群利用率高#共享底層存儲(chǔ),避免數(shù)據(jù)跨集群遷移#大大降低了運(yùn)維成本】15、【多選題】關(guān)于Hadoop生態(tài)系統(tǒng)中HBase與其它部分的關(guān)系,以下說法正確的有:本題答案:【HBase利用MapReduce來處理HBase中的海量數(shù)據(jù),實(shí)現(xiàn)高性能計(jì)算#利用Zookeeper作為協(xié)同服務(wù),實(shí)現(xiàn)穩(wěn)定服務(wù)和失敗恢復(fù)#使用HDFS作為高可靠的底層存儲(chǔ),利用廉價(jià)集群提供海量數(shù)據(jù)存儲(chǔ)能力#利用Pig和Hive為HBase提供了高層語言支持#使用Sqoop為HBase提供了高效便捷的RDBMS數(shù)據(jù)導(dǎo)入功能】16、【多選題】Spark的設(shè)計(jì)遵循“一個(gè)軟件棧滿足不同應(yīng)用場(chǎng)景”的理念,逐漸形成了一套完整的生態(tài)系統(tǒng),可以支持以下哪些操作計(jì)算:本題答案:【SQL即席查詢(SparkSQL)#流式計(jì)算(SparkStreaming)#機(jī)器學(xué)習(xí)(MLlib)#圖計(jì)算(GraphX)】17、【多選題】Flink和Spark一樣,都是基于內(nèi)存的計(jì)算框架,都支持流計(jì)算,在流式處理方面,以下選項(xiàng)是Flink的主要特點(diǎn)的有:本題答案:【Flink是一行一行地處理數(shù)據(jù)#Flink可以支持毫秒級(jí)的響應(yīng)#Flink支持增量迭代,具有對(duì)迭代進(jìn)行自動(dòng)優(yōu)化的功能】第2章Scala語言基礎(chǔ)單元測(cè)驗(yàn)1、【單選題】以下哪個(gè)選項(xiàng)不是Scala的數(shù)據(jù)類型?本題答案:【Integer,Void】2、【單選題】Scala關(guān)于變量定義、賦值,錯(cuò)誤的是?本題答案:【vala:String=3】3、【單選題】下面四個(gè)選項(xiàng)中,哪一個(gè)選項(xiàng)中a的取值與其他三個(gè)選項(xiàng)不同?本題答案:【vala:Double=1+2】4、【單選題】下面輸出與其他不一致的是?本題答案:【valw=World;println(Hello$w)】5、【單選題】關(guān)于元組Tuple說法錯(cuò)誤的是?本題答案:【元組最多只有2個(gè)元素】6、【單選題】以下對(duì)集合的描述有誤的是?本題答案:【為了顧及安全性問題,Scala僅支持不可變集合而不支持可變集合】7、【單選題】有關(guān)操作符優(yōu)先級(jí)的描述不正確的是?本題答案:【+的優(yōu)先級(jí)高于!】8、【單選題】對(duì)集合(Set)進(jìn)行操作Set(2,0,1)+1+1-1之后的結(jié)果為?本題答案:【Set(2,0)】9、【單選題】如果需要使用scala庫(kù)中的sqrt函數(shù),如sqrt(2),下列引用包的方式錯(cuò)誤的是?本題答案:【importsqrt】10、【單選題】關(guān)于輔助構(gòu)造器,以下說法正確的是?本題答案:【輔助構(gòu)造器的參數(shù)可以是任意多個(gè)】11、【單選題】Scala中,類成員的缺省訪問級(jí)別是?本題答案:【public】12、【單選題】以下關(guān)于閉包描述錯(cuò)誤的是?本題答案:【對(duì)于defmulBy(factor:Double)=(x:Double)=3*x;valtriple=mulBy(3);,函數(shù)triple是一個(gè)閉包】13、【單選題】高階函數(shù)是指?本題答案:【函數(shù)參數(shù)為函數(shù)或返回結(jié)果為函數(shù)的函數(shù)】14、【單選題】對(duì)于以下代碼描述有誤的是?valdata=Map(1-One,2-Two)valres=for((k,v)-data;if(k1))yieldv本題答案:【運(yùn)行后res的結(jié)果為L(zhǎng)ist(One,Two)】15、【單選題】Scala中,下面的哪個(gè)類定義是不正確的?本題答案:【classCounter{varcounter:String}】16、【單選題】以下關(guān)于類和單例對(duì)象的對(duì)比說法正確的是?本題答案:【單例對(duì)象不可以帶參數(shù),而類可以】17、【單選題】Scala語言中,關(guān)于List的定義,不正確的是?本題答案:【vallist=List[String]('A','B','C')】18、【單選題】對(duì)于Map(book-5,pen-2).map(m=m._1-m._2*2)的結(jié)果,下面哪個(gè)是正確的?本題答案:【Map(book-10,pen-4)】19、【單選題】以下單例對(duì)象,定義錯(cuò)誤的是?本題答案:【objectPerson(PID:String){}】20、【單選題】表達(dá)式for(i-1to3;j-1to3;ifi!=j){print((10*i+j));print()}輸出結(jié)果正確的是?本題答案:【121321233132】21、【單選題】以下程序段的輸出結(jié)果是importutil.control.Breaks._valarray=Array(2,6,10,5,4)for(i-array){breakable{if(i5)breakprintln(i)}}本題答案:【2,5,4】22、【單選題】以下選項(xiàng)說法錯(cuò)誤的是?abstractclassCar{valcarBrand:Stringdefinfo()defgreeting(){println(“welcome”)}}本題答案:【info和greeting都是Car的抽象方法】23、【單選題】類classCounter{varvalue=0},Scala采用類似Java中的getter和setter方法,value字段默認(rèn)定義的方法是?本題答案:【value,value_=】24、【單選題】defpw(x:Int):Int={if(x==0)1else2*pw(x-1)},求pw(5)?本題答案:【32】25、【多選題】以下哪些選項(xiàng)屬于Scala的基本特性?本題答案:【是一門類Java的多范式語言#運(yùn)行于Java虛擬機(jī)(JVM)之上,并且兼容現(xiàn)有的Java程序#是一門純粹的面向?qū)ο蟮恼Z言#是一門函數(shù)式語言,支持高階函數(shù),允許嵌套多層函數(shù),并支持柯里化(Currying)】26、【多選題】關(guān)于主構(gòu)造器,以下說法正確的是?本題答案:【主構(gòu)造器的參數(shù)可以直接放在類名后#主構(gòu)造器會(huì)執(zhí)行類定義中的所有語句#主構(gòu)造器中可以使用默認(rèn)參數(shù)】27、【多選題】Scala中,關(guān)于包的引用正確的是?本題答案:【包和其成員可以用import#可以引用某個(gè)文件夾下的特定文件#可以引用某個(gè)文件夾下的所有文件】28、【多選題】Scala里的函數(shù)是“頭等公民”,以下哪些說法是正確的?本題答案:【將函數(shù)賦值給變量#將函數(shù)作為參數(shù)傳遞給其他函數(shù)#將函數(shù)作為其他函數(shù)的返回值】29、【多選題】以下關(guān)于特質(zhì)的說法正確的是?本題答案:【類可以實(shí)現(xiàn)任意數(shù)量的特質(zhì)#特質(zhì)可以要求實(shí)現(xiàn)它們的類具備特定的字段、方法或超類#當(dāng)將多個(gè)特質(zhì)疊加在一起時(shí),順序很重要,其方法先被執(zhí)行的特質(zhì)排在更后面】30、【多選題】對(duì)于元組valt=(1,3.14,Fred)說法正確的是?本題答案:【t的類型為Tuple3[Int,Double,java.lang.String]#val(first,second,_)=t//second等于3.14#t._0無法訪問,會(huì)拋出異?!?1、【多選題】Scala語言中,下面描述正確的是?本題答案:【Scala中,F(xiàn)loat是AnyVal的子類#Scala中,Long是AnyVal的子類】32、【多選題】對(duì)于valprices=Map(book-5,pen-2,sticker-1)結(jié)果說法正確的是?本題答案:【prices(sticker)//等于1#(prices+(shoes-30))(shoes)//等于30#(prices-pen)(book)//等于5】33、【多選題】Scala中,類和它的伴生對(duì)象說法正確的是?本題答案:【類和它的伴生對(duì)象定義在同一個(gè)文件中#類和它的伴生對(duì)象可以互相訪問私有特性】34、【多選題】關(guān)于數(shù)組vala=Array(1,2,3)下列說法正確的是?本題答案:【valb=a.map(_*2)//b等于Array(2,4,6)#valb=for(elem-a)yield2*elem//b等于Array(2,4,6)#valb=for(elem-aifelem%2==0)yield2*elem//b等于Array(4)】35、【多選題】關(guān)于Scala的類層級(jí)結(jié)構(gòu),以下說法正確的是?本題答案:【AnyVal是所有值類型的父類#Nothing是所有其他類型的子類#Null是所有引用類型的子類】36、【多選題】以下關(guān)于Scala各種數(shù)據(jù)結(jié)構(gòu)的說法正確的是?本題答案:【集合(Set)是不重復(fù)元素的容器#迭代器(Iterator)是一種提供了按順序訪問容器元素的數(shù)據(jù)結(jié)構(gòu)#列表(List)一旦被定義,其值就不能改變】37、【多選題】valbooks=List(“Hadoop”,”Hive”,”Mapreduce”),以下哪些操作能將字符串全部變成大寫?本題答案:【books.map(s=s.toUpperCase)#for(book-books)yieldbook.toUpperCase#books.map(_.toUpperCase)】38、【多選題】在Scala中,關(guān)于Nothing,null,Null,Option,Some,None的說法正確的是?本題答案:【Nothing是所有其他類型的子類,沒有實(shí)例,主要用于異常處理函數(shù)的返回類型#null表示一個(gè)空對(duì)象,可以賦值給任何引用類型#類Option是一個(gè)抽象類,有一個(gè)具體子類Some和一個(gè)對(duì)象None,分別表示有值和無值的情況#Null是所有引用類型的子類,其唯一的實(shí)例是null】第3章Spark的設(shè)計(jì)與運(yùn)行原理單元測(cè)驗(yàn)1、【單選題】以下哪個(gè)不是Spark的組件?本題答案:【Flink】2、【單選題】下面哪個(gè)不是RDD的特點(diǎn)?本題答案:【可修改】3、【單選題】Task是Executor上的工作單元,運(yùn)行于下面哪個(gè)組件上?本題答案:【W(wǎng)orkerNode】4、【單選題】下面哪個(gè)操作肯定是寬依賴?本題答案:【reduceByKey】5、【多選題】以下是Spark的主要特點(diǎn)的有?本題答案:【運(yùn)行速度快#容易使用,簡(jiǎn)潔的API設(shè)計(jì)有助于用戶輕松構(gòu)建并行程序#通用性,Spark提供了完整而強(qiáng)大的技術(shù)棧#運(yùn)行模式多樣】6、【多選題】Spark的運(yùn)行架構(gòu)包括哪些?本題答案:【集群資源管理器(ClusterManager)#執(zhí)行進(jìn)程(Executor)#WorkerNode#任務(wù)控制節(jié)點(diǎn)DriverProgram】7、【多選題】關(guān)于RDD之間的依賴分為窄依賴和寬依賴,以下說法正確的是?本題答案:【存在一個(gè)父RDD的一個(gè)分區(qū)對(duì)應(yīng)一個(gè)子RDD的多個(gè)分區(qū),則為寬依賴#存在一個(gè)父RDD的一個(gè)分區(qū)只被一個(gè)子RDD的一個(gè)分區(qū)所使用,則為窄依賴】8、【多選題】Spark可以采用幾種不同的部署方式,以下正確的部署方式有?本題答案:【Local#Standalone#SparkonMesos#SparkonYARN】9、【多選題】目前的大數(shù)據(jù)處理典型應(yīng)用場(chǎng)景可分為哪幾個(gè)類型?本題答案:【復(fù)雜的批量數(shù)據(jù)處理#基于歷史數(shù)據(jù)的交互式查詢#基于實(shí)時(shí)數(shù)據(jù)流的數(shù)據(jù)處理】10、【多選題】以下選項(xiàng)中哪些是Spark的優(yōu)點(diǎn)?本題答案:【具有高效的容錯(cuò)性#可以將中間結(jié)果持久化到內(nèi)存】第4章Spark環(huán)境搭建和使用方法單元測(cè)驗(yàn)1、【單選題】判斷HDFS是否啟動(dòng)成功,可以通過哪個(gè)命令?本題答案:【jps】2、【單選題】spark-shell在啟動(dòng)時(shí),master-url采用local[*]時(shí),它的含義是?本題答案:【使用與邏輯CPU個(gè)數(shù)相同數(shù)量的線程來本地化運(yùn)行Spark】3、【單選題】下面描述正確的是:本題答案:【Spark是一個(gè)分布式計(jì)算框架,可以和Hadoop組合使用】4、【多選題】Spark部署模式有哪幾種?本題答案:【Local模式(單機(jī)模式)#Standalone模式#YARN模式#Mesos模式】5、【多選題】關(guān)于Hadoop和Spark的相互關(guān)系,以下說法正確的是?本題答案:【Hadoop和Spark可以相互協(xié)作#Hadoop負(fù)責(zé)數(shù)據(jù)的存儲(chǔ)和管理#Spark負(fù)責(zé)數(shù)據(jù)的計(jì)算#Spark要操作Hadoop中的數(shù)據(jù),需要先啟動(dòng)HDFS】6、【多選題】HDFS若啟動(dòng)成功,系統(tǒng)會(huì)列出以下哪些進(jìn)程?本題答案:【NameNode#DataNode#SecondaryNameNode】7、【多選題】spark-shell在啟動(dòng)時(shí),采用yarn-client模式時(shí),以下說法正確的是?本題答案:【當(dāng)用戶提交了作業(yè)之后,不能關(guān)掉Client#該模式適合運(yùn)行交互類型的作業(yè)】8、【多選題】spark-shell在啟動(dòng)時(shí),采用yarn-cluster模式時(shí),以下說法正確的是?本題答案:【當(dāng)用戶提交了作業(yè)之后,就可以關(guān)掉Client#該模式不適合運(yùn)行交互類型的作業(yè)】9、【多選題】開發(fā)Spark獨(dú)立應(yīng)用程序的基本步驟通常有哪些?本題答案:【安裝編譯打包工具,如sbt,Maven#編寫Spark應(yīng)用程序代碼#編譯打包#通過spark-submit運(yùn)行程序】10、【多選題】集群上運(yùn)行Spark應(yīng)用程序的方法步驟有哪些?本題答案:【啟動(dòng)Hadoop集群#啟動(dòng)Spark的Master節(jié)點(diǎn)和所有Slave節(jié)點(diǎn)#在集群中運(yùn)行應(yīng)用程序JAR包#查看集群信息以獲得應(yīng)用程序運(yùn)行的相關(guān)信息】第5章RDD編程單元測(cè)驗(yàn)1、【單選題】下面哪個(gè)方法是用來從文件系統(tǒng)中加載數(shù)據(jù)創(chuàng)建RDD的本題答案:【textFile()】2、【單選題】以下操作中,哪個(gè)不是SparkRDD編程中的操作本題答案:【getLastOne()】3、【單選題】valdata=Array(1,2,3,4,5)valrdd1=sc.parallelize(data)valrdd2=rdd1.map(x=x+10)上述語句執(zhí)行以后,rdd2中的元素是本題答案:【11,12,13,14,15】4、【單選題】valarray=Array(“Hadoopisgood”,”Sparkisfast”,”Sparkisbetter”)vallines=sc.papallelize(array)valwords=lines.flatMap(line=line.split(“”))上述語句執(zhí)行以后,words中的元素是本題答案:【”Hadoop”,”is”,”good”,”Spark”,”is”,”fast”,”Spark”,”is”,”better”】5、【單選題】假設(shè)有一個(gè)RDD的名稱為words,包含9個(gè)元素,分別是:(”Hadoop”,1),(”is”,1),(”good”,1),(”Spark”,1),(”is”,1),(”fast”,1),(”Spark”,1),(”is”,1),(”better”,1)。則語句words.groupByKey()的執(zhí)行結(jié)果得到的新的RDD中,所包含的元素是本題答案:【(”Hadoop”,1),(”is”,(1,1,1)),(”good”,1),(”Spark”,(1,1)),(”fast”,1),(”better”,1)】6、【單選題】valrdd=sc.parallelize(Array(1,2,3,4,5))rdd.take(3)上述語句執(zhí)行的結(jié)果是本題答案:【Array(1,2,3)】7、【單選題】valrdd=sc.parallelize(Array(1,2,3,4,5))rdd.reduce((a,b)=a+b)上述語句執(zhí)行的結(jié)果是本題答案:【15】8、【單選題】有一個(gè)鍵值對(duì)RDD,名稱為pairRDD,它包含4個(gè)元素,分別是(“Hadoop”,1)、(“Spark”,1)、(“Hive”,1)和(“Spark”,1),則pairRDD.reduceByKey((a,b)=a+b)執(zhí)行結(jié)果得到的RDD,它里面包含的元素是本題答案:【(“Hadoop”,1),(“Spark”,2),(“Hive”,1)】9、【單選題】valwords=Array(one,two,two,three,three,three)valwordPairsRDD=sc.parallelize(words).map(word=(word,1))valwordCountsWithGroup=wordPairsRDD.groupByKey().map(t=(t._1,t._2.sum))上述語句的執(zhí)行結(jié)果wordCountsWithGroup中包含的元素是本題答案:【(“one”,1),(“two”,2),(“three”,3)】10、【單選題】valwords=Array(one,two,two,three,three,three)valwordPairsRDD=sc.parallelize(words).map(word=(word,1))wordCountsWithReduce=wordPairsRDD.reduceByKey(_+_)上述語句的執(zhí)行結(jié)果wordCountsWithReduce中包含的元素是本題答案:【(“one”,1),(“two”,2),(“three”,3)】11、【單選題】有一個(gè)鍵值對(duì)RDD,名稱為pairRDD,包含4個(gè)元素,分別是(Hadoop,1)、(Spark,1)、(Hive,1)和(Spark,1),則pairRDD.keys操作得到的RDD中所包含的元素是本題答案:【”Hadoop”,”Spark”,”Hive”,”Spark”】12、【單選題】有一個(gè)RDD,名稱為pairRDD,包含4個(gè)元素,分別是(Hadoop,1)、(Spark,1)、(Hive,1)和(Spark,1),則pairRDD.values操作得到的RDD中所包含的元素是本題答案:【1,1,1,1】13、【單選題】有一個(gè)鍵值對(duì)RDD,名稱為pairRDD,包含4個(gè)元素,分別是(Hadoop,1)、(Spark,1)、(Hive,1)和(Spark,1),則pairRDD.mapValues(x=x+1)操作得到的RDD中所包含的元素是本題答案:【(Hadoop,2)、(Spark,2)、(Hive,2)和(Spark,2)】14、【單選題】valpairRDD1=sc.parallelize(Array((spark,1),(spark,2),(hadoop,3),(hadoop,5)))valpairRDD2=sc.parallelize(Array((spark,fast)))pairRDD1.join(pairRDD2)上述語句執(zhí)行以后,pairRDD1這個(gè)RDD中所包含的元素是本題答案:【(“spark”,(1,”fast”)),(“spark”,(2,”fast”))】15、【多選題】RDD操作包括哪兩種類型本題答案:【轉(zhuǎn)換(Transformation)#行動(dòng)(Action)】16、【多選題】以下操作中,哪些是轉(zhuǎn)換(Transformation)操作本題答案:【filter()#reduceByKey(func)】17、【多選題】以下操作中,哪些是行動(dòng)(Action)操作本題答案:【collect()#reduce()】18、【多選題】以下關(guān)于RDD的持久化的描述,正確的是本題答案:【persist(MEMORY_ONLY):表示將RDD作為反序列化的對(duì)象存儲(chǔ)于JVM中,如果內(nèi)存不足,就要按照LRU原則替換緩存中的內(nèi)容#persist(MEMORY_AND_DISK):表示將RDD作為反序列化的對(duì)象存儲(chǔ)在JVM中,如果內(nèi)存不足,超出的分區(qū)將會(huì)被存放在硬盤上#通過持久化(緩存)機(jī)制可以避免重復(fù)計(jì)算的開銷#使用cache()方法時(shí),會(huì)調(diào)用persist(MEMORY_ONLY)】19、【多選題】關(guān)于RDD分區(qū)的作用,下面描述正確的是本題答案:【增加并行度#減少通信開銷】第6章SparkSQL單元測(cè)驗(yàn)1、【單選題】關(guān)于Shark,下面描述正確的是:本題答案:【Shark重用了Hive中的HiveQL解析、邏輯執(zhí)行計(jì)劃翻譯、執(zhí)行計(jì)劃優(yōu)化等邏輯】2、【單選題】下面關(guān)于SparkSQL架構(gòu)的描述錯(cuò)誤的是:本題答案:【SparkSQL執(zhí)行計(jì)劃生成和優(yōu)化需要依賴Hive來完成】3、【單選題】要把一個(gè)DataFrame保存到people.json文件中,下面語句哪個(gè)是正確的:本題答案:【df.write.json(people.json)】4、【單選題】以下操作中,哪個(gè)不是DataFrame的常用操作:本題答案:【sendto()】5、【多選題】Shark的設(shè)計(jì)導(dǎo)致了兩個(gè)問題:本題答案:【執(zhí)行計(jì)劃優(yōu)化完全依賴于Hive,不方便添加新的優(yōu)化策略#Spark是線程級(jí)并行,而MapReduce是進(jìn)程級(jí)并行,因此,Spark在兼容Hive的實(shí)現(xiàn)上存在線程安全問題,導(dǎo)致Shark不得不使用另外一套獨(dú)立維護(hù)的、打了補(bǔ)丁的Hive源碼分支】6、【多選題】下面關(guān)于為什么推出SparkSQL的原因的描述正確的是:本題答案:【SparkSQL可以提供DataFrameAPI,可以對(duì)內(nèi)部和外部各種數(shù)據(jù)源執(zhí)行各種關(guān)系操作#可以支持大量的數(shù)據(jù)源和數(shù)據(jù)分析算法,組合使用SparkSQL和SparkMLlib,可以融合傳統(tǒng)關(guān)系數(shù)據(jù)庫(kù)的結(jié)構(gòu)化數(shù)據(jù)管理能力和機(jī)器學(xué)習(xí)算法的數(shù)據(jù)處理能力】7、【多選題】下面關(guān)于DataFrame的描述正確的是:本題答案:【DataFrame的推出,讓Spark具備了處理大規(guī)模結(jié)構(gòu)化數(shù)據(jù)的能力#DataFrame比原有的RDD轉(zhuǎn)化方式更加簡(jiǎn)單易用,而且獲得了更高的計(jì)算性能#Spark能夠輕松實(shí)現(xiàn)從MySQL到DataFrame的轉(zhuǎn)化,并且支持SQL查詢#DataFrame是一種以RDD為基礎(chǔ)的分布式數(shù)據(jù)集,提供了詳細(xì)的結(jié)構(gòu)信息】8、【多選題】要讀取people.json文件生成DataFrame,可以使用下面哪些命令:本題答案:【spark.read.json(people.json)#spark.read.format(json).load(people.json)】9、【多選題】從RDD轉(zhuǎn)換得到DataFrame包含兩種典型方法,分別是:本題答案:【利用反射機(jī)制推斷RDD模式#使用編程方式定義RDD模式】10、【多選題】使用編程方式定義RDD模式時(shí),主要包括哪三個(gè)步驟:本題答案:【制作“表頭”#制作“表中的記錄”#把“表頭”和“表中的記錄”拼裝在一起】第7章SparkStreaming單元測(cè)驗(yàn)1、【單選題】以下流計(jì)算框架中,哪個(gè)不是開源的:本題答案:【IBMStreamBase】2、【單選題】下面關(guān)于SparkStreaming的描述錯(cuò)誤的是:本題答案:【SparkStreaming的數(shù)據(jù)抽象是DataFrame】3、【單選題】下面關(guān)于SparkStreaming和Storm的描述正確的是:本題答案:【SparkStreaming無法實(shí)現(xiàn)毫秒級(jí)的流計(jì)算,而Storm可以實(shí)現(xiàn)毫秒級(jí)響應(yīng)】4、【單選題】下面描述錯(cuò)誤的是:本題答案:【在SparkSQL編程中需要生成一個(gè)StreamingContext對(duì)象】5、【單選題】下面不屬于SparkStreaming基本輸入源的是:本題答案:【雙向數(shù)據(jù)流】6、【多選題】以下關(guān)于流數(shù)據(jù)特征的描述,哪些是正確的:本題答案:【數(shù)據(jù)快速持續(xù)到達(dá),潛在大小也許是無窮無盡的#數(shù)據(jù)來源眾多,格式復(fù)雜#數(shù)據(jù)量大,但是不十分關(guān)注存儲(chǔ),一旦流數(shù)據(jù)中的某個(gè)元素經(jīng)過處理,要么被丟棄,要么被歸檔存儲(chǔ)#數(shù)據(jù)順序顛倒,或者不完整,系統(tǒng)無法控制將要處理的新到達(dá)的數(shù)據(jù)元素的順序】7、【多選題】流計(jì)算處理流程一般包括哪三個(gè)階段:本題答案:【數(shù)據(jù)實(shí)時(shí)采集#數(shù)據(jù)實(shí)時(shí)計(jì)算#實(shí)時(shí)查詢服務(wù)】8、【多選題】以下產(chǎn)品哪些屬于日志采集組件:本題答案:【Scribe#Flume】9、【多選題】流處理系統(tǒng)與傳統(tǒng)的數(shù)據(jù)處理系統(tǒng)的不同之處在于:本題答案:【流處理系統(tǒng)處理的是實(shí)時(shí)的數(shù)據(jù),而傳統(tǒng)的數(shù)據(jù)處理系統(tǒng)處理的是預(yù)先存儲(chǔ)好的靜態(tài)數(shù)據(jù)#用戶通過流處理系統(tǒng)獲取的是實(shí)時(shí)結(jié)果,而通過傳統(tǒng)的數(shù)據(jù)處理系統(tǒng)獲取的是過去某一時(shí)刻的結(jié)果#流處理系統(tǒng)無需用戶主動(dòng)發(fā)出查詢,實(shí)時(shí)查詢服務(wù)可以主動(dòng)將實(shí)時(shí)結(jié)果推送給用戶】10、【多選題】編寫SparkStreaming程序的基本步驟包括:本題答案:【通過創(chuàng)建輸入DStream(InputDstream)來定義輸入源#通過對(duì)DStream應(yīng)用轉(zhuǎn)換操作和輸出操作來定義流計(jì)算#調(diào)用StreamingContext對(duì)象的start()方法來開始接收數(shù)據(jù)和處理流程#通過調(diào)用StreamingContext對(duì)象的awaitTermination()方法來等待流計(jì)算進(jìn)程結(jié)束】11、【多選題】DStream有狀態(tài)轉(zhuǎn)換操作包括哪兩種:本題答案:【滑動(dòng)窗口轉(zhuǎn)換操作#updateStateByKey操作】第8章SparkMLlib單元測(cè)驗(yàn)1、【單選題】下面論述中錯(cuò)誤的是:本題答案:【機(jī)器學(xué)習(xí)和人工智能是不存在關(guān)聯(lián)關(guān)系的兩個(gè)獨(dú)立領(lǐng)域】2、【單選題】下面關(guān)于機(jī)器學(xué)習(xí)處理過程的描述,錯(cuò)誤的是:本題答案:【通過算法構(gòu)建出的模型不需要評(píng)估就可以用于其他數(shù)據(jù)的測(cè)試】3、【單選題】下面關(guān)于機(jī)器學(xué)習(xí)流水線(PipeLine)的描述,錯(cuò)誤的是:本題答案:【流水線構(gòu)建好以后,就是一個(gè)轉(zhuǎn)換器(Transformer)】4、【單選題】下面關(guān)于評(píng)估器(Estimator)的描述錯(cuò)誤的是:本題答案:【評(píng)估器實(shí)現(xiàn)了方法transfrom(),它接受一個(gè)DataFrame并產(chǎn)生一個(gè)轉(zhuǎn)換器】5、【單選題】下面關(guān)于轉(zhuǎn)換器(Transformer)的描述錯(cuò)誤的是:本題答案:【技術(shù)上,轉(zhuǎn)換器實(shí)現(xiàn)了一個(gè)方法fit(),它通過附加一個(gè)或多個(gè)列,將一個(gè)DataFrame轉(zhuǎn)換為另一個(gè)DataFrame】6、【多選題】下面的論述中,正確的是:本題答案:【傳統(tǒng)的機(jī)器學(xué)習(xí)算法,由于技術(shù)和單機(jī)存儲(chǔ)的限制,大多只能在少量數(shù)據(jù)上使用#利用MapReduce框架在全量數(shù)據(jù)上進(jìn)行機(jī)器學(xué)習(xí),這在一定程度上解決了統(tǒng)計(jì)隨機(jī)性的問題,提高了機(jī)器學(xué)習(xí)的精度】7、【多選題】下面關(guān)于SparkMLlib庫(kù)的描述正確的是:本題答案:【MLlib庫(kù)從1.2版本以后分為兩個(gè)包:spark.mllib和spark.ml#spark.mllib包含基于RDD的原始算法API】8、【多選題】下面論述中正確的是:本題答案:【DataFrame可容納各種數(shù)據(jù)類型,與RDD數(shù)據(jù)集相比,它包含了模式(schema)信息,類似于傳統(tǒng)數(shù)據(jù)庫(kù)中的二維表格#流水線用DataFrame來存儲(chǔ)源數(shù)據(jù)#轉(zhuǎn)換器(Transformer)是一種可以將一個(gè)DataFrame轉(zhuǎn)換為另一個(gè)DataFrame的算法】《Spark編程基礎(chǔ)》期末考試1、【單選題】大數(shù)據(jù)技術(shù)及其代表性的軟件種類很多,不同的技術(shù)有其不同應(yīng)用場(chǎng)景,都對(duì)應(yīng)著不同的大數(shù)據(jù)計(jì)算模式,請(qǐng)問軟件產(chǎn)品Storm主要應(yīng)用于以下哪種計(jì)算模式:本題答案:【流計(jì)算】2、【單選題】經(jīng)過多年的發(fā)展,Hadoop生態(tài)系統(tǒng)不斷完善和成熟,目前已經(jīng)包含多個(gè)子項(xiàng)目,其中YARN的主要功能是本題答案:【負(fù)責(zé)集群資源調(diào)度管理的組件】3、【單選題】Hadoop生態(tài)系統(tǒng)中用于構(gòu)建數(shù)據(jù)倉(cāng)庫(kù)并允許用戶輸入SQL語句進(jìn)行查詢的功能組件是本題答案:【Hive】4、【單選題】Hadoop的生態(tài)系統(tǒng)組件之一Sqoop的功能是本題答案:【用來在Hadoop和關(guān)系數(shù)據(jù)庫(kù)之間的交換數(shù)據(jù),改進(jìn)數(shù)據(jù)的互操作性】5、【單選題】下面輸出與其他不一致的是本題答案:【valw=World;println(Hello$w)】6、【單選題】對(duì)集合(Set)進(jìn)行操作Set(2,0,1)+1+1-1之后的結(jié)果為本題答案:【Set(2,0)】7、【單選題】關(guān)于Map(book-5,pen-2).map(m=m._1-m._2*2)的結(jié)果,以下哪個(gè)是正確的本題答案:【Map(book-10,pen-4)】8、【單選題】關(guān)于元組Tuple說法錯(cuò)誤的是本題答案:【元組最多只有2個(gè)元素】9、【單選題】以下對(duì)集合的描述有誤的是本題答案:【為了顧及安全性問題,Scala僅支持不可變集合,而不支持可變集合】10、【單選題】如果需要使用Scala庫(kù)中的sqrt函數(shù),如sqrt(2),下列引用包的方式錯(cuò)誤的是本題答案:【importsqrt】11、【單選題】以下哪個(gè)不是Spark的組件?本題答案:【Flink】12、【單選題】Task是Executor上的工作單元,運(yùn)行于下面哪個(gè)組件上?本題答案:【W(wǎng)orkerNode】13、【單選題】下面哪個(gè)不是RDD的特點(diǎn):本題答案:【可修改】14、【單選題】spark-shell在啟動(dòng)時(shí),master-url采用local[*]時(shí),它的含義是:本題答案:【使用與邏輯CPU個(gè)數(shù)相同數(shù)量的線程來本地化運(yùn)行Spark】15、【單選題】下面描述正確的是本題答案:【Spark是一個(gè)分布式計(jì)算框架,可以和Hadoop組合使用】16、【單選題】valarray=Array(“Hadoopisgood”,”Sparkisfast”,”Sparkisbetter”)vallines=sc.papallelize(array)valwords=lines.flatMap(line=line.split(“”))上述語句執(zhí)行以后,words中的元素是:本題答案:【”Hadoop”,”is”,”good”,”Spark”,”is”,”fast”,”Spark”,”is”,”better”】17、【單選題】valrdd=sc.parallelize(Array(1,2,3,4,5))rdd.reduce((a,b)=a+b)上述語句執(zhí)行的結(jié)果是:本題答案:【15】18、【單選題】下面哪個(gè)方法是用來從文件系統(tǒng)中加載數(shù)據(jù)創(chuàng)建RDD的:本題答案:【textFile()】19、【單選題】假設(shè)有一個(gè)RDD的名稱為words,包含9個(gè)元素,分別是:(”Hadoop”,1),(”is”,1),(”good”,1),(”Spark”,1),(”is”,1),(”fast”,1),(”Spark”,1),(”is”,1),(”better”,1)。則語句words.groupByKey()的執(zhí)行結(jié)果得到的新的RDD中,所包含的元素是本題答案:【(”Hadoop”,1),(”is”,(1,1,1)),(”good”,1),(”Spark”,(1,1)),(”fast”,1),(”better”,1)】20、【單選題】valrdd=sc.parallelize(Array(1,2,3,4,5))rdd.take(3)上述語句執(zhí)行的結(jié)果是:本題答案:【Array(1,2,3)】21、【單選題】valwords=Array(one,two,two,three,three,three)valwordPairsRDD=sc.parallelize(words).map(word=(word,1))valwordCountsWithGroup=wordPairsRDD.groupByKey().map(t=(t._1,t._2.sum))上述語句的執(zhí)行結(jié)果wordCountsWithGroup中包含的元素是:本題答案:【(“one”,1),(“two”,2),(“three”,3)】22、【單選題】要把一個(gè)DataFrame保存到people.json文件中,下面語句哪個(gè)是正確的本題答案:【df.write.json(people.json)】23、【單選題】關(guān)于Shark,下面描述正確的是:本題答案:【Shark重用了Hive中的HiveQL解析、邏輯執(zhí)行計(jì)劃翻譯、執(zhí)行計(jì)劃優(yōu)化等邏輯】24、【單選題】下面關(guān)于SparkSQL架構(gòu)的描述錯(cuò)誤的是:本題答案:【SparkSQL執(zhí)行計(jì)劃生成和優(yōu)化需要依賴Hive來完成】25、【單選題】以下操作中,哪個(gè)不是DataFrame的常用操作:本題答案:【sendto()】26、【單選題】下面關(guān)于SparkStreaming的描述錯(cuò)誤的是:本題答案:【SparkStreaming的數(shù)據(jù)抽象是DataFrame.】27、【單選題】下面描述錯(cuò)誤的是:本題答案:【在SparkSQL編程中需要生成一個(gè)StreamingContext對(duì)象】28、【單選題】以下流計(jì)算框架中,哪個(gè)不是開源的:本題答案:【IBMStreamBase】29、【單選題】下面論述中錯(cuò)誤的是本題答案:【機(jī)器學(xué)習(xí)和人工智能是不存在關(guān)聯(lián)關(guān)系的兩個(gè)獨(dú)立領(lǐng)域】

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論