南開(kāi)《大數(shù)據(jù)開(kāi)發(fā)技術(shù)(二)》20春期末考核答案_第1頁(yè)
南開(kāi)《大數(shù)據(jù)開(kāi)發(fā)技術(shù)(二)》20春期末考核答案_第2頁(yè)
已閱讀5頁(yè),還剩5頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、大數(shù)據(jù)開(kāi)發(fā)技術(shù)(二)20春期末考核-00001試卷總分:100 得分:70一、單選題 (共 15 道試題,共 30 分)1.GraphX中()方法可以查詢頂點(diǎn)信息A.numVerticesB.numEdgesC.verticesD.edges答案:C2.MLlib 中可以調(diào)用mllib.tree.DecisionTree 類(lèi)中的靜態(tài)方法()訓(xùn)練回歸樹(shù)A.trainClassifierB.trainRegressorC.LogisticRegressionModelD.LabeledPoint答案:B3.以下哪個(gè)函數(shù)可以對(duì)RDD進(jìn)行去重()A.sortByB.filterC.distinctD.

2、intersection答案:C4.圖是一種數(shù)據(jù)元素間為()關(guān)系的數(shù)據(jù)結(jié)構(gòu)A.多對(duì)多B.一對(duì)一C.一對(duì)多D.多對(duì)一答案:A5.GraphX中()方法可以查詢度數(shù)A.degreesB.degreeC.verticesD.edges答案:A6.Scala中()方法返回一個(gè)列表,包含除了第一個(gè)元素之外的其他元素A.headB.initC.tailD.last答案:C7.GraphX中g(shù)raph.triplets可以得到()A.頂點(diǎn)視圖B.邊視圖C.頂點(diǎn)與邊的三元組整體視圖D.有向圖答案:C8.spark-submit配置項(xiàng)中()表示啟動(dòng)的executor數(shù)量A.-num-executors NUMB

3、.-executor-memory MEMC.-total-executor-cores NUMD.-executor-coures NUM答案:A9.()是AMPLab發(fā)布的一個(gè)R開(kāi)發(fā)包,使得R擺脫單機(jī)運(yùn)行的命運(yùn),可以作為Spark的Job運(yùn)行在集群上A.SparkRB.BlinkDBC.GraphXD.Mllib答案:A10.Spark GraphX中類(lèi)Graph的collectNeighborIds(edgeDirection: EdgeDirection)方法可以()A.收集鄰居頂點(diǎn)的頂點(diǎn)Id和頂點(diǎn)屬性B.收集鄰居頂點(diǎn)的頂點(diǎn)IdC.向指定頂點(diǎn)發(fā)送信息并聚合信息D.將頂點(diǎn)信息更新到圖中答

4、案:B11.Mllib中線性會(huì)館算法中的參數(shù)reParam表示()A.要運(yùn)行的迭代次數(shù)B.梯度下降的步長(zhǎng)C.是否給數(shù)據(jù)加干擾特征或者偏差特征D.Lasso 和ridge 的正規(guī)化參數(shù)答案:D12.Scala列表方法中通過(guò)給定的方法將所有元素重新計(jì)算的方法是()A.filterB.foreachC.mapD.mkString答案:C13.Scala函數(shù)組合器可以把一個(gè)二維的列表展開(kāi)成一個(gè)一維的列表的方法是()A.filterB.flattenC.groubyD.flatmap答案:B14.GraphX中()方法可以釋放頂點(diǎn)緩存A.cacheB.presistC.unpersistVertices

5、D.edges.unpersist答案:C15.Spark GraphX中類(lèi)Graph的aggregateMessages方法可以()A.收集鄰居頂點(diǎn)的頂點(diǎn)Id和頂點(diǎn)屬性B.收集鄰居頂點(diǎn)的頂點(diǎn)IdC.向指定頂點(diǎn)發(fā)送信息并聚合信息D.將頂點(diǎn)信息更新到圖中答案:C二、多選題 (共 10 道試題,共 20 分)16.MLBase包括()A.MllibB.MLIC.SparkRD.GraphX答案:AB17.Spark創(chuàng)建DataFrame對(duì)象方式有()A.結(jié)構(gòu)化數(shù)據(jù)文件B.外部數(shù)據(jù)庫(kù)C.RDDD.Hive中的表答案:ABCD18.TF-IDF中IDF指的是()A.詞頻B.詞在文檔中出現(xiàn)的次數(shù)C.逆文

6、檔概率D.詞在文檔集中出現(xiàn)的概率E.詞在文檔集中出現(xiàn)的概率答案:CD19.Spark中DataFrame的()方法是查詢指定字段的數(shù)據(jù)信息A.selectB.selectExprC.colD.apply答案:ABCD20.以下算法中屬于監(jiān)督學(xué)習(xí)算法的是()A.KNN算法B.邏輯回歸C.隨機(jī)森林D.Kmeans答案:ABC21.以下哪個(gè)方法可以從集合中創(chuàng)建RDD()A.parallelizeB.makeRDDC.textFileD.loadFile答案:AB22.Scala函數(shù)支持()A.遞歸函數(shù)B.高階函數(shù)C.柯里化D.匿名函數(shù)答案:ABCD23.GraphX中Edge邊對(duì)象存有()字段A.s

7、rcIdB.dstIdC.attrD.val答案:ABC24.Spark中的RDD的說(shuō)法正確的是()A.彈性分布式數(shù)據(jù)集B.是Spark中最基本的數(shù)據(jù)抽象C.代表一個(gè)可變的集合D.代表的集合里面的元素可并行計(jì)算答案:ABD25.Spark支持使用()語(yǔ)言編寫(xiě)應(yīng)用A.ScalaB.PythonC.JavaD.R答案:ABCD三、判斷題 (共 10 道試題,共 20 分)26.Scala中高階函數(shù)可以使用函數(shù)作為參數(shù),也可以使用函數(shù)作為輸出結(jié)果。答案:正確27.RDD的sortBy函數(shù)包含參數(shù)numPartitions,該參數(shù)決定排序后的RDD的分區(qū)個(gè)數(shù),默認(rèn)排序后的分區(qū)個(gè)數(shù)和排序之前的個(gè)數(shù)相等,

8、即為this.partitions.size。答案:正確28.RDD的filter過(guò)濾會(huì)將返回值為true的過(guò)濾掉答案:錯(cuò)誤29.RDD的subtract用于用于將前一個(gè)RDD 中在后一個(gè)RDD 出現(xiàn)的元素刪除答案:正確30.圖(Graph)是一種復(fù)雜的非線性結(jié)構(gòu)答案:正確31.Spark中DataFrame 的查詢操作也是一個(gè)懶操作, 僅僅生成一個(gè)查詢計(jì)劃, 只有觸發(fā)Action 操作才會(huì)進(jìn)行計(jì)算并返回查詢結(jié)果。答案:正確32.RDD的map操作不會(huì)改變RDD的分區(qū)數(shù)目答案:正確33.Scala 集合分為可變的和不可變的集合答案:正確34.Spark RDD 是惰性求值的, 如果需要對(duì)一個(gè)R

9、DD 多次使用,那么調(diào)用行動(dòng)操作時(shí)每次都需要重復(fù)計(jì)算RDD 以及它的依賴。答案:正確35.Scala 列表與數(shù)組非常相似,列表的所有元素可具有不同的類(lèi)型。答案:錯(cuò)誤四、主觀填空題 (共 5 道試題,共 10 分)36.Scala函數(shù)組合器可以把一個(gè)二維的列表展開(kāi)成一個(gè)一維的列表的方法是#答案:flatten37.Mllib中線性會(huì)館算法中的參數(shù)reParam默認(rèn)值是#答案:138.假設(shè)集合A 有5 個(gè)元素,集合B 有10 個(gè)元素,使用RDDcartesian函數(shù)會(huì)返回#個(gè)元素的組合答案:5039.Scala中定義函數(shù)的關(guān)鍵字是#答案:def40.Spark SQL 可以通過(guò)#方法將HDFS 上

10、的格式化文件轉(zhuǎn)換為DataFrame答案:load五、問(wèn)答題 (共 1 道試題,共 10 分)41.請(qǐng)闡述Spark對(duì)數(shù)據(jù)進(jìn)行持久化的特點(diǎn)答案:(1) RDD 的存儲(chǔ)級(jí)別應(yīng)該根據(jù)需要以及環(huán)境具體情況設(shè)定,在RDD 參與第一次計(jì)算后,RDD 就會(huì)根據(jù)設(shè)置的存儲(chǔ)級(jí)別保存RDD 計(jì)算后的值在內(nèi)存中或磁盤(pán)上。(2) 只有未曾設(shè)置存儲(chǔ)級(jí)別的RDD 才能設(shè)置存儲(chǔ)級(jí)別,設(shè)置了存儲(chǔ)級(jí)別的RDD 不能修改其存儲(chǔ)級(jí)別。(3) 針對(duì)僅存儲(chǔ)數(shù)據(jù)在內(nèi)存中的存儲(chǔ)策略,如果內(nèi)存不足的話, Spark 會(huì)使用LRU 緩存策略清除最老的分區(qū),為新的RDD 提供空間,所以緩存在內(nèi)存中的RDD分區(qū)是會(huì)被清除的,而不能長(zhǎng)久保存,而緩存在磁盤(pán)上的數(shù)據(jù)則不用擔(dān)心。六、名詞解釋 (共 2

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論