數(shù)據(jù)挖掘試題150道_第1頁
數(shù)據(jù)挖掘試題150道_第2頁
數(shù)據(jù)挖掘試題150道_第3頁
數(shù)據(jù)挖掘試題150道_第4頁
數(shù)據(jù)挖掘試題150道_第5頁
已閱讀5頁,還剩7頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、單選題1.某超市研究銷售紀錄數(shù)據(jù)后發(fā)現(xiàn),買啤酒的人很大概率也會購買尿布,這種屬于數(shù)據(jù)挖掘的哪類問題? (A)A.關聯(lián)規(guī)則發(fā)現(xiàn)B.聚類C.分類D.自然語言處理2.以下兩種描述分別對應哪兩種對分類算法的評價標準?(A)(a)警察抓小偷,描述警察抓的人中有多少個是小偷的標準。(b)描述有多少比例的小偷給警察抓了的標準。A. Precision, Recall B. Recall, PrecisionA. Precision, ROC D. Recall, ROC3.將原始數(shù)據(jù)進行集成、變換、維度規(guī)約、數(shù)值規(guī)約是在以下哪個步驟的任務?(C)A.頻繁模式挖掘B.分類和預測C.數(shù)據(jù)預處理D.數(shù)據(jù)流挖掘4.

2、當不知道數(shù)據(jù)所帶標簽時,可以使用哪種技術促使帶同類標簽的數(shù)據(jù)與帶其他標簽的數(shù)據(jù)相分離?(B)A.分類B.聚類C.關聯(lián)分析D.隱馬爾可夫鏈5.什么是KDD ? (A)A.數(shù)據(jù)挖掘與知識發(fā)現(xiàn)B.領域知識發(fā)現(xiàn)C.文檔知識發(fā)現(xiàn)D.動態(tài)知識發(fā)現(xiàn)6.使用交互式的和可視化的技術,對數(shù)據(jù)進行探索屬于數(shù)據(jù)挖掘的哪一類任務? (A)A.探索性數(shù)據(jù)分析B.建模描述C.預測建模D.尋找模式和規(guī)則7.為數(shù)據(jù)的總體分布建模;把多維空間劃分成組等問題屬于數(shù)據(jù)挖掘的哪一類任務?(B)A.探索性數(shù)據(jù)分析B.建模描述C.預測建模D.尋找模式和規(guī)則8.建立一個模型,通過這個模型根據(jù)已知的變量值來預測其他某個變量值屬于數(shù)據(jù)挖掘的哪一

3、類任務?(C)A.根據(jù)內容檢索B.建模描述C.預測建模D.尋找模式和規(guī)則9.用戶有一種感興趣的模式并且希望在數(shù)據(jù)集中找到相似的模式,屬于數(shù)據(jù)挖掘哪一類任務?(A)A.根據(jù)內容檢索B.建模描述C.預測建模D.尋找模式和規(guī)則11.下面哪種不屬于數(shù)據(jù)預處理的方法?(D)A變量代換B離散化C聚集D估計遺漏值12.假設12個銷售價格記錄組已經排序如下:5, 10, 11, 13, 15, 35, 50, 55, 72, 92, 204, 215使用如下每種方法將它們劃分成四個箱。等頻(等深)劃分時,15在第幾個箱子內?(B)A第一個B第二個C第三個D第四個13.上題中,等寬劃分時(寬度為50), 15又

4、在哪個箱子里?(A)A第一個B第二個C第三個D第四個14.下面哪個不屬于數(shù)據(jù)的屬性類型:(D)A標稱B序數(shù)C區(qū)間D相異15.在上題中,屬于定量的屬性類型是:(C)A標稱B序數(shù)C區(qū)間D相異16.只有非零值才重要的二元屬性被稱作:(C )A計數(shù)屬性B離散屬性C非對稱的二元屬性D對稱屬性17.以下哪種方法不屬于特征選擇的標準方法:(D)A嵌入B過濾C包裝D抽樣18.下面不屬于創(chuàng)建新屬性的相關方法的是:(B)A特征提取B特征修改C映射數(shù)據(jù)到新的空間D特征構造A傅立葉變換B特征加權C漸進抽樣D維歸約22.假設屬性income的最大最小值分別是12000元和98000元。利用最大最小規(guī)范化的方26.下列哪

5、個不是專門用于可視化時間空間數(shù)據(jù)的技術:(B)A等高線圖B餅圖C曲面圖D矢量場圖27.在抽樣方法中,當合適的樣本容量很難確定時,可以使用的抽樣方法是:(D)A有放回的簡單隨機抽樣B無放回的簡單隨機抽樣C分層抽樣D漸進抽樣28.數(shù)據(jù)倉庫是隨著時間變化的,下面的描述不正確的是(C)A.數(shù)據(jù)倉庫隨時間的變化不斷增加新的數(shù)據(jù)內容;B.捕捉到的新數(shù)據(jù)會覆蓋原來的快照;C.數(shù)據(jù)倉庫隨事件變化不斷刪去舊的數(shù)據(jù)內容;D.數(shù)據(jù)倉庫中包含大量的綜合數(shù)據(jù),這些綜合數(shù)據(jù)會隨著時間的變化不斷地進行重新綜合29.關于基本數(shù)據(jù)的元數(shù)據(jù)是指:(D)A.基本元數(shù)據(jù)與數(shù)據(jù)源,數(shù)據(jù)倉庫,數(shù)據(jù)集市和應用程序等結構相關的信息;B.基本

6、元數(shù)據(jù)包括與企業(yè)相關的管理方面的數(shù)據(jù)和信息;C.基本元數(shù)據(jù)包括日志文件和簡歷執(zhí)行處理的時序調度信息;D.基本元數(shù)據(jù)包括關于裝載和更新處理,分析處理以及管理方面的信息.30.下面關于數(shù)據(jù)粒度的描述不正確的是:(C)A.粒度是指數(shù)據(jù)倉庫小數(shù)據(jù)單元的詳細程度和級別;B.數(shù)據(jù)越詳細,粒度就越小,級別也就越高;C.數(shù)據(jù)綜合度越高,粒度也就越大,級別也就越高;D.粒度的具體劃分將直接影響數(shù)據(jù)倉庫中的數(shù)據(jù)量以及查詢質量31.有關數(shù)據(jù)倉庫的開發(fā)特點,不正確的描述是:(A)A.數(shù)據(jù)倉庫開發(fā)要從數(shù)據(jù)出發(fā);B.數(shù)據(jù)倉庫使用的需求在開發(fā)出去就要明確;C.數(shù)據(jù)倉庫的開發(fā)是一個不斷循環(huán)的過程,是啟發(fā)式的開發(fā);D.在數(shù)據(jù)倉

7、庫環(huán)境中,并不存在操作型環(huán)境中所固定的和較確切的處理流,數(shù)據(jù)倉庫中數(shù)據(jù)分析和處理更靈活,且沒有固定的模式32.在有關數(shù)據(jù)倉庫測試,下列說法不正確的是:(D)A.在完成數(shù)據(jù)倉庫的實施過程中,需要對數(shù)據(jù)倉庫進行各種測試.測試工作中要包括單元測試和系統(tǒng)測試.B.當數(shù)據(jù)倉庫的每個單獨組件完成后,就需要對他們進行單元測試.C.系統(tǒng)的集成測試需要對數(shù)據(jù)倉庫的所有組件進行大量的功能測試和回歸測試D.在測試之前沒必要制定詳細的測試計劃.33. OLAP技術的核心是:(D)A.在線性;B.對用戶的快速響應;C.互操作性.D.多維分析;34.關于OLAP的特性,下面正確的是:(D)快速性 可分析性(3)多維性(4

8、)信息,性(5)共享性A. (3)B. C. (4)D. (4) (5)35.關于OLAP和OLTP的區(qū)別描述,不正確的是:(d)A. OLAP主要是關于如何理解聚集的大量不同的數(shù)據(jù),它與OTAP應用程序不同.B.與OLAP應用程序不同,OLTP應用程序包含大量相對簡單的事務.C. OLAP的特點在于事務量大,但事務內容比較簡單且重復率高.D. OLAP是以數(shù)據(jù)倉庫為基礎的,但其最終數(shù)據(jù)來源與OLTP一樣均來自底層的數(shù)據(jù)庫系統(tǒng) 兩者面對的用戶是相同的.36. OLAM技術一般簡稱為”數(shù)據(jù)聯(lián)機分析挖掘”下面說法正確的是:(D)A. OLAP和OLAM都基于客戶機/服務器模式,只有后者有與用戶的交

9、互性;B.由于OLAM的立方體和用于OLAP的立方體有本質的區(qū)別.C.基于WEB的OLAM是WEB技術與OLAM技術的結合.D. OLAM服務器通過用戶圖形借口接收用戶的分析指令,在元數(shù)據(jù)的知道下,對超級立方體作一定的操作.37.關于OLAP和OLTP的說法,下列不正確的是:(c)A. OLAP事務量大,但事務內容比較簡單且重復率高.B. OLAP的最終數(shù)據(jù)來源與OLTP不一樣.C. OLTP面對的是決策人員和高層管理人員.D. OLTP以應用為核心,是應用驅動的.38.設X=1 , 2, 3是頻繁項集,則可由X產生_(C)_個關聯(lián)規(guī)則。A、4 B、5 C、6 D、740.概念分層圖是_(B)

10、_圖。A、無向無環(huán)B、有向無環(huán)C、有向有環(huán)D、無向有環(huán)41.頻繁項集、頻繁閉項集、最大頻繁項集之間的關系是:(C)A、 頻繁項集頻繁閉項集=最大頻繁項集B、 頻繁項集=頻繁閉項集最大頻繁項集C、 頻繁項集頻繁閉項集最大頻繁項集D、 頻繁項集=頻繁閉項集=最大頻繁項集44.在圖集合中發(fā)現(xiàn)一組公共子結構,這樣的任務稱為(B )A、頻繁子集挖掘B、頻繁子圖挖掘C、頻繁數(shù)據(jù)項挖掘D、頻繁模式挖掘45.下列度量不具有反演性的是(D)A、 系數(shù)B、幾率C、Cohen度量D、興趣因子46.下列_(A)_不是將主觀信息加入到模式發(fā)現(xiàn)任務中的方法。A、 與同一時期其他數(shù)據(jù)對比B、 可視化C、 基于模板的方法D、

11、 主觀興趣度量47.下面購物籃能夠提取的3-項集的最大數(shù)量是多少(C)ID購買項1牛奶,啤酒,尿布2面包,黃油,牛奶3牛奶,尿布,餅干4面包,黃油,餅干5啤酒,餅干,尿布6牛奶,尿布,面包,黃油7面包,黃油,尿布8啤酒,尿布9牛奶,尿布,面包,黃油10啤酒,餅干A、1 B、2 C、3 D、448.以下哪些算法是分類算法,A , DBSCAN B , C4.5 C,K-Mean D,EM (B)49.以下哪些分類方法可以較好地避免樣本的不平衡問題,A , KNN B , SVM C , Bayes D,神經網絡(A)50.決策樹中不包含一下哪種結點,A,根結點(root node) B,內部結點

12、(internal node) C,外部結點(external node) D,葉結點(leaf node) (C)51.不純性度量中Gini計算公式為(其中c是類的個數(shù))(A)A, B, C, D, (A)53.以下哪項關于決策樹的說法是錯誤的(C)A.冗余屬性不會對決策樹的準確率造成不利的影響B(tài).子樹可能在決策樹中重復多次C.決策樹算法對于噪聲的干擾非常敏感D.尋找最佳決策樹是NP完全問題54.在基于規(guī)則分類器的中,依據(jù)規(guī)則質量的某種度量對規(guī)則排序,保證每一個測試記錄都是由覆蓋它的 最好的”規(guī)格來分類,這種方案稱為(B)A.基于類的排序方案B.基于規(guī)則的排序方案C.基于度量的排序方案D.基

13、于規(guī)格的排序方案。55.以下哪些算法是基于規(guī)則的分類器(A)A. C4.5 B. KNN C. Na?ve Bayes D. ANN56.如果規(guī)則集R中不存在兩條規(guī)則被同一條記錄觸發(fā),則稱規(guī)則集R中的規(guī)則為(C);A,無序規(guī)則B,窮舉規(guī)則C,互斥規(guī)則D,有序規(guī)則57.如果對屬性值的任一組合,R中都存在一條規(guī)則加以覆蓋,則稱規(guī)則集R中的規(guī)則為(B)A,無序規(guī)則B,窮舉規(guī)則C,互斥規(guī)則D,有序規(guī)則58.如果規(guī)則集中的規(guī)則按照優(yōu)先級降序排列,則稱規(guī)則集是(D)A,無序規(guī)則B,窮舉規(guī)則C,互斥規(guī)則D,有序規(guī)則59.如果允許一條記錄觸發(fā)多條分類規(guī)則,把每條被觸發(fā)規(guī)則的后件看作是對相應類的一次投票,然后計

14、票確定測試記錄的類標號,稱為(A)A,無序規(guī)則B,窮舉規(guī)則C,互斥規(guī)則D,有序規(guī)則60.考慮兩隊之間的足球比賽:隊0和隊1。假設65%的比賽隊0勝出,剩余的比賽隊1獲 勝。隊0獲勝的比賽中只有30%是在隊1的主場,而隊1取勝的比賽中75%是主場獲勝。如果下一場比賽在隊1的主場進行隊1獲勝的概率為(C)A, 0.75 B,0.35 C,0.4678 D, 0.573861.以下關于人工神經網絡(ANN )的描述錯誤的有(A)A,神經網絡對訓練數(shù)據(jù)中的噪聲非常魯棒B,可以處理冗余特征很耗時的過程D,至少含有一個隱藏層的多層神經網絡62.通過聚集多個分類器的預測來提高分類準確率的技術稱為(A)A,組

15、合(ensemble) B,聚集(aggregate) C,合并(combination) D ,投票(voting)63.簡單地將數(shù)據(jù)對象集劃分成不重疊的子集,使得每個數(shù)據(jù)對象恰在一個子集中,這種聚 類類型稱作(B)A、層次聚類B、劃分聚類C、非互斥聚類D、模糊聚類64.在基本K均值算法里,當鄰近度函數(shù)采用(A)的時候,合適的質心是簇中各點的中 位數(shù)。72.關于K均值和DBSCAN的比較,以下說法不正確的是(A)。A、K均值丟棄被它識別為噪聲的對象,而DBSCAN一般聚類所有對象。B、K均值使用簇的基于原型的概念,而DBSCAN使用基于密度的概念。C、K均值很難處理非球形的簇和不同大小的簇,

16、DBSCAN可以處理不同大小和不同形 狀的簇。D、K均值可以發(fā)現(xiàn)不是明顯分離的簇,即便簇有重疊也可以發(fā)現(xiàn),但是DBSCAN會合 并有重疊的簇。73.以下是哪一個聚類算法的算法流程:構造k-最近鄰圖。使用多層圖劃分算法劃分圖。repeat:合并關于相對互連性和相對接近性而言,最好地保持簇的自相似性的簇。until:不再有可以合并的簇。(C)。A、MSTB、OPOSSUMC、Chameleon D、Jarvis Patrick (JP)74.考慮這么一種情況:一個對象碰巧與另一個對象相對接近,但屬于不同的類,因為這兩 個對象一般不會共享許多近鄰,所以應該選擇(D )的相似度計算方法。A、平方歐幾里

17、德距離B、余弦距離C、直接相似度D、共享最近鄰75.以下屬于可伸縮聚類算法的是(A)。C,訓練ANN是一個A、曼哈頓距離65.(C)是-產生的。A、邊界點66.BIRCH是B、平方歐幾里德距離C、余弦距離D、Bregman散度個觀測值,它與其他觀測值的差別如此之大,以至于懷疑它是由不同的機制B、質心種(B)。C、離群點D、核心點A、分類器B、聚類算法C、關聯(lián)分析算法67.檢測一元正態(tài)分布中的離群點,屬于異常檢測中的基于(A、統(tǒng)計方法B、鄰近度C、密度D、D、特征選擇算法A )的離群點檢測。聚類技術68.(C)將兩個簇的鄰近度定義為不同簇的所有點對的平均逐對鄰近度,次聚類技術。A、MIN(單鏈)

18、B、MAX(全鏈)C、組平均69.(D)將兩個簇的鄰近度定義為兩個簇合并時導致的平方誤差的增量,次聚類技術。A、MIN(單鏈)B、MAX(全鏈)70.DBSCAN在最壞情況下的時間復雜度是(BA、O(m) B、O(m2) C、O(log m)71.在基于圖的簇評估度量表里面,如果簇度量為的類型是(C)。A、基于圖的凝聚度基于圖的凝聚度和分離度B、基于原型的凝聚度它是一種凝聚層C、組平均D、D、Ward方法它是一種凝聚層Ward方法)D、O(m*log m)proximity(Ci , C),簇權值為mi,那么它C、基于原型的分離度D、B、 混合模型比K均值或模糊c均值更一般,因為它可以使用各種

19、類型的分布。C、 混合模型很難發(fā)現(xiàn)不同大小和橢球形狀的簇。D、 混合模型在有噪聲和離群點時不會存在問題。78.以下哪個聚類算法不屬于基于網格的聚類算法(A、STING B、WaveClusterC、MAFIA D、BIRCH79.一個對象的離群點得分是該對象周圍密度的逆。這是基于(C)的離群點定義。A.概率B、鄰近度C、密度D、聚類80.下面關于Jarvis Patrick (JP)聚類算法的說法不正確的是(D)。A、JP聚類擅長處理噪聲和離群點,并且能夠處理不同大小、形狀和密度的簇。B、JP算法對高維數(shù)據(jù)效果良好,尤其擅長發(fā)現(xiàn)強相關對象的緊致簇。C、JP聚類是基于SNN相似度的概念。D、JP

20、聚類的基本時間復雜度為O(m)。二、多選題1.通過數(shù)據(jù)挖掘過程所推倒出的關系和摘要經常被稱為:(A B)A.模型B.模式C.模范D.模具2尋找數(shù)據(jù)集中的關系是為了尋找精確、方便并且有價值地總結了數(shù)據(jù)的某一特征的表示,這個過程包括了以下哪些步驟?(A B C D)A.決定要使用的表示的特征和結構B.決定如何量化和比較不同表示擬合數(shù)據(jù)的好壞C.選擇一個算法過程使評分函數(shù)最優(yōu)D.決定用什么樣的數(shù)據(jù)管理原則以高效地實現(xiàn)算法。3.數(shù)據(jù)挖掘的預測建模任務主要包括哪幾大類問題?(A B)A.分類B.回歸C.模式發(fā)現(xiàn)D.模式匹配4.數(shù)據(jù)挖掘算法的組件包括:(A B C D)A.模型或模型結構B.評分函數(shù)C.優(yōu)

21、化和搜索方法D.數(shù)據(jù)管理策略5.以下哪些學科和數(shù)據(jù)挖掘有密切聯(lián)系?(A D)A.統(tǒng)計B.計算機組成原理C.礦產挖掘D.人工智能6.在現(xiàn)實世界的數(shù)據(jù)中,元組在某些屬性上缺少值是常有的。描述處理該問題的各種方法有:(AB CD E)A忽略元組C使用一個全局常量填充空缺值B使用屬性的平均值填充空缺值D使用與給定元組屬同一類的所有樣本的平均值E使用最可能的值填充空缺值7.下面哪些屬于可視化高維數(shù)據(jù)技術 (ABC E )A矩陣B平行坐標系C星形坐標D散布圖E Chernoff臉8.對于數(shù)據(jù)挖掘中的原始數(shù)據(jù),存在的問題有:(ABCD E)A、CUREB、DENCLUE C、CLIQUE76.以下哪個聚類算

22、法不是屬于基于原型的聚類(DA、模糊c均值B、EM算法C、SOM77.關于混合模型聚類算法的優(yōu)缺點,下面說法正確的是(A、 當簇只包含少量數(shù)據(jù)點,或者數(shù)據(jù)點近似協(xié)線性時,D、OPOSSUMD、CLIQUEB)?;旌夏P鸵材芎芎玫靥幚?。A不一致B重復C不完整D含噪聲E維度高9.下列屬于不同的有序數(shù)據(jù)的有:(ABC E )A時序數(shù)據(jù)B序列數(shù)據(jù)C時間序列數(shù)據(jù)D事務數(shù)據(jù)E空間數(shù)據(jù)10.下面屬于數(shù)據(jù)集的一般特性的有:(B C D)A連續(xù)性B維度C稀疏性D分辨率11.下面屬于維歸約常用的線性代數(shù)技術的有:A主成分分析B特征提取C奇異值分解12.下面列出的條目中,哪些是數(shù)據(jù)倉庫的基本特征:(ACD)A.數(shù)據(jù)

23、倉庫是面向主題的B.數(shù)據(jù)倉庫的數(shù)據(jù)是集成的C.數(shù)據(jù)倉庫的數(shù)據(jù)是相對穩(wěn)定的D.數(shù)據(jù)倉庫的數(shù)據(jù)是反映歷史變化的E.數(shù)據(jù)倉庫是面向事務的13.以下各項均是針對數(shù)據(jù)倉庫的不同說法,你認為正確的有(A.數(shù)據(jù)倉庫就是數(shù)據(jù)庫B.數(shù)據(jù)倉庫是一切商業(yè)智能系統(tǒng)的基礎C.數(shù)據(jù)倉庫是面向業(yè)務的,支持聯(lián)機事務處理(OLTP)D.數(shù)據(jù)倉庫支持決策而非事務處理E.數(shù)據(jù)倉庫的主要目標就是幫助分析,14.數(shù)據(jù)倉庫在技術上的工作過程是:A.數(shù)據(jù)的抽取B.存儲和管理D.數(shù)據(jù)倉庫設計E.數(shù)據(jù)的表現(xiàn)15.聯(lián)機分析處理包括以下哪些基本分析功能?A.聚類B.切片C.轉軸D.切塊16.利用Apriori算法計算頻繁項集可以有效降低計算頻繁集

24、的時間復雜度。在以下的購物籃中產生支持度不小于3的候選3-項集,在候選2-項集中需要剪枝的是(BD)、面包C、面包、尿布D、啤酒、牛奶17.下表是一個購物籃,假定支持度閾值為40%,其中_(A D)_是頻繁閉項集。TID項1 abc2 abcd3 bce4 acde5 deA、abc B、adC、cd D、de18. Apriori算法的計算復雜度受_(ABCD)?_影響。A、支持度閥值B、項數(shù)(維度)ID項集1面包、牛奶2面包、尿布、啤酒、雞蛋3牛奶、尿布、啤酒、可樂4面包、牛奶、尿布、啤酒5面包、牛奶、尿布、可樂A、啤酒、尿布B、啤酒E相異性(A C)D特征加權E離散化BCDE做長期性的戰(zhàn)

25、略制定(ABCD)C.數(shù)據(jù)的表現(xiàn)(BCD)E.分類C、事務數(shù)D、事務平均寬度19.非頻繁模式_(AD)_A、其支持度小于閾值B、都是不讓人感興趣的C、包含負模式和負相關模式D、對異常數(shù)據(jù)項敏感20.以下屬于分類器評價或比較尺度的有:A,預測準確度B,召回率C,模型描述的簡潔度計算復雜度(ACD)D,21.在評價不平衡類問題分類的度量方法有如下幾種,A,F1度量B,召回率(recall) C,精度(precision)D,真正率(ture positive rate,TPR)(ABCD)22.貝葉斯信念網絡(BBN)有如下哪些特點,A,構造網絡費時費力B,對模型的過分問題非常魯棒C,貝葉斯網絡不

26、適合處理不完整的數(shù)據(jù)D,網絡結構確定后,添加變量相當麻煩(AB )29.在聚類分析當中,(AD)等技術可以處理任意形狀的簇。A、MIN(單鏈)B、MAX(全鏈)C、組平均D、Chameleon30.(AB)都屬于分裂的層次聚類算法。A、二分K均值B、MSTC、ChameleonD、組平均三、判斷題1.數(shù)據(jù)挖掘的主要任務是從數(shù)據(jù)中發(fā)現(xiàn)潛在的規(guī)則,從而能更好的完成描述數(shù)據(jù)、預測數(shù) 據(jù)等任務。(對)2.數(shù)據(jù)挖掘的目標不在于數(shù)據(jù)采集策略,而在于對于已經存在的數(shù)據(jù)進行模式的發(fā)掘。(對)3.圖挖掘技術在社會網絡分析中扮演了重要的角色。(對)4.模式為對數(shù)據(jù)集的全局性總結,它對整個測量空間的每一點做出描述;

27、模型則對變量變化空間的一個有限區(qū)域做出描述。(錯)5.尋找模式和規(guī)則主要是對數(shù)據(jù)進行干擾,使其符合某種規(guī)則以及模式。(錯)6.離群點可以是合法的數(shù)據(jù)對象或者值。(對)7.離散屬性總是具有有限個值。(錯)8.噪聲和偽像是數(shù)據(jù)錯誤這一相同表述的兩種叫法。(錯)9.用于分類的離散化方法之間的根本區(qū)別在于是否使用類信息。(對)10.特征提取技術并不依賴于特定的領域。(錯)11.序列數(shù)據(jù)沒有時間戳。(對)12.定量屬性可以是整數(shù)值或者是連續(xù)值。(對)13.可視化技術對于分析的數(shù)據(jù)類型通常不是專用性的。(錯)14. DSS主要是基于數(shù)據(jù)倉庫.聯(lián)機數(shù)據(jù)分析和數(shù)據(jù)挖掘技術的應用。(對)15. OLAP技術側重

28、于把數(shù)據(jù)庫中的數(shù)據(jù)進行分析、轉換成輔助決策信息,是繼數(shù)據(jù)庫技術發(fā)展之后迅猛發(fā)展起來的一種新技術。(對)16.商業(yè)智能系統(tǒng)與一般交易系統(tǒng)之間在系統(tǒng)設計上的主要區(qū)別在于:后者把結構強加于商23.如下哪些不是最近鄰分類器的特點,數(shù)據(jù)的模型B,分類一個測試樣例開銷很大生產任意形狀的決策邊界(C)24.如下那些不是基于規(guī)則分類器的特點,A,它使用具體的訓練實例進行預測,不必維護源自C,最近鄰分類器基于全局信息進行預測D,可以A,規(guī)則集的表達能力遠不如決策樹好B,基于規(guī)C,無法被用來產生更易于(AC)則的分類器都對屬性空間進行直線劃分,并將類指派到每個劃分解釋的描述性模型D,非常適合處理類分布不平衡的數(shù)據(jù)

29、集25.以下屬于聚類算法的是(ABD)。A、K均值B、DBSCAN C、Apriori26.(CD)都屬于簇有效性的監(jiān)督度量。A、輪廓系數(shù)B、共性分類相關系數(shù)27.簇有效性的面向相似性的度量包括(BC)。A、精度B、Rand統(tǒng)計量C、Jaccard系數(shù)28.(ABCD)這些數(shù)據(jù)特性都是對聚類分析具有很強影響的。A、高維性B、規(guī)模C、稀疏性D、噪聲和離群點D、Jarvis-Patrick (JP)D、F度量D、召回率務之上,一旦系統(tǒng)設計完畢,其程序和規(guī)則不會輕易改變;而前者則是一個學習型系統(tǒng),能自動適應商務不斷變化的要求。(對)17.數(shù)據(jù)倉庫中間層OLAP服務器只能采用關系型OLAP(錯)18.數(shù)據(jù)倉庫系統(tǒng)的組成部分包括數(shù)據(jù)倉庫,倉 庫 管理,數(shù)據(jù)抽取,分析工具等四個部分.(錯)19. Web數(shù)據(jù)挖掘是通

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論