



免費(fèi)預(yù)覽已結(jié)束,剩余1頁(yè)可下載查看
下載本文檔
版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
數(shù)據(jù)挖掘復(fù)習(xí)提綱分值分布一、 選擇題(單選10道20分多選5道20分)二、 填空題(10道20分)三、 名詞解釋?zhuān)?道20分)四、 解答題(4道20分)五、 應(yīng)用題(Apriori算法20分)1什么是數(shù)據(jù)挖掘?1答:簡(jiǎn)單地說(shuō),數(shù)據(jù)挖掘是從大量數(shù)據(jù)中提取或挖掘知識(shí)。具體地說(shuō),數(shù)據(jù)挖掘就是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識(shí)的過(guò)程。2. 什么是數(shù)據(jù)清理?2答:填寫(xiě)缺失的值,平滑噪聲數(shù)據(jù),識(shí)別、刪除離群點(diǎn),解決不一致性3. 什么是數(shù)據(jù)倉(cāng)庫(kù)?3答:是一個(gè)面向主題的、集成的、隨時(shí)間而變化的、不容易丟失的數(shù)據(jù)集合,支持管理部門(mén)決策的過(guò)程。(最顯著特征:數(shù)據(jù)不易丟失2分選擇題)4. 什么是數(shù)據(jù)集成?4.數(shù)據(jù)集成:集成多個(gè)數(shù)據(jù)庫(kù)、數(shù)據(jù)立方體或文件5. 什么是數(shù)據(jù)變換?5答:將數(shù)據(jù)轉(zhuǎn)換或統(tǒng)一成適合于挖掘的形式。6. 什么是數(shù)據(jù)歸約?6答:得到數(shù)據(jù)集的壓縮表示,它小得多,但可以得到相同或相近的結(jié)果7. 什么是數(shù)據(jù)集市?7答:數(shù)據(jù)集市包含企業(yè)范圍數(shù)據(jù)的一個(gè)子集,對(duì)于特定的用戶(hù)群是有用的。其范圍限于選定的主題。(是完整的數(shù)據(jù)倉(cāng)庫(kù)的一個(gè)邏輯子集,而數(shù)據(jù)倉(cāng)庫(kù)正是由所有的數(shù)據(jù)集市有機(jī)組合而成的) 8.在數(shù)據(jù)挖掘過(guò)程中,耗時(shí)最長(zhǎng)的步驟是什么?8.答:數(shù)據(jù)清理9. 數(shù)據(jù)挖掘系統(tǒng)可以根據(jù)什么標(biāo)準(zhǔn)進(jìn)行分類(lèi)?9答:根據(jù)挖掘的數(shù)據(jù)庫(kù)類(lèi)型分類(lèi) 、根據(jù)挖掘的知識(shí)類(lèi)型分類(lèi)、根據(jù)挖掘所用的技術(shù)分類(lèi)、根據(jù)應(yīng)用分類(lèi)10. 多維數(shù)據(jù)模型上的 OLAP 操作包括哪些? 10.答:上卷、 下鉆、切片和切塊、轉(zhuǎn)軸 / 旋轉(zhuǎn)、其他OLAP操作 11. OLAP 服務(wù)器類(lèi)型有哪幾種?11.答:關(guān)系 OLAP 服務(wù)器(ROLAP)、多維 OLAP 服務(wù)器(MOLAP)、混合 OLAP 服務(wù)器 (HOLAP)、特殊的 SQL 服務(wù)器 12. 數(shù)據(jù)預(yù)處理技術(shù)包括哪些? (選擇)12.答:聚集、抽樣、維規(guī)約、特征子集選擇、特征創(chuàng)建、離散化和二元化、變量變換。13. 形成“臟數(shù)據(jù)”的原因有哪些? 13. 答:濫用縮寫(xiě)詞、數(shù)據(jù)輸入錯(cuò)誤、數(shù)據(jù)中的內(nèi)嵌控制信息、不同的的慣用語(yǔ)、重復(fù)記錄、丟失值、拼寫(xiě)變化、不同的計(jì)量單位、過(guò)時(shí)的編碼 14. 與數(shù)據(jù)挖掘類(lèi)似的術(shù)語(yǔ)有哪些? 14答:數(shù)據(jù)庫(kù)中挖掘知識(shí)、知識(shí)提取、數(shù)據(jù)/模式分析、數(shù)據(jù)考古和數(shù)據(jù)捕撈。15.常用的四種興趣度的客觀度量是什么?15答:簡(jiǎn)單性 、確定性、 實(shí)用性、新穎性 16.數(shù)據(jù)立方體的物化可以有哪三種選擇?16q 全物化q 不物化q 部分物化17. 從軟件工程的觀點(diǎn)來(lái)看,數(shù)據(jù)倉(cāng)庫(kù)的設(shè)計(jì)和構(gòu)造包含哪些步驟?17 答:規(guī)劃、需求研究、問(wèn)題分析、倉(cāng)庫(kù)設(shè)計(jì)、數(shù)據(jù)集成和測(cè)試、部署數(shù)據(jù)倉(cāng)庫(kù)。18. 在數(shù)據(jù)挖掘系統(tǒng)中,為什么數(shù)據(jù)清理十分重要?18答: 臟數(shù)據(jù)的普遍存在,使得在大型數(shù)據(jù)庫(kù)中維護(hù)數(shù)據(jù)的正確性和一致性成為一個(gè)極其困難的任務(wù)。19.臟數(shù)據(jù)形成的原因有哪些?如何理解現(xiàn)實(shí)世界的數(shù)據(jù)是“骯臟的”?19答:濫用縮寫(xiě)詞、數(shù)據(jù)輸入錯(cuò)誤、數(shù)據(jù)中的內(nèi)嵌控制信息、不同的的慣用語(yǔ)、重復(fù)記錄、丟失值、拼寫(xiě)變化、不同的計(jì)量單位、過(guò)時(shí)的編碼 不完整的、含噪聲的、不一致的、重復(fù)的20. 數(shù)據(jù)清理時(shí),對(duì)空缺值有哪些處理方法?20.答:忽略元組、人工填寫(xiě)缺失值、使用一個(gè)全局變量填充缺失值、使用屬性的平均值填充缺失值、使用與給定元組屬同一類(lèi)的所有樣本的屬性均值、使用最可能的值填充缺失值21. 什么是數(shù)據(jù)變換?包括哪些內(nèi)容?21. 答:將數(shù)據(jù)轉(zhuǎn)換或統(tǒng)一成適合于挖掘的形式。包括:光滑、聚集、數(shù)據(jù)泛化、規(guī)范化、屬性構(gòu)造22. 數(shù)據(jù)歸約的策略包括哪些?22.答:數(shù)據(jù)立方體聚集、性子集選擇、維度歸約、數(shù)值歸約、離散化和概念分層產(chǎn)生23. 提高數(shù)據(jù)挖掘算法效率有哪幾種思路?23.答:減少對(duì)數(shù)據(jù)的掃描次數(shù);縮小產(chǎn)生的候選項(xiàng)集;改進(jìn)對(duì)候選項(xiàng)集的支持度計(jì)算方法24. 假定屬性income的最小值與最大值分別為12000和98000到區(qū)間0.0,1.0,根據(jù) min-max 規(guī)范化,income的值73600將變?yōu)開(kāi)0.716_。25. 假定屬性income的平均值和標(biāo)準(zhǔn)差分別為54000和16000,使用 Z-score 規(guī)范化,值73600被轉(zhuǎn)換為1.225。26. 假定A的值由-986到917.A的最大絕對(duì)值為986,使用小數(shù)定標(biāo)規(guī)范化,-986被規(guī)范化為-0.98627. 從結(jié)構(gòu)角度來(lái)看,有哪三種數(shù)據(jù)倉(cāng)庫(kù)模型。27. 答:企業(yè)倉(cāng)庫(kù)、數(shù)據(jù)集市、虛擬倉(cāng)庫(kù)28. 什么是聚類(lèi)分析?28.答:將物理或抽象對(duì)象的集合分組成為由類(lèi)似的對(duì)象組成的多個(gè)類(lèi)的過(guò)程30. 可以對(duì)按季度匯總的銷(xiāo)售數(shù)據(jù)進(jìn)行_B_,來(lái)觀察按月匯總的數(shù)據(jù)。 A 上卷 B 下鉆 C 切片 D 切塊31. 可以對(duì)按城市匯總的銷(xiāo)售數(shù)據(jù)進(jìn)行_A_,來(lái)觀察按國(guó)家總的數(shù)據(jù)。 A 上卷 B 下鉆 C 切片 D 切塊 32. 通過(guò)不太詳細(xì)的數(shù)據(jù)得到更詳細(xì)的數(shù)據(jù),稱(chēng)為_(kāi)B_。 A 上卷 B 下鉆 C 細(xì)化 D 維規(guī)約33. 三層數(shù)據(jù)倉(cāng)庫(kù)結(jié)構(gòu)中,從底層到尾層分別是倉(cāng)庫(kù)數(shù)據(jù)服務(wù)器、OLAP服務(wù)器、前端客戶(hù)層_。34.已知事務(wù)數(shù)據(jù)庫(kù)D,假定最小支持度為2,求所有的頻繁項(xiàng)集35.給出數(shù)據(jù)倉(cāng)庫(kù)的某種概念模式圖,會(huì)用DMQL語(yǔ)句描述該概念模式,包括事實(shí)與維。見(jiàn)pptn DMQL首先包括定義數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)集市的語(yǔ)言原語(yǔ),這包括兩種原語(yǔ)定義:一種是立方體定義,一種是維定義q 立方體定義 (事實(shí)表)define cube : q 維定義 (維表) define dimension as ()q 特殊案例 (共享維表的定義) n 第一次作為維表定義 “cube definition” n 然后:define dimension as in cube 實(shí)例:使用DMQL定義星型模式q define cube sales_star time, item, branch, location:q dollars_sold = sum(sales_in_dollars), avg_sales = avg(sales_in_dollars), units_sold = count(*)q define dimension time as (time_key, day, day_of_week, month, quarter, year)q define dimension item as (item_key, item_name, brand, type, supplier_type)q define dimension branch as (branch_key, branch_name, branch_type)q define dimension location as (location_key, street, city, province_or_state, country)實(shí)例:使用DMQL定義雪花模式define cube sales_snowflake time, item, branch, location:dollars_sold = sum(sales_in_dollars), avg_sales = avg(sales_in_dollars), units_sold = count(*)define dimension time as (time_key, day, day_of_week, month, quarter, year)define dimension item as (item_key, item_name, brand, type, supplier(supplier_key, supplier_type)define dimension branch as (branch_key, branch_name, branch_type)define dimension location as (location_key, street, city(city_key, province_or_state, country) 使用DMQL定義事實(shí)星座模式define cube sales time, item, branch, location:dollars_sold = sum(sales_in_dollars), avg_sales = avg(sales_in_dollars), units_sold = count(*)define dimension time as (time_key, day, day_of_week, month, quarter, year)define dimension item as (item_key, item_name, brand, type, supplier_type)define dimension branch as (branch_key, branch_name, branch_type)define dimension location as (location_key, street, city, province_or_state, country)define cube shipping time, item, shipper, from_location, to_location:dollar_cost = sum(cost_in_dollars), unit_shipped = count(*)define dimension time as time in cube salesdefine dimension item as item in cube salesdefine dimension shipper as (shipper_key, shipper_name, location as location in cube sales, shipper_type)define dimension from_location as location in cube salesdefine dimension to_location as location in cube sales36. 四種常用的概念分層類(lèi)型是什么?36. 答:模式分層、集合分組分層、操作導(dǎo)出的分層、基于規(guī)則的分層37. 各種DMQL子句的表述?(支持度、置信度) 37.見(jiàn)ppt eg: with support threshold = 15%38.數(shù)據(jù)挖掘任務(wù)的五種原語(yǔ)是什么?38.答:說(shuō)明數(shù)據(jù)庫(kù)的部分或用戶(hù)感興趣的數(shù)據(jù)集任務(wù)相關(guān)數(shù)據(jù)要挖掘的知識(shí)類(lèi)型用于指導(dǎo)挖掘的背景知識(shí)模式評(píng)估、興趣度度量如何顯示發(fā)現(xiàn)的知識(shí)發(fā)現(xiàn)模式的可視化39.在進(jìn)行數(shù)據(jù)預(yù)處理時(shí),對(duì)于離群點(diǎn)的處理方法是:視需要而定,有時(shí)需要?jiǎng)h除,有時(shí)需要保留。40. 多維數(shù)據(jù)倉(cāng)庫(kù)有哪幾種概念模型?40.答:星形模式、雪花形模式或事實(shí)星座形模式。41.Apriori算法的性質(zhì)是什么?41答:頻繁項(xiàng)集的所有非空子集也必須是頻繁的。AB模式不可能比A更頻繁地出現(xiàn)Apriori算法是反單調(diào)的,即一個(gè)集合如果不能通過(guò)測(cè)試,則該集合的所有超集也不能通過(guò)相同的測(cè)試。Apriori性質(zhì)通過(guò)減少搜索空間,來(lái)提高頻繁項(xiàng)集逐層產(chǎn)生的效率42.應(yīng)用Apriori算法進(jìn)行尋找頻繁項(xiàng)集時(shí),兩個(gè)關(guān)鍵的步驟是什么?42答:Apriori算法兩個(gè)關(guān)鍵的步驟是連接和剪枝。43.數(shù)據(jù)挖掘技術(shù)的發(fā)展動(dòng)力來(lái)自于什么?43.答:數(shù)據(jù)爆炸問(wèn)題44.“數(shù)據(jù)挖掘”英文縮寫(xiě)是DM,它源于英文Data Mining45.“數(shù)據(jù)挖掘”亦稱(chēng)為KDD,其中文含義是什么?45.答:數(shù)據(jù)庫(kù)中的知識(shí)發(fā)現(xiàn)46.max()函數(shù)屬于分布函數(shù),avg()函數(shù)屬于代數(shù)函數(shù),median()函數(shù)屬于整體函數(shù)47.數(shù)據(jù)倉(cāng)庫(kù)的特征是什么?47.答:數(shù)據(jù)倉(cāng)庫(kù)關(guān)鍵特征1面向主題面向主題,是數(shù)據(jù)倉(cāng)庫(kù)顯著區(qū)別于關(guān)系數(shù)據(jù)庫(kù)系統(tǒng)的一個(gè)特征數(shù)據(jù)倉(cāng)庫(kù)關(guān)鍵特征2數(shù)據(jù)集成數(shù)據(jù)倉(cāng)庫(kù)關(guān)鍵特征3隨時(shí)間而變化數(shù)據(jù)倉(cāng)庫(kù)關(guān)鍵特征4數(shù)據(jù)不易丟失48.數(shù)據(jù)倉(cāng)庫(kù)的概念模式有哪幾種?48.答:最流行的數(shù)據(jù)倉(cāng)庫(kù)概念模型是多維數(shù)據(jù)模型。這種模型可以以星型模式、雪花模式、或事實(shí)星座模式的形式存在。49.一個(gè)數(shù)據(jù)立方體有3個(gè)維,則它的2-D,3-D方體有幾個(gè)?49.3個(gè) 1個(gè)
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 生物化學(xué)(第4版)課件 第2章 核酸化學(xué)
- 氣候變化所致小島國(guó)損失損害補(bǔ)償責(zé)任問(wèn)題研究
- 基于STSE教育理念的初中化學(xué)金屬和金屬材料的教學(xué)實(shí)踐研究
- 下雨天安全教育
- 關(guān)愛(ài)婦女心理健康:現(xiàn)狀與行動(dòng)指南
- 頸椎間盤(pán)的護(hù)理課件
- 爆炸安全知識(shí)培訓(xùn)
- 人事勞資培訓(xùn)
- 項(xiàng)目管理人員安全教育培訓(xùn)
- 項(xiàng)目介紹課件模版
- 糞便無(wú)害化處理廠建設(shè)方案
- 恢復(fù)執(zhí)行申請(qǐng)書(shū)
- 智慧的光芒普照每位學(xué)生 論文
- 銷(xiāo)售行業(yè)跑業(yè)務(wù)計(jì)劃書(shū)
- 政府采購(gòu)詢(xún)價(jià)采購(gòu)函報(bào)價(jià)單格式及論大學(xué)生寫(xiě)作能力
- 建筑物拆除工程監(jiān)理實(shí)施細(xì)則
- LY/T 3256-2021全國(guó)優(yōu)勢(shì)喬木樹(shù)種(組)基本木材密度測(cè)定
- GB/T 25760-2010滾動(dòng)軸承滾針和推力球組合軸承外形尺寸
- 特勞特-定位課件
- 口腔工藝管理基教學(xué)課件
- 真石漆施工外墻涂料工藝方案課件
評(píng)論
0/150
提交評(píng)論