


版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、數(shù)據(jù)挖掘考試題選擇題1. 當(dāng)不知道數(shù)據(jù)所帶標(biāo)簽時(shí),可以使用哪種技術(shù)促使帶同類標(biāo)簽的數(shù)據(jù)與帶其 他標(biāo)簽的數(shù)據(jù)相分離? ( )A. 分類 B. 聚類 C. 關(guān)聯(lián)分析 D. 主成分分析2. ( ) 將兩個(gè)簇的鄰近度定義為不同簇的所有點(diǎn)對(duì)鄰近度的平均值,它是一種 凝聚層次聚類技術(shù)。A. MIN(單鏈)B.MAX( 全鏈)C. 組平均 D.Ward 方法3. 數(shù)據(jù)挖掘的經(jīng)典案例“啤酒與尿布試驗(yàn)”最主要是應(yīng)用了 ( ) 數(shù)據(jù)挖掘方法。A 分類 B 預(yù)測(cè) C 關(guān)聯(lián)規(guī)則分析 D 聚類4. 關(guān)于K均值和DBSCA的比較,以下說(shuō)法不正確的是 ()A. K均值丟棄被它識(shí)別為噪聲的對(duì)象,而 DBSCA一般聚類所有對(duì)象
2、。B. K均值使用簇的基于原型的概念, DBSCA使用基于密度的概念。C. K均值很難處理非球形的簇和不同大小的簇,DBSCAN可以處理不同大小和不同形狀的簇D. K 均值可以發(fā)現(xiàn)不是明顯分離的簇,即便簇有重疊也可以發(fā)現(xiàn),但是DBSCAN會(huì)合并有重疊的簇5. 下列關(guān)于 Ward's Method 說(shuō)法錯(cuò)誤的是: ( )A. 對(duì)噪聲點(diǎn)和離群點(diǎn)敏感度比較小B. 擅長(zhǎng)處理球狀的簇C. 對(duì)于Ward方法,兩個(gè)簇的鄰近度定義為兩個(gè)簇合并時(shí)導(dǎo)致的平方誤差D.當(dāng)兩個(gè)點(diǎn)之間的鄰近度取它們之間距離的平方時(shí),Ward 方法與組平均非常相6. 下列關(guān)于層次聚類存在的問(wèn)題說(shuō)法正確的是:()A. 具有全局優(yōu)化目
3、標(biāo)函數(shù)B. Group Average擅長(zhǎng)處理球狀的簇C. 可以處理不同大小簇的能力D. Max對(duì)噪聲點(diǎn)和離群點(diǎn)很敏感7. 下列關(guān)于凝聚層次聚類的說(shuō)法中,說(shuō)法錯(cuò)誤的事:()A. 旦兩個(gè)簇合并,該操作就不能撤銷B. 算法的終止條件是僅剩下一個(gè)簇C. 空間復(fù)雜度為Om2D. 具有全局優(yōu)化目標(biāo)函數(shù)8. 規(guī)則牛奶,尿布 啤酒的支持度和置信度分別為:()TID項(xiàng)集1面包,牛奶2面包,尿布,啤酒,雞蛋3牛奶,尿布,啤酒,可樂(lè)4面包,牛奶,尿布,啤酒5面包,牛奶,尿布,可樂(lè)9. 下列()是屬于分裂層次聚類的方法。A. Min B.Max C.Group Average D.MST10. 對(duì)下圖數(shù)據(jù)進(jìn)行凝聚聚
4、類操作,簇間相似度使用MAX十算,第二步是哪兩個(gè)簇合并:()A. 在 和1,2合并 B.3 和4,5合并 C.2,3 和4,5合并D. 2,3和4,5形成簇和 合并二填空題:1. 屬性包括的四種類型:、 02. 是兩個(gè)簇的鄰近度定義為不同簇的所有點(diǎn)對(duì)鄰近度的平均值。3. 基本凝聚層次聚類算法空間復(fù)雜度 ,時(shí)間復(fù)雜度 ,如果某個(gè)簇到其他所有簇的距離存放在一個(gè)有序表或堆中,層次聚類所需要的時(shí)間復(fù)雜度將為04. 聚類中,定義簇間的相似度的方法有(寫(xiě)出四個(gè)):、 05. 層次聚類技術(shù)是第二類重要的聚類方法。兩種層次聚類的基本方法:、06. 組平均是一種界于 和之間的折中方法。7. 相似度矩陣可以用相識(shí)
5、度表示還可以用 表示。8. 全鏈在處理大小不同的簇時(shí),可能使 破裂,并且偏好 o9. 單鏈技術(shù)擅長(zhǎng)于處理 ,但對(duì)和很敏感。10. 聚類分析可以看做是一種 的分類。(有監(jiān)督、無(wú)監(jiān)督)三.判斷題1. 從點(diǎn)作為個(gè)體簇幵始,每一步合并兩個(gè)最接近的簇,這是一種分裂的層次聚類方法。()2. 數(shù)據(jù)挖掘的目標(biāo)不在于數(shù)據(jù)采集策略,而在于對(duì)已經(jīng)存在的數(shù)據(jù)進(jìn)行模式的發(fā)掘。()3. 在聚類分析當(dāng)中,簇內(nèi)的相似性越大,簇間的差別越大,聚類的效果就越差。()4. 當(dāng)兩個(gè)點(diǎn)之間的鄰近度取它們之間距離的平方時(shí),Ward方法與組平均非常相似。()5. DBSCA是相對(duì)抗噪聲的,并且能夠處理任意形狀和大小的簇。()6. 屬性的性
6、質(zhì)不必與用來(lái)度量他的值的性質(zhì)相同。()7. 全鏈對(duì)噪聲點(diǎn)和離群點(diǎn)很敏感。()8. 對(duì)于非對(duì)稱的屬性,只有非零值才是重要的。()9. K均值可以很好的處理不同密度的數(shù)據(jù)。()10. 單鏈技術(shù)擅長(zhǎng)處理橢圓形狀的簇。()四.綜合題1. 何為層次聚類?它用哪兩種圖表示?2. 兩種層次聚類的基本方法??jī)煞N方法的定義?3. 分別寫(xiě)出Min、Max和組平均的優(yōu)缺點(diǎn)?4. 寫(xiě)出基本凝聚層次聚類的算法?5. 由下圖已給出的距離矩陣,將Max用于6個(gè)點(diǎn)樣本數(shù)據(jù)集,畫(huà)出層次聚類的樹(shù)狀圖?P1P2P3P4P5P6P10.000.240.220.370.340.23P20.240.000.140.200.130.25P
7、30.22 :0.140.000.15P 0.280.11P40.370.200.150.000.290.22P50.34 :0.130.280.29P 0.000.39P60.230.250.110.220.390.00考試題+答案.選擇題1. 當(dāng)不知道數(shù)據(jù)所帶標(biāo)簽時(shí),可以使用哪種技術(shù)促使帶同類標(biāo)簽的數(shù)據(jù)與帶其 他標(biāo)簽的數(shù)據(jù)相分離? (B)A. 分類 B. 聚類 C. 關(guān)聯(lián)分析 D. 主成分分析2. (C)將兩個(gè)簇的鄰近度定義為不同簇的所有點(diǎn)對(duì)鄰近度的平均值,它是一 種凝聚層次聚類技術(shù)。A.MIN(單鏈)B.MAX( 全鏈)C. 組平均 D.Ward 方法3. 數(shù)據(jù)挖掘的經(jīng)典案例“啤酒與尿布
8、試驗(yàn)”最主要是應(yīng)用了 (C ) 數(shù)據(jù)挖掘方 法。A 分類 B 預(yù)測(cè) C 關(guān)聯(lián)規(guī)則分析 D 聚類4. 關(guān)于K均值和DBSCA的比較,以下說(shuō)法不正確的是 (AA. K均值丟棄被它識(shí)別為噪聲的對(duì)象,而DBSCA一般聚類所有對(duì)象。B. K均值使用簇的基于原型的概念,DBSCA使用基于密度的概念。C. K均值很難處理非球形的簇和不同大小的簇,DBSCAN可以處理不同大小和不同形狀的簇D. K 均值可以發(fā)現(xiàn)不是明顯分離的簇,即便簇有重疊也可以發(fā)現(xiàn),但是DBSCAN會(huì)合并有重疊的簇5. 下列關(guān)于 Ward's Method 說(shuō)法錯(cuò)誤的是:( C)A. 對(duì)噪聲點(diǎn)和離群點(diǎn)敏感度比較小B. 擅長(zhǎng)處理球狀的
9、簇C. 對(duì)于Ward方法,兩個(gè)簇的鄰近度定義為兩個(gè)簇合并時(shí)導(dǎo)致的平方誤差D. 當(dāng)兩個(gè)點(diǎn)之間的鄰近度取它們之間距離的平方時(shí),Ward方法與組平均非常相似7. 下列關(guān)于層次聚類存在的問(wèn)題說(shuō)法正確的是:(B)A具有全局優(yōu)化目標(biāo)函數(shù)B. Group Average擅長(zhǎng)處理球狀的簇C. 可以處理不同大小簇的能力D. Max對(duì)噪聲點(diǎn)和離群點(diǎn)很敏感7. 下列關(guān)于凝聚層次聚類的說(shuō)法中,說(shuō)法錯(cuò)誤的事:(D)A. 旦兩個(gè)簇合并,該操作就不能撤銷B. 算法的終止條件是僅剩下一個(gè)簇C. 空間復(fù)雜度為Om2D. 具有全局優(yōu)化目標(biāo)函數(shù)8. 規(guī)則牛奶,尿布啤酒的支持度和置信度分別為:(C)TID項(xiàng)集1面包,牛奶2面包,尿布
10、,啤酒,雞蛋3牛奶,尿布,啤酒,可樂(lè)4面包,牛奶,尿布,啤酒5面包,牛奶,尿布,可樂(lè)9. 下列(D)是屬于分裂層次聚類的方法。A.Min B.Max C.Group Average D.MST10. 對(duì)下圖數(shù)據(jù)進(jìn)行凝聚聚類操作,簇間相似度使用MAX十算,第二步是哪兩個(gè)簇合并:(B)D. 2,3和4,5形成簇和 合并二填空題:1. 屬性包括的四種類型:標(biāo)稱、序數(shù)、區(qū)間、比率。2. 組平均是兩個(gè)簇的鄰近度定義為不同簇的所有點(diǎn)對(duì)鄰近度的平均值。3. 基本凝聚層次聚類算法空間復(fù)雜度Om2,時(shí)間復(fù)雜度Om3,如果某個(gè)簇到其他所有簇的距離存放在一個(gè)有序表或堆中,層次聚類所需要的時(shí)間復(fù)雜度將為 O m2 l
11、og m。4. 聚類中,定義簇間的相似度的方法有(寫(xiě)出四個(gè)):MIN(單鏈)、MAX(全鏈)、組平均、Ward方法。5. 層次聚類技術(shù)是第二類重要的聚類方法。兩種層次聚類的基本方法:凝聚層次聚類、分裂層次聚類。6. 組平均是一種界于單鏈和_全鏈_之間的折中方法。7. 相似度矩陣可以用相識(shí)度表示還可以用 距離 表示。8. 全鏈在處理大小不同的簇時(shí),可能使 大的簇破裂,并且偏好 球形。9. 單鏈技術(shù)擅長(zhǎng)于處理 非橢圓形狀的簇_,但對(duì) 噪聲點(diǎn)_和_離群點(diǎn)很敏感。10. 聚類分析可以看做是一種無(wú)監(jiān)督的分類。(有監(jiān)督、無(wú)監(jiān)督)三.判斷題:1. 從點(diǎn)作為個(gè)體簇幵始,每一步合并兩個(gè)最接近的簇,這是一種分裂的
12、層次聚 類方法。(X)2. 數(shù)據(jù)挖掘的目標(biāo)不在于數(shù)據(jù)采集策略,而在于對(duì)已經(jīng)存在的數(shù)據(jù)進(jìn)行模式的 發(fā)掘。(“3. 在聚類分析當(dāng)中,簇內(nèi)的相似性越大,簇間的差別越大,聚類的效果就越差(X)4. 當(dāng)兩個(gè)點(diǎn)之間的鄰近度取它們之間距離的平方時(shí),Ward方法與組平均非常相似。(“5. DBSCAN是相對(duì)抗噪聲的,并且能夠處理任意形狀和大小的簇。(話6. 屬性的性質(zhì)不必與用來(lái)度量他的值的性質(zhì)相同。(V)7. 全鏈對(duì)噪聲點(diǎn)和離群點(diǎn)很敏感。( X )8. 對(duì)于非對(duì)稱的屬性,只有非零值才是重要的。(V)9. K均值可以很好的處理不同密度的數(shù)據(jù)。(X )10. 單鏈技術(shù)擅長(zhǎng)處理橢圓形狀的簇。(X )四.綜合題1.
13、何為層次聚類?它用哪兩種圖表示?層次聚類為嵌套簇的聚集,組成一棵層次數(shù)。兩種主要圖的表示:樹(shù)狀圖和嵌套簇圖。2. 兩種層次聚類的基本方法??jī)煞N方法的定義?凝聚層次聚類和分裂層次聚類凝聚的:從點(diǎn)作為個(gè)體簇幵始,每一步合并兩個(gè)最接近的簇。分裂的:從包含所有點(diǎn)的某個(gè)簇幵始,每一步分裂一個(gè)簇,直到僅剩下單點(diǎn)簇。3. 分別寫(xiě)出Min、Max和組平均的優(yōu)缺點(diǎn)?定義方式優(yōu)點(diǎn)缺點(diǎn)Min能處理非橢圓形狀對(duì)噪聲和離群點(diǎn)很敏感Max對(duì)噪聲點(diǎn)和離群點(diǎn)敏感度較小1. 當(dāng)處理簇大小不冋時(shí),較大的簇容易破裂2. 偏好處理球狀的簇組平均對(duì)噪聲點(diǎn)和離群點(diǎn)敏感度較小偏好處理球狀的簇4.寫(xiě)出基本凝聚層次聚類的算法?算法步驟:(1)
14、 計(jì)算鄰近度矩陣(2) Repeat(3) 合并最鄰近的兩個(gè)簇(4) 更新鄰近度矩陣,以反映新的簇與原來(lái)的簇之間的鄰近度(5) U ntil僅剩下一個(gè)簇5.由下圖已給出的距離矩陣,將Max用于6個(gè)點(diǎn)樣本數(shù)據(jù)集,畫(huà)出層次聚類的樹(shù)狀圖?P1P2P3P4P5P6P10.000.240.220.370.340.23P20.240.000.140.200.130.25P30.220.140.000.15P 0.280.11P40.370.200.150.000.290.22P50.34 :0.130.280.29P 0.000.39P60.230.250.110.220.390.00這是告訴你的計(jì)算過(guò)程
15、,現(xiàn)在不要寫(xiě)了。P3和P6最近所以36結(jié)合,P2和P5較近,所以25結(jié)合,現(xiàn)在是3,6、2,5、1 和4,Dist(3,6,4) = max(dist(3,4),dist(6,4)= max(0.15,0.22)=0.22 Dist(3,6,2,5) = max(dist(3,2),dist(6,2),dist(3,5),dist(6,5)=max(0.14,0.25,0.28,0.39)=0.39Dist(3,6,1)=max(dist(3,1),dist(6,1)=max(0.22,0.23)=0.23 所以3,6和4結(jié)合?,F(xiàn)在還剩3,6,4、2,5和1Dist(3,6,4,2,5)=max(dist(3,2),dist3,5,dist(
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 濉溪縣重點(diǎn)達(dá)標(biāo)名校2025年初三下學(xué)期教學(xué)質(zhì)量檢測(cè)試題(一)數(shù)學(xué)試題含解析
- 蘭州資源環(huán)境職業(yè)技術(shù)大學(xué)《即興伴奏Ⅱ》2023-2024學(xué)年第一學(xué)期期末試卷
- 山東省濟(jì)寧市梁山縣街道第一中學(xué)2024-2025學(xué)年下學(xué)期初三語(yǔ)文試題第二次適應(yīng)性測(cè)試試卷含解析
- 山東職業(yè)學(xué)院《微生物基礎(chǔ)及檢驗(yàn)技術(shù)》2023-2024學(xué)年第二學(xué)期期末試卷
- 紹興市新昌縣2024-2025學(xué)年三下數(shù)學(xué)期末質(zhì)量跟蹤監(jiān)視模擬試題含解析
- 寧德職業(yè)技術(shù)學(xué)院《護(hù)理學(xué)》2023-2024學(xué)年第二學(xué)期期末試卷
- 2025年藝術(shù)生文化課聯(lián)考試題及答案
- 廈門(mén)大學(xué)嘉庚學(xué)院《政府信息資源管理》2023-2024學(xué)年第二學(xué)期期末試卷
- 2025年物流管理專業(yè)考試試卷及答案
- 外貿(mào)自學(xué)課件模板下載
- GB/T 20721-2006自動(dòng)導(dǎo)引車通用技術(shù)條件
- GB/T 12704.2-2009紡織品織物透濕性試驗(yàn)方法第2部分:蒸發(fā)法
- 公眾責(zé)任險(xiǎn)、財(cái)產(chǎn)一切險(xiǎn)培訓(xùn)課件
- 2022山東高考語(yǔ)文答題卡(新高考I卷)word版3
- lovo操作手冊(cè)中文翻譯版-professorgong
- 有限空間作業(yè)氣體檢測(cè)記錄表
- 重力式降落救生艇的降落和釋放裝置課件
- 土地集約利用教學(xué)課件
- 《食堂安全培訓(xùn)》ppt
- 油水井管理及動(dòng)態(tài)分析.
- 完整版電力工程設(shè)計(jì)資質(zhì)分級(jí)標(biāo)準(zhǔn)
評(píng)論
0/150
提交評(píng)論