




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、數(shù)據(jù)挖掘期末大作業(yè)1. 數(shù)據(jù)挖掘的發(fā)展趨勢是什么?大數(shù)據(jù)環(huán)境下如何進(jìn)行數(shù)據(jù)挖掘。對于數(shù)據(jù)挖掘的發(fā)展趨勢,可以從以下幾個(gè)方面進(jìn)行闡述:(1)數(shù)據(jù)挖掘語言的標(biāo)準(zhǔn)化描述:標(biāo)準(zhǔn)的數(shù)據(jù) 挖掘語言將有助于數(shù)據(jù)挖掘的系統(tǒng)化開發(fā)。改進(jìn) 多個(gè)數(shù)據(jù)挖掘系統(tǒng)和功能間的互操作,促進(jìn)其在企 業(yè)和社會中的使用。 (2)尋求數(shù)據(jù)挖掘過程中的可視化方法:可視 化要求已經(jīng)成為數(shù)據(jù)挖掘系統(tǒng)中必不可少的技術(shù)。 可以在發(fā)現(xiàn)知識的過程中進(jìn)行很好的人機(jī)交互。 數(shù)據(jù)的可視化起到了推動人們主動進(jìn)行知識發(fā)現(xiàn)的 作用。 (3)與特定數(shù)據(jù)存儲類型的適應(yīng)問題:
2、根據(jù)不 同的數(shù)據(jù)存儲類型的特點(diǎn),進(jìn)行針對性的研究是目 前流行以及將來一段時(shí)間必須面對的問題。 (4)網(wǎng)絡(luò)與分布式環(huán)境下的KDD問題:隨著 Internet的不斷發(fā)展,網(wǎng)絡(luò)資源日漸豐富,這就需要 分散的技術(shù)人員各自獨(dú)立地處理分離數(shù)據(jù)庫的工作 方式應(yīng)是可協(xié)作的。因此,考慮適應(yīng)分布式與網(wǎng) 絡(luò)環(huán)境的工具、技術(shù)及系統(tǒng)將是數(shù)據(jù)挖掘中一個(gè)最為重要和繁榮的子領(lǐng)域。 (5)應(yīng)用的探索:隨著數(shù)據(jù)挖掘的日益普遍,其應(yīng)用范圍也日益擴(kuò)大,如生物醫(yī)學(xué)、電信業(yè)、零售業(yè) 等領(lǐng)域。由于數(shù)據(jù)挖掘在處理特定應(yīng)用問題時(shí)存在 局限性,因
3、此,目前的研究趨勢是開發(fā)針對于特定應(yīng) 用的數(shù)據(jù)挖掘系統(tǒng)。 (6)數(shù)據(jù)挖掘與數(shù)據(jù)庫系統(tǒng)和Web數(shù)據(jù)庫系 統(tǒng)的集成:數(shù)據(jù)庫系統(tǒng)和Web數(shù)據(jù)庫已經(jīng)成為信息 處理系統(tǒng)的主流。2. 從一個(gè)3輸入、2輸出的系統(tǒng)中獲取了10條歷史數(shù)據(jù),另外,最后條數(shù)據(jù)是系統(tǒng)的輸入,不知道其對應(yīng)的輸出。請使用SQL SERVER 2005的神經(jīng)網(wǎng)絡(luò)功能預(yù)測最后兩條數(shù)據(jù)的輸出。首先,打開SQL SERVER 2005數(shù)據(jù)庫軟件,然后在界面上右鍵單擊樹形圖中的“數(shù)據(jù)庫”標(biāo)簽,在彈出的快捷菜單中選擇“新建數(shù)據(jù)庫”命令,并命名數(shù)據(jù)庫的名稱為YxqDatabase,單擊確定,如下圖所示。 然后,
4、在新建的數(shù)據(jù)庫YxqDatabas中,根據(jù)題目要求新建表,相應(yīng)的表屬性見下圖所示。1 / 12 在新建的表完成之后,默認(rèn)的數(shù)據(jù)表名稱為Table_1,并打開表,根據(jù)題目提供的數(shù)據(jù)在表中輸入相應(yīng)的數(shù)據(jù)如下圖所示。在測試數(shù)據(jù)被輸入到數(shù)據(jù)庫中之后,打開SQL Server Business Intelligence Development Studio命令,并在文件中新建項(xiàng)目,項(xiàng)目名稱命名為MyData,并單擊確定,進(jìn)入下一步,如下圖所示。在進(jìn)入的新頁面上,新建一個(gè)數(shù)據(jù)源,并在出現(xiàn)的新窗口中單擊下一步,并選擇新建按鈕,就會出現(xiàn)連接管理器窗口,如右圖所示。在打開的界面中,在“提供程序”下拉列表框中選擇
5、Microsoft OLE DB Provider for SQL Server選項(xiàng),選擇完成后,單擊確定,進(jìn)入下一界面,至此,完成了數(shù)據(jù)連接的工作。在建立完數(shù)據(jù)連接之后,需要建立數(shù)據(jù)源視圖,右鍵單擊數(shù)據(jù)源視圖,并選中“新建數(shù)據(jù)源視圖”命令,在數(shù)據(jù)庫YxqDatabase下的數(shù)據(jù)表Table_1中,選中這個(gè)數(shù)據(jù)表,然后單擊下一步,并更改數(shù)據(jù)源視圖的名稱為YxqView,單擊完成,這樣就建好了數(shù)據(jù)源視圖。如下圖所示。在上面的工作完成之后,我們在界面中單擊“挖掘結(jié)構(gòu)”,并新建一個(gè)挖掘結(jié)構(gòu)然后點(diǎn)擊下一步,在彈出的新窗口“選擇挖掘技術(shù)”中,我們選擇“Microsoft神經(jīng)網(wǎng)絡(luò)”選項(xiàng),并單擊下一步,如下
6、圖所示。彈出的新窗口要求對Table_1中的各個(gè)列指定類型:鍵類型、輸入類型、可預(yù)測類型。把數(shù)據(jù)表Table_1中的data列定為鍵類型,x1,x2,x3規(guī)定為輸入類型,y1,y2規(guī)定為可預(yù)測類型,選擇之后情形如下圖所示。在上圖中,單擊下一步,再選擇默認(rèn)值,并單擊下一步,就完成了挖掘模型的創(chuàng)建。挖掘模型創(chuàng)建完成之后會出現(xiàn)下圖所示的窗口。 在此界面中,我們選擇“挖掘模型查看器”選項(xiàng)卡,會彈出一個(gè)小窗口,提問“服務(wù)器內(nèi)容似乎已過時(shí)。是否先生成和部署項(xiàng)目?”單擊是按鈕,系統(tǒng)將花費(fèi)一點(diǎn)時(shí)間進(jìn)行部署和生成,見下圖所示。部署成功后,就會彈出另外一個(gè)小窗口,提問“必須先處理Table_1挖掘模型才能瀏覽其內(nèi)
7、容。處理模型可能要花費(fèi)一些時(shí)間,具體將取決于數(shù)據(jù)量。是否繼續(xù)?”單擊“是”按鈕,并在新彈出的窗口中單擊“運(yùn)行”按鈕”處理成功之后在兩個(gè)窗口分別單擊“關(guān)閉”按鈕,就會得到下圖所示的數(shù)據(jù)分析圖表。最后,選擇“挖掘模型預(yù)測”選項(xiàng)卡,進(jìn)行數(shù)據(jù)預(yù)測,出現(xiàn)的界面如下圖所示。在所示的界面中,我們單擊“選項(xiàng)事例表”按鈕,在選擇導(dǎo)航中,選擇事例表為Table_1,將出現(xiàn)下圖所示的界面。在上圖所示的結(jié)構(gòu)中,單擊工具欄上的“單獨(dú)查詢”按鈕,即產(chǎn)生下圖所示的界面。在上圖所示的界面中,把表中數(shù)據(jù)的最后一行分別輸入到變量x1,x2,x3后面的空白中,然后把挖掘模型下的Y1,Y2項(xiàng)拖動至最下面一行的最左邊位置。然后單擊工具
8、欄上的“切換到查詢結(jié)果”按鈕,會出現(xiàn)下圖所示的界面。至此,我們通過神經(jīng)網(wǎng)絡(luò)功能預(yù)測出了最后兩條數(shù)據(jù)的輸出。3. 用ID3算法生成分類決策樹在之前創(chuàng)建好的數(shù)據(jù)源與數(shù)據(jù)源視圖的前提下,我們開始創(chuàng)建決策樹的挖掘結(jié)構(gòu),單擊“挖掘結(jié)構(gòu)”,并從中選擇“新建挖掘結(jié)構(gòu)”命令,系統(tǒng)將打開數(shù)據(jù)挖掘?qū)?。在“歡迎使用數(shù)據(jù)挖掘向?qū)А表撋希瑔螕粝乱徊桨粹o,在“選擇定義方法”頁上,確認(rèn)已選中“你要使用何種數(shù)據(jù)挖技術(shù)?”下拉列表中選擇“Microsoft決策樹”選項(xiàng),如下圖所示。然后單擊下一步,出現(xiàn)“指定定型數(shù)據(jù)”頁,如下圖所示。在界面中,確保選中RID列右邊“鍵”列中的復(fù)選框,這即是決策樹分析中所用的屬性。在上圖中,單擊
9、下一步,在隨后“指定列的內(nèi)容和數(shù)據(jù)類型”頁上,單擊下一步按鈕,出現(xiàn)“完成向?qū)А表?。接下來,我們開始設(shè)置決策樹挖掘結(jié)構(gòu)的相關(guān)參數(shù),在“挖掘模型”選項(xiàng)卡上單擊鼠標(biāo)右鍵,從彈出的快捷菜單中選擇“設(shè)置算法參數(shù)”命令,系統(tǒng)將打開“算法參數(shù)”對話框,如下圖所示。在設(shè)置好決策樹挖掘結(jié)構(gòu)的相關(guān)參數(shù)之后,接下來,開始建立決策樹挖掘模型,選擇“挖掘模型查看器”選項(xiàng)卡,程序是否建立部署項(xiàng)目,選擇“是”,單擊運(yùn)行按鈕,出現(xiàn)“處理進(jìn)度”窗口,我們再次選擇“挖掘模型查看器”選項(xiàng)卡,生成的決策樹如下圖所示。4.數(shù)據(jù)挖掘與數(shù)據(jù)倉庫的關(guān)系是什么?談?wù)剬?shù)據(jù)挖掘的理解。首先,數(shù)據(jù)挖掘是從大量數(shù)據(jù)中 獲取有效的、新穎的、潛在有用的
10、、最終可理解的模式的過程。簡單的說,數(shù)據(jù)挖掘就是從大量的數(shù)據(jù)中提取或“挖掘”知識。然而,數(shù)據(jù)倉庫通常是指一個(gè)數(shù)據(jù)庫環(huán)境,而不是指一件產(chǎn)品,它提供用戶用于決策支持的當(dāng)前和歷史數(shù)據(jù),這些數(shù)據(jù)在傳統(tǒng)的數(shù)據(jù)庫中通常不方便得到。簡單來說,數(shù)據(jù)倉庫就是一個(gè)面向主題的、集成的、相對穩(wěn)定的、反應(yīng)歷史變化的數(shù)據(jù)集合,通常用于輔助決策支持。其實(shí),可以用這樣一個(gè)簡單例子形象化兩者的關(guān)系,如果將數(shù)據(jù)倉庫比作礦井,那么數(shù)據(jù)挖掘就是深入礦井采礦的工作。決策者利用數(shù)據(jù)作決策,即從數(shù)據(jù)倉庫中挖掘出對決策有用的信息與知識,是建立數(shù)據(jù)倉庫與進(jìn)行數(shù)據(jù)挖掘的最大目的。只有數(shù)據(jù)倉庫先建行立完成,且數(shù)據(jù)倉庫所含數(shù)據(jù)時(shí)干凈、完備和經(jīng)過整合
11、的,數(shù)據(jù)挖掘才能有效地進(jìn)行,因此從一定意義上可將兩者的關(guān)系解讀為數(shù)據(jù)挖掘時(shí)從數(shù)據(jù)倉庫中找出有用信息的一種過程與技術(shù)。5. 通過我班同學(xué)的身體特征,進(jìn)行數(shù)據(jù)的分析,各特征有序號、身高(cm)、體重(kg)、胸圍(cm)、腰圍(cm)、臀圍(cm),總共有50個(gè)學(xué)生的資料。首先,通過之前所創(chuàng)建的數(shù)據(jù)源、數(shù)據(jù)源視圖,在接下來我們開始創(chuàng)建k-means挖掘結(jié)構(gòu),在此,我們新建挖掘結(jié)構(gòu),如下圖所示。然后單擊下一步,接下來出現(xiàn)的“指定定型數(shù)據(jù)”頁,也即是指定聚類分析中所用的屬性,如下圖所示。至此,k-means挖掘結(jié)構(gòu)創(chuàng)建完成,接下來我們開始設(shè)置k-means挖掘結(jié)構(gòu)的相關(guān)參數(shù),在“挖掘模型”選項(xiàng)卡上單擊鼠標(biāo)右鍵,從彈出的快捷菜單中選擇“設(shè)置算法參數(shù)”命令,系統(tǒng)將打開“算法參數(shù)”對話框,如下圖所示。接著,我們開始建立k-means挖掘模型,然后選擇“挖掘模型查看器”,程序問是否建立部署項(xiàng)目,
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 微信培訓(xùn)群管理制度
- 德克士餐廳管理制度
- 快檢室運(yùn)行管理制度
- 快遞站存儲管理制度
- 總公司薪酬管理制度
- 總經(jīng)辦日常管理制度
- 戲劇排練室管理制度
- 成品庫制度管理制度
- 房地產(chǎn)成本管理制度
- 教室電風(fēng)扇管理制度
- 外來物種對生物多樣性影響課件
- 2023版初中化學(xué)跨學(xué)科實(shí)踐活動(化學(xué))
- 醫(yī)院職工代表大會暨工會會員代表大會提案表
- Oxford-3000-牛津核心詞匯
- 散打裁判的基本手勢
- 《延安我把你追尋》課件
- 石材產(chǎn)品質(zhì)量保證書
- 兒童意外傷害預(yù)防-ppt課件
- 衰老生物學(xué)ppt課件(PPT 57頁)
- 外研版必修二短語(教師版)
- 企業(yè)部門單位工傷事故報(bào)告書
評論
0/150
提交評論