畢業(yè)設計開題報告數(shù)據(jù)挖掘在教學系統(tǒng)中的應用_第1頁
畢業(yè)設計開題報告數(shù)據(jù)挖掘在教學系統(tǒng)中的應用_第2頁
畢業(yè)設計開題報告數(shù)據(jù)挖掘在教學系統(tǒng)中的應用_第3頁
畢業(yè)設計開題報告數(shù)據(jù)挖掘在教學系統(tǒng)中的應用_第4頁
畢業(yè)設計開題報告數(shù)據(jù)挖掘在教學系統(tǒng)中的應用_第5頁
已閱讀5頁,還剩9頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、 畢業(yè)設計(論文)開題報告題 目: 數(shù)據(jù)挖掘在教學系統(tǒng)中的應用 系: 計算機科學與技術 專 業(yè): 計算機科學與技術 2009年 3月 20 日開題報告填寫要求1開題報告(含“文獻綜述”)作為畢業(yè)設計(論文)答辯委員會對學生答辯資格審查的依據(jù)材料之一。此報告應在指導教師指導下,由學生在畢業(yè)設計(論文)工作前期內完成,經指導教師簽署意見及所在專業(yè)審查后生效。2開題報告內容必須用黑墨水筆工整書寫或按此電子文檔標準格式(可從教務處網頁上下載)打印,禁止打印在其它紙上后剪貼,完成后應及時交給指導教師簽署意見。3“文獻綜述”應按論文的格式成文,并直接書寫(或打?。┰诒鹃_題報告第一欄目內,學生寫文獻綜述的參

2、考文獻應不少于10篇(不包括辭典、手冊),其中至少應包括1篇外文資料;對于重要的參考文獻應附原件復印件,作為附件裝訂在開題報告的最后。4統(tǒng)一用A4紙,并裝訂單獨成冊,隨畢業(yè)設計(論文)說明書等資料裝入文件袋中。 畢 業(yè) 設 計(論 文)開 題 報 告1文獻綜述:結合畢業(yè)設計(論文)課題情況,根據(jù)所查閱的文獻資料,每人撰寫2500字以上的文獻綜述,文后應列出所查閱的文獻資料。數(shù)據(jù)挖掘技術已經在多個領域取得令人滿意的應用如零售業(yè)、電信業(yè)。近些年,隨著高校招生規(guī)模的不斷擴大,教育信息數(shù)據(jù)庫中積累了大量數(shù)據(jù)。這些數(shù)據(jù)以往只是被用來進行一般的查詢和報表打印,并沒有得到充分利用。事實上,在高校的教育信息數(shù)

3、據(jù)庫中蘊涵著大量有價值的規(guī)律需要我們運用數(shù)據(jù)挖掘這一新型工具去發(fā)現(xiàn),可以輔助領導層在招生就業(yè)、課程安排、素質教育和創(chuàng)新人才培養(yǎng)等方面進行決策,從而促進教育決策的科學化。1數(shù)據(jù)挖掘技術數(shù)據(jù)挖掘(Data Mining)是從大量的、不完全的、有噪聲的、模糊的、隨機的數(shù)據(jù)集中識別出有效的、新穎的、潛在有用的,以及最終可理解模式的非平凡過程。原則上講,數(shù)據(jù)挖掘可以在任何類型的信息存儲上進行。這包括關系數(shù)據(jù)庫、數(shù)據(jù)倉庫、事務數(shù)據(jù)庫、高級數(shù)據(jù)庫系統(tǒng)、展開文件和WWW。由于關系數(shù)據(jù)庫具有堅實的數(shù)學基礎、統(tǒng)一的組織結構、完整的規(guī)范化理論、”一體化”的查詢語言等優(yōu)點,成為當前數(shù)據(jù)挖掘的主要對象。數(shù)據(jù)挖掘的過程可

4、看作一個線性過程:(1)陳述問題和闡明假設;(2)數(shù)據(jù)收集;(3)數(shù)據(jù)預處理;(4)挖掘知識;(5)根據(jù)挖掘結果執(zhí)行并評估效益。其中第四步是數(shù)據(jù)挖掘的核心階段也是人們研究的重點。數(shù)據(jù)挖掘的主要功能有:(1)概念,類描述:特征化和區(qū)分。數(shù)據(jù)特征化是目標類數(shù)據(jù)的一般特征或特征的匯總。通常,用戶指定類的數(shù)據(jù)通過數(shù)據(jù)庫查詢收集。數(shù)據(jù)區(qū)分是將目標類對象的一般特性與一個或多個類對象的一般性比較。目標類和對比類由用戶指定,而對應的數(shù)據(jù)通過數(shù)據(jù)庫查詢檢索。(2)關聯(lián)分析。它是從數(shù)據(jù)庫中發(fā)現(xiàn)知識的一種重要方法。若兩個或多個數(shù)據(jù)項的取值之問重復出現(xiàn)且概率很高時,它就存在某種關聯(lián),可以建立起這些數(shù)據(jù)項的關聯(lián)規(guī)則。(

5、3)分類和預測。分類是找出一個類別的概念描述,它代表了這類數(shù)據(jù)的整體信息,即該類的內涵描述一般用規(guī)則或決策樹模式表示。預測是利用歷史數(shù)據(jù)找出變化規(guī)律,建立模型,并用此模型來預測未來數(shù)據(jù)的種類、特征等。(4)聚類分析。聚類分析數(shù)據(jù)對象對象根據(jù)最大化類內的相似性、最小化類問的相似性的原則進行聚類或分組即使得在一個簇中的對象具有很高的相似性。而與其他簇中的對象很不相似。(5)孤立點分析。在一些應用中,罕見的事件可能比正常出現(xiàn)的那些更有趣。(6)演變分析。數(shù)據(jù)演變分析描述行為隨時問變化的對象的規(guī)律或趨勢,并對其建模。2 常用數(shù)據(jù)挖掘功能、算法及其典型應用領域(1)數(shù)據(jù)挖掘功能: 關聯(lián)規(guī)則; 算法:統(tǒng)計

6、學、集合理論; 典型應用領域:市場分析(2)數(shù)據(jù)挖掘功能: 分類; 算法:決策樹、神經網絡、粗集; 典型應用領域:產品營銷、定量控制、危險評估(3)數(shù)據(jù)挖掘功能: 聚類; 算法:神經網絡、統(tǒng)計學; 典型應用領域:市場分析(4)數(shù)據(jù)挖掘功能: 時問序列預測; 算法:統(tǒng)計學、ARMA模型; 典型應用領域:銷售預測、利潤預測3數(shù)據(jù)挖掘技術在教學系統(tǒng)中的應用31 關聯(lián)規(guī)則挖掘和聚類規(guī)則挖掘在成績分析方面的運用關聯(lián)規(guī)則挖掘是尋找?guī)熘兄档南嚓P性。它反映一個事件和其他事件之間依賴或關聯(lián)的知識。尋找在同一個事件中出現(xiàn)的不同項的相關性,如在一次購買括動中所買不同商品的相關性。關聯(lián)規(guī)則的挖掘過程一般分為兩個過程:

7、(1)先找出所有的頻繁項集;(2)由頻繁項集產生強關聯(lián)規(guī)則。這兩步中,第二步是在第一步的基礎上進行。工作量非常小。挖掘關聯(lián)規(guī)則的總體性能由第一步決定。現(xiàn)有的挖掘關聯(lián)規(guī)則的方法總體而言可以歸結為以下幾種:在遍歷方向上是自頂向下、自底向上或者是混合遍歷:在搜索策略上采用廣度優(yōu)先策略還是深度優(yōu)先策略:在頻繁項集的產生上是否需要產生候選集測試候選集是否需要多次掃描數(shù)據(jù)庫:是采用橫向(Horizonta1)還是縱向(Vertica1)數(shù)據(jù)庫布局,以及采用什么樣的數(shù)據(jù)結構(如:數(shù)組、位串或樹結構)來表示事務??荚囀菍毯蛯W效果的檢驗,成績是考試的結果,它除了激勵學生學習及教師工作此外還能為教育科研者提供研

8、究資料為充分發(fā)揮考試的功效??陀^公正評價命題質量,及時反饋教學效果,溝通教學信息。教學部門對考試成績進行統(tǒng)計分析和總結是非常必要的。然而,不少學校目前僅停留在閱卷評分、成績公布、分類登記,對大量的成績數(shù)據(jù)并沒有進行深入分析,探尋有利于教學的信息。原因主要為靠傳統(tǒng)手工操作,勞動強度大、效率低?,F(xiàn)在我們將關聯(lián)規(guī)則挖掘應用于試卷分析數(shù)據(jù)庫(主要包括題號、分數(shù)段、學生人數(shù)等字段),根據(jù)學生實際得分可以計算出每道題的難易程度、區(qū)分度、相關度等技術指標,據(jù)此,教師可對試題質量作出較為準確的評價進而可以用來檢查自己的教學情況及學生的掌握情況并為今后的教學工作提供指導。32 分類規(guī)則挖掘在智能題庫系統(tǒng)中的應用

9、目前許多院校采用的題庫考試系統(tǒng)雖然在考試的客觀性與公正性、減輕教師負擔等方面具有一定的優(yōu)勢,但面臨眾多計算機實踐課程的考核需要,出現(xiàn)了許多亟待解決的問題:例如:(1)雖能題庫考試系統(tǒng)可以較好地組卷。卻不能自動完成全部的閱卷工作(只能評判客觀題。難以評判主觀題);(2)考察的范圍只是局限在理論考試,無法全面地考察學生的實踐能力等。此時此刻我們必須要求題庫具有一定的”智能”能較好地完成從組卷到自動閱卷的各個環(huán)節(jié)的任務。針對第一個問題我們可采用決策樹算法為每個問題的答案構造一棵二叉樹,其中,二叉樹的每個內部節(jié)點表示為對某個特征的邏輯判斷:邊表示邏輯判斷的結果;樹的葉節(jié)點就是每個類別的標記:從根出發(fā)到

10、每個葉節(jié)點所經過的邊就是該葉節(jié)點的特征序列。每個葉節(jié)點都會對應確定的權值。通過對權值的計算給出得分。33 關聯(lián)規(guī)則在教學評價數(shù)據(jù)分析中的應用依據(jù)教學目標和標準對教學工作達到的程度做出價值判斷,具有評判、診斷、甄別、導向等作用。教學質量的評價,既是一個理論問題也是一個實踐問題。影響教學評價結果的因素很多,諸如評價方案的合理性,評價工具的有效性,評價方法的科學性,評價活動組織的嚴密性,當然還有所獲取的評價數(shù)據(jù)的可靠性。其中評價數(shù)據(jù)的可靠性,是保證評價結果科學、客觀、公正的關鍵因素。教學評價的過程是評價者和被評價者的整體綜合心理活動的過程,要把握人的心理保證人人都能認真負責地履行了自己的義務是件非常

11、困難的事情 故而我們可想方設法在技術上采取一些措施盡可能地找出那些不負責任的評價者所給的評價數(shù)據(jù)。通過研究以往的評價指標體系我們會發(fā)現(xiàn)各個指標雖然具有相對獨立性但由于指標是根據(jù)同一目標派生而來的,各個指標之間必然蘊藏著某種內在聯(lián)系這恰恰也導致不同評價指標的各項評價數(shù)據(jù)之間存在某種關聯(lián)性。我們可以運用數(shù)據(jù)挖掘技術中的關聯(lián)規(guī)則挖掘技術來尋找各項評價數(shù)據(jù)之間的關聯(lián)性如果所得評價數(shù)據(jù)不滿足這種關聯(lián)性測可以被認為是無效評價數(shù)據(jù)。通過這種方法來檢驗評價數(shù)據(jù)的可靠性。此外我們還可以借助關聯(lián)規(guī)則挖掘找出諸如學生的學習質量與學習方法教師的教法、學生原有的基礎、學習時間以及與智力、性別等之間的關系,各種能力之間的

12、相關。兩學科學習成績之間的關系等等。這對于更好地開展教學工作。提高教學質量,具有非常重要的意義。大部分學校每學期都要搞教學評估,積累了大量的數(shù)據(jù)但假如把這些數(shù)據(jù)僅僅作為晉升職稱、評優(yōu)等的依據(jù) 顯然是一種浪費,我們要充分利用數(shù)據(jù)挖掘技術盡可能挖掘出一些有用的知識來更進一步地為教學服務。4小結盡管對數(shù)據(jù)挖掘技術在教學系統(tǒng)中的應用探索有了3到4年的時間。但隨著關聯(lián)分析、聚類、概念描述、偏差檢測等技術的不斷發(fā)展和完善,數(shù)據(jù)挖掘必將在教育領域中發(fā)揮越來越大的作用同時隨著人們對這一技術的日益關注,相信其在教育領域的應用范圍也會越來越廣,從而快速推進教育的改革和發(fā)展。參考文獻:1MehmedKantardz

13、ic數(shù)據(jù)挖掘一一概念、模型、方擊和算法清華大學出版社2奏亮峨史忠植關聯(lián)規(guī)則研究綜述廣西大學學報Vol 3ONo4:310-3173Jiawei Hart Micheline Kamber數(shù)據(jù)挖掘一一概念毒技術機械工業(yè)出版社4張敏,陸向艷數(shù)據(jù)挖掘在智能題庫中的應用廣西大學學報vol 30增刊5魏萍萍,王翠茹等,教據(jù)挖掘技術及其在高校教學系統(tǒng)中的應用計算機工程2003 29(11):87-896Aglow ai RImielin ski T Swam i A Mining associauon rules betweenseB of items in large database 【A 】P ro

14、c1993 ACM 2S IGMOD Int l ConfManagement of Data (s IGMOD 93) 【C 1Washington DC:1993207221 67邱文教潘曉卉數(shù)據(jù)挖掘技術在教務管理中的應用安徽工業(yè)大學學2005 Voi22No 8陳安等,數(shù)據(jù)挖掘技術及應用科學出版社 9. 毛國軍等,數(shù)據(jù)挖掘原理及算法(第二版)清華大學出版社 10. 梁循,數(shù)據(jù)挖掘算法與應用北京大學出版社 11. 鄧納姆,數(shù)據(jù)挖掘教程清華大學出版社 12. Jiawei Han,Micheline Kamber著.數(shù)據(jù)挖掘概念與技術M.加拿大。機械工業(yè)出版社 2004.畢 業(yè) 設 計(論

15、文)開 題 報 告2開題報告:一、課題的目的與意義;二、課題發(fā)展現(xiàn)狀和前景展望;三、課題主要內容和要求;四、研究方法、步驟和措施一、 課題的目的與意義 數(shù)據(jù)挖掘技術是一種新的信息處理技術,其目的是從海量數(shù)據(jù)中抽取潛在的,有價值的數(shù)據(jù)規(guī)律或數(shù)據(jù)模型。通過數(shù)據(jù)挖掘技術對高校教學數(shù)據(jù)的分析處理,能夠形成真正有價值的知識,向決策者提供信息支持,有利于推動學校教學改革和建設的全面發(fā)展。數(shù)據(jù)挖掘是一門能夠從大量數(shù)據(jù)中發(fā)現(xiàn)有用知識的技術學科,是從大型數(shù)據(jù)庫或數(shù)據(jù)倉庫中提取隱含的,未知的,非平凡的極有潛在應用價值的信息或模式,是數(shù)據(jù)庫研究中的一個很有應用價值的新領域,融合了數(shù)據(jù)庫、人工智能、機器學習、統(tǒng)計學等

16、多個領域的理論和技術。利用這一技術,我們可以通過客觀統(tǒng)計和分析從大量數(shù)據(jù)中發(fā)現(xiàn)潛在規(guī)律,找出隱含的模式,準確掌握未來的動態(tài)。將數(shù)據(jù)挖掘技術與教學管理相結合從中提取出隱藏在數(shù)據(jù)之中的有用信息使信息系統(tǒng)的功能得到最大程度的利用并使之能在功能上更加滿足學校教學和管理的需要。 二、課題發(fā)展現(xiàn)狀和前景展望(1)、發(fā)展現(xiàn)狀如今各高校大都在師資隊伍建設,學生學籍、成績管理等方面積極采用數(shù)據(jù)挖掘技術對之前收集的數(shù)據(jù)進行管理,解決教育領域中存在的諸多決策問題。例如對學生的就業(yè)情況是學校最為關心的問題之一,根據(jù)往屆學生就業(yè)面就業(yè)渠道等情況,找到提高學生就業(yè)率的相應規(guī)律,并及時調整專業(yè)課程的設置和就業(yè)指導的方法;根

17、據(jù)現(xiàn)有的學生學習成績的分析,為各專業(yè)院系提供切實可行的提高教學質量、優(yōu)化教學資源的依據(jù);根據(jù)現(xiàn)有的教師隊伍情況,預測招生數(shù)量與生源,合理的安排,為學科建設和師資隊伍建設提供決策依據(jù)等??傊谀壳皩W生生源減少,而各高校又擴招,學生就業(yè)壓力大增的情況下,數(shù)據(jù)挖掘的結果可以為各高校提供與時俱進發(fā)展,合理分配資源提供重要方法,可以為高校領導層提供科學的決策依據(jù),成為管理決策支持系統(tǒng)中不可缺少的重要工具。(2)、發(fā)展前景隨著數(shù)據(jù)挖掘的進一步發(fā)展。它在教學上的應用也就會越來越多。2I世紀的數(shù)據(jù)挖掘也必將發(fā)揮著更重要的作用。1文本挖掘文本挖掘是數(shù)據(jù)挖掘的一個分支是利用文本型信息源作為分析的對象利用定量計算

18、和定性分析的方法從中尋找信息的結構、模型、模式等各種隱含的知識。在教學上則可以利用文本挖掘得出各種教育性的文檔對本校本專業(yè)有何幫助。2W eb數(shù)據(jù)挖掘技術WEB挖掘是數(shù)據(jù)挖掘在WEB上的應用,它可以用數(shù)據(jù)挖掘技術從與wWw相關的資源和行為中抽取感興趣的、有用的模式和隱含信息。涉及WEB技術、數(shù)據(jù)挖掘、計算機語言學、信息學等多個領域。如今是網絡的社會,只有更好的利用網絡。教育才能更上一層樓。通過WEB挖掘可以幫助學校了解教師和學生最新的動態(tài)以及相關的需求,從而制定栩關的對策。3可視化數(shù)據(jù)挖掘技術可視化數(shù)據(jù)挖掘技術建立在可視化和分析過程的基礎上從大的數(shù)據(jù)集中將數(shù)據(jù)轉換為圖形或圖像。在屏幕上顯示出來

19、。并且進行交互處理的理論、方法和技術。4空間數(shù)據(jù)挖掘技術空數(shù)據(jù)挖掘從空間數(shù)據(jù)巾抽取令人感興趣的、隱含的知識和空問關系。或是空間內數(shù)據(jù)庫中沒有明確存儲的其他模式。5視頻和音頻數(shù)據(jù)挖掘技術視頻挖掘是指對動畫視頻信息的自動處理,如電視信息的主題提取、視頻文件的自動摘要等待。音頻數(shù)據(jù)挖掘是用音頻信號來 示數(shù)據(jù)模式或數(shù)據(jù)挖掘結果的特征。可視化數(shù)據(jù)挖掘。空問數(shù)據(jù)挖掘技術,視頻和音頻數(shù)據(jù)挖掘技術這三項都是新興的挖掘技術。它們應用到教學上也必將豐富教學形勢的多樣化。進而為我們國家的教育骷來質的飛躍。總之,隨著時代的發(fā)展。數(shù)據(jù)挖掘技術的提高。它骷來的效應也必將影響整個社會三、課題主要內容和要求1在高校教學質量評

20、估中的應用 高校教學評估是每個高校定期必須接受的教育部的審核,通過對高校的教學評估發(fā)現(xiàn)教學中存在的問題,及時地調整教學方案和手段,來提高教學質量,從而培養(yǎng)出順應時代發(fā)展要求的學生是教學質量評估的最終目的。把數(shù)據(jù)挖掘技術引入到教育領域的評估系統(tǒng)中,不僅提高了教育管理的科學性,而且增強了教育數(shù)字化建設的實效性?;跀?shù)據(jù)挖掘的關聯(lián)規(guī)則法應用于的教學質量評估中,從教師教學的效果,學生和教師的互動,教學與教學場所等因素中找出其中的內在聯(lián)系,為教學部門提供決策支持信息使之更好地開展教學工作,提高教學質量。該領域的研究具有一定的潛力許多學者都在這方面發(fā)現(xiàn)新的算法,以此幫助高校有效快速的提高教學質量。 2在學

21、生工作管理系統(tǒng)中的應用 將數(shù)據(jù)挖掘技術中的決策樹技術運用到學生管理系統(tǒng)中,建立一個學生管理決策樹挖掘系統(tǒng),對學生日常管理進行分類挖掘。通過挖掘系統(tǒng)可以得到許多有價值的信息,這些信息在幫助學校更好地進行學生的管理、掌握學生日常生活的情況、幫助學校更好的了解學生生活情況,及時發(fā)現(xiàn)問題學生等方面具有重要的指導意義。在學生工作中,隨著數(shù)據(jù)信息的不斷增長,把數(shù)據(jù)挖掘技術應用到管理中,以建立高??茖W學生管理系統(tǒng),必將為高校各級領導部門的決策提供切實可行的提高學生質量、優(yōu)化學生生活的依據(jù),為高校在激烈的競爭中掌握主動在未來的發(fā)展中提供更廣闊的空間,發(fā)揮重要的作用,為高校的飛越式發(fā)展起到一個科學導向作用。 3

22、在試題庫系統(tǒng)中的應用 隨著教育體制改革的不斷深入,計算機應用的普及,高校試題庫系統(tǒng)得到了越來越廣泛的重視。高校試題庫系統(tǒng)主要包括考題組織,在線考試,答案分析以及試卷分析等幾大部分,擔負著考核學生學習水平,考察教師教學水平的重要作用,對教學工作的開展有著非常重要的現(xiàn)實意義??v觀以往的題庫管理系統(tǒng),多半都以難易度、區(qū)分度等為主要衡量指標,以組成一套合理的試卷為目的,考察學生的知識掌握水平。但是這些題庫系統(tǒng)普遍缺乏綜合分析、輔助決策的能力;并且對其歷史積累的海量信息中隱含知識的利用無能為力。針對上述問題可以采用數(shù)據(jù)挖掘中的演變分析方法對其進行建模,根據(jù)教學時間序列的變化,周期長短的變化,不同教師類似

23、性分析,從中發(fā)掘出學生掌握知識的最佳時期。 4在教師管理中的運用 要培養(yǎng)有能力素質高的學生離不開精銳的師資隊伍。高校如何對現(xiàn)有師資資源進行管理和利用,也是數(shù)據(jù)挖掘技術研究的一個重要方面。提高教師教學水平,提高教師自身素質,教師待遇的權衡等問題可以利用數(shù)據(jù)挖掘中數(shù)據(jù)區(qū)分規(guī)則進行研究,對兩組教師隊伍進行分析,可以幫助發(fā)現(xiàn)兩類之間更多的區(qū)分特性,從而決定教師教學能力和水平,對其進行獎懲,提高教師能力。 5在分層次教學研究中的應用數(shù)據(jù)挖掘 將數(shù)據(jù)挖掘技術和現(xiàn)代教育統(tǒng)計學中有關技術相結合,可以為實際教學活動提供決策指導。研究主要以數(shù)據(jù)挖掘技術中關聯(lián)規(guī)則發(fā)現(xiàn)的相關理論為基礎,運用經典教育統(tǒng)計理論對教育活動

24、中的分層次教學實例進行分析,通過對教學活動中的各影響因素進行數(shù)據(jù)挖掘,從而發(fā)現(xiàn)影響教學結果的關聯(lián)規(guī)則,并將數(shù)據(jù)挖掘的預測結果反饋到新的教學活動中,為實際教學活動提供決策指導。6其他方面作用(1) 學習成績預測與評介可以利用線性回歸分析和時間序列來預測學生的學習成績進而可以采取相對應的措施使得學生能夠避免學習成績下降,而卻能進一步提高學習成績。而如果出現(xiàn)偏差。則可以采用偏差檢測來分析為什么會有這樣的偏差出現(xiàn)。(2) 教師的年終考核可以從教師的年度管理數(shù)據(jù)庫巾挖掘相關數(shù)據(jù)評價全年的教學成績。比如根據(jù)教師的教學成績,政治思想品德,進修情況。學歷教育學生工作情況等等進行決策分析。來評定教師在這一年巾的

25、工作成績。(3) 利用網絡進行教學服務利用每個學?,F(xiàn)有的局域網絡挖掘后臺數(shù)據(jù)庫中的數(shù)據(jù)有針對的設置網絡頁面。比如通過挖掘后臺數(shù)據(jù)庫所存的上網者的信息,針對教師需求可以設置相關的頁面,而針對學生可以設置另一個頁面。也可以根據(jù)上網者的需要設置流量大小或個性化的網頁。通過WEB挖掘得出教師、學生對網絡需求的是什么。從而制定栩關的項日,或弓I導學生進行豐開關的學習與娛樂。四、研究方法、步驟和措施1數(shù)據(jù)挖掘方法與技術數(shù)據(jù)挖掘方法是山人工智能、機器學習的方法發(fā)展而來,結合傳統(tǒng)的統(tǒng)計分析方法、模糊數(shù)學方法以及科學計算可視化技術,以數(shù)據(jù)庫為研究對象,形成的數(shù)據(jù)挖掘的方法和技術。數(shù)據(jù)挖掘的方法和技術可以分為六大

26、類。歸納學習方法(信息論方法、集合論方法)、仿生物技術(神經網絡方法、遺傳算法)、公式發(fā)現(xiàn)(物理定律發(fā)現(xiàn)系統(tǒng)、經驗公式發(fā)現(xiàn)系統(tǒng))、統(tǒng)計分析方法(常用統(tǒng)計、相關分析、回歸分析、差異分析、聚類分析、判別分析)、模糊數(shù)學方法、可視化技術。2數(shù)據(jù)挖掘對象數(shù)據(jù)挖掘的對象主要是關系數(shù)據(jù)庫,這是典型的結構化數(shù)據(jù)。隨著技術的發(fā)展,數(shù)據(jù)挖掘對象逐步擴大到半結構化或非結構化數(shù)據(jù),這主要是指文本數(shù)據(jù)、圖像和視頻數(shù)據(jù),以及Web數(shù)據(jù)等。3. 數(shù)據(jù)挖掘過程 數(shù)據(jù)挖掘過程包括對問題的理解和提出、數(shù)據(jù)收集、數(shù)據(jù)處理、數(shù)據(jù)變換、數(shù)據(jù)挖掘、模式評估、知識表示等過程,以上的過程不是一次完成的,其中某些步驟或者全過程可能要反復進行

27、。 對問題的理解和提出:在開始數(shù)據(jù)挖掘之前,最基礎的工作就是理解數(shù)據(jù)和實際的業(yè)務問題,在這個基礎之上提出問題,對目標作出明確的定義。 數(shù)據(jù)收集:廣泛收集用戶的各種信息,建立數(shù)據(jù)庫與數(shù)據(jù)表,為數(shù)據(jù)挖掘做準備。 數(shù)據(jù)處理:對收集的信息進行如“去噪”等處理,確保數(shù)據(jù)能夠真實反映待要挖掘的對象。 數(shù)據(jù)變換:將經過“去噪”的數(shù)據(jù)進行一定的格式轉換,使其適應數(shù)據(jù)挖掘系統(tǒng)或挖掘軟件的處理要求。 數(shù)據(jù)挖掘:可以單獨利用也可以綜合利用各種數(shù)據(jù)挖掘方法對數(shù)據(jù)進行分析,挖掘用戶所需要的各種規(guī)則、趨勢、類別、模型等。 模式評估:對發(fā)現(xiàn)的規(guī)則、趨勢、類別、模型進行評估,從而保證發(fā)現(xiàn)的模式的正確性。 知識表示:將挖掘結果

28、以可視化的形式展現(xiàn)在用戶面前。 4數(shù)據(jù)挖掘任務數(shù)據(jù)挖掘任務有6項:關聯(lián)分析、時序模式、聚類、分類、偏差檢測、預測。關聯(lián)分析是從數(shù)據(jù)庫中發(fā)現(xiàn)知識的一類重要方法。若兩個或多個數(shù)據(jù)項的取值之問重復出現(xiàn)且概率很高時就存在某種關聯(lián),可以建立起這些數(shù)據(jù)項的關聯(lián)規(guī)則。例如,買面包的顧客有90的人還買牛奶,這是一條關聯(lián)規(guī)則。若商店中將面包和牛奶放在一起銷售將會提高它們的=l=i量。時序模式通過時問序列搜索出重復發(fā)生概率較高的模式。聚類數(shù)據(jù)庫中的數(shù)據(jù)可以劃分為一系列有意義的子集即類。在同一類別巾個體之問的距離較小,而不同類別的個體之間的距離偏大。聚類增強了人們對客觀現(xiàn)實的認識即通過聚類建立宏觀概念。回歸分析是統(tǒng)計分析中應用最

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論