


版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
OLAP融合于數據挖掘之模型構建論文OLAP融合于數據挖掘之模型構建論文數據挖掘一般是指從大量的數據中通過算法搜索隱藏于其中信息的經過。數據挖掘通常與計算機科學有關,并通過統(tǒng)計、在線分析處理、情報檢索、機器學習、專家系統(tǒng)(依靠過去的經歷法則)和形式識別等眾多方法來實現(xiàn)上述目的。下面是學習啦我今天為大家精心準備的:OLAP融合于數據挖掘之模型構建相關論文。內容僅供瀏覽與參考!OLAP融合于數據挖掘之模型構建全文如下:1OLAM模型本文提出的OLAM模型對OLAP中數據立方體和星型形式的概念分別進行了拓展,涵蓋問題的整個搜索空間,能夠比擬全面地反映多維數據挖掘的本質.下面描繪相應的理論方法、基本權標和數據構造.1.1從數據立方體到影響域本文在OLAM模型中引進基本權標:影響域(influencedomain).影響域與多維空間的數據立方體在邏輯上是等價的.但立方體上計算的是聚合(aggregation),而影響域上計算的是蘊涵(implication),即數據中隱藏的形式.影響域同立方體一樣具有屬性和值,不同點在于它具有置信度(confidence).立方體將維映射至度量,而影響域將維和度量映射至置信而影響域將度.一個影響域可視為一個函數,其映射關系從維和度量映射至一置信度級別.影響域可視為是廣義概念上的數據立方體空間,由于影響域的大小通常比數據立方體要大得多,OLAM分析經常在更細的粒度上分析更多的維,或對多個特性之間的關系進行探索.由于每次重新計算的代價太昂貴,所以需要在比星型形式存儲有更多的聚合的形式上進行,即采用下一節(jié)所提出的旋轉形式.為了遍歷整個影響域,需要將OLAP運算與影響性分析穿插.能夠看出,影響域的操作可在多維和多層次的抽象空間中進行,有利于靈敏地挖掘知識.而文獻〔3,4,5〕的操作是基于數據立方體的多維數據挖掘,包含在基于影響域的操作之內,是其中的特例.影響域概念可用面向對象的思想描繪,這樣有助于生成一個較好的構造化的框架.影響域包含六個主要特性:(1)基本維(類);(2)屬性;(3)對象或實例;(4)層次;(5)度量;(6)蘊涵.其中,基本維是一種高層次的類型劃分,如產品、客戶等.每個類/維具有一屬性集合,如產品維具有屬性價格、顏色等.每個類/維有對象或要素作為實例,對象的每個屬性具有一個值.在類和屬性內存在層次,例如,對類來講,商標類是產品的父類;對屬性來講,屬性集合地區(qū),城市,省}是一個層次.度量是在維構成的空間上的計算.蘊涵是在維和度量構成的立方體空間上的計算.1.2從星型形式到旋轉形式從面向對象的角度來看,數據立方體與影響域的特性不盡一樣,包含基本維(類)、屬性、對象或實例、層次以及度量這五個特性,OLAP的星型形式通常直接映射在該對象構造中.星型形式每個維表都可看成一個對象,對象的屬性代表在維表中的列,度量在各個維構成的空間上進行計算.圖1給出一個星型形式的例子,包含四個基本維:商店維、客戶維、產品維和定貨維,中央的事實表中存有度量和各個基本維的碼值.星型形式是用來處理聚合運算的,該形式能很好地用于OLAP,但它本身不帶數據挖掘功能,不能用于OLAM,因而需要將星型形式作相應擴展.在對影響域進行分析的經過中,通常將分析焦點聚焦在星型形式中的維表上(如產品或商店,如圖1所示).由于在分析中要用附加的聚合或選擇的數據項以豐富維表內容,因而對于每個庫表來講,需要比星型形式存儲更多的數據.分析的焦點在各個維表之間不斷轉換,例如從客戶維轉換至商店維再到產品維等等,能夠看作是焦點在繞著星型形式旋轉,因而,本文引入旋轉形式的概念,將OLAM的分析構造命名為旋轉形式.圖2顯示出與圖1中星型形式所對應的旋轉形式的例子.旋轉形式的中心存儲的是影響域的蘊涵,外圍是各個維表的碼值以及聚焦度量和其它度量,四周呈輻射狀的是各個維表.在執(zhí)行影響域分析時,焦點沿著不同的基本維(或類)旋轉,在維和度量構成的廣義數據立方體空間上執(zhí)行蘊涵運算對應于圖1的旋轉形式的例子如圖3所示,旋轉形式中的庫表具有五個主要部分:(1)中的庫表具有五個主要部分聚焦維;(2)聚焦度量;(3)內部屬性;(4)外部屬性;(5)非聚焦度量.聚焦維代表當前分析焦點所在的基本維,如圖2所示的客戶維;聚焦度量代表用戶關心的度量,如利潤;內部屬性是聚焦維中的屬性,如客戶年齡等;外部屬性是非聚焦維中的屬性,如某客戶最喜歡的產品顏色等;非聚焦度量是用于輔助決策的度量,如某客戶平均一次購買的商品的數目.由此能夠看出影響域中的存儲形式與OLAP是不同的.2實現(xiàn)OLAM機制的討論OLAM機制具有交互的特性,而且求蘊涵函數的計算代價比擬昂貴,因而在大型數據庫或數據倉庫中實現(xiàn)OLAM機制的關鍵是解決快速響應和有效實現(xiàn)的問題.必須考慮如下因素:2.1快速響應和高性能挖掘OLAM若想獲得快速響應和高的性能,會比OLAP困難,由于數據挖掘的計算代價通常比OLAP昂貴.快速響應對于交互式挖掘是致關重要的,有時為了得到快速響應甚至能夠犧牲精度,由于交互式挖掘能一步步引導挖掘者聚焦在搜索空間并查找越來越多重要的形式.一旦用戶能限定小的搜索空間,就可調用更高級的而速度較慢的挖掘算法進行細致分析.可考慮采用逐步精化數據挖掘質量的OLAM方法:首先在大數據集上用快速挖掘算法標識出感興趣的形式/區(qū)域,然后用代價較高但較準確的算法進行具體分析.2.2基于數據立方體的挖掘方法基于數據立方體的挖掘方法應該是OLAM機制的核心.基于立方體的數據挖掘已經有很多研究,包括概念描繪、分類、關聯(lián)、預測、聚類等.基于立方體的挖掘繼承了關系型或事務型數據挖掘方法的思想,并具有很多特性.在基于立方體的有效挖掘算法領域需要更多的研究.高性能數據立方體技術對OLAM很重要.由于一個挖掘系統(tǒng)需要計算大量維之間的關系或具體細節(jié),這樣的數據不可能都預先實體化,有必要聯(lián)機動態(tài)計算數據立方體的一部分.另外,多特性數據立方體的有效計算,以及支持具有復雜維和度量的非傳統(tǒng)的數據立方體,對有效地數據挖掘都很重要.因而,需進一步開發(fā)數據立方體技術.2.3選擇或添加數據挖掘算法關系型查詢處理能用不同的處理途徑對同一查詢生成一樣的答案,但是采用不同的數據挖掘算法可能會生成顯著不同的挖掘結果.因而,提供多種可選的數據挖掘算法很重要.另外,用戶也許想本人開發(fā)一個算法,假如提供標準開放的API,而且OLAM系統(tǒng)經過很好地模塊化,用戶就有可能增加或修改數據挖掘算法.用戶定義的數據挖掘算法能夠較好地利用一些開發(fā)良好的系統(tǒng)構件以及知識可視化工具,并與已有的數據挖掘功能合成.因存在有多個數據挖掘功能,怎樣在某一詳細應用中選定適宜的數據挖掘功能是一個問題,必須熟悉應用問題、數據特征以及數據挖掘功能的作用,有時需要執(zhí)行交互探索式分析來選擇適宜的功能.因而,建造探索式分析工具以及構建面向應用的語義層是兩個重要的解決方案.OLAM提供探索式分析工具,進一步的研究應該放在為詳細應用自動選擇數據挖掘功能上.2.4在多個數據挖掘功能之間交互OLAM的優(yōu)勢不僅僅在于選擇一系列的數據挖掘功能,也在于在多個數據挖掘和OLAP功能之間交互.例如首先切割立方體的一部分,基于一指定的類屬性將該部分分類并查找關聯(lián)規(guī)則,然后下挖在更細2.5可視化工具為了有效地顯示OLAP挖掘結果并與挖掘處理交互,開發(fā)多種知識和數據可視化工具很重要.圖表、曲線、決策樹、規(guī)則圖、立方體視圖、boxplot圖等是描繪數據挖掘結果的有效工具,幫助用戶監(jiān)測數據挖掘的經過并與挖掘經過交互.2.6可擴展性OLAM系統(tǒng)與用戶及知識可視化軟件包在頂端通訊,與數據立方體在底端通訊.它應該高度模塊化,并具有可擴展性,由于它可能會與多個子系統(tǒng)合成并以多種方式擴展.應該擴展OLAP挖掘技術至高級的和/或特殊用處的數據庫系統(tǒng),包括擴展的關系型、面向對象的、文本、空間、時間、多媒體和異種數據庫以及Internet信息系統(tǒng).對復雜類型的數據,包括構造化、半構造化和非構造化數據的OLAP挖掘也是一重要的研究方向.2.7做書簽和回溯技術OLAM借助于數據立方體導航,提供應用戶充分的自由,運用任一數據挖掘算法序列來探索和發(fā)現(xiàn)知識.當從一個數據挖掘狀態(tài)轉換至另一狀態(tài)時經??捎泻芏囗椷x擇擇.可做個書簽,假如發(fā)現(xiàn)一個途徑無意義,就回到原先的狀態(tài)并探索其它的方法.這種做標記和回溯機制防止用戶迷失在OLAM空間中.3結論利用OLAM模型沿著多個維進行挖掘,觀察沿著這些維的形式,進行合并,并以智能的方式與用戶進行交互,能夠在多維數據庫的不同的部位和不同的抽象級別交互地執(zhí)行挖掘.它有如下優(yōu)點:(1)便于交互式探索性的數據分析.有效的數據挖掘需要探索性的數據分析功能〔6〕.用戶常希望靈敏地遍歷數據庫,選擇任一部分的相關數據,在不同的抽象級別上分析,并以不同的形式表示知識/結果.OLAM便于對不同的數據子集在不同抽象級別上進行數據挖掘,這連同數據/知識可視化工具將大大加強探索性數據挖掘的能力和靈敏性.(2)聯(lián)機選擇數據挖掘功能.事先預測挖掘何種類型的知識是困難的,對于用戶來講,經常不知道想挖掘什么樣的知識.通過OLAM模型將OLAP與多個數據挖掘功能結合,用戶能夠靈敏選擇所需的數據挖掘功能,并動態(tài)交換數據挖掘任務.本文所提出的OLAM模型的理論方法、基本權標和數據構造將數據挖掘和OLAP技術結合在一個統(tǒng)一的框架之中,大大加強了決策分析的功能和靈敏性.該模型有助于在大型數據庫和數據倉庫中交互式地挖掘多層次的知識,是一個很有前景的方向.參考文獻:1E.F.Codd,S.B.Codd,C.T.Salley.Beyonddecisionsupport.〔J〕Computerworld,27(30),July19932UsamaMFayyad,51lunwen/database/GregoryPiatetsky-Shapiroetal.Advancesinknowledgediscoveryanddatamining.〔M〕California:AAAI/MITPress,19963J.W.Han.Towardson-lineanalyticalmininginlargedatabases.〔R〕ACMSIGMODRecord,1998.27:97~1074J.W.Han,S.Chee,andJ.Y.Chiang.Issuesforon-lineanalyticalminingofdatawarehouses.〔C〕Proc.of1998SIGMOD96WorkshoponResearchIssuesonDataMiningandKnowledgeDiscovery(DMKD98),Seattle,Washington,June19985J.W.Han.OLAPMining:AnIntegrationofOLAP
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 計算機二級VB編程常見錯誤試題及答案
- 2025年數字轉型中的戰(zhàn)略考量試題及答案
- 行政法學法律問題探討試題與答案
- 解析VB考試的獨特性試題與答案
- 跨國經營中的政治風險管理策略研究試題及答案
- 公司戰(zhàn)略實施的監(jiān)控與反饋機制試題及答案
- 2025年VB異常處理題目及答案
- 高考數學學習策略與方法試題及答案
- 行政法學重點知識點:試題及答案
- 行政法學教學探討試題與答案
- 防曬知識科普課件
- 煤礦安全生產協(xié)同管理系統(tǒng)
- 鐵路段擴能改造站房及生產生活房屋工程方案投標文件(技術方案)
- 汽車發(fā)動機電控技術習題集答案
- 1389國開電大本科《理工英語4》網上形考任務(單元自測1至8)試題及答案(精華版)
- 居家環(huán)境安全評估量表-Microsoft-Word-文檔
- 高中數學導數知識點歸納總結
- 成本管理外文文獻及翻譯(共10頁)
- 電診斷在康復醫(yī)學中的應用ppt課件
- 杜絕違法分包轉包承諾書
- 2021年河北中考理科綜合真題及答案
評論
0/150
提交評論