




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、 第一 章 引 論1.1 為什么進(jìn)行數(shù)據(jù)挖掘1.2 什么是數(shù)據(jù)挖掘1.3 可以挖掘什么類型的數(shù)據(jù)1.4 可以挖掘什么類型的模式1.5 使用什么技術(shù)1.6 面向什么類型的應(yīng)用1.7 數(shù)據(jù)挖掘的主要問(wèn)題 1.1.為什么進(jìn)行數(shù)據(jù)挖掘?yàn)槭裁催M(jìn)行數(shù)據(jù)挖掘1.1.1 邁向信息時(shí)代邁向信息時(shí)代 數(shù)據(jù)的爆炸式增長(zhǎng)、廣泛可用和巨大數(shù)量使得我們的時(shí)代成為真正的數(shù)據(jù)時(shí)代。急需功能強(qiáng)大和通用的工具,以便從這些海量的數(shù)據(jù)中發(fā)現(xiàn)有價(jià)值的信息,把這些數(shù)據(jù)轉(zhuǎn)化成有組織的知識(shí)。這種需求導(dǎo)致了數(shù)據(jù)挖掘的誕生。例如:Googel的Flu Trends(流感趨勢(shì))使用特殊的搜索項(xiàng)作為流感活動(dòng)的指示器。它發(fā)現(xiàn)了搜索流感相關(guān)信息的人數(shù)與
2、實(shí)際具體流感癥狀的人數(shù)之間的緊密聯(lián)系。當(dāng)與流感相關(guān)的所有搜索聚集在一起時(shí),一個(gè)模式就出現(xiàn)了。 使用聚集的搜索數(shù)據(jù),Googel的Flu Trends可以比傳統(tǒng)的系統(tǒng)早兩周對(duì)流感活動(dòng)作出評(píng)估。這個(gè)例子表明,數(shù)據(jù)挖掘如何把大型數(shù)據(jù)集轉(zhuǎn)化成知識(shí),幫助我們應(yīng)對(duì)當(dāng)代的全球性挑戰(zhàn)。 1.1. 2 數(shù)據(jù)挖掘是信息技術(shù)的進(jìn)化數(shù)據(jù)挖掘是信息技術(shù)的進(jìn)化 數(shù)據(jù)庫(kù)和數(shù)據(jù)管理產(chǎn)業(yè)在一些關(guān)鍵功能的開(kāi)發(fā)上不斷發(fā)展(見(jiàn)圖1.1):數(shù)據(jù)收集和數(shù)據(jù)庫(kù)創(chuàng)建、數(shù)據(jù)管理(包括數(shù)據(jù)存儲(chǔ)和檢索、數(shù)據(jù)庫(kù)事物處理)和高級(jí)數(shù)據(jù)分析(包括數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)挖掘)。 數(shù)據(jù)收集和數(shù)據(jù)庫(kù)創(chuàng)建機(jī)制是數(shù)據(jù)存儲(chǔ)和檢索以及查詢和事物處理的有效機(jī)制開(kāi)發(fā)的必備基礎(chǔ)。
3、數(shù)據(jù)庫(kù)和信息技術(shù)已經(jīng)系統(tǒng)的從開(kāi)始的文件處理演變成復(fù)雜的、功能強(qiáng)大的數(shù)據(jù)庫(kù)系統(tǒng)。數(shù)據(jù)庫(kù)的系統(tǒng)的研究和開(kāi)發(fā)已經(jīng)從開(kāi)發(fā)層次和網(wǎng)狀數(shù)據(jù)庫(kù)發(fā)展到開(kāi)發(fā)關(guān)系數(shù)據(jù)庫(kù)系統(tǒng)、數(shù)據(jù)建模工具、索引和存取方法。此外,用戶通過(guò)查詢語(yǔ)言、用戶界面、查詢處理優(yōu)化和事務(wù)管理,可以方便靈活的訪問(wèn)數(shù)據(jù)。 最近出現(xiàn)的一種數(shù)據(jù)存儲(chǔ)是數(shù)據(jù)倉(cāng)庫(kù),這是一種多個(gè)異構(gòu)數(shù)據(jù)源在單個(gè)站點(diǎn)以統(tǒng)一的模式組織的存儲(chǔ),以支持管理決策。數(shù)據(jù)倉(cāng)庫(kù)技術(shù)包括數(shù)據(jù)清理、數(shù)據(jù)集成和聯(lián)機(jī)分析處理(OLAP)。(OLAP是一種分析技術(shù),具有匯總、合并和聚集以及從不同的角度觀察數(shù)據(jù)的能力。) 由于決策者缺乏從海量的量數(shù)據(jù)中提取有價(jià)值的知識(shí)的工具,這就要求我們必須系統(tǒng)的開(kāi)發(fā)數(shù)
4、據(jù)挖掘的工具。 1.2 什么是數(shù)據(jù)挖掘什么是數(shù)據(jù)挖掘 數(shù)據(jù)中的知識(shí)發(fā)現(xiàn)(KDD)有以下步驟的迭代序列組成: (1)數(shù)據(jù)清理(消除噪聲和刪除不一致數(shù)據(jù)) (2)數(shù)據(jù)集成(多種數(shù)據(jù)源可以組合在一起) (3)數(shù)據(jù)選擇(從數(shù)據(jù)庫(kù)里提取與分析任務(wù)相關(guān)的數(shù)據(jù)) (4)數(shù)據(jù)變換(通過(guò)匯總或聚集?操作,把數(shù)據(jù)變換和統(tǒng)一成適合挖掘的形式) (5)數(shù)據(jù)挖掘(基本步驟,使用智能方法提取數(shù)據(jù)模式) (6)模式評(píng)估(根據(jù)某種興趣度度量,識(shí)別代表知識(shí)的真正有趣的模式) (7)知識(shí)表達(dá)(使用可視化和知識(shí)表示技術(shù),向有戶提供挖掘的知識(shí)) 步驟 14是數(shù)據(jù)挖掘預(yù)處理的不同形式,為挖掘準(zhǔn)備數(shù)據(jù),數(shù)據(jù)挖掘步驟可以與用戶界或知識(shí)庫(kù)交
5、互。有趣的模式提供給用戶,或作為新的知識(shí)存放在知識(shí)庫(kù)中。 該觀點(diǎn)把數(shù)據(jù)挖掘看做知識(shí)發(fā)現(xiàn)的過(guò)程中的一個(gè)步驟,但是通常人們?nèi)藗儼阉醋鲋R(shí)發(fā)現(xiàn)的整個(gè)過(guò)程,數(shù)據(jù)挖掘是從大量的數(shù)據(jù)中挖掘有趣的模式和知識(shí)的過(guò)程。1.3 可以挖掘什么類型的數(shù)據(jù)可以挖掘什么類型的數(shù)據(jù) 數(shù)據(jù)最基本的形式是數(shù)據(jù)庫(kù)數(shù)據(jù)、數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)和事務(wù)數(shù)據(jù)。1.3.1 數(shù)據(jù)庫(kù)數(shù)據(jù)數(shù)據(jù)庫(kù)數(shù)據(jù) 數(shù)據(jù)庫(kù)系統(tǒng),也稱數(shù)據(jù)庫(kù)管理系統(tǒng)(DBMS),由一組內(nèi)部相關(guān)的數(shù)據(jù)(數(shù)據(jù)庫(kù))和一組管理和存儲(chǔ)數(shù)據(jù)的軟件程序組成。軟件程序提供如下的機(jī)制:定義數(shù)據(jù)庫(kù)結(jié)構(gòu)和數(shù)據(jù)存儲(chǔ),說(shuō)明和管理并發(fā)、共享或分布式數(shù)據(jù)訪問(wèn),面對(duì)系統(tǒng)癱瘓或未經(jīng)授權(quán)的訪問(wèn),確保存儲(chǔ)的信息的一致性和安全
6、性。 關(guān)系數(shù)據(jù)庫(kù)是表的匯集,每個(gè)表被賦予一個(gè)唯一的名字。每個(gè)表都包含一組屬性(列或字段),并且通過(guò)存放大量元組(行或記錄)。每個(gè)元組代表一個(gè)對(duì)象,被唯一的關(guān)鍵字標(biāo)識(shí),并被一組屬性值描述。通常關(guān)系數(shù)據(jù)庫(kù)構(gòu)建語(yǔ)義數(shù)據(jù)模型,如實(shí)體-聯(lián)系(ER)數(shù)據(jù)模型。ER數(shù)據(jù)模型將數(shù)據(jù)庫(kù)表示成一組實(shí)體和他們之間關(guān)系的聯(lián)系。(例1.2 p30) 關(guān)系數(shù)據(jù)可以通過(guò)數(shù)據(jù)庫(kù)查詢?cè)L問(wèn)。使用如SQL這樣的關(guān)系查詢語(yǔ)言,或借助于圖形用戶界面書(shū)寫(xiě)。關(guān)系查詢語(yǔ)言可以包含聚集函數(shù),如sum、avg、count、max和min。 當(dāng)數(shù)據(jù)挖掘應(yīng)用于關(guān)系數(shù)據(jù)庫(kù)時(shí),可以進(jìn)一步探索趨勢(shì)或數(shù)據(jù)模式。1.3.2 數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)倉(cāng)庫(kù) 數(shù)據(jù)倉(cāng)庫(kù)是一個(gè)從
7、多個(gè)數(shù)據(jù)源收集的信息存數(shù)庫(kù),存放在一致的模式下,并且通常駐留在單個(gè)站點(diǎn)上。數(shù)據(jù)倉(cāng)庫(kù)通過(guò)數(shù)據(jù)清理、數(shù)據(jù)變換、數(shù)據(jù)集成、數(shù)據(jù)裝入和定期數(shù)據(jù)刷新來(lái)構(gòu)造。 為了便于決策,數(shù)據(jù)倉(cāng)庫(kù)中數(shù)據(jù)圍繞主題組織。數(shù)據(jù)存儲(chǔ)從歷史的角度提供信息,并且通常是匯總的。通常數(shù)據(jù)倉(cāng)庫(kù)用稱做數(shù)據(jù)立方體的多維數(shù)據(jù)結(jié)構(gòu)建模。其中每個(gè)維對(duì)應(yīng)模式中的一個(gè)或一組屬性,而每個(gè)單元存放某種聚集度量值。(例1.3 p32) 數(shù)據(jù)倉(cāng)庫(kù)非常適合聯(lián)機(jī)分析處理,允許在不同的抽象層提供數(shù)據(jù)。OLAP操作的例子包括下鉆和上卷,他們?cè)试S用戶從不同的匯總級(jí)別觀察數(shù)據(jù)。1.3.3 事務(wù)數(shù)據(jù)事務(wù)數(shù)據(jù) 事務(wù)數(shù)據(jù)庫(kù)的每一個(gè)記錄代表一個(gè)事務(wù),如顧客的一次購(gòu)物、一個(gè)用戶的
8、網(wǎng)頁(yè)點(diǎn)擊。通常,一個(gè)事務(wù)有唯一的事務(wù)標(biāo)識(shí)號(hào)(trans-ID),以及一個(gè)組成事務(wù)的項(xiàng)(如,交易中購(gòu)買的商品)的列表。(例1.4p33) 傳統(tǒng)的數(shù)據(jù)庫(kù)系統(tǒng)不能進(jìn)行購(gòu)物數(shù)據(jù)籃數(shù)據(jù)分析,但事務(wù)數(shù)據(jù)上的數(shù)據(jù)挖掘可以通過(guò)挖掘頻繁項(xiàng)集來(lái)做這件事。頻繁項(xiàng)集就是頻繁的一起銷售的商品的集合。 1.3.4 其他類型的數(shù)據(jù)其他類型的數(shù)據(jù) 時(shí)間相關(guān)或序列數(shù)據(jù)、數(shù)據(jù)流(如視頻監(jiān)控和傳感器數(shù)據(jù),它們連續(xù)播送)、空間數(shù)工程設(shè)計(jì)數(shù)據(jù)(如建筑數(shù)據(jù)、系統(tǒng)部件或集成電路)、超文本和多媒體數(shù)據(jù)和萬(wàn)維網(wǎng)。1.4 可以挖掘什么類型的模式可以挖掘什么類型的模式 存在大量數(shù)據(jù)挖掘功能,包括特征化與區(qū)分,頻繁模式、關(guān)聯(lián)和相關(guān)性挖掘,分類與回歸
9、,聚類分析,離群點(diǎn)分析。一般而言。數(shù)據(jù)挖掘任務(wù)可分為兩類:描述性和預(yù)測(cè)性。描述性任務(wù)刻畫(huà)目標(biāo)數(shù)據(jù)的一般性質(zhì),預(yù)測(cè)性任務(wù)在當(dāng)前的數(shù)據(jù)上進(jìn)行歸納,以便做出預(yù)測(cè)。1.4.1 類類/概念描述:特征化和區(qū)分概念描述:特征化和區(qū)分 用匯總的、簡(jiǎn)潔的、精確的表達(dá)方式描述每個(gè)類和概念是有用的。這種描述可通過(guò)下述方法得到:(1)數(shù)據(jù)特征化,一般的匯總所研究類(目標(biāo)類)的數(shù)據(jù);(2)數(shù)據(jù)區(qū)分,將目標(biāo)類與一個(gè)或多個(gè)可比較類(對(duì)比類)進(jìn)行比較;(3)數(shù)據(jù)特征化和區(qū)分。 將數(shù)據(jù)特征化和匯總有一些有效的方法,基于統(tǒng)計(jì)度量和圖的簡(jiǎn)單數(shù)據(jù)匯總,基于數(shù)據(jù)立方體的OLAP上卷操作可以用來(lái)執(zhí)行用戶控制的、沿著指定維的數(shù)據(jù)匯總,面向
10、屬性的歸納技術(shù)可以用來(lái)進(jìn)行數(shù)據(jù)的泛化和特征化。特征化的輸出形式,如,餅圖、曲線、多維數(shù)據(jù)立方體和包含交叉表在內(nèi)的多維表?。結(jié)果描述可以用廣義關(guān)系或規(guī)則(特征規(guī)則)形式提供。 數(shù)據(jù)區(qū)分的輸出可以類似特征描述,但是應(yīng)當(dāng)包含比較度量,以便幫助區(qū)分目標(biāo)類和比較類。1.4.2 挖掘頻繁模式、關(guān)聯(lián)和相關(guān)性挖掘頻繁模式、關(guān)聯(lián)和相關(guān)性 頻繁模式包含多種類型:頻繁項(xiàng)集、頻繁子序列和頻繁子結(jié)構(gòu)。 (1)頻繁項(xiàng)集:頻繁的在事務(wù)數(shù)據(jù)中一起出現(xiàn)的商品的集合; (2)頻繁子序列集:頻繁出現(xiàn)的子序列,先購(gòu)買,再購(gòu)買; (3)頻繁子結(jié)構(gòu)?:涉及不同的形式(圖、樹(shù)和格)可以與項(xiàng)集或子序列結(jié)合在一起; 關(guān)聯(lián)分析,變量、置信度和支
11、持度。如,50%的置信度,如果一位顧客購(gòu)買計(jì)算機(jī),則購(gòu)買軟件的可能性是50%,1%的支持度,所分析的所有事物的1%顯示計(jì)算機(jī)與軟件一起被購(gòu)買。包含單個(gè)為此的關(guān)聯(lián)規(guī)則稱作單維關(guān)聯(lián)規(guī)則,去掉謂詞符號(hào),可以簡(jiǎn)寫(xiě)成:涉及多個(gè)屬性或謂詞的關(guān)聯(lián),可以成為多維關(guān)聯(lián)規(guī)則,如:2%的年齡是2029歲,年收入為40 00049 000美元,并且購(gòu)買便攜式計(jì)算機(jī),這個(gè)年齡和收入組的顧客購(gòu)買便攜機(jī)的概率是60%。 不能同時(shí)滿足最小支持度閥值和最小置信區(qū)間閥值是被視為無(wú)趣的而被丟棄。1.4.3 用于預(yù)測(cè)分析的分類與回歸用于預(yù)測(cè)分析的分類與回歸 分類,它找出描述和區(qū)分?jǐn)?shù)據(jù)類或概念的模型,以便能夠使用模型預(yù)測(cè)類標(biāo)號(hào)未知的對(duì)
12、象的類標(biāo)號(hào)。導(dǎo)出模型是基于對(duì)訓(xùn)練數(shù)據(jù)集的分析。 “如何提供導(dǎo)出的模型?如何提供導(dǎo)出的模型?”分類規(guī)則(即IF-THEN規(guī)則)、決策樹(shù)、數(shù)學(xué)公式或神經(jīng)網(wǎng)絡(luò)。決策樹(shù)類似于流程圖的樹(shù)結(jié)構(gòu)。其中每一個(gè)結(jié)點(diǎn)代表在一個(gè)屬性值上的測(cè)試,每一個(gè)分支代表測(cè)試的一個(gè)結(jié)果,而樹(shù)葉代表類或類分布。決策樹(shù)與分類規(guī)則之間容易轉(zhuǎn)換。用于分類時(shí),神經(jīng)網(wǎng)絡(luò)是一組類似神經(jīng)元的處理單元,單元之間加權(quán)連接。如下圖: 分類預(yù)測(cè)類別(離散的、無(wú)序的)標(biāo)號(hào),而回歸建立連續(xù)值函數(shù)模型。回歸用于預(yù)測(cè)缺失的或難以獲得的數(shù)值數(shù)據(jù)值。 相關(guān)分析可能需要在分類和回歸之前進(jìn)行,它試圖識(shí)別與分類和回歸過(guò)程顯著相關(guān)的屬性。1.4.4 聚類分析聚類分析 聚類
13、分析數(shù)據(jù)對(duì)象,而不考慮類標(biāo)號(hào)。對(duì)象根據(jù)最大化類內(nèi)相似性、最小化類間相似性的原則進(jìn)行聚類和分組。所形成的每個(gè)簇都可以看做一個(gè)對(duì)象類,由它可以導(dǎo)出規(guī)則。類似于分類法形成,即將觀測(cè)數(shù)據(jù)組織成類分層結(jié)構(gòu),把類似的事件組織在一起。1.4.5 離群點(diǎn)分析離群點(diǎn)分析 它們與數(shù)據(jù)的一般行為或模型不一致,這些數(shù)據(jù)對(duì)象是離群點(diǎn)。大部分?jǐn)?shù)據(jù)挖掘方法都將離群點(diǎn)視為噪聲或異常而丟棄。然而,在一些應(yīng)用中(如,欺詐檢測(cè))這些離群?jiǎn)胃钊烁信d趣,離群點(diǎn)數(shù)據(jù)的分析稱作離群點(diǎn)分析或異常挖掘。 1.4.6 所有模式都是有趣的嗎所有模式都是有趣的嗎 “所有模式都是有趣的嗎”答案通常是否定的。一個(gè)模式是有趣的,如果:(1)易于被人理解
14、;)易于被人理解;(2)在某種確信度上,對(duì)于新的或檢測(cè)數(shù)據(jù)是有效的;)在某種確信度上,對(duì)于新的或檢測(cè)數(shù)據(jù)是有效的;(3)是潛在有用的;)是潛在有用的;(4)是新穎的;)是新穎的; 模式興趣度的客觀度量:支持度和置信度。支持度表示事務(wù)數(shù)據(jù)庫(kù)中滿足規(guī)則的事務(wù)所占的百分比。支持度可以取概率P(XUY),表示同時(shí)包含X和Y 的事務(wù),即項(xiàng)集X和Y的并。置信度,它評(píng)估所發(fā)現(xiàn)的規(guī)則的確信程度,可以取條件概率P(Y/X),即包含X的事務(wù)也 包含Y的概率。 一般地,每個(gè)興趣度度量都與一個(gè)閥值相關(guān)聯(lián),該閥值可以由用戶自己控制。 其他興趣度量包括分類規(guī)則的準(zhǔn)確率和覆蓋率。準(zhǔn)確率告訴我們被一個(gè)規(guī)則正確分類的數(shù)據(jù)所占的
15、百分比,覆蓋率類似于支持率,告訴我們規(guī)則可以作用的數(shù)據(jù)所占的百分比。 盡管客觀度量有助于 識(shí)別有趣的模式,但是僅有這些還不夠,還要結(jié)合反映特定用戶需要和興趣的主觀度量?!皵?shù)據(jù)挖掘系統(tǒng)能夠產(chǎn)生所有有趣的模式嗎?”-涉及數(shù)據(jù)挖掘算法的完全性?!皵?shù)據(jù)挖掘系統(tǒng)能夠進(jìn)產(chǎn)生有趣的模式嗎?”-是數(shù)據(jù)挖掘的優(yōu)化問(wèn)題。1.5 使用什么技術(shù)使用什么技術(shù) 1.5.1 統(tǒng)計(jì)學(xué)統(tǒng)計(jì)學(xué) 統(tǒng)計(jì)學(xué)研究數(shù)據(jù)的收集、分析、解釋和表示。統(tǒng)計(jì)模型是一組數(shù)學(xué)函數(shù),它們用隨機(jī)變量及其概率分布刻畫(huà)目標(biāo)類對(duì)象的行為。廣泛應(yīng)用與對(duì)數(shù)據(jù)和數(shù)據(jù)類建模。統(tǒng)計(jì)學(xué)研究開(kāi)發(fā)一些使用數(shù)據(jù)和統(tǒng)計(jì)模型進(jìn)行預(yù)測(cè)和預(yù)報(bào)的工具。統(tǒng)計(jì)學(xué)方法可以用來(lái)匯總或描述數(shù)據(jù)集。統(tǒng)
16、計(jì)學(xué)方法夜可以用來(lái)驗(yàn)證數(shù)據(jù)挖掘的結(jié)果。1.5.2 機(jī)器學(xué)習(xí)機(jī)器學(xué)習(xí) 機(jī)器學(xué)習(xí)考察計(jì)算機(jī)如何基于數(shù)據(jù)學(xué)習(xí)(提高它們的性能)。主要領(lǐng)域是,計(jì)算機(jī)程序基于數(shù)據(jù)自動(dòng)地學(xué)習(xí)識(shí)別復(fù)雜的模式,并作出智能的決斷。下面介紹一些與數(shù)據(jù)挖掘高度相關(guān)的、經(jīng)典的機(jī)器學(xué)習(xí)問(wèn)題: 監(jiān)督學(xué)習(xí)監(jiān)督學(xué)習(xí):分類的同義詞; 無(wú)監(jiān)督學(xué)習(xí)無(wú)監(jiān)督學(xué)習(xí):聚類的同義詞,因?yàn)檩斎氲膶?shí)例沒(méi)有類標(biāo)記; 半監(jiān)督學(xué)習(xí)半監(jiān)督學(xué)習(xí):一類機(jī)器學(xué)習(xí)技術(shù),在學(xué)習(xí)模型時(shí),它使用標(biāo)記的和未標(biāo)記的實(shí)例,標(biāo)記的實(shí)例用來(lái)學(xué)習(xí)類模型,而未標(biāo)記的實(shí)例用來(lái)進(jìn)一步改進(jìn)類邊界。對(duì)于兩類問(wèn)題,把一類看做正實(shí)例,另一類看做負(fù)實(shí)例。 如下圖1.12 如果我們不考慮未標(biāo)記的實(shí)例,則虛線是分
17、隔正實(shí)例和負(fù)實(shí)例的最佳決策邊界,使用未標(biāo)記的實(shí)例,我們可以把該決策邊界改進(jìn)為實(shí)線邊界,此外,我們能夠檢測(cè)出右上角的兩個(gè)正實(shí)例可能中噪聲或離群點(diǎn),盡管他們被標(biāo)記了。 主動(dòng)學(xué)習(xí):主動(dòng)學(xué)習(xí):一種機(jī)器學(xué)習(xí)方法,讓用戶在學(xué)習(xí)過(guò)程中扮演主要的色。目的是通過(guò)主動(dòng)地從用戶獲取知識(shí)來(lái)提高模型質(zhì)量。 數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)有許多相似之處。機(jī)器學(xué)習(xí)通常關(guān)注準(zhǔn)確率,除準(zhǔn)確率外,數(shù)據(jù)挖掘研究非常強(qiáng)調(diào)數(shù)據(jù)挖掘方法在大型數(shù)據(jù)集上的有效性和可伸縮性?。1.5.3 數(shù)據(jù)庫(kù)系統(tǒng)與數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)庫(kù)系統(tǒng)與數(shù)據(jù)倉(cāng)庫(kù) 數(shù)據(jù)庫(kù)系統(tǒng)研究關(guān)注為單位和最終用戶創(chuàng)建、維護(hù)和使用數(shù)據(jù)庫(kù)。已經(jīng)建立了數(shù)據(jù)建模、查詢語(yǔ)言、查詢處理與優(yōu)化方法、數(shù)據(jù)存儲(chǔ)以及索引和
18、存取方法的公認(rèn)原則。數(shù)據(jù)庫(kù)系統(tǒng)因其在處理非常大的、相對(duì)結(jié)構(gòu)化的數(shù)據(jù)集方面的高度可伸縮性而聞名。 數(shù)據(jù)倉(cāng)庫(kù)集成來(lái)自多種數(shù)據(jù)源和各個(gè)時(shí)間段的數(shù)據(jù)。它在多維空間合并數(shù)據(jù),形成部分物化?的數(shù)據(jù)立方體。數(shù)據(jù)立方體不僅有利于多維數(shù)據(jù)庫(kù)的OLAP,而且推動(dòng)了多維數(shù)據(jù)挖掘。 1.5.4 信息檢索 信息檢索(IR)是搜索文檔或文檔中信息的科學(xué)。文檔可以使文本或多媒體,并且可能駐留在Web上。傳統(tǒng)的信息檢索與數(shù)據(jù)庫(kù)系統(tǒng)的差別有兩點(diǎn):信息檢索假定所搜索的數(shù)據(jù)是無(wú)結(jié)構(gòu);信息檢索查詢主要用關(guān)鍵詞,沒(méi)有復(fù)雜的結(jié)構(gòu)。 信息檢索的典型方法采用概率模型。例如,文本文檔可以看做詞的包,及出現(xiàn)在文檔中的詞的多重集。文檔的語(yǔ)言模型是
19、生成文檔中詞的包的概率密度函數(shù)。兩個(gè)文檔之間煩人相似度可以用對(duì)應(yīng)的語(yǔ)言模型之間的相似性度量?。 此外,一個(gè)文本文檔集的主題可以用詞匯表上的概率分布建模?,稱作主題建模。一個(gè)文本文檔可以涉及多個(gè)主題,可以看做多主題混合模型。通過(guò)集成信息檢索模型和數(shù)據(jù)挖掘技術(shù),我們可以找出文檔及中的主要主題,對(duì)集合中的每個(gè)文檔,找出所涉及的主要問(wèn)題。 1.6 面向什么類型的應(yīng)用面向什么類型的應(yīng)用1.6.1 商務(wù)智能商務(wù)智能 對(duì)于商務(wù)而言,較好理解它的諸如顧客、市場(chǎng)、供應(yīng)和資源以及競(jìng)爭(zhēng)對(duì)手等商務(wù)背景是至關(guān)重要的。商務(wù)智能(BI)技術(shù)提供商務(wù)運(yùn)作的歷史、現(xiàn)狀和預(yù)測(cè)視圖。 數(shù)據(jù)挖掘是商務(wù)智能的核心。商務(wù)智能的聯(lián)機(jī)分析處理工具依賴于數(shù)據(jù)倉(cāng)庫(kù)和多維數(shù)據(jù)挖掘。分類和預(yù)測(cè)技術(shù)是商務(wù)智能預(yù)測(cè)分析的核心,在分析市場(chǎng)、供應(yīng)和銷售方面存在許多應(yīng)用。此外,在客戶關(guān)系管理方面,聚類其主要作用,它根據(jù)顧客的相似性把顧客分組。1.6.2 Web 搜索引擎搜索引擎 Web搜索引擎是一種專門的計(jì)算機(jī)服務(wù)器,在Web上搜索信息。通常,用戶查詢的搜索結(jié)果用一張表返給用戶。搜索引擎不同于,因?yàn)榫W(wǎng)絡(luò)目錄是人工編輯管理的,而搜索引擎是按算法運(yùn)行的,或者是算
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 磚瓦行業(yè)發(fā)展趨勢(shì)與國(guó)際市場(chǎng)分析考核試卷
- 探究雙十二與傳統(tǒng)媒體的互動(dòng)
- 碩士之路:策略與指導(dǎo)
- 江西省婺源縣重點(diǎn)達(dá)標(biāo)名校2025年下學(xué)期初三語(yǔ)文試題強(qiáng)化訓(xùn)練考試試卷含解析
- 山東省濰坊市昌樂(lè)縣2025屆高三下學(xué)期總復(fù)習(xí)質(zhì)量調(diào)查(二)英語(yǔ)試題試卷含解析
- 克拉瑪依職業(yè)技術(shù)學(xué)院《移動(dòng)營(yíng)銷設(shè)計(jì)》2023-2024學(xué)年第二學(xué)期期末試卷
- 天津河北區(qū)市級(jí)名校2025年初三第二次統(tǒng)測(cè)化學(xué)試題試卷含解析
- 江蘇省揚(yáng)州市、儀征市2025年新中考語(yǔ)文試題總復(fù)習(xí)含解析
- 皖西衛(wèi)生職業(yè)學(xué)院《茶樹(shù)分子生物學(xué)》2023-2024學(xué)年第二學(xué)期期末試卷
- 江蘇省泰興市實(shí)驗(yàn)達(dá)標(biāo)名校2025年下學(xué)期4月月考初三數(shù)學(xué)試題試卷含解析
- DL-T796-2012風(fēng)力發(fā)電場(chǎng)安全規(guī)程
- 文藝復(fù)興經(jīng)典名著選讀智慧樹(shù)知到期末考試答案章節(jié)答案2024年北京大學(xué)
- 2024年河南師范大學(xué)附中中招二模英語(yǔ)試卷含答案
- 中國(guó)功夫與經(jīng)絡(luò)智慧樹(shù)知到期末考試答案章節(jié)答案2024年上海中醫(yī)藥大學(xué)
- 小小科學(xué)家《物理》模擬試卷A(附答案)
- 2023年7月N2真題及答案解析
- MOOC 商務(wù)英語(yǔ)-中南財(cái)經(jīng)政法大學(xué) 中國(guó)大學(xué)慕課答案
- 中考語(yǔ)文一輪復(fù)習(xí)-名著閱讀勾連整合課件
- 魁北克腰痛障礙評(píng)分表(Quebec-Baclain-Disability-Scale-QBPDS)
- 基于S7-1200PLC的碼頭單向皮帶輸送機(jī)控制系統(tǒng)
- 2020年全國(guó)中學(xué)生生物學(xué)聯(lián)賽試題解析
評(píng)論
0/150
提交評(píng)論