商務(wù)智能原理與方法(第三版) 課件匯 ch01 引言 - ch08 分類分析_第1頁
商務(wù)智能原理與方法(第三版) 課件匯 ch01 引言 - ch08 分類分析_第2頁
商務(wù)智能原理與方法(第三版) 課件匯 ch01 引言 - ch08 分類分析_第3頁
商務(wù)智能原理與方法(第三版) 課件匯 ch01 引言 - ch08 分類分析_第4頁
商務(wù)智能原理與方法(第三版) 課件匯 ch01 引言 - ch08 分類分析_第5頁
已閱讀5頁,還剩180頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

引言普通高等教育“十一五”國家級規(guī)劃教材商務(wù)智能原理與方法(第三版)第一章01商務(wù)智能簡介在經(jīng)濟(jì)管理活動中,數(shù)據(jù)代表著對現(xiàn)實世界及業(yè)務(wù)活動的事實性記錄,信息可以被理解為以數(shù)據(jù)的形式存在的、對現(xiàn)實世界語義的反映,知識代表著被組織起來用于解決問題的信息,智能則意味著利用知識以獲取效益的能力。下圖顯示了從數(shù)據(jù)到智能的層次性聯(lián)系。商務(wù)智能簡介01020304商務(wù)智能是從海量數(shù)據(jù)中發(fā)現(xiàn)知識,因此數(shù)據(jù)挖掘/機(jī)器學(xué)習(xí)的效率是一個重要考量標(biāo)準(zhǔn)。(1)大規(guī)模數(shù)據(jù)商務(wù)智能通過數(shù)據(jù)挖掘/機(jī)器學(xué)習(xí)獲得的知識不是顯見的,而是新穎的。(3)潛在新穎性。商務(wù)智能方法通常自動地考慮數(shù)據(jù)變量和屬性之間的組合關(guān)系,以獲得相應(yīng)的知識模式。(2)數(shù)據(jù)驅(qū)動通過商務(wù)智能得到的知識是用于業(yè)務(wù)運(yùn)作和管理決策的。(4)知識有用性商務(wù)智能簡介02商務(wù)智能與信息社會物聯(lián)網(wǎng)是一個由相互連接的智能設(shè)備和傳感器組成的系統(tǒng)網(wǎng)絡(luò),這些微型智能設(shè)備和傳感器實時采集需要監(jiān)控的物體或過程信息,并將收集到的數(shù)據(jù)用于進(jìn)一步的存儲、處理和分析。信息技術(shù)提升信息社會發(fā)展水平人工智能泛指可模仿人類智能來執(zhí)行工作任務(wù),并基于收集的大規(guī)模信息對自身進(jìn)行迭代式改進(jìn)的系統(tǒng)和機(jī)器。5G具有數(shù)據(jù)傳輸速率更高、時延更低、帶寬更高、設(shè)備連接密度更高、能耗更低等諸多優(yōu)勢。同時,各類行業(yè)的產(chǎn)品、服務(wù)、業(yè)務(wù)和運(yùn)營模式都可能5G賦能而產(chǎn)生更為多元的變化。云計算旨在通過一系列動態(tài)和虛擬化的整合優(yōu)化計算資源技術(shù),以類似效能(Utility)的方式(如電力供應(yīng)形態(tài)),提供“隨時獲取,按需使用”的計算服務(wù)。商務(wù)智能與信息社會信息技術(shù)提升信息社會發(fā)展水平近年來,隨著信息技術(shù)不斷進(jìn)步與社會經(jīng)濟(jì)生活的數(shù)字化改造,全球數(shù)據(jù)量正呈現(xiàn)出前所未有的爆發(fā)式增長態(tài)勢。信息技術(shù)的進(jìn)步和融合對于人們的社會生活和經(jīng)濟(jì)活動產(chǎn)生著日益深遠(yuǎn)的影響。一方面,企業(yè)中許多傳統(tǒng)的業(yè)務(wù)決策問題逐漸變成了基于信息分析的決策問題。另一方面,隨著技術(shù)創(chuàng)新信息產(chǎn)品(如軟件和IT服務(wù)等)及其應(yīng)用(如虛擬體驗、個性推薦、社會網(wǎng)絡(luò)和網(wǎng)絡(luò)搜索等)呈現(xiàn)出越來越豐富的形態(tài)和特征,催生出新模式在這兩方面,商務(wù)智能之?dāng)?shù)據(jù)挖掘/機(jī)器學(xué)習(xí)技術(shù)均扮演著重要角色。商務(wù)智能與信息社會010203041.數(shù)據(jù)充足而知識相對匱乏3.傳統(tǒng)報告不能滿足用戶需要2.傳統(tǒng)分析工具的整合能力有限4.信息技術(shù)及應(yīng)用的推動商務(wù)智能與信息社會商務(wù)智能是信息社會的產(chǎn)物商務(wù)智能為企業(yè)提供有效的決策支持技術(shù)和工具。從最初的基本報表到多維分析和知識發(fā)現(xiàn),幫助企業(yè)改善內(nèi)部的經(jīng)營,使企業(yè)能夠創(chuàng)造更大的社會價值;同時,商務(wù)智能技術(shù)賦予了企業(yè)強(qiáng)大的創(chuàng)新動力,這些又成為推動信息社會和數(shù)字經(jīng)濟(jì)繁榮的重要動力。商務(wù)智能漸漸進(jìn)入政府機(jī)構(gòu),扮演日趨重要的角色。商務(wù)智能軟件提供的可信和及時的分析結(jié)果,可以幫助政府部門加快決策進(jìn)程,縮短辦事周期,提高整個機(jī)構(gòu)的透明度,促進(jìn)公共服務(wù)水平的提升。商務(wù)智能的信息提取和分析手段將大大幫助社會公眾和用戶有效獲取生活資訊和相應(yīng)支持并支持大量社會公眾和用戶參與生成的數(shù)據(jù)和信息商務(wù)智能與信息社會商務(wù)智能是信息社會繁榮的推動力03商務(wù)智能與企業(yè)管理在營銷領(lǐng)域,商務(wù)智能可以使用分類和預(yù)測等技術(shù),分析長/短期需求、市場機(jī)會和企業(yè)利益增長點,分析和預(yù)測市場容量、占有率、細(xì)分情況和風(fēng)險程度,策劃和評價市場營銷策略等,據(jù)此調(diào)整和優(yōu)化其市場營銷策略,以獲得最大的成功。商務(wù)智能與企業(yè)管理在銷售管理方面,商務(wù)智能的作用可以體現(xiàn)在產(chǎn)品銷售情況分析和服務(wù)信息反饋、新產(chǎn)品開發(fā)預(yù)算和銷售預(yù)測等方面,基于銷售、庫存、財務(wù)和人事等多種基礎(chǔ)數(shù)據(jù)進(jìn)行多角度分析,給出銷售情況分析和趨勢預(yù)測等輔助決策信息。商務(wù)智能在企業(yè)管理中的作用在客戶關(guān)系管理方面,商務(wù)智能可以根據(jù)消費(fèi)記錄及客戶檔案資料進(jìn)行客戶群分析,以及對他們的消費(fèi)能力、消費(fèi)習(xí)慣、消費(fèi)周期、忠誠度、盈利能力、客戶促銷分析等進(jìn)行分析,從而為企業(yè)更準(zhǔn)確地理解客戶的行為和趨勢、挖掘潛在客戶、制定相應(yīng)的促銷和服務(wù)策略、爭取和保持客戶等提供支持。商務(wù)智能與企業(yè)管理在財務(wù)分析上,商務(wù)智能可以滿足企業(yè)管理者對費(fèi)用支出情況的查詢、應(yīng)收賬款和應(yīng)付賬款的分析等方面的財務(wù)分析,有助于提高在現(xiàn)金流量、資產(chǎn)負(fù)債和資金回收率等方面的決策科學(xué)化水平。商務(wù)智能在企業(yè)管理中的作用在供應(yīng)鏈管理上,商務(wù)智能可以進(jìn)行流程分析、供應(yīng)商評價、分銷商管理和物流成本分析等,既可以滿足對物流、供應(yīng)和銷售相關(guān)情況的基本層次的查詢,也可以輔助對深層次的問題的決策,如進(jìn)行庫存調(diào)整及優(yōu)化,以保證有效、合理周轉(zhuǎn)等。商務(wù)智能與企業(yè)管理在人力資源管理方面,商務(wù)智能可以基于翔實的數(shù)據(jù)進(jìn)行多視角的人力資源統(tǒng)計分析,基于企業(yè)內(nèi)崗位需求和市場上人才大數(shù)據(jù)進(jìn)行智能分析和匹配,來挖掘潛在人才。商務(wù)智能在企業(yè)管理中的作用01020304(1)理解業(yè)務(wù)(3)改善關(guān)系(2)衡量績效(4)創(chuàng)造商機(jī)商務(wù)智能與企業(yè)管理商務(wù)智能的作用至少有以下四方面:(1)基于目標(biāo)的管理。(2)基于異常的管理。(3)基于事實的管理。(4)基于外部數(shù)據(jù)的管理。(5)基于智能協(xié)同的管理。商務(wù)智能與企業(yè)管理商務(wù)智能協(xié)助企業(yè)管理的方式信息技術(shù)給企業(yè)帶來的回報可以總結(jié)為三層。第一層,信息技術(shù)可以提高速率,即加速現(xiàn)有流程、提升業(yè)務(wù)響應(yīng)能力;第二層,信息技術(shù)可以提高生產(chǎn)率,即以較少的人力、物力完成較多的工作;第三層,信息技術(shù)可以改變或完善企業(yè)的經(jīng)營模式,從而取得競爭優(yōu)勢。商務(wù)智能與企業(yè)管理商務(wù)智能的商業(yè)價值04商務(wù)智能的方法(1)概念描述(歸納或簡約)它通過將數(shù)據(jù)進(jìn)行一般化、匯總或?qū)⒖赡苊艿臄?shù)據(jù)特征進(jìn)行說明,來尋求對一個數(shù)據(jù)子集的簡約描述。(2)聚類將一組個體按照某種標(biāo)準(zhǔn)進(jìn)行匯總,形成新的類。商務(wù)智能的關(guān)鍵是要通過深度數(shù)據(jù)分析獲取知識以支持決策,其中數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)是商務(wù)智能的核心方法。傳統(tǒng)意義上,數(shù)據(jù)挖掘主要針對數(shù)據(jù)庫數(shù)據(jù)進(jìn)行知識發(fā)現(xiàn)?!啊鄙虅?wù)智能的方法(3)關(guān)聯(lián)規(guī)則發(fā)現(xiàn)數(shù)據(jù)之間的關(guān)聯(lián)性、相關(guān)性和因果關(guān)系。(4)分類和預(yù)測按不同的屬性值將數(shù)據(jù)進(jìn)行分類,挖掘出關(guān)于每類數(shù)據(jù)的描述或模型。根據(jù)已有的信息和模式來預(yù)測未來的或未知的屬性值。商務(wù)智能的關(guān)鍵是要通過深度數(shù)據(jù)分析獲取知識以支持決策,其中數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)是商務(wù)智能的核心方法。傳統(tǒng)意義上,數(shù)據(jù)挖掘主要針對數(shù)據(jù)庫數(shù)據(jù)進(jìn)行知識發(fā)現(xiàn)?!啊鄙虅?wù)智能的方法(5)時序數(shù)據(jù)分析這是統(tǒng)計方法的直接應(yīng)用,主要包括趨勢和偏差分析、用戶定義的模式匹配分析及周期數(shù)據(jù)分析。(6)其他其他的模式識別和統(tǒng)計分析方法,如回歸分析、相關(guān)分析。商務(wù)智能的關(guān)鍵是要通過深度數(shù)據(jù)分析獲取知識以支持決策,其中數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)是商務(wù)智能的核心方法。傳統(tǒng)意義上,數(shù)據(jù)挖掘主要針對數(shù)據(jù)庫數(shù)據(jù)進(jìn)行知識發(fā)現(xiàn)?!啊鄙虅?wù)智能的方法值得說明的是,上述這些方法多為基礎(chǔ)性方法,可以直接應(yīng)用于商務(wù)智能任務(wù),也可以與其他方法一起組合應(yīng)用,面向各種商務(wù)智能任務(wù)。諸如關(guān)鍵詞廣告推薦、網(wǎng)上購物推薦、代表性信息提取、模式關(guān)聯(lián)分析等都是組合應(yīng)用的例子。典型的數(shù)據(jù)挖掘系統(tǒng)一般如圖所示。商務(wù)智能的方法對傳統(tǒng)的決策分析工具和數(shù)據(jù)挖掘的不同驅(qū)動方式,即數(shù)據(jù)挖掘與傳統(tǒng)數(shù)據(jù)分析的本質(zhì)區(qū)別在于,數(shù)據(jù)挖掘是在沒有明確假設(shè)的前提下去挖掘信息和發(fā)現(xiàn)知識,得到的知識具有先前未知、潛在有效和可實用等特征,如圖所示。商務(wù)智能的方法商務(wù)智能的另一項重要技術(shù)是機(jī)器學(xué)習(xí)。機(jī)器學(xué)習(xí)方法傳統(tǒng)上可以分為以下三大類,具體取決于學(xué)習(xí)系統(tǒng)可用的“信號”或“反饋”的性質(zhì)。(1)有監(jiān)督學(xué)習(xí)。(2)無監(jiān)督學(xué)習(xí)。(3)強(qiáng)化學(xué)習(xí)。商務(wù)智能的方法05商務(wù)智能的數(shù)據(jù)企業(yè)內(nèi)部數(shù)據(jù)企業(yè)內(nèi)部數(shù)據(jù)種類十分豐富。企業(yè)外部數(shù)據(jù)企業(yè)外部數(shù)據(jù)的常見來源如社交媒體和政府開放數(shù)據(jù)。從數(shù)據(jù)來源角度,商務(wù)智能的數(shù)據(jù)來源主要有企業(yè)內(nèi)部數(shù)據(jù)和企業(yè)外部數(shù)據(jù)兩種?!啊鄙虅?wù)智能的數(shù)據(jù)指可以在記錄文件里以固定格式存在的數(shù)據(jù),通常可以通過關(guān)系型數(shù)據(jù)庫表示、存儲和管理。結(jié)構(gòu)化數(shù)據(jù)不符合任何預(yù)定義的數(shù)據(jù)模型,不易組織和格式化。半結(jié)構(gòu)化數(shù)據(jù)部分非結(jié)構(gòu)化數(shù)據(jù)中存在一定的有跡可循的內(nèi)部結(jié)構(gòu)。非結(jié)構(gòu)化數(shù)據(jù)從數(shù)據(jù)類型角度商務(wù)智能的數(shù)據(jù)謝謝觀看商務(wù)智能原理與方法(第三版)普通高等教育“十一五”國家級規(guī)劃教材商務(wù)智能應(yīng)用普通高等教育“十一五”國家級規(guī)劃教材商務(wù)智能原理與方法(第三版)第二章01制造領(lǐng)域應(yīng)用制造業(yè)存在著大量的業(yè)務(wù)數(shù)據(jù),如汽車、機(jī)械和飛機(jī)制造等大型制造業(yè)企業(yè)。特別是隨著ERP(企業(yè)資源計劃)系統(tǒng)的逐步推廣,制造業(yè)企業(yè)生成的業(yè)務(wù)數(shù)據(jù)量更龐大、數(shù)據(jù)的整合程度更高。而商務(wù)智能方法和數(shù)據(jù)挖掘技術(shù)為充分利用這些數(shù)據(jù)和進(jìn)一步的流程優(yōu)化、經(jīng)營決策提供了更大的支撐。這些數(shù)據(jù)中存在大量反映制造流程、業(yè)務(wù)運(yùn)作的信息,商務(wù)智能方法可以從中提取有用的知識,用于支持管理者的決策。制造領(lǐng)域應(yīng)用采用決策樹和關(guān)聯(lián)規(guī)則分析等方法從制造過程中找出影響產(chǎn)品質(zhì)量最重要的因素,以期提高作業(yè)流程的效率質(zhì)量控制和故障檢測采用聚類等方法將類似或雷同的流程進(jìn)行整合,以提高生產(chǎn)流程的效率并減少不必要的損耗,甚至據(jù)此對生產(chǎn)車間進(jìn)行必要的重新規(guī)劃。生產(chǎn)流程優(yōu)化與選擇需要根據(jù)各類需求制定分配策略,從而在競爭活動之間分配有限資源,達(dá)到資源利用效率的最大化。資源分配與應(yīng)急管理制造領(lǐng)域應(yīng)用制造領(lǐng)域應(yīng)用02金融領(lǐng)域應(yīng)用010203041.客戶信用分析與預(yù)測3.場景化金融服務(wù)創(chuàng)新2.防治金融欺詐和金融犯罪4.開放數(shù)據(jù)下的金融市場預(yù)測金融領(lǐng)域應(yīng)用03通信領(lǐng)域應(yīng)用通信業(yè)已經(jīng)從單純地提供語音通話服務(wù)演變?yōu)樘峁┚C合通信服務(wù),如語音、傳真、尋呼、移動電話、圖像、音頻(彩鈴)、流媒體和Web數(shù)據(jù)傳輸?shù)取Mㄐ艠I(yè)的發(fā)展使得有線網(wǎng)絡(luò)和無線網(wǎng)絡(luò)逐漸融合為一體,從而釋放出更大的能量。通信領(lǐng)域應(yīng)用一些主要應(yīng)用包括:利用聚類分析方法對盜用和異常模式進(jìn)行分析和識別,利用序列分析方法對通信模式進(jìn)行分析,利用關(guān)聯(lián)規(guī)則方法對客戶行為模式進(jìn)行分析等。1.盜用模式分析和異常模式識別可以采用時間序列模式分析的手段進(jìn)行趨勢分析,以判斷盜用行為的發(fā)展態(tài)勢;還可以采用關(guān)聯(lián)分析的方法,結(jié)合號碼用戶的特征,來提煉可能引起盜用的顯著因素。2.通信管理與模式分析通信服務(wù)在人們生活和工作中的重要性不斷提高,所以通過各種通信方式進(jìn)行溝通的行為十分頻繁。3.客戶行為模式分析和移動業(yè)務(wù)推薦通信服務(wù)特別是移動通信業(yè)務(wù)已經(jīng)不局限于提供通話服務(wù)。通信領(lǐng)域應(yīng)用04生物和醫(yī)藥領(lǐng)域應(yīng)用1.基因分析目前,生物醫(yī)學(xué)的一個研究焦點是DNA數(shù)據(jù)分析。2.醫(yī)療衛(wèi)生健康醫(yī)療機(jī)構(gòu)可以對患者的患病風(fēng)險進(jìn)行學(xué)習(xí)并建立預(yù)測分類模型。改變了溝通方式及患者之間的信息共享。人工智能和數(shù)據(jù)挖掘算法在生物與醫(yī)藥的細(xì)分領(lǐng)域中發(fā)揮著關(guān)鍵作用?!啊鄙锖歪t(yī)藥領(lǐng)域應(yīng)用05零售和營銷領(lǐng)域應(yīng)用零售業(yè)是商務(wù)智能得到快速應(yīng)用和發(fā)展的領(lǐng)域之一,這是因為,一方面,零售業(yè)企業(yè)內(nèi)部積累了大量的銷售數(shù)據(jù),如客戶購買歷史記錄、貨物進(jìn)出記錄、消費(fèi)和服務(wù)記錄等;另一方面,用戶廣泛參與社會化媒體,生成了許多企業(yè)外部數(shù)據(jù),如在線評論、搜索日志、博文、口碑和輿情等。零售和營銷領(lǐng)域應(yīng)用一些主要應(yīng)用包括:利用聚類分析方法對盜用和異常模式進(jìn)行分析和識別,利用序列分析方法對通信模式進(jìn)行分析,利用關(guān)聯(lián)規(guī)則方法對客戶行為模式進(jìn)行分析等。1.交叉銷售分析2.市場定位分析3.客戶忠誠度分析4.客戶關(guān)系管理5.網(wǎng)上產(chǎn)品/服務(wù)推薦零售和營銷領(lǐng)域應(yīng)用06移動商務(wù)應(yīng)用近年來,Web2.0、移動互聯(lián)網(wǎng)、云計算、物聯(lián)網(wǎng)、大數(shù)據(jù)和人工智能等一系列新技術(shù)與應(yīng)用進(jìn)一步驅(qū)動了電子商務(wù)的模式創(chuàng)新,為電子商務(wù)注入了新活力。移動終端的多個傳感器源源不斷地產(chǎn)生數(shù)據(jù)流,一方面,為商家分析和預(yù)測客戶行為提供了新的契機(jī);另一方面,低密度價值的數(shù)據(jù)也對商務(wù)智能分析技術(shù)提出了新的挑戰(zhàn)。移動商務(wù)應(yīng)用1.移動庫存管理從企業(yè)的角度,移動庫存管理是整個移動零售領(lǐng)域的重要一環(huán),其中“位置追蹤”“滾動庫存”作為支撐移動庫存管理的兩個重要概念,分別對應(yīng)移動商務(wù)中的B2C和B2B應(yīng)用。移動商務(wù)應(yīng)用2.基于地理位置的服務(wù)地理位置因素一直被認(rèn)為是電子商務(wù)與移動商務(wù)的根本區(qū)別之一,整合地理位置信息為用戶提供的增值服務(wù)被稱為基于地理位置的服務(wù)(Location-basedservices,LBS),分為位置感知(Location-aware)服務(wù)和位置追蹤(Location-tracking)服務(wù)19091]。(1)移動廣告可以發(fā)現(xiàn)用戶的消費(fèi)需求,還能知道需求在何時、何地發(fā)生,從而實現(xiàn)精準(zhǔn)營銷。(2)移動搜索移動設(shè)備的位置感知特點使得基于位置的精準(zhǔn)搜索成為可能,因此移動搜索領(lǐng)域同時面臨挑戰(zhàn)和機(jī)遇。隨著商務(wù)智能技術(shù)在LBS中的應(yīng)用逐漸成熟,互聯(lián)網(wǎng)平臺的數(shù)據(jù)和移動終端數(shù)據(jù)被整合在一起,為用戶提供實時、準(zhǔn)確的信息服務(wù)。介紹兩個具體的應(yīng)用。“”移動商務(wù)應(yīng)用07社會化商務(wù)應(yīng)用在社會化媒體的海量數(shù)據(jù)背景下,商務(wù)智能技術(shù)的應(yīng)用顯得尤為重要,其主要應(yīng)用包括:通過社會傳播和關(guān)系強(qiáng)度分析以辨識輿論領(lǐng)袖,進(jìn)行病毒營銷;通過評論內(nèi)容分析和信任關(guān)系挖掘,以獲取用戶的行為偏好,進(jìn)行社會化推薦等。社會化商務(wù)應(yīng)用作為一種以人際傳播為基礎(chǔ)的營銷方式,病毒營銷的關(guān)鍵在于種子用戶的選擇。1.病毒營銷社會化推薦的信息來源不僅包括在線社交關(guān)系,還包括社會化標(biāo)簽、用戶間交互、用戶點擊行為等。2.社會化推薦人們使用社交媒介模式發(fā)生改變,短視頻營銷和直播營銷成為近年來新興的社會化營銷模式。3.視頻與直播營銷社會化商務(wù)應(yīng)用社會化商務(wù)應(yīng)用謝謝觀看商務(wù)智能原理與方法(第三版)普通高等教育“十一五”國家級規(guī)劃教材商務(wù)智能過程普通高等教育“十一五”國家級規(guī)劃教材商務(wù)智能原理與方法(第三版)第三章01數(shù)據(jù)庫與事務(wù)處理數(shù)據(jù)庫的兩個主要目標(biāo)是減少數(shù)據(jù)冗余和獲得數(shù)據(jù)獨(dú)立性。數(shù)據(jù)冗余是指數(shù)據(jù)的重復(fù),即同樣的數(shù)據(jù)存儲在多個文件中,這意味著相同事實的重復(fù),即存在多處修改時發(fā)生不一致性錯誤的可能,且很難確定哪一個值是正確的,這是數(shù)據(jù)冗余代價最大的方面。數(shù)據(jù)庫與事務(wù)處理數(shù)據(jù)庫管理系統(tǒng)(DataBaseManagementSystem,DBMS)指的是專門用來建立和管理數(shù)據(jù)庫的軟件,并允許獨(dú)立應(yīng)用程序通過它來訪問數(shù)據(jù)庫中的數(shù)據(jù)。數(shù)據(jù)庫與數(shù)據(jù)庫管理系統(tǒng)(1)集中管理數(shù)據(jù)、集中存取、集中利用和安全保護(hù),降低企業(yè)的信息系統(tǒng)環(huán)境的復(fù)雜性。(2)剔除所有包含重復(fù)數(shù)據(jù)的孤立文件,減少數(shù)據(jù)的冗余和不一致。(3)利用數(shù)據(jù)建立和定義的集中控制來剔除數(shù)據(jù)的混亂。(4)將數(shù)據(jù)的邏輯視圖與物理視圖分開,降低程序與數(shù)據(jù)之間的相互依賴性。(5)由于允許在大量信息中進(jìn)行快速、低廉的定制查詢,因而大大增強(qiáng)了信息系統(tǒng)的適應(yīng)性。數(shù)據(jù)庫與事務(wù)處理使用數(shù)據(jù)庫環(huán)境來管理數(shù)據(jù),具有如下優(yōu)勢。(6)大幅度提升了信息存取和利用的可能性。比較多的是采用一種稱為批處理(BatchProcessing)的形式來應(yīng)用計算機(jī)的計算功能,也就是將大量的任務(wù)累積起來,定期地一次性提交給計算機(jī)進(jìn)行處理??傮w來說,在計算機(jī)資源還比較有限的條件下,批處理的方式可以更充分地利用計算機(jī)的資源。數(shù)據(jù)庫與事務(wù)處理在線事務(wù)處理02數(shù)據(jù)倉庫與在線分析處理信息傳遞在一定程度上可以視為信息獲取的反過程,就是將企業(yè)中的信息以最有效的方式提交給其他實體,如用戶。信息通信,就是通過媒介將信息傳輸給他人或另一個地點。信息獲取就是從企業(yè)內(nèi)部和外部獲得最基本的信息。信息存儲將有用的(如以后會使用到的)信息存儲起來。信息創(chuàng)造與其他四個信息處理任務(wù)的不同之處在于:信息獲取、信息傳遞、信息存儲和信息通信基本上不涉及對信息的加工,信息創(chuàng)造就是對已有的信息進(jìn)行處理,以獲得新的信息數(shù)據(jù)倉庫與在線分析處理一般而言,信息處理的任務(wù)包括:信息獲取、信息傳遞、信息創(chuàng)造、信息存儲和信息通信。事務(wù)處理和分析處理都是信息創(chuàng)造的過程。如前所述,事務(wù)處理側(cè)重于對企業(yè)的業(yè)務(wù)功能的自動化,典型的處理形式是統(tǒng)計報表和數(shù)據(jù)查詢。而分析處理側(cè)重于對信息的分析,通常涉及對信息的切分、多維化、前推和回溯,以及回答what-if問題。數(shù)據(jù)倉庫與在線分析處理從事務(wù)處理到分析處理事實上,OLAP能夠高速發(fā)展也得益于數(shù)據(jù)倉庫技術(shù)的出現(xiàn)和完善。由于這兩者結(jié)合得相當(dāng)緊密,以至在實際應(yīng)用中,OLAP應(yīng)用和數(shù)據(jù)倉庫應(yīng)用經(jīng)常指同一個概念。所謂數(shù)據(jù)倉庫,就是把一個企業(yè)中的歷史數(shù)據(jù)收集到一個中央倉庫中以便于處理,它是支持決策過程的、面向主題的、集成的、隨時間而變的、持久的數(shù)據(jù)集合。數(shù)據(jù)倉庫是OLAP應(yīng)用的環(huán)境和基礎(chǔ)。從最基本的功能來看,與數(shù)據(jù)庫一樣,數(shù)據(jù)倉庫也是用來存儲結(jié)構(gòu)化的數(shù)據(jù),但是與數(shù)據(jù)庫有許多不同之處。數(shù)據(jù)倉庫與在線分析處理數(shù)據(jù)倉庫01020304(1)面向主題(3)相對穩(wěn)定性(2)集成性(4)反映歷史變化數(shù)據(jù)倉庫與在線分析處理與傳統(tǒng)的數(shù)據(jù)庫相比,數(shù)據(jù)倉庫具有面向主題、集成性、相對穩(wěn)定性、反映歷史變化四個最重要的特征。(1)切片(slice):在某維度上選取特定的值,在該維度值保持不變的情況下,根據(jù)其他維度對數(shù)據(jù)進(jìn)行展現(xiàn)。(2)切塊(dice):限定一個或多個維度的取值范圍而得到的數(shù)據(jù)展現(xiàn)結(jié)果,就好像從多維立方體中“切”出一個立方數(shù)據(jù)塊。(3)旋轉(zhuǎn)(pivot):變換維的方向,即在表格中重新安排維的放置(如行列互換),以獲得所需的分析視角。(4)下鉆(drill-down):選定特定數(shù)據(jù)范圍后,進(jìn)一步查詢細(xì)節(jié)數(shù)據(jù)。(5)上卷(roll-up):選定特定的數(shù)據(jù)范圍后,對其進(jìn)行匯總統(tǒng)計,以獲得更高層面的信息。上卷操作同樣要求維度具有層級結(jié)構(gòu)。數(shù)據(jù)倉庫與在線分析處理在多個不同維度上對數(shù)據(jù)進(jìn)行綜合考察的手段就是通常所說的數(shù)據(jù)倉庫的多維查詢方式,主要包括如下5項。(1)展示數(shù)據(jù)倉庫中數(shù)據(jù)的多維邏輯視圖。(2)通常包含交互式查詢和對數(shù)據(jù)的分析。交互式通常有多種方法,包括細(xì)分較低級別的詳細(xì)數(shù)據(jù)或統(tǒng)攬較高級別的概括性和聚集數(shù)據(jù)。(3)提供分析的建模功能?;跀?shù)據(jù),根據(jù)已有的決策分析模型確定合適的變量和比率等計算引擎或多維的數(shù)字?jǐn)?shù)據(jù)。數(shù)據(jù)倉庫與在線分析處理總的來說,OLAP主要實現(xiàn)以下功能:(4)生成概括數(shù)據(jù)和聚集、層次,以及在每維的交叉點上對聚集和概括級別的審計。(5)支持功能模型以進(jìn)行預(yù)測、趨勢分析和統(tǒng)計分析。(6)檢索并顯示二維或三維表格、圖表和圖形化的數(shù)據(jù),并且能夠容易地變換基準(zhǔn)軸,這一點相當(dāng)重要,因為對于商業(yè)用戶,需要從不同的角度來分析數(shù)據(jù);并且,在分析某一個側(cè)面的數(shù)據(jù)時所產(chǎn)生的問題可能需要在另一個側(cè)面中來檢驗。(7)迅速響應(yīng)查詢。這樣才能保證與商業(yè)活動同步,從而才有實際應(yīng)用價值。(8)具有多維數(shù)據(jù)存儲引擎,按陣列存儲數(shù)據(jù),這些陣列是商業(yè)維的邏輯表示。數(shù)據(jù)倉庫與在線分析處理總的來說,OLAP主要實現(xiàn)以下功能:03企業(yè)知識發(fā)現(xiàn)OLAP是通過帶層次的維度和跨維度進(jìn)行多維數(shù)據(jù)分析的。通過商業(yè)活動變化的查詢發(fā)現(xiàn)問題,經(jīng)過追蹤查詢找出問題出現(xiàn)的原因,達(dá)到輔助決策的作用。而數(shù)據(jù)挖掘是以變量和記錄為基礎(chǔ)進(jìn)行分析的,這也是數(shù)據(jù)挖掘能夠發(fā)現(xiàn)大量數(shù)據(jù)背后隱藏的知識的原因。更重要的是,知識發(fā)現(xiàn)在于尋找潛在的、新穎的和有用的知識,用于支持企業(yè)的管理決策。在有些情況下,數(shù)據(jù)挖掘人員并不是精確地知道什么是必須分析的,有些數(shù)據(jù)挖掘任務(wù)可能一無所獲。企業(yè)知識發(fā)現(xiàn)OLAP與知識發(fā)現(xiàn)如圖所示的例子可說明OLAP與知識發(fā)現(xiàn)的區(qū)別。企業(yè)知識發(fā)現(xiàn)OLAP與知識發(fā)現(xiàn)(2)客戶關(guān)系管理CRM系統(tǒng)數(shù)據(jù)。(4)其他內(nèi)部應(yīng)用程序。(1)交易數(shù)據(jù)和銷售終端(PointofSales,PoS)信息。(3)內(nèi)部各類文檔表格。(5)傳感器數(shù)據(jù)。企業(yè)知識發(fā)現(xiàn)企業(yè)內(nèi)部知識發(fā)現(xiàn)(1)用戶行為數(shù)據(jù)包括用戶的點擊習(xí)慣、搜索記錄和用戶的業(yè)務(wù)流量等,這些數(shù)據(jù)具有實時更新的特點,形象地描摹了用戶行為模式,如搜索引擎的使用已經(jīng)成為互聯(lián)網(wǎng)生活必不可少的部分,搜索日志實時記錄了用戶潛在的搜索意圖。(2)UGC信息指用戶在諸如Twitter、微博和微信等社交平臺上發(fā)表的言辭評論、互動交流和購物網(wǎng)站中的評論信息等,以及用戶注冊過程中產(chǎn)生的資料數(shù)據(jù)(如年齡、職業(yè)、興趣愛好等特征)。(3)用戶關(guān)系數(shù)據(jù)是指用戶在互聯(lián)網(wǎng)上構(gòu)成一個龐大的社交網(wǎng)絡(luò),好友彼此之間的關(guān)系蘊(yùn)含了頗為豐厚的網(wǎng)絡(luò)信息,但呈現(xiàn)多規(guī)模節(jié)點、結(jié)構(gòu)稀疏性特征。企業(yè)知識發(fā)現(xiàn)企業(yè)外部知識發(fā)現(xiàn)除了社交媒體平臺,政府也會提供一些信息資源,有助于企業(yè)更好地了解公眾。企業(yè)可以利用政府公開數(shù)據(jù)實現(xiàn)數(shù)據(jù)交叉、鏈接和共享,挖掘公開數(shù)據(jù)中本行業(yè)相關(guān)的重要信息,從而帶來新的商務(wù)價值增長點。企業(yè)知識發(fā)現(xiàn)企業(yè)外部大數(shù)據(jù)蘊(yùn)含了重要的商務(wù)價值,是現(xiàn)代商務(wù)智能應(yīng)用的重點,但多呈現(xiàn)非封閉、動態(tài)、富媒體等特性,與傳統(tǒng)的數(shù)據(jù)庫、數(shù)據(jù)倉庫數(shù)據(jù)有著很大區(qū)別。企業(yè)外部知識發(fā)現(xiàn)謝謝觀看商務(wù)智能原理與方法(第三版)普通高等教育“十一五”國家級規(guī)劃教材數(shù)據(jù)平臺普通高等教育“十一五”國家級規(guī)劃教材商務(wù)智能原理與方法(第三版)第四章01數(shù)據(jù)處理技術(shù)演進(jìn)隨著信息管理系統(tǒng)的廣泛應(yīng)用和數(shù)據(jù)量激增,人們越發(fā)希望能夠提供更高層次的數(shù)據(jù)分析功能,從而更好地為決策或科研工作提供支持。數(shù)據(jù)挖掘?qū)嶋H上是信息處理技術(shù)逐漸發(fā)展和演進(jìn)到一定程度而涌現(xiàn)出的新技術(shù)和方法。在電子數(shù)據(jù)處理的初期,人們就試圖通過某些方法來實現(xiàn)自動決策支持,當(dāng)時機(jī)器學(xué)習(xí)是關(guān)注的焦點。同時,海量數(shù)據(jù)存儲、多處理器計算機(jī)基礎(chǔ)技術(shù)的發(fā)展成熟及智能化的決策支持技術(shù)的發(fā)展,也推動著數(shù)據(jù)挖掘方法發(fā)展成為成熟、穩(wěn)定且易于理解和操作的技術(shù),使得數(shù)據(jù)挖掘技術(shù)的商業(yè)實踐成為可能。數(shù)據(jù)處理技術(shù)演進(jìn)數(shù)據(jù)處理技術(shù)演進(jìn)從20世紀(jì)五六十年代數(shù)據(jù)庫技術(shù)嶄露頭角開始,原始的文件存儲系統(tǒng)開始向強(qiáng)大的數(shù)據(jù)庫系統(tǒng)演變。70年代以來,隨著關(guān)系型數(shù)據(jù)庫系統(tǒng)的出現(xiàn),OLTP在關(guān)系型數(shù)據(jù)庫技術(shù)的發(fā)展歷程中發(fā)揮了重要作用。80年代中期后,對更新和更高級的數(shù)據(jù)庫系統(tǒng)的研究和應(yīng)用也如火如荼,包括擴(kuò)展關(guān)系型數(shù)據(jù)庫、面向?qū)ο笫綌?shù)據(jù)庫、產(chǎn)生式數(shù)據(jù)庫和一些面向應(yīng)用的數(shù)據(jù)庫,如空間數(shù)據(jù)庫、時態(tài)數(shù)據(jù)庫、多媒體數(shù)據(jù)庫、主動式數(shù)據(jù)庫、科研數(shù)據(jù)庫和知識庫等。80年代末期有了數(shù)據(jù)倉庫技術(shù)和數(shù)據(jù)挖掘的興起。數(shù)據(jù)處理技術(shù)演進(jìn)數(shù)據(jù)處理技術(shù)演進(jìn)自20世紀(jì)90年代特別是進(jìn)入21世紀(jì)以來,對數(shù)據(jù)挖掘技術(shù)的研究和應(yīng)用已廣泛展開,出現(xiàn)了很多新的數(shù)據(jù)挖掘方法和工具。01020304(1)超大規(guī)模數(shù)據(jù)庫的出現(xiàn),如商業(yè)數(shù)據(jù)倉庫和計算機(jī)自動收集的數(shù)據(jù)記錄。(3)對巨大量數(shù)據(jù)的快速訪問。(2)先進(jìn)的計算機(jī)技術(shù),如更快和更大的計算能力和并行體系結(jié)構(gòu)。(4)對數(shù)據(jù)應(yīng)用精深統(tǒng)計方法計算的能力。數(shù)據(jù)處理技術(shù)演進(jìn)有四個主要的技術(shù)原因激發(fā)了數(shù)據(jù)挖掘的開發(fā)、應(yīng)用和研究的興趣。02數(shù)據(jù)倉庫過程與體系結(jié)構(gòu)數(shù)據(jù)倉庫是計算機(jī)和數(shù)據(jù)應(yīng)用發(fā)展到一定階段的必然產(chǎn)物。數(shù)據(jù)倉庫中存在兩種主要數(shù)據(jù):原始數(shù)據(jù)和由原始數(shù)據(jù)導(dǎo)出的、適合分析的導(dǎo)出型數(shù)據(jù)。數(shù)據(jù)倉庫通常采用三層體系結(jié)構(gòu):操作環(huán)境層、數(shù)據(jù)倉庫層和業(yè)務(wù)操作層。數(shù)據(jù)倉庫過程與體系結(jié)構(gòu)而數(shù)據(jù)倉庫技術(shù)具有分析處理等特點,從不同數(shù)據(jù)源提取出數(shù)據(jù)和信息,轉(zhuǎn)換成公共的數(shù)據(jù)模型并和數(shù)據(jù)倉庫中已有的數(shù)據(jù)集成在一起,發(fā)展為體系化環(huán)境。在這個體系化環(huán)境中,數(shù)據(jù)沖突和表達(dá)不一致的問題已經(jīng)得到解決,從而彌補(bǔ)了原有操作型數(shù)據(jù)庫的缺點。數(shù)據(jù)倉庫過程與體系結(jié)構(gòu)2.數(shù)據(jù)集成數(shù)據(jù)倉庫中的數(shù)據(jù)來自不同的系統(tǒng),這些系統(tǒng)的硬件環(huán)境和軟件環(huán)境可能各不相同,使得數(shù)據(jù)結(jié)構(gòu)各異。4.數(shù)據(jù)分析和展示OLAP是一項分析處理技術(shù),從企業(yè)的數(shù)據(jù)集合中收集信息,并運(yùn)用數(shù)學(xué)運(yùn)算和數(shù)據(jù)處理技術(shù),靈活、交互式地提供統(tǒng)計、趨勢分析和預(yù)測報告。1.數(shù)據(jù)倉庫的設(shè)計與建模數(shù)據(jù)倉庫的設(shè)計包括與操作性系統(tǒng)的接口設(shè)計和數(shù)據(jù)倉庫本身的設(shè)計。數(shù)據(jù)模型是能夠采用迭代方式建立數(shù)據(jù)倉庫的關(guān)鍵。3.數(shù)據(jù)存儲和管理數(shù)據(jù)倉庫的存儲可以選用多維數(shù)據(jù)庫,也可以選用關(guān)系型數(shù)據(jù)庫或其他的特殊存儲方式,要保證數(shù)據(jù)的安全性、完整性及一致性,還要具有復(fù)雜的分析查詢的高效性。數(shù)據(jù)倉庫過程與體系結(jié)構(gòu)數(shù)據(jù)倉庫過程與體系結(jié)構(gòu)03數(shù)據(jù)集成、提取與轉(zhuǎn)換數(shù)據(jù)提取用于獲取商務(wù)智能系統(tǒng)所需的數(shù)據(jù),它們通常是源數(shù)據(jù)的子集。數(shù)據(jù)提取是在對數(shù)據(jù)倉庫的主題和數(shù)據(jù)本身內(nèi)容理解的基礎(chǔ)上,選擇主題涉及的相關(guān)數(shù)據(jù)。數(shù)據(jù)倉庫中的數(shù)據(jù)源主要是在線事務(wù)處理數(shù)據(jù),數(shù)據(jù)源中的數(shù)據(jù)存在大量的數(shù)據(jù)更新,因此存在如何將數(shù)據(jù)源中的數(shù)據(jù)變化反映到數(shù)據(jù)倉庫的問題。數(shù)據(jù)集成、提取與轉(zhuǎn)換數(shù)據(jù)提取1.數(shù)據(jù)更新方式數(shù)據(jù)更新主要的考慮因素有增量更新還是批量更新、實時更新還是周期更新兩種。在數(shù)據(jù)源中的數(shù)據(jù)發(fā)生變化時,隨之改變數(shù)據(jù)倉庫中的數(shù)據(jù),稱為實時更新;但通常的做法是按固定周期間隔,將數(shù)據(jù)源中的數(shù)據(jù)更新反映到數(shù)據(jù)倉庫中,即周期更新,這樣的開銷更小,并且由于數(shù)據(jù)倉庫中通常保存的是歷史數(shù)據(jù),不會影響分析結(jié)果。數(shù)據(jù)集成、提取與轉(zhuǎn)換數(shù)據(jù)提取01020304(1)提取策略(3)提取時期(2)提取周期(4)抽取的目標(biāo)數(shù)據(jù)數(shù)據(jù)集成、提取與轉(zhuǎn)換2.數(shù)據(jù)傳輸模式通??紤]如下因素。(1)數(shù)據(jù)離散化:將屬性(如數(shù)量型數(shù)據(jù))離散化成若干區(qū)間。(2)新建變量:根據(jù)原始數(shù)據(jù)生成一些新的變量作為預(yù)測變量。(3)轉(zhuǎn)換變量:將原始數(shù)據(jù)進(jìn)行轉(zhuǎn)換,如取值域、格式方面的轉(zhuǎn)換。(4)拆分?jǐn)?shù)據(jù):依據(jù)業(yè)務(wù)需求對數(shù)據(jù)項進(jìn)行分解,如地址信息拆分為城市、街道和郵編等。(5)格式變換:規(guī)范化數(shù)據(jù)格式,如定義時間、數(shù)值和字符等數(shù)據(jù)加載格式。數(shù)據(jù)集成、提取與轉(zhuǎn)換1.數(shù)據(jù)變換(2)維度歸約:數(shù)據(jù)選擇中的屬性選擇,主要是根據(jù)一定的評價標(biāo)準(zhǔn)在屬性集上選擇區(qū)分能力強(qiáng)的屬性子集,或者說發(fā)現(xiàn)和分析目標(biāo)相關(guān)的屬性集,刪除冗余屬性和不相關(guān)屬性。(4)數(shù)據(jù)壓縮:使用數(shù)據(jù)編碼或變換得到原數(shù)據(jù)的歸約或壓縮表示。(1)數(shù)據(jù)聚集:采用切換、旋轉(zhuǎn)和投影技術(shù)等對原始數(shù)據(jù)進(jìn)行抽象和聚集,可聚集現(xiàn)有字段中的數(shù)值或?qū)?shù)據(jù)項進(jìn)行統(tǒng)計。(3)屬性值歸約:包括連續(xù)值屬性的離散化和符號型屬性的合并。(5)數(shù)據(jù)抽樣:主要利用統(tǒng)計學(xué)中的抽樣方法,如簡單隨機(jī)抽樣、等距抽樣和分層抽樣等,用數(shù)據(jù)較小的樣本表示大的數(shù)據(jù)集。數(shù)據(jù)倉庫與在線分析處理2.數(shù)據(jù)歸納每次加載時將數(shù)據(jù)追加到目標(biāo)表中。(1)直接追加對提取數(shù)據(jù)本身已包括了當(dāng)前的數(shù)據(jù)和所有歷史數(shù)據(jù)的,采用全面覆蓋方式。(2)全面覆蓋對于需要連續(xù)記錄業(yè)務(wù)的狀態(tài)變換,根據(jù)當(dāng)前的最新狀態(tài)與歷史狀態(tài)數(shù)據(jù)進(jìn)行對比的情況,采用更新追加。(3)更新追加數(shù)據(jù)加載數(shù)據(jù)倉庫與在線分析處理01020304(1)設(shè)計數(shù)據(jù)準(zhǔn)備區(qū)的數(shù)據(jù)結(jié)構(gòu)(3)定義數(shù)據(jù)清洗轉(zhuǎn)換規(guī)則(2)定義數(shù)據(jù)提取規(guī)則(4)ETL流程設(shè)計數(shù)據(jù)倉庫與在線分析處理ETL設(shè)計與開發(fā)(ETL設(shè)計的主要內(nèi)容如下)(2)對ETL過程進(jìn)行整合測試或回歸測試。(4)對ETL過程進(jìn)行質(zhì)量保障測試。(1)建立ETL過程并對每個單位進(jìn)行測試。(3)對ETL過程進(jìn)行效能測試。(5)對ETL過程進(jìn)行接受度測試。數(shù)據(jù)倉庫與在線分析處理ETL設(shè)計與開發(fā)(ETL的開發(fā)主要包括5個步驟)04數(shù)據(jù)倉庫開發(fā)、管理與安全1.自上而下模式自上而下模式是將原來分散存儲在企業(yè)各處的OLTP數(shù)據(jù)庫中的有用數(shù)據(jù),通過篩選、提取和轉(zhuǎn)換等處理后建立整體性數(shù)據(jù)倉庫。2.自下而上模式自下而上模式是從構(gòu)造各部門或特定的企業(yè)問題的數(shù)據(jù)集市開始的,整體性數(shù)據(jù)倉庫是建立在這些數(shù)據(jù)集市的基礎(chǔ)之上的。3.平行開發(fā)模式平行開發(fā)是在一個整體性數(shù)據(jù)倉庫的數(shù)據(jù)模型的指導(dǎo)下,將數(shù)據(jù)集市和整體性數(shù)據(jù)倉庫的建立同步進(jìn)行。數(shù)據(jù)倉庫開發(fā)、管理與安全數(shù)據(jù)倉庫開發(fā)模式5.有反饋的自下而上模式有反饋的自下而上模式先構(gòu)造部門數(shù)據(jù)集市,再在此基礎(chǔ)上構(gòu)造整體性數(shù)據(jù)倉庫,因此數(shù)據(jù)集市能較好地滿足用戶的需求,在整體性數(shù)據(jù)倉庫建立后,需求變化將主要體現(xiàn)在數(shù)據(jù)集市與數(shù)據(jù)倉庫之間。6.有反饋的平行開發(fā)模式在有反饋的平行開發(fā)初期,開發(fā)人員主要在整體性數(shù)據(jù)倉庫數(shù)據(jù)模型的指導(dǎo)下建立部門數(shù)據(jù)集市,并把建立過程中所遇到的問題、解決方案及用戶意見等信息反饋給整體性數(shù)據(jù)倉庫數(shù)據(jù)模型。4.有反饋的自上而下模式新需求反饋分為兩個階段:在第一階段,用戶的新需求不斷被反饋給部門的數(shù)據(jù)集市,部門數(shù)據(jù)集市根據(jù)用戶的新需求產(chǎn)生自身的需求變化;在第二階段,部門數(shù)據(jù)集市把自身的需求變化反饋給整體性數(shù)據(jù)倉庫,整體性數(shù)據(jù)倉庫會相應(yīng)變化數(shù)據(jù)倉庫開發(fā)、管理與安全數(shù)據(jù)倉庫開發(fā)模式數(shù)據(jù)庫的建模任務(wù)通?;诟拍钅P汀⑦壿嬆P秃臀锢砟P腿N視角,數(shù)據(jù)倉庫設(shè)計也不例外。在數(shù)據(jù)倉庫的三級數(shù)據(jù)模型中,概念模型表示現(xiàn)實世界的業(yè)務(wù)信息構(gòu)成關(guān)系,用數(shù)據(jù)庫設(shè)計中的實體關(guān)系模型(ER)進(jìn)行設(shè)計,但需要用分析主題代替?zhèn)鹘y(tǒng)ER模型中的實體。數(shù)據(jù)倉庫設(shè)計的步驟如圖所示。數(shù)據(jù)倉庫開發(fā)、管理與安全數(shù)據(jù)倉庫設(shè)計數(shù)據(jù)倉庫的用戶一般是企業(yè)管理者,分析需求和業(yè)務(wù)需求有很大差異,因此不能把數(shù)據(jù)庫設(shè)計階段的用戶業(yè)務(wù)需求直接用在數(shù)據(jù)倉庫設(shè)計中。在設(shè)計數(shù)據(jù)倉庫之初把用戶的分析需求納入考慮范圍是很有必要的。同時,數(shù)據(jù)倉庫的構(gòu)建必須基于業(yè)務(wù)數(shù)據(jù)庫,業(yè)務(wù)數(shù)據(jù)源的結(jié)構(gòu)也是不得不考慮的問題。圖4-9顯示了這兩種方法相結(jié)合獲取數(shù)據(jù)倉庫設(shè)計真正需求的過程。數(shù)據(jù)倉庫開發(fā)、管理與安全數(shù)據(jù)倉庫設(shè)計數(shù)據(jù)倉庫不同于數(shù)據(jù)庫,數(shù)據(jù)倉庫的邏輯數(shù)據(jù)模型是多維結(jié)構(gòu)的數(shù)據(jù)視圖,也稱多維數(shù)據(jù)模型。多維結(jié)構(gòu)還能夠?qū)σ粋€或多個維的集合運(yùn)算,如對總銷售量按城市進(jìn)行計算和排序(如圖4-10所示)。數(shù)據(jù)倉庫開發(fā)、管理與安全數(shù)據(jù)倉庫的邏輯數(shù)據(jù)模型大多數(shù)數(shù)據(jù)倉庫采用星型模型。星型模型是由事實表和多個維表組成的。1.星型模型將星型模型的維表進(jìn)一步層次化,原來的各維度表可能被擴(kuò)展為小的事實表,形成一些局部的層次區(qū)域。2.雪花模型范式是傳統(tǒng)的關(guān)系數(shù)據(jù)庫設(shè)計理論中的概念。一個規(guī)范化的關(guān)系模式應(yīng)該準(zhǔn)確地反映所描述的數(shù)據(jù)實體,避免冗余和異常等問題。3.第三范式目前使用的多維數(shù)據(jù)模型數(shù)據(jù)倉庫開發(fā)、管理與安全元數(shù)據(jù)(MetaData)是關(guān)于數(shù)據(jù)的數(shù)據(jù),是以概念、主題、集團(tuán)或?qū)哟蔚刃问浇⒌男畔⒔Y(jié)構(gòu),并且記錄數(shù)據(jù)對象的位置。元數(shù)據(jù)是整個數(shù)據(jù)倉庫的核心。元數(shù)據(jù)可以分為四類,分別是:關(guān)于數(shù)據(jù)源的元數(shù)據(jù)關(guān)于數(shù)據(jù)模型的元數(shù)據(jù)關(guān)于數(shù)據(jù)倉庫映射的元數(shù)據(jù)關(guān)于數(shù)據(jù)倉庫使用的元數(shù)據(jù)數(shù)據(jù)倉庫開發(fā)、管理與安全元數(shù)據(jù)(2)所有數(shù)據(jù)項的業(yè)務(wù)定義。(4)每個數(shù)據(jù)項的有效值。(1)數(shù)據(jù)源中所有物理數(shù)據(jù)結(jié)構(gòu),包括所有的數(shù)據(jù)項及數(shù)據(jù)類型。(3)每個數(shù)據(jù)項更新的頻率,以及由誰或哪個過程更新的說明。(5)其他系統(tǒng)中具有相同業(yè)務(wù)含義的數(shù)據(jù)項的清單。數(shù)據(jù)倉庫開發(fā)、管理與安全1.關(guān)于數(shù)據(jù)源的元數(shù)據(jù)01020304(1)I/O對象:支持?jǐn)?shù)據(jù)倉庫I/O操作的各種對象,元數(shù)據(jù)要描述該對象的定義、類型、狀態(tài)和存檔(刷新)周期。((3)關(guān)系成員:描述每個關(guān)系中兩個I/O對象的具體角色(在一對多中是父親還是兒子)、關(guān)系度(一對一或一對多)和約束條件(必須或可選)(2)關(guān)系:兩個I/O對象之間的關(guān)聯(lián),包括一對一、一對多或多對多關(guān)系。(4)關(guān)系關(guān)鍵字:描述兩個I/O對象是如何建立關(guān)系的,即指明每個關(guān)系的相應(yīng)對象的關(guān)鍵字。數(shù)據(jù)倉庫開發(fā)、管理與安全2.關(guān)于數(shù)據(jù)模型的元數(shù)據(jù)(1)ETL任務(wù),即描述每個ETL任務(wù),并為它標(biāo)識源系統(tǒng),明確其刷新周期。(2)ETL步驟,即定義ETL的步驟,說明每一步的類型(如過濾、驗證等)。(3)表映射,即為每個步驟建立輸入文件(或表)與輸出文件(或表)的關(guān)聯(lián)。(4)屬性映射,即為每個步驟建立輸入文件(或表)的屬性與輸出文件(或表)的屬性之間的關(guān)聯(lián)。(5)記錄篩選規(guī)則,即在每個步驟中進(jìn)行的篩選的規(guī)則。數(shù)據(jù)倉庫開發(fā)、管理與安全3.關(guān)于數(shù)據(jù)倉庫映射的元數(shù)據(jù)數(shù)據(jù)倉庫的用戶最關(guān)心的是兩類元數(shù)據(jù):一是數(shù)據(jù)倉庫中有什么元數(shù)據(jù),即按主題查看數(shù)據(jù)倉庫的內(nèi)容;二是已有的可重復(fù)利用的查詢語言信息,以方便用戶的使用而不必重新編程。更高級的形式是用戶通過選擇要提出的業(yè)務(wù)問題的類型來訪問現(xiàn)有的查詢,得到相似查詢的元數(shù)據(jù)。數(shù)據(jù)倉庫開發(fā)、管理與安全4.關(guān)于數(shù)據(jù)倉庫使用的元數(shù)據(jù)01020304(1)實體安全:指系統(tǒng)設(shè)備及相關(guān)設(shè)施運(yùn)行正常,服務(wù)適時,包括環(huán)境、設(shè)備、機(jī)房、電磁輻射和數(shù)據(jù)介質(zhì)等的安全。(3)軟件安全:數(shù)據(jù)倉庫系統(tǒng)工作的主要平臺,它的安全是數(shù)據(jù)倉庫安全的重要內(nèi)容,是研究的重點。(2)數(shù)據(jù)安全:指系統(tǒng)擁有的和產(chǎn)生的數(shù)據(jù)或信息安全。(4)運(yùn)行安全:指系統(tǒng)資源使用合法,包括電源、數(shù)據(jù)與介質(zhì)管理、機(jī)房管理、運(yùn)行管理和維護(hù)。數(shù)據(jù)倉庫開發(fā)、管理與安全1.數(shù)據(jù)倉庫的安全問題數(shù)據(jù)倉庫的安全措施有技術(shù)性安全措施和非技術(shù)性安全措施兩大類。從數(shù)據(jù)倉庫系統(tǒng)的結(jié)構(gòu)層次來分,技術(shù)性安全措施包括:網(wǎng)絡(luò)系統(tǒng)的安全措施服務(wù)器的安全措施應(yīng)用系統(tǒng)的安全措施信息傳輸?shù)陌踩胧?shù)據(jù)倉庫開發(fā)、管理與安全2.數(shù)據(jù)倉庫的安全措施05分布式數(shù)據(jù)平臺越來越多的商業(yè)實踐場景需要依賴分布式數(shù)據(jù)平臺(DistributedDataPlatform)實現(xiàn)海量數(shù)據(jù)處理和可擴(kuò)展計算。分布式數(shù)據(jù)平臺可以把存儲、計算任務(wù)分散到多個普通節(jié)點上,通過節(jié)點的動態(tài)增加來應(yīng)對數(shù)據(jù)量和計算量的增長。分布式數(shù)據(jù)平臺的核心是一組面向域的數(shù)據(jù)或產(chǎn)品,其解決方案往往會帶來在多個節(jié)點的管理調(diào)度挑戰(zhàn)。相較于傳統(tǒng)的單體式數(shù)據(jù)平臺,分布式數(shù)據(jù)平臺雖然在邏輯上呈現(xiàn)為統(tǒng)一的整體,但實際是通過不同的物理節(jié)點進(jìn)行存儲和數(shù)據(jù)處理。分布式數(shù)據(jù)平臺分布式數(shù)據(jù)平臺概念如今業(yè)界廣泛使用的框架主要基于Hadoop系統(tǒng)。Hadoop系統(tǒng)是一個由Apache基金會用Java語言實現(xiàn)的開源分布式系統(tǒng)架構(gòu)?;贖adoop平臺架構(gòu),用戶可以進(jìn)行跨平臺應(yīng)用開發(fā)并提供服務(wù)。Hadoop架構(gòu)具較高的容錯率,并且可被部署在硬件價格較低的計算機(jī)集群中。分布式數(shù)據(jù)平臺分布式數(shù)據(jù)平臺與功能組件實質(zhì)上,Hadoop屬于谷歌三大關(guān)鍵分布式系統(tǒng)技術(shù)的開源實現(xiàn),通過集群可進(jìn)行數(shù)據(jù)高速處理,在用戶缺乏對分布式底層細(xì)節(jié)的認(rèn)知時,實現(xiàn)分布式程序開發(fā)。Hadoop架構(gòu)最主要的三大組件分別是HDFS、MapReduce和HBase。分布式數(shù)據(jù)平臺分布式數(shù)據(jù)平臺與功能組件06云數(shù)據(jù)平臺簡單說來,云計算旨在通過一系列動態(tài)和虛擬化的整合優(yōu)化計算資源技術(shù),以類似效能(Utility)的方式(如電力供應(yīng)形態(tài)),提供“隨時獲取、按需使用”的計算服務(wù)。通過這種服務(wù)(通常是第三方服務(wù))方式,人們可以通過相對固定的價格獲取標(biāo)準(zhǔn)化的服務(wù)。特別是,云存儲及相應(yīng)的云數(shù)據(jù)平臺也出現(xiàn)了應(yīng)用擴(kuò)展趨勢。實際上,云存儲思想由來已久,如電子郵箱等就可以認(rèn)為是云存儲概念的雛形。云數(shù)據(jù)平臺云數(shù)據(jù)平臺概念云數(shù)據(jù)平臺具有大規(guī)模的可處理性、高效能的可計算性、低成本的可獲得性及靈活的可擴(kuò)展性等優(yōu)勢特性。而商務(wù)智能是基于數(shù)據(jù)分析的企業(yè)決策管理,不僅是技術(shù)和方法上的整合,更是概念和組織上的整合,只有將原生態(tài)的數(shù)據(jù)快速轉(zhuǎn)換為可利用的知識,才能為企業(yè)的決策管理提供支撐。云數(shù)據(jù)平臺云數(shù)據(jù)平臺與商務(wù)智能(1)降低成本投入。(2)可擴(kuò)展性強(qiáng)。(3)融合內(nèi)/外部數(shù)據(jù)。云數(shù)據(jù)平臺云數(shù)據(jù)平臺與商務(wù)智能謝謝觀看商務(wù)智能原理與方法(第三版)普通高等教育“十一五”國家級規(guī)劃教材構(gòu)建商務(wù)智能環(huán)境普通高等教育“十一五”國家級規(guī)劃教材商務(wù)智能原理與方法(第三版)第五章01商務(wù)智能環(huán)境確定數(shù)據(jù)可用的能力在適當(dāng)、有效的商務(wù)智能環(huán)境中,數(shù)據(jù)分析的質(zhì)量必須得到保證。而確保數(shù)據(jù)分析質(zhì)量的第一步就是根據(jù)問題需求從海量數(shù)據(jù)中提煉出真正所需的數(shù)據(jù)。數(shù)據(jù)挖掘的能力適當(dāng)、有效的商務(wù)智能環(huán)境必須能夠根據(jù)決策問題提供充分的數(shù)據(jù)挖掘功能。用戶與系統(tǒng)交互的能力由于商務(wù)智能應(yīng)用面對的問題相對于傳統(tǒng)信息系統(tǒng)而言更為復(fù)雜,而且標(biāo)準(zhǔn)化程度相對較低,因此,為了能夠更好地為用戶提供有效的決策知識,用戶與系統(tǒng)交互的能力是必需的。商務(wù)智能環(huán)境商務(wù)智能環(huán)境應(yīng)該具有下列三方面能力02商務(wù)智能組織商務(wù)智能組織是創(chuàng)建、實施、開發(fā)、運(yùn)作及應(yīng)用商務(wù)智能系統(tǒng)的主體。從商務(wù)智能建設(shè)的角度,商務(wù)智能組織可以存在不同的組織形式。(1)內(nèi)給:由企業(yè)內(nèi)部的信息技術(shù)力量來負(fù)責(zé)商務(wù)智能系統(tǒng)的開發(fā)和維護(hù)。(2)外包:直接購買商品化的商務(wù)智能解決方案,由供應(yīng)商提供技術(shù)支持,或者由企業(yè)之外的第三方負(fù)責(zé)商務(wù)智能系統(tǒng)的建設(shè)和維護(hù)。商務(wù)智能組織01020304(1)企業(yè)之所以會對IT外包感興趣,很大程度上是其自身經(jīng)營戰(zhàn)略轉(zhuǎn)變的驅(qū)動。(3)對于一般的非IT行業(yè)的企業(yè)而言,IT部門的表現(xiàn)常常不令人滿意。(2)隨著企業(yè)對IT的依賴性越來越強(qiáng),在IT方面的投資也急劇攀升。這筆投資已經(jīng)成為一個沉重負(fù)擔(dān)。(4)隨著信息產(chǎn)業(yè)的高速發(fā)展,IT服務(wù)業(yè)也得到了蓬勃發(fā)展。商務(wù)智能組織一般來說,企業(yè)考慮采用IT外包,主要基于以下幾方面的考慮01020304(1)降低成本,特別是標(biāo)準(zhǔn)化運(yùn)作的成本。(3)可以將企業(yè)的精力更加集中于核心活動。(2)能夠盡快利用新技術(shù),同時縮短了企業(yè)內(nèi)部學(xué)習(xí)曲線。(4)通過外包,“從外至內(nèi)”改善IT管理。商務(wù)智能組織IT外包的優(yōu)勢包括(1)有的IT功能不容易從企業(yè)分離,因此外包容易造成故障,如與生產(chǎn)流程集成度高的成本核算系統(tǒng)。(2)技術(shù)發(fā)展的不確定性,由于企業(yè)本身不完全掌握所采用的外包技術(shù)而更易造成應(yīng)用中的錯誤、困難和障礙。(3)對IT活動的估價困難,由于信息技術(shù)發(fā)展快速,使得簽訂外包合同時的代價可能會偏高。(4)缺乏學(xué)習(xí)和創(chuàng)新。(5)存在因供應(yīng)商的不確定性而可能造成的風(fēng)險。商務(wù)智能組織其局限包括(1)戰(zhàn)略影響:一些IT活動能夠使企業(yè)區(qū)別于它的競爭對手,稱為差異型;而另一些IT活動只是提供了必要的功能,稱為商品型。這兩者的劃分并不是絕對的。商務(wù)智能組織(2)對企業(yè)貢獻(xiàn)的大?。阂恍㊣T活動對于企業(yè)運(yùn)作是關(guān)鍵的,另一些只是有益的但不是必不可少的。(1)關(guān)鍵差異型這種類型的IT活動不僅在創(chuàng)造價值上很關(guān)鍵,也是企業(yè)競爭力的源泉。(2)關(guān)鍵商品型這類IT活動對于企業(yè)運(yùn)作很重要,但是它不是區(qū)分企業(yè)及其競爭者的核心特征。基于上述兩個維度,就可以構(gòu)建出判斷是否采用外包/內(nèi)給的戰(zhàn)略決策框架?!啊鄙虅?wù)智能組織(3)有用商品型這類IT活動能給企業(yè)運(yùn)作帶來益處,但不構(gòu)成區(qū)分企業(yè)及其競爭者的關(guān)鍵特征。(4)有用差異型這類活動反映了企業(yè)與競爭者的不同之處,但對企業(yè)而言不是關(guān)鍵性的?;谏鲜鰞蓚€維度,就可以構(gòu)建出判斷是否采用外包/內(nèi)給的戰(zhàn)略決策框架?!啊鄙虅?wù)智能組織企業(yè)在如下兩種情況下可選擇外包商務(wù)智能。第一,如果商務(wù)智能只是偶爾一用,就不太值得在企業(yè)內(nèi)部投資組成一個專門小組,那么外包是一個合理選擇。第二,如果商務(wù)智能是企業(yè)不斷成長的長期需要,但是所需技術(shù)企業(yè)自身并不具備,而且企業(yè)所需的商務(wù)智能應(yīng)用功能比較標(biāo)準(zhǔn)化,已存在標(biāo)準(zhǔn)化的商務(wù)智能解決方案。在這種情況下,企業(yè)也可以考慮外包商務(wù)智能。商務(wù)智能組織外包商務(wù)智能1.建立一個多部門交叉的商務(wù)智能項目組2.在IT部門建立一個商務(wù)智能小組3.在企業(yè)內(nèi)部單獨(dú)建立一個商務(wù)智能部門內(nèi)給商務(wù)智能商務(wù)智能組織03商務(wù)智能系統(tǒng)從多個異構(gòu)來源訪問數(shù)據(jù)、進(jìn)行數(shù)據(jù)匯集及通過數(shù)據(jù)特征進(jìn)行標(biāo)識的能力。根據(jù)需求從模型庫中選取模型,并根據(jù)新對象和實例情況進(jìn)行評估的能力。快速處理上百萬條乃至更多對象數(shù)據(jù)的能力;快速處理上百個模型的評估、訓(xùn)練和計算的能力。跟蹤模型并進(jìn)行按時更新的能力商務(wù)智能系統(tǒng)一個可靠的商務(wù)智能基礎(chǔ)設(shè)施應(yīng)該具有以下功能:管理數(shù)據(jù)倉庫和外部數(shù)據(jù)源,并按照需要對其他應(yīng)用軟件系統(tǒng)發(fā)布信息、規(guī)則及其他數(shù)據(jù)挖掘結(jié)果的能力。商務(wù)智能的基礎(chǔ)設(shè)施從邏輯上可以分為挖掘平臺和評估平臺兩部分,分別支持挖掘和評估兩個階段的活動。商務(wù)智能系統(tǒng)1.挖掘平臺挖掘平臺用來支持?jǐn)?shù)據(jù)處理軟件,以及必要的數(shù)據(jù)挖掘軟件、可視化功能及人機(jī)交互軟件,并提供與其他應(yīng)用軟件之間的信息、規(guī)則和模型挖掘結(jié)果的數(shù)據(jù)接口。2.評估平臺在挖掘得到規(guī)則、模型和知識后,還需要進(jìn)行評估。商務(wù)智能基礎(chǔ)設(shè)施010203041.所應(yīng)用的技術(shù)范圍3.模型管理功能2.可擴(kuò)展性4.用戶界面商務(wù)智能系統(tǒng)商務(wù)智能系統(tǒng)軟件評估010203045.輸出功能7.文檔管理6.復(fù)雜數(shù)據(jù)類型處理能力8.客戶服務(wù)和培訓(xùn)商務(wù)智能系統(tǒng)商務(wù)智能系統(tǒng)軟件評估2.Tableau2003年,Tableau公司由PatHanrahan、ChristianChabot和斯坦福大學(xué)的ChrisStolte創(chuàng)立,之后廣受業(yè)界歡迎。

4.FineReportFineReport是帆軟軟件有限公司旗下的商業(yè)智能分析產(chǎn)品,可以提供一站式的商業(yè)智能解決方案。1.MicrosoftPowerBlMicrosoftPowerBI是微軟公司于2015年發(fā)布的商業(yè)分析產(chǎn)品。3.QlikQlikView是QlikTech于2009年發(fā)布的旗艦產(chǎn)品,可以提供設(shè)計好的QlikView程序給用戶使用,包括數(shù)據(jù)建模、ETL處理、前端報表展現(xiàn)等組件。商務(wù)智能系統(tǒng)商務(wù)智能系統(tǒng)產(chǎn)品謝謝觀看商務(wù)智能原理與方法(第三版)普通高等教育“十一五”國家級規(guī)劃教材數(shù)據(jù)預(yù)處理普通高等教育“十一五”國家級規(guī)劃教材商務(wù)智能原理與方法(第三版)第六章01數(shù)據(jù)預(yù)處理簡介(2)錯誤/噪聲數(shù)據(jù)(Erroneous/NoisyData)是指那些不準(zhǔn)確的數(shù)據(jù)。

(4)不一致數(shù)據(jù)(InconsistentData)是指在不同的數(shù)據(jù)集中描述同一屬性時采用的數(shù)據(jù)形式不同。(1)缺失數(shù)據(jù)(MissingData)是指需要且感興趣的數(shù)據(jù)沒有具體的數(shù)值,產(chǎn)生這樣問題的原因主要有兩種。第一種是主觀原因,即沒有采集到相關(guān)數(shù)據(jù)。(3)冗余數(shù)據(jù)(Redundant/DuplicatedData)是指重復(fù)的或可相互替代的信息多次出現(xiàn)。(5)數(shù)據(jù)龐雜也是當(dāng)今真實數(shù)據(jù)的一個典型問題,也是大數(shù)據(jù)時代的一個重要特征。數(shù)據(jù)預(yù)處理簡介數(shù)據(jù)預(yù)處理的原因正是因為數(shù)據(jù)缺失、數(shù)據(jù)錯誤、數(shù)據(jù)冗余、數(shù)據(jù)不一致和數(shù)據(jù)龐雜等諸多問題在真實數(shù)據(jù)中頻繁出現(xiàn),數(shù)據(jù)預(yù)處理已成為商務(wù)智能中必不可少的一個關(guān)鍵環(huán)節(jié)。它通過對不完整、有錯誤、有冗余、不一致和龐雜的真實數(shù)據(jù)進(jìn)行必要的處理,可以提高數(shù)據(jù)的準(zhǔn)確性和實用性。數(shù)據(jù)預(yù)處理簡介數(shù)據(jù)預(yù)處理的目的數(shù)據(jù)清洗主要針對數(shù)據(jù)的準(zhǔn)確性問題,包含減輕或消除數(shù)據(jù)缺失和數(shù)據(jù)錯誤兩方面的問題,主要方法是填補(bǔ)缺失數(shù)據(jù)和消除噪聲數(shù)據(jù)。1.數(shù)據(jù)清洗數(shù)據(jù)的集成、規(guī)范與歸納主要針對數(shù)據(jù)的實用性問題,包含減輕或消除數(shù)據(jù)不一致性。2.數(shù)據(jù)集成、規(guī)范與歸納數(shù)據(jù)消減主要針對數(shù)據(jù)的實用性問題,重點是解決數(shù)據(jù)龐雜且規(guī)模過大的問題。3.數(shù)據(jù)消減數(shù)據(jù)預(yù)處理的方法數(shù)據(jù)預(yù)處理簡介02數(shù)據(jù)清洗(1)人工處理法(ManualCleaning)是指當(dāng)一個記錄的屬性值缺失時,通過查找原始的記錄,或者請教專家手工填補(bǔ)所缺失的數(shù)值。這種方法的好處是,當(dāng)缺失數(shù)據(jù)比較少時,填補(bǔ)數(shù)值的準(zhǔn)確度相對較高。但是當(dāng)缺失的數(shù)據(jù)比較多時,采用人工處理的方法效率太低,而且更容易出錯,可行性差。數(shù)據(jù)清洗(2)自動處理法(AutomatedCleaning)是指當(dāng)一個記錄的屬性值有缺失時,通過已有的程序自動處理缺失。這種方法的好處是,當(dāng)缺失數(shù)據(jù)規(guī)模很大時,在效率上優(yōu)于人工處理方法。但是在很大程度上依賴于處理缺失數(shù)據(jù)的程序,缺乏靈活性和智能性,在處理少量缺失數(shù)據(jù)的時候不如人工處理準(zhǔn)確度高。缺失數(shù)據(jù)處理1.根據(jù)處理主體分類(1)對于缺失數(shù)據(jù)最直接的做法就是直接忽略。直接忽略法是指,當(dāng)有一個記錄的屬性值有缺失時,則在數(shù)據(jù)分析中直接刪除此記錄,不予考慮。(2)填補(bǔ)默認(rèn)值法是對直接忽略法的改進(jìn),即對于那些對數(shù)據(jù)分析影響不大的缺失數(shù)據(jù)統(tǒng)一填補(bǔ)一個適當(dāng)?shù)哪J(rèn)值(DefaultValue),以避免浪費(fèi)大量數(shù)據(jù)。(3)針對補(bǔ)充默認(rèn)值法可進(jìn)一步進(jìn)行改進(jìn),即根據(jù)已有數(shù)據(jù)科學(xué)合理地推算缺失的數(shù)據(jù),得到依據(jù)其他數(shù)據(jù)填補(bǔ)缺失值的方法。數(shù)據(jù)清洗2.根據(jù)處理方法分類1.分箱方法(1)等深分箱,即每個箱的數(shù)值個數(shù)相等。(2)等寬分箱,即每個箱中的數(shù)值跨度相同。2.機(jī)器學(xué)習(xí)方法機(jī)器學(xué)習(xí)的方法是指利用聚類、回歸分析、貝葉斯計算、決策樹和人工神經(jīng)元網(wǎng)絡(luò)等機(jī)器學(xué)習(xí)方法對數(shù)據(jù)進(jìn)行自動平滑處理。3.人機(jī)結(jié)合方法人機(jī)結(jié)合方法是對機(jī)器學(xué)習(xí)方法的改進(jìn),通過將計算機(jī)檢查和人工檢查相結(jié)合的方法來綜合發(fā)現(xiàn)異常數(shù)據(jù)。數(shù)據(jù)清洗噪聲數(shù)據(jù)處理03數(shù)據(jù)集成、規(guī)范與歸納數(shù)據(jù)集成是將不同數(shù)據(jù)源的數(shù)據(jù),如各種數(shù)據(jù)庫文件、網(wǎng)頁文件等結(jié)合在一起,形成一個統(tǒng)一的數(shù)據(jù)集合,并且為之后的數(shù)據(jù)處理(如聚合(Aggregation)、在線分析處理(OLAP)及知識發(fā)現(xiàn))打下必要的數(shù)據(jù)基礎(chǔ)。引發(fā)不一致數(shù)據(jù)的原因主要有兩種:第一種是由不同的數(shù)據(jù)結(jié)構(gòu)引發(fā)的數(shù)據(jù)不一致。第二種是由不同的語義結(jié)構(gòu)引起的數(shù)據(jù)不一致。數(shù)據(jù)集成、規(guī)范與歸納數(shù)據(jù)集成處理是對初始化后的數(shù)據(jù)進(jìn)行線性映射。1.最小最大化方法通過移動屬性值的小數(shù)點規(guī)范化屬性的取值,確保其范圍為[-1,+1]。2.十基數(shù)方法現(xiàn)在在各種數(shù)據(jù)挖掘算法中被廣泛使用,通過使用屬性的均值和標(biāo)準(zhǔn)差進(jìn)行屬性規(guī)范化。3.標(biāo)準(zhǔn)差方法數(shù)據(jù)規(guī)范化處理數(shù)據(jù)集成、規(guī)范與歸納(1)按照要求選出適當(dāng)?shù)臄?shù)據(jù)。(2)選出的數(shù)據(jù)能夠進(jìn)行適當(dāng)?shù)膶傩愿呕徒稻S。(3)可以將選出的數(shù)據(jù)合理地展示,即數(shù)據(jù)表示。數(shù)據(jù)集成、規(guī)范與歸納數(shù)據(jù)歸納處理屬性概化實際上是對屬性值的概括過程。對數(shù)據(jù)最好的概括方法之一就是將相同或相似的數(shù)據(jù)歸類。1.屬性概化在屬性概化過程中通常會發(fā)現(xiàn)一些問題。2.屬性降維選出客戶感興趣的數(shù)據(jù),對通過屬性概化和降維后得到的結(jié)果還需要通過合理的方法表示出來,即數(shù)據(jù)表示。3.數(shù)據(jù)表示數(shù)據(jù)歸納處理數(shù)據(jù)集成、規(guī)范與歸納04數(shù)據(jù)消減在大規(guī)模的數(shù)據(jù)集合中,尤其是經(jīng)過數(shù)據(jù)集成后的數(shù)據(jù)集合中往往會出現(xiàn)冗余數(shù)據(jù)。冗余數(shù)據(jù)主要有兩種。數(shù)據(jù)消減一種是數(shù)據(jù)記錄本身有重復(fù)(DuplicateData),即同一個記錄出現(xiàn)多次。另一種是屬性冗余(AttributeRedundancy)。冗余的屬性是指那些可以從其他屬性中推演出來的屬性。數(shù)據(jù)冗余清除01020304(1)無放回簡單隨機(jī)采樣法(3)聚類采樣法(2)有放回簡單隨機(jī)采樣法(4)分層采樣法數(shù)據(jù)消減數(shù)據(jù)采樣合計是統(tǒng)計中最常用的方法,可以將大量的數(shù)據(jù)濃縮在一起,從整體上對數(shù)據(jù)有一個統(tǒng)一的認(rèn)識。數(shù)據(jù)立方合計是指將原始數(shù)據(jù)庫中的數(shù)據(jù)根據(jù)需要進(jìn)行合計。在數(shù)據(jù)立方合計中,最低的層次樹所建立的數(shù)據(jù)立方稱為基立方,最高的層次樹所建立的數(shù)據(jù)立方稱為頂立方。數(shù)據(jù)集成、規(guī)范與歸納數(shù)據(jù)立方合計(1)逐步添加法。將選出屬性子集初始化為空集,每次從原有的屬性集合中選擇一個最優(yōu)的屬性添加到選出的屬性子集中,直到選出的子集滿足不再添加新屬性的要求為止。(2)逐步消減法。將選出屬性子集初始化為全集,每次從選出屬性子集中去除一個最差的屬性,直到滿足了不再去除屬性的要求為止。(3)添加消減法。此方法將逐步添加法和逐步消減法相結(jié)合,選取一定數(shù)量的屬性作為初始子集,然后從剩余的屬性中選取最優(yōu)的屬性添加到選定的子集中,并從選定的子集中去除當(dāng)前最差的屬性,直到滿足不再能添加或去除的條件為止。數(shù)據(jù)集成、規(guī)范與歸納數(shù)據(jù)屬性選取與生成1.傅里葉變換傅里葉變換是由法國數(shù)學(xué)家JeanFourier創(chuàng)立的。2.小波變換小波變換的概念最早由法國石油信號處理工程師J.Morlet于1974年率先提出,盡管其方法在工程上已經(jīng)開始應(yīng)用,但是并沒有得到數(shù)學(xué)家們的廣泛認(rèn)可。3.主成分分析主成分分析(PrincipalComponentsAnalysis,PCA),也稱主分量分析,主要是利用降維的思想,把多屬性轉(zhuǎn)化為少數(shù)幾個綜合屬性。數(shù)據(jù)集成、規(guī)范與歸納數(shù)據(jù)壓縮1.分箱法與之前介紹的用于平滑噪聲的分箱法類似,將屬性的值分配到各箱中,以離散化。2.直方圖法某特定屬性的直方圖法就是根據(jù)該屬性數(shù)據(jù)的分布將其劃分為幾個不相交的子集。3.自然劃分法也是一種直觀和易懂的方法。4.聚類法

聚類以多維空間的距離為基礎(chǔ),將相互靠近的對象聚合在一起形成類別,同類別的對象往往具有相同或相似特征值。5.基于熵的離散化方法數(shù)據(jù)集成、規(guī)范與歸納數(shù)據(jù)離散化與概念分層謝謝觀看商務(wù)智能原理與方法(第三版)普通高等教育“十一五”國家級規(guī)劃教材關(guān)聯(lián)規(guī)則普通高等教育“十一五”國家級規(guī)劃教材商務(wù)智能原理與方法(第三版)第七章01關(guān)聯(lián)規(guī)則簡介關(guān)聯(lián)規(guī)則(AssociationRule,AR)反映了一種特定的數(shù)據(jù)對象之間的聯(lián)系。此外,這種關(guān)聯(lián)知識還有助于進(jìn)行庫存管理。在決定是否對某種薄利或滯銷商品進(jìn)行清倉和減持處理時,可能需要分析是否存在著其他聯(lián)動購買行為。如果得知聯(lián)動購買的其他商品能夠帶來較好的營業(yè)額和利潤,庫存策略會進(jìn)行調(diào)整。商務(wù)智能簡介02關(guān)聯(lián)規(guī)則挖掘方法如上所述,支持度和置信度是評估關(guān)聯(lián)規(guī)則的兩個基本測度。進(jìn)一步討論關(guān)聯(lián)規(guī)則在這兩個測度上的性質(zhì)對于關(guān)聯(lián)規(guī)則的挖掘和應(yīng)用很有意義。關(guān)聯(lián)規(guī)則挖掘方法基于上述思路的關(guān)聯(lián)規(guī)則挖掘的經(jīng)典方法是Apriori方法。該過程主要包含連接和剪枝兩個處理步驟。(1)連接步驟。(2)剪枝步驟。03關(guān)聯(lián)規(guī)則興趣性010203041.Lift3.Improvement2.Influence4.IntensityofImplication關(guān)聯(lián)規(guī)則興趣性04關(guān)聯(lián)規(guī)則知識形式擴(kuò)展在形如X?Y的布爾關(guān)聯(lián)規(guī)則的挖掘中,支持度和置信度作為兩個基本測度來衡量關(guān)于X和Y事件出現(xiàn)的頻繁程度。那些滿足支持度和置信度閾值(α和β)的規(guī)則會作為合格關(guān)聯(lián)規(guī)則被挖掘出來。關(guān)聯(lián)規(guī)則知識形式擴(kuò)展廣義關(guān)聯(lián)規(guī)則在實際應(yīng)用中,碰到的數(shù)據(jù)項經(jīng)常都是類別數(shù)據(jù)或數(shù)值數(shù)據(jù),如商品的數(shù)量、家庭的收入、客戶的年齡等。對應(yīng)的數(shù)據(jù)項屬性分別稱作多值屬性和連續(xù)屬性。本書進(jìn)而把基于多值和連續(xù)數(shù)據(jù)項屬性的關(guān)聯(lián)規(guī)則稱為數(shù)量關(guān)聯(lián)規(guī)則(QuantitativeAssociationRule,QAR)。關(guān)聯(lián)規(guī)則知識形式擴(kuò)展數(shù)量關(guān)聯(lián)規(guī)則即在X發(fā)生的情況下,Y延后t個時間單位發(fā)生。具體來說,對于數(shù)據(jù)項(屬性)的集合I={L,I?,…,Im},以及項集X和Y(X,Y=I),稱XUY為延遲項集,表示數(shù)據(jù)集合或數(shù)據(jù)庫中某條記錄支持X,而在t個時間單位后發(fā)生的事件記錄支持Y。與傳統(tǒng)關(guān)聯(lián)規(guī)則一樣,這里所說某條記錄支持X,是指該記錄包含X。關(guān)聯(lián)規(guī)則知識形式擴(kuò)展時態(tài)關(guān)聯(lián)規(guī)則05簡單關(guān)聯(lián)規(guī)則節(jié)重點討論一類特定的關(guān)聯(lián)規(guī)則,即規(guī)則后項為單個數(shù)據(jù)項的關(guān)聯(lián)規(guī)則,并稱此類規(guī)則為簡單關(guān)聯(lián)規(guī)則(SimpleAssociationRule,SAR)。簡單關(guān)聯(lián)規(guī)則的討論一方面也是源于興趣性的考慮,因為如果關(guān)聯(lián)規(guī)則后項過長,將難以理解和使用,致使興趣性降低。另一方面,形如X→I(XcI,I,eI)的簡單關(guān)聯(lián)規(guī)則具有一些重要的性質(zhì)和用途,值得予以關(guān)注。此外,許多應(yīng)用只需要簡單規(guī)則而不必生成所有的規(guī)則(如分類和一些諸如“P→?”的決策分析需

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論