數(shù)據(jù)集成數(shù)據(jù)集成模型_第1頁
數(shù)據(jù)集成數(shù)據(jù)集成模型_第2頁
數(shù)據(jù)集成數(shù)據(jù)集成模型_第3頁
數(shù)據(jù)集成數(shù)據(jù)集成模型_第4頁
數(shù)據(jù)集成數(shù)據(jù)集成模型_第5頁
已閱讀5頁,還剩12頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

大數(shù)據(jù)采集與預(yù)處理主講教師:龍霄漢《大數(shù)據(jù)導(dǎo)論》課程Introductiontobigdata數(shù)據(jù)集成數(shù)據(jù)集成011數(shù)據(jù)集成數(shù)據(jù)集成常用的數(shù)據(jù)集成模型有:聯(lián)邦數(shù)據(jù)庫系統(tǒng)、中間件模式、數(shù)據(jù)倉庫模式。數(shù)據(jù)集成模型聯(lián)邦數(shù)據(jù)庫系統(tǒng)中間件模式數(shù)據(jù)倉庫模式數(shù)據(jù)集成聯(lián)邦數(shù)據(jù)庫系統(tǒng)(FDBS)由半自治數(shù)據(jù)庫系統(tǒng)構(gòu)成,相互之間分享數(shù)據(jù),聯(lián)盟各數(shù)據(jù)源之間相互提供訪問接口,同時聯(lián)盟數(shù)據(jù)庫系統(tǒng)可以是集中數(shù)據(jù)庫系統(tǒng)或分布式數(shù)據(jù)庫系統(tǒng)及其他聯(lián)邦式系統(tǒng)。在這種模式下又分為緊耦合和松耦合兩種情況,緊耦合提供統(tǒng)一的訪問模式,一般是靜態(tài)的,在增加數(shù)據(jù)源上比較困難;而松耦合則不提供統(tǒng)一的接口,但可以通過統(tǒng)一的語言訪問數(shù)據(jù)源,其中核心的是必須解決所有數(shù)據(jù)源語義上的問題。數(shù)據(jù)集成中間件模式通過統(tǒng)一的全局?jǐn)?shù)據(jù)模型來訪問異構(gòu)的數(shù)據(jù)庫、遺留系統(tǒng)、Web資源等。中間件位于異構(gòu)數(shù)據(jù)源系統(tǒng)(數(shù)據(jù)層)和應(yīng)用程序(應(yīng)用層)之間,向下協(xié)調(diào)各數(shù)據(jù)源系統(tǒng),向上為訪問集成數(shù)據(jù)的應(yīng)用提供統(tǒng)一數(shù)據(jù)模式和數(shù)據(jù)訪問的通用接口。各數(shù)據(jù)源的應(yīng)用仍然完成它們的任務(wù),中間件系統(tǒng)則主要集中為異構(gòu)數(shù)據(jù)源提供一個高層次檢索服務(wù)。數(shù)據(jù)集成中間件模式是比較流行的數(shù)據(jù)集成方法,它通過在中間層提供一個統(tǒng)一的數(shù)據(jù)邏輯視圖來隱藏底層的數(shù)據(jù)細(xì)節(jié),使得用戶可以把集成數(shù)據(jù)源看為一個統(tǒng)一的整體。這種模型下的關(guān)鍵問題是如何構(gòu)造這個邏輯視圖并使得不同數(shù)據(jù)源之間能映射到這個中間層。圖片來自互聯(lián)網(wǎng)數(shù)據(jù)集成數(shù)據(jù)倉庫是在企業(yè)管理和決策中面向主題的、集成的、與時間相關(guān)的和不可修改的數(shù)據(jù)集合。其中,數(shù)據(jù)被歸類為廣義的、功能上獨立的、沒有重疊的主題。這幾種方法在一定程度上解決了應(yīng)用之間的數(shù)據(jù)共享和互通的問題,但也存在以下的異同:聯(lián)邦數(shù)據(jù)庫系統(tǒng)主要面向多個數(shù)據(jù)庫系統(tǒng)的集成,其中數(shù)據(jù)源有可能要映射到每一個數(shù)據(jù)模式,當(dāng)集成的系統(tǒng)很大時,對實際開發(fā)將帶來巨大的困難。數(shù)據(jù)集成數(shù)據(jù)倉庫技術(shù)則在另外一個層面上表達(dá)數(shù)據(jù)之間的共享,它主要是為了針對企業(yè)某個應(yīng)用領(lǐng)域提出的一種數(shù)據(jù)集成方法,也就是面向主題并為企業(yè)提供數(shù)據(jù)挖掘和決策支持的系統(tǒng)。圖片來自互聯(lián)網(wǎng)數(shù)據(jù)集成對數(shù)據(jù)集成體系結(jié)構(gòu)來說,關(guān)鍵是擁有一個包含有目標(biāo)計劃、源-目標(biāo)映射、數(shù)據(jù)獲得、分級抽取、錯誤恢復(fù)和安全性轉(zhuǎn)換的數(shù)據(jù)高速緩存器。此外,數(shù)據(jù)高速緩存器包含有預(yù)先定制的數(shù)據(jù)抽取工作,這些工作自動地位于一個企業(yè)的后端及數(shù)據(jù)倉庫之中。一個高速緩存器作為企業(yè)和電子商務(wù)數(shù)據(jù)的一個單一集成點,最大限度地減少了對直接訪問后端系統(tǒng)和進(jìn)行復(fù)雜實時集成的需求。這個高速緩存器從后端系統(tǒng)中卸載眾多不必要的數(shù)據(jù)請求,因此使電子商務(wù)公司可以增加更多的用戶,同時讓后端系統(tǒng)從事其指定的工作。數(shù)據(jù)集成在實施數(shù)據(jù)集成時,最重要的是要確保有相對應(yīng)的業(yè)務(wù)需求。常見的業(yè)務(wù)場景有:企業(yè)集團需要統(tǒng)一數(shù)據(jù);當(dāng)企業(yè)產(chǎn)生并購的時候,你可能需要整合所有企業(yè)數(shù)據(jù),將它們集成起來。促進(jìn)系統(tǒng)中的數(shù)據(jù)流;集成多個數(shù)據(jù)源和應(yīng)用,去實施某個業(yè)務(wù)流程。部署新應(yīng)用時可能需要的數(shù)據(jù)集成。一項新的企業(yè)應(yīng)用需要來自現(xiàn)有應(yīng)用程序中的所有數(shù)據(jù)。數(shù)據(jù)集成數(shù)據(jù)集成的關(guān)鍵步驟是:1.與軟件廠商合作

作為企業(yè),讓廠商正確理解你的業(yè)務(wù)需求對自己有益無害。因為只有這樣,廠商高管才能準(zhǔn)確識別并集成所有你需要的數(shù)據(jù)點。2.定義劃分集成優(yōu)先級

列出所有所需的數(shù)據(jù)集成任務(wù),安排好部署計劃。你的目標(biāo)應(yīng)該是在部署或正式投入使用階段之前完成所有的數(shù)據(jù)集成活動,并界定增長數(shù)據(jù)的更新頻率。除此之外,還要本著成本時間的節(jié)約,根據(jù)數(shù)據(jù)集成解決方案對其效益進(jìn)行估測。數(shù)據(jù)集成數(shù)據(jù)集成的關(guān)鍵步驟是:3.選擇合適的集成界面數(shù)據(jù)集成解決方案提供了兩種數(shù)據(jù)界面:單向和雙向。你需要知道應(yīng)該應(yīng)用哪種。單向界面中,數(shù)據(jù)僅從A點傳送到B點,沒有返回或來回的運動。在我們的B2B平臺上,供應(yīng)商能夠追蹤到商店的貨運信息。庫存、付款以及銷售信息都被發(fā)送到B2B平臺上,但沒有任何數(shù)據(jù)返回到這些數(shù)據(jù)源。雙向界面中,數(shù)據(jù)從一個應(yīng)用傳送到另一個應(yīng)用,然后返回。在我們的平臺上,如果部署了一個新的應(yīng)用(如銷售點,POS),產(chǎn)品數(shù)據(jù)就會從商品管理系統(tǒng)發(fā)送到POS上,然后銷售數(shù)據(jù)又會從POS發(fā)回來。數(shù)據(jù)集成數(shù)據(jù)集成的關(guān)鍵步驟是:4.選擇一款正確的接口媒體

選擇接口媒體一定要考慮未來需求和升級問題。數(shù)據(jù)集成有很多種方法——XML、CSV、電子表格、直接數(shù)據(jù)庫連接等等;然而,最簡單的方法不一定最適合,應(yīng)該從多方面進(jìn)行考慮,如可擴展性需求、數(shù)據(jù)容量和預(yù)算開銷等。多年來,基于文本的集成一直很盛行,但是目前有很多企業(yè)都開始使用XML和直接數(shù)據(jù)庫連接。數(shù)據(jù)集成數(shù)據(jù)集成的關(guān)鍵步驟是:5.監(jiān)控流程,設(shè)置多個檢測點

對集成數(shù)據(jù)進(jìn)行微調(diào)。對B2B平臺來說,數(shù)據(jù)集成在每天結(jié)束的時候都會進(jìn)行,而只有增長的數(shù)據(jù)會被傳送到服務(wù)器上。檢測點從源系統(tǒng)開始,分布于各個級別。檢測點可以檢測服務(wù)的問題,自動化系統(tǒng)會檢測輸入數(shù)據(jù)的準(zhǔn)確性。6.保證數(shù)據(jù)的安全性根據(jù)風(fēng)險級別設(shè)置安全政策。如果你只是在內(nèi)網(wǎng)中轉(zhuǎn)換數(shù)據(jù),也許不需要加密;但如果你需要將數(shù)據(jù)對外傳送,可能就要加以防范了。總結(jié)數(shù)據(jù)集成的出現(xiàn)使企業(yè)能夠?qū)⒑蠖说腅RP信息遷移到Internet上。數(shù)據(jù)集成產(chǎn)品在一個公司的Internet計算機與SAP、Oracle和PeopleSo

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論