




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
大數(shù)據(jù)采集與預(yù)處理主講教師:龍霄漢《大數(shù)據(jù)導(dǎo)論》課程Introductiontobigdata數(shù)據(jù)集成數(shù)據(jù)集成011數(shù)據(jù)集成數(shù)據(jù)集成常用的數(shù)據(jù)集成模型有:聯(lián)邦數(shù)據(jù)庫系統(tǒng)、中間件模式、數(shù)據(jù)倉庫模式。數(shù)據(jù)集成模型聯(lián)邦數(shù)據(jù)庫系統(tǒng)中間件模式數(shù)據(jù)倉庫模式數(shù)據(jù)集成聯(lián)邦數(shù)據(jù)庫系統(tǒng)(FDBS)由半自治數(shù)據(jù)庫系統(tǒng)構(gòu)成,相互之間分享數(shù)據(jù),聯(lián)盟各數(shù)據(jù)源之間相互提供訪問接口,同時聯(lián)盟數(shù)據(jù)庫系統(tǒng)可以是集中數(shù)據(jù)庫系統(tǒng)或分布式數(shù)據(jù)庫系統(tǒng)及其他聯(lián)邦式系統(tǒng)。在這種模式下又分為緊耦合和松耦合兩種情況,緊耦合提供統(tǒng)一的訪問模式,一般是靜態(tài)的,在增加數(shù)據(jù)源上比較困難;而松耦合則不提供統(tǒng)一的接口,但可以通過統(tǒng)一的語言訪問數(shù)據(jù)源,其中核心的是必須解決所有數(shù)據(jù)源語義上的問題。數(shù)據(jù)集成中間件模式通過統(tǒng)一的全局?jǐn)?shù)據(jù)模型來訪問異構(gòu)的數(shù)據(jù)庫、遺留系統(tǒng)、Web資源等。中間件位于異構(gòu)數(shù)據(jù)源系統(tǒng)(數(shù)據(jù)層)和應(yīng)用程序(應(yīng)用層)之間,向下協(xié)調(diào)各數(shù)據(jù)源系統(tǒng),向上為訪問集成數(shù)據(jù)的應(yīng)用提供統(tǒng)一數(shù)據(jù)模式和數(shù)據(jù)訪問的通用接口。各數(shù)據(jù)源的應(yīng)用仍然完成它們的任務(wù),中間件系統(tǒng)則主要集中為異構(gòu)數(shù)據(jù)源提供一個高層次檢索服務(wù)。數(shù)據(jù)集成中間件模式是比較流行的數(shù)據(jù)集成方法,它通過在中間層提供一個統(tǒng)一的數(shù)據(jù)邏輯視圖來隱藏底層的數(shù)據(jù)細(xì)節(jié),使得用戶可以把集成數(shù)據(jù)源看為一個統(tǒng)一的整體。這種模型下的關(guān)鍵問題是如何構(gòu)造這個邏輯視圖并使得不同數(shù)據(jù)源之間能映射到這個中間層。圖片來自互聯(lián)網(wǎng)數(shù)據(jù)集成數(shù)據(jù)倉庫是在企業(yè)管理和決策中面向主題的、集成的、與時間相關(guān)的和不可修改的數(shù)據(jù)集合。其中,數(shù)據(jù)被歸類為廣義的、功能上獨立的、沒有重疊的主題。這幾種方法在一定程度上解決了應(yīng)用之間的數(shù)據(jù)共享和互通的問題,但也存在以下的異同:聯(lián)邦數(shù)據(jù)庫系統(tǒng)主要面向多個數(shù)據(jù)庫系統(tǒng)的集成,其中數(shù)據(jù)源有可能要映射到每一個數(shù)據(jù)模式,當(dāng)集成的系統(tǒng)很大時,對實際開發(fā)將帶來巨大的困難。數(shù)據(jù)集成數(shù)據(jù)倉庫技術(shù)則在另外一個層面上表達(dá)數(shù)據(jù)之間的共享,它主要是為了針對企業(yè)某個應(yīng)用領(lǐng)域提出的一種數(shù)據(jù)集成方法,也就是面向主題并為企業(yè)提供數(shù)據(jù)挖掘和決策支持的系統(tǒng)。圖片來自互聯(lián)網(wǎng)數(shù)據(jù)集成對數(shù)據(jù)集成體系結(jié)構(gòu)來說,關(guān)鍵是擁有一個包含有目標(biāo)計劃、源-目標(biāo)映射、數(shù)據(jù)獲得、分級抽取、錯誤恢復(fù)和安全性轉(zhuǎn)換的數(shù)據(jù)高速緩存器。此外,數(shù)據(jù)高速緩存器包含有預(yù)先定制的數(shù)據(jù)抽取工作,這些工作自動地位于一個企業(yè)的后端及數(shù)據(jù)倉庫之中。一個高速緩存器作為企業(yè)和電子商務(wù)數(shù)據(jù)的一個單一集成點,最大限度地減少了對直接訪問后端系統(tǒng)和進(jìn)行復(fù)雜實時集成的需求。這個高速緩存器從后端系統(tǒng)中卸載眾多不必要的數(shù)據(jù)請求,因此使電子商務(wù)公司可以增加更多的用戶,同時讓后端系統(tǒng)從事其指定的工作。數(shù)據(jù)集成在實施數(shù)據(jù)集成時,最重要的是要確保有相對應(yīng)的業(yè)務(wù)需求。常見的業(yè)務(wù)場景有:企業(yè)集團需要統(tǒng)一數(shù)據(jù);當(dāng)企業(yè)產(chǎn)生并購的時候,你可能需要整合所有企業(yè)數(shù)據(jù),將它們集成起來。促進(jìn)系統(tǒng)中的數(shù)據(jù)流;集成多個數(shù)據(jù)源和應(yīng)用,去實施某個業(yè)務(wù)流程。部署新應(yīng)用時可能需要的數(shù)據(jù)集成。一項新的企業(yè)應(yīng)用需要來自現(xiàn)有應(yīng)用程序中的所有數(shù)據(jù)。數(shù)據(jù)集成數(shù)據(jù)集成的關(guān)鍵步驟是:1.與軟件廠商合作
作為企業(yè),讓廠商正確理解你的業(yè)務(wù)需求對自己有益無害。因為只有這樣,廠商高管才能準(zhǔn)確識別并集成所有你需要的數(shù)據(jù)點。2.定義劃分集成優(yōu)先級
列出所有所需的數(shù)據(jù)集成任務(wù),安排好部署計劃。你的目標(biāo)應(yīng)該是在部署或正式投入使用階段之前完成所有的數(shù)據(jù)集成活動,并界定增長數(shù)據(jù)的更新頻率。除此之外,還要本著成本時間的節(jié)約,根據(jù)數(shù)據(jù)集成解決方案對其效益進(jìn)行估測。數(shù)據(jù)集成數(shù)據(jù)集成的關(guān)鍵步驟是:3.選擇合適的集成界面數(shù)據(jù)集成解決方案提供了兩種數(shù)據(jù)界面:單向和雙向。你需要知道應(yīng)該應(yīng)用哪種。單向界面中,數(shù)據(jù)僅從A點傳送到B點,沒有返回或來回的運動。在我們的B2B平臺上,供應(yīng)商能夠追蹤到商店的貨運信息。庫存、付款以及銷售信息都被發(fā)送到B2B平臺上,但沒有任何數(shù)據(jù)返回到這些數(shù)據(jù)源。雙向界面中,數(shù)據(jù)從一個應(yīng)用傳送到另一個應(yīng)用,然后返回。在我們的平臺上,如果部署了一個新的應(yīng)用(如銷售點,POS),產(chǎn)品數(shù)據(jù)就會從商品管理系統(tǒng)發(fā)送到POS上,然后銷售數(shù)據(jù)又會從POS發(fā)回來。數(shù)據(jù)集成數(shù)據(jù)集成的關(guān)鍵步驟是:4.選擇一款正確的接口媒體
選擇接口媒體一定要考慮未來需求和升級問題。數(shù)據(jù)集成有很多種方法——XML、CSV、電子表格、直接數(shù)據(jù)庫連接等等;然而,最簡單的方法不一定最適合,應(yīng)該從多方面進(jìn)行考慮,如可擴展性需求、數(shù)據(jù)容量和預(yù)算開銷等。多年來,基于文本的集成一直很盛行,但是目前有很多企業(yè)都開始使用XML和直接數(shù)據(jù)庫連接。數(shù)據(jù)集成數(shù)據(jù)集成的關(guān)鍵步驟是:5.監(jiān)控流程,設(shè)置多個檢測點
對集成數(shù)據(jù)進(jìn)行微調(diào)。對B2B平臺來說,數(shù)據(jù)集成在每天結(jié)束的時候都會進(jìn)行,而只有增長的數(shù)據(jù)會被傳送到服務(wù)器上。檢測點從源系統(tǒng)開始,分布于各個級別。檢測點可以檢測服務(wù)的問題,自動化系統(tǒng)會檢測輸入數(shù)據(jù)的準(zhǔn)確性。6.保證數(shù)據(jù)的安全性根據(jù)風(fēng)險級別設(shè)置安全政策。如果你只是在內(nèi)網(wǎng)中轉(zhuǎn)換數(shù)據(jù),也許不需要加密;但如果你需要將數(shù)據(jù)對外傳送,可能就要加以防范了。總結(jié)數(shù)據(jù)集成的出現(xiàn)使企業(yè)能夠?qū)⒑蠖说腅RP信息遷移到Internet上。數(shù)據(jù)集成產(chǎn)品在一個公司的Internet計算機與SAP、Oracle和PeopleSo
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 市政工程考試最重要的試題及答案
- 2025年中級經(jīng)濟師考試的復(fù)習(xí)誤區(qū)試題及答案
- 2024-2025公司廠級員工安全培訓(xùn)考試試題答案5A
- 2025年新員工崗前安全培訓(xùn)考試試題及參考答案(培優(yōu)A卷)
- 2025公司廠級安全培訓(xùn)考試試題(各地真題)
- 水利水電工程行業(yè)動態(tài)解析試題及答案
- (高清版)DB34∕T 4991-2025 巖瀝青+SBS復(fù)合改性瀝青混合料設(shè)計與施工技術(shù)規(guī)范
- 2025-2030年針棉織品產(chǎn)業(yè)行業(yè)市場現(xiàn)狀供需分析及投資評估規(guī)劃分析研究報告
- 2025-2030年輕軌交通行業(yè)市場深度調(diào)研及前景趨勢與投資研究報告
- 2025-2030年觀賞樹木產(chǎn)業(yè)市場發(fā)展分析及發(fā)展趨勢與投資研究報告
- 新加坡雇傭合同模板
- 高三英語語法填空專項訓(xùn)練100(附答案)及解析
- 部編人教版語文小學(xué)六年級下冊第四單元主講教材解讀(集體備課)
- 《第一單元 我是信息社會的“原住民”4 鼠標(biāo)操作有方法》教學(xué)設(shè)計-2024-2025學(xué)年閩教版信息技術(shù)三年級上冊
- 【天潤乳業(yè)公司應(yīng)收賬款狀況及完善對策(附問卷)14000字】
- 廣東省深圳實驗、珠海一中等六校2025屆高考壓軸卷歷史試卷含解析
- 2024-2030年中國病號服行業(yè)市場發(fā)展趨勢與前景展望戰(zhàn)略分析報告
- 2024年天津市武清區(qū)國資產(chǎn)經(jīng)營投資限公司面向社會公開選聘工作人員易考易錯模擬試題(共500題)試卷后附參考答案
- 基于STM32F103C8T6單片機的電動車智能充電樁計費系統(tǒng)設(shè)計
- 2024年共青團入團積極分子考試題庫(含答案)
- 人工智能原理與技術(shù)智慧樹知到期末考試答案章節(jié)答案2024年同濟大學(xué)
評論
0/150
提交評論