




已閱讀5頁(yè),還剩92頁(yè)未讀, 繼續(xù)免費(fèi)閱讀
版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
大數(shù)據(jù)治理為業(yè)務(wù)提供持續(xù)的、可度量的價(jià)值目錄大數(shù)據(jù)治理為業(yè)務(wù)提供持續(xù)的、可度量的價(jià)值1概述1大數(shù)據(jù)治理系列1第一部分:大數(shù)據(jù)治理統(tǒng)一流程模型概述和明確元數(shù)據(jù)管理策略2第二部分:元數(shù)據(jù)集成體系結(jié)構(gòu)14第三部分:實(shí)施元數(shù)據(jù)管理24第四部分:大數(shù)據(jù)治理統(tǒng)一流程參考模型的第四步到第九步36第五部分:定義度量值和主數(shù)據(jù)監(jiān)管52第六部分:大數(shù)據(jù)監(jiān)管和信息單一視圖監(jiān)管66第七部分:分析監(jiān)管、安全與隱私管理和信息生命周期監(jiān)管79概述面對(duì)我們身邊每時(shí)每刻迅速增長(zhǎng)的龐大數(shù)據(jù),因?yàn)槠鋽?shù)量大、速度快、種類(lèi)多和準(zhǔn)確性的特征,如何更好地利用大數(shù)據(jù)創(chuàng)造出有意義的價(jià)值,一直是我們探索的重要話(huà)題。而在這之前,就需要用科學(xué)正確的方法策略對(duì)大數(shù)據(jù)進(jìn)行治理。大數(shù)據(jù)治理是指制定與大數(shù)據(jù)有關(guān)的數(shù)據(jù)優(yōu)化、隱私保護(hù)與數(shù)據(jù)變現(xiàn)的政策,是傳統(tǒng)信息治理的延續(xù)和擴(kuò)展,也是大數(shù)據(jù)分析的基礎(chǔ),還是連接大數(shù)據(jù)科學(xué)和應(yīng)用的橋梁,因此大數(shù)據(jù)治理是大數(shù)據(jù)再創(chuàng)高峰的“必修課”。下面我們將與您分享新鮮出爐的大數(shù)據(jù)治理方案。大數(shù)據(jù)治理系列本系列共分為七個(gè)部分,圍繞大數(shù)據(jù)治理統(tǒng)一流程參考模型,并結(jié)合實(shí)際業(yè)務(wù)問(wèn)題和IBM相應(yīng)的產(chǎn)品解決方案展開(kāi)敘述。第一部分:大數(shù)據(jù)治理統(tǒng)一流程模型概述和明確元數(shù)據(jù)管理策略為了更好地幫助企業(yè)進(jìn)行大數(shù)據(jù)治理,筆者在IBM數(shù)據(jù)治理統(tǒng)一流程模型基礎(chǔ)上結(jié)合在電信、金融、政府等行業(yè)進(jìn)行大數(shù)據(jù)治理的經(jīng)驗(yàn),整理出了大數(shù)據(jù)治理統(tǒng)一流程參考模型。本文主要介紹了大數(shù)據(jù)治理的基本概念,以及結(jié)合圖文并茂的方式講解了大數(shù)據(jù)治理統(tǒng)一流程參考模型的前兩步:“明確元數(shù)據(jù)管理策略”和“元數(shù)據(jù)集成體系結(jié)構(gòu)”內(nèi)容。大數(shù)據(jù)治理概述(狹義)大數(shù)據(jù)是指無(wú)法使用傳統(tǒng)流程或工具在合理的時(shí)間和成本內(nèi)處理或分析的信息,這些信息將用來(lái)幫助企業(yè)更智慧地經(jīng)營(yíng)和決策。而廣義的大數(shù)據(jù)更是指企業(yè)需要處理的海量數(shù)據(jù),包括傳統(tǒng)數(shù)據(jù)以及狹義的大數(shù)據(jù)。(廣義)大數(shù)據(jù)可以分為五個(gè)類(lèi)型:Web和社交媒體數(shù)據(jù)、機(jī)器對(duì)機(jī)器(M2M)數(shù)據(jù)、海量交易數(shù)據(jù)、生物計(jì)量學(xué)數(shù)據(jù)和人工生成的數(shù)據(jù)。l Web和社交媒體數(shù)據(jù):比如各種微博、博客、社交網(wǎng)站、購(gòu)物網(wǎng)站中的數(shù)據(jù)和內(nèi)容。l M2M數(shù)據(jù):也就是機(jī)器對(duì)機(jī)器的數(shù)據(jù),比如RFID數(shù)據(jù)、GPS數(shù)據(jù)、智能儀表、監(jiān)控記錄數(shù)據(jù)以及其他各種傳感器、監(jiān)控器的數(shù)據(jù)。l 海量交易數(shù)據(jù):是各種海量的交易記錄以及交易相關(guān)的半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),比如電信行業(yè)的CDR、3G上網(wǎng)記錄等,金融行業(yè)的網(wǎng)上交易記錄、corebanking記錄、理財(cái)記錄等,保險(xiǎn)行業(yè)的各種理賠等。l 生物計(jì)量學(xué)數(shù)據(jù):是指和人體識(shí)別相關(guān)的生物識(shí)別信息,如指紋、DNA、虹膜、視網(wǎng)膜、人臉、聲音模式、筆跡等。l 人工生成的數(shù)據(jù):比如各種調(diào)查問(wèn)卷、電子郵件、紙質(zhì)文件、掃描件、錄音和電子病歷等。在各行各業(yè)中,隨處可見(jiàn)因數(shù)量、速度、種類(lèi)和準(zhǔn)確性結(jié)合帶來(lái)的大數(shù)據(jù)問(wèn)題,為了更好地利用大數(shù)據(jù),大數(shù)據(jù)治理逐漸提上日程。在傳統(tǒng)系統(tǒng)中,數(shù)據(jù)需要先存儲(chǔ)到關(guān)系型數(shù)據(jù)庫(kù)/數(shù)據(jù)倉(cāng)庫(kù)后再進(jìn)行各種查詢(xún)和分析,這些數(shù)據(jù)我們稱(chēng)之為靜態(tài)數(shù)據(jù)。而在大數(shù)據(jù)時(shí)代,除了靜態(tài)數(shù)據(jù)以外,還有很多數(shù)據(jù)對(duì)實(shí)時(shí)性要求非常高,需要在采集數(shù)據(jù)時(shí)就進(jìn)行相應(yīng)的處理,處理結(jié)果存入到關(guān)系型數(shù)據(jù)庫(kù)/數(shù)據(jù)倉(cāng)庫(kù)、MPP數(shù)據(jù)庫(kù)、Hadoop平臺(tái)、各種NoSQL數(shù)據(jù)庫(kù)等,這些數(shù)據(jù)我們稱(chēng)之為動(dòng)態(tài)數(shù)據(jù)。比如高鐵機(jī)車(chē)的關(guān)鍵零部件上裝有成百上千的傳感器,每時(shí)每刻都在生成設(shè)備狀態(tài)信息,企業(yè)需要實(shí)時(shí)收集這些數(shù)據(jù)并進(jìn)行分析,當(dāng)發(fā)現(xiàn)設(shè)備可能出現(xiàn)問(wèn)題時(shí)及時(shí)告警。再比如在電信行業(yè),基于用戶(hù)通信行為的精準(zhǔn)營(yíng)銷(xiāo)、位置營(yíng)銷(xiāo)等,都會(huì)實(shí)時(shí)的采集用戶(hù)數(shù)據(jù)并根據(jù)業(yè)務(wù)模型進(jìn)行相應(yīng)的營(yíng)銷(xiāo)活動(dòng)。大數(shù)據(jù)治理的核心是為業(yè)務(wù)提供持續(xù)的、可度量的價(jià)值。大數(shù)據(jù)治理人員需要定期與企業(yè)高層管理人員進(jìn)行溝通,保證大數(shù)據(jù)治理計(jì)劃可以持續(xù)獲得支持和幫助。相信隨著時(shí)間的推移,大數(shù)據(jù)將成為主流,企業(yè)可以從海量的數(shù)據(jù)中獲得更多的價(jià)值,而大數(shù)據(jù)治理的范圍和嚴(yán)格程度也將逐步上升。為了更好地幫助企業(yè)進(jìn)行大數(shù)據(jù)治理,筆者在IBM數(shù)據(jù)治理統(tǒng)一流程模型基礎(chǔ)上結(jié)合在電信、金融、政府等行業(yè)進(jìn)行大數(shù)據(jù)治理的經(jīng)驗(yàn),整理了大數(shù)據(jù)治理統(tǒng)一流程參考模型,整個(gè)參考模型分為必選步驟和可選步驟兩部分。大數(shù)據(jù)治理統(tǒng)一流程參考模型如圖1所示,大數(shù)據(jù)治理統(tǒng)一流程參考模型必要步驟分為兩個(gè)方向:一條子線是在制定元數(shù)據(jù)管理策略和確立體系結(jié)構(gòu)的基礎(chǔ)上實(shí)施全面的元數(shù)據(jù)管理,另一條子線是在定義業(yè)務(wù)問(wèn)題、執(zhí)行成熟度評(píng)估的基礎(chǔ)上定義數(shù)據(jù)治理路線圖以及定義數(shù)值治理相關(guān)的度量值。在11個(gè)必要步驟的基礎(chǔ)上,企業(yè)可以在7個(gè)可選步驟中選擇一個(gè)或多個(gè)途徑進(jìn)行特定領(lǐng)域的數(shù)據(jù)治理,可選步驟為:主數(shù)據(jù)監(jiān)管、(狹義)大數(shù)據(jù)監(jiān)管、信息單一視圖監(jiān)管、運(yùn)營(yíng)分析監(jiān)管、預(yù)測(cè)分析監(jiān)管、管理安全與隱私以及監(jiān)管信息生命周期。企業(yè)需要定期對(duì)大數(shù)據(jù)治理統(tǒng)一流程進(jìn)行度量并將結(jié)果發(fā)送給主管級(jí)發(fā)起人。圖1大數(shù)據(jù)治理統(tǒng)一流程參考模型第一步:明確元數(shù)據(jù)管理策略在最開(kāi)始的時(shí)候,元數(shù)據(jù)(MetaData)是指描述數(shù)據(jù)的數(shù)據(jù),通常由信息結(jié)構(gòu)的描述組成,隨著技術(shù)的發(fā)展元數(shù)據(jù)內(nèi)涵有了非常大的擴(kuò)展,比如UML模型、數(shù)據(jù)交易規(guī)則、用Java,.NET,C+等編寫(xiě)的APIs、業(yè)務(wù)流程和工作流模型、產(chǎn)品配置描述和調(diào)優(yōu)參數(shù)以及各種業(yè)務(wù)規(guī)則、術(shù)語(yǔ)和定義等1。在大數(shù)據(jù)時(shí)代,元數(shù)據(jù)還應(yīng)該包括對(duì)各種新數(shù)據(jù)類(lèi)型的描述,如對(duì)位置、名字、用戶(hù)點(diǎn)擊次數(shù)、音頻、視頻、圖片、各種無(wú)線感知設(shè)備數(shù)據(jù)和各種監(jiān)控設(shè)備數(shù)據(jù)等的描述等。元數(shù)據(jù)通常分為業(yè)務(wù)元數(shù)據(jù)、技術(shù)元數(shù)據(jù)和操作元數(shù)據(jù)等。業(yè)務(wù)元數(shù)據(jù)主要包括業(yè)務(wù)規(guī)則、定義、術(shù)語(yǔ)、術(shù)語(yǔ)表、運(yùn)算法則和系統(tǒng)使用業(yè)務(wù)語(yǔ)言等,主要使用者是業(yè)務(wù)用戶(hù)。技術(shù)元數(shù)據(jù)主要用來(lái)定義信息供應(yīng)鏈(Information Supply Chain,ISC)各類(lèi)組成部分元數(shù)據(jù)結(jié)構(gòu),具體包括各個(gè)系統(tǒng)表和字段結(jié)構(gòu)、屬性、出處、依賴(lài)性等,以及存儲(chǔ)過(guò)程、函數(shù)、序列等各種對(duì)象。操作元數(shù)據(jù)是指應(yīng)用程序運(yùn)行信息,比如其頻率、記錄數(shù)以及各個(gè)組件的分析和其它統(tǒng)計(jì)信息等。從整個(gè)企業(yè)層面來(lái)說(shuō),各種工具軟件和應(yīng)用程序越來(lái)越復(fù)雜,相互依存度逐年增加,相應(yīng)的追蹤整個(gè)信息供應(yīng)鏈各組件之間數(shù)據(jù)流動(dòng)、了解數(shù)據(jù)元素含義和上下文的需求越來(lái)越強(qiáng)烈。在從應(yīng)用議程往信息議程的轉(zhuǎn)變過(guò)程中,元數(shù)據(jù)管理也逐漸從局部存儲(chǔ)和管理轉(zhuǎn)向共享。從總量上來(lái)看,整個(gè)企業(yè)的元數(shù)據(jù)越來(lái)越多,光現(xiàn)有的數(shù)據(jù)模型中就包含了成千上萬(wàn)的表,同時(shí)還有更多的模型等著上線,同時(shí)隨著大數(shù)據(jù)時(shí)代的來(lái)臨,企業(yè)需要處理的數(shù)據(jù)類(lèi)型越來(lái)越多。為了企業(yè)更高效地運(yùn)轉(zhuǎn),企業(yè)需要明確元數(shù)據(jù)管理策略和元數(shù)據(jù)集成體系結(jié)構(gòu),依托成熟的方法論和工具實(shí)現(xiàn)元數(shù)據(jù)管理,并有步驟的提升其元數(shù)據(jù)管理成熟度。為了實(shí)現(xiàn)大數(shù)據(jù)治理,構(gòu)建智慧的分析洞察,企業(yè)需要實(shí)現(xiàn)貫穿整個(gè)企業(yè)的元數(shù)據(jù)集成,建立完整且一致的元數(shù)據(jù)管理策略,該策略不僅僅針對(duì)某個(gè)數(shù)據(jù)倉(cāng)庫(kù)項(xiàng)目、業(yè)務(wù)分析項(xiàng)目、某個(gè)大數(shù)據(jù)項(xiàng)目或某個(gè)應(yīng)用單獨(dú)制定一個(gè)管理策略,而是針對(duì)整個(gè)企業(yè)構(gòu)建完整的管理策略。元數(shù)據(jù)管理策略也不是技術(shù)標(biāo)準(zhǔn)或某個(gè)軟件工具可以取代的,無(wú)論軟件工具功能多強(qiáng)大都不能完全替代一個(gè)完整一致的元數(shù)據(jù)管理策略,反而在定義元數(shù)據(jù)集成體系結(jié)構(gòu)以及選購(gòu)元數(shù)據(jù)管理工具之前需要定義元數(shù)據(jù)管理策略。元數(shù)據(jù)管理策略需要明確企業(yè)元數(shù)據(jù)管理的愿景、目標(biāo)、需求、約束和策略等,依據(jù)企業(yè)自身當(dāng)前以及未來(lái)的需要確定要實(shí)現(xiàn)的元數(shù)據(jù)管理成熟度以及實(shí)現(xiàn)目標(biāo)成熟度的路線圖,完成基礎(chǔ)本體、領(lǐng)域本體、任務(wù)本體和應(yīng)用本體的構(gòu)建,確定元數(shù)據(jù)管理的安全策略、版本控制、元數(shù)據(jù)訂閱推送等。企業(yè)需要對(duì)業(yè)務(wù)術(shù)語(yǔ)、技術(shù)術(shù)語(yǔ)中的敏感數(shù)據(jù)進(jìn)行標(biāo)記和分類(lèi),制定相應(yīng)的數(shù)據(jù)隱私保護(hù)政策,確保企業(yè)在隱私保護(hù)方面符合當(dāng)?shù)仉[私方面的法律法規(guī),如果企業(yè)有跨國(guó)數(shù)據(jù)交換、元數(shù)據(jù)交換的需求,也要遵循涉及國(guó)家的法律法規(guī)要求。企業(yè)需要保證每個(gè)元數(shù)據(jù)元素在信息供應(yīng)鏈中每個(gè)組件中語(yǔ)義上保持一致,也就是語(yǔ)義等效(semantic equivalence)。語(yǔ)義等效可以強(qiáng)也可以弱,在一個(gè)元數(shù)據(jù)集成方案中,語(yǔ)義等效(平均)越強(qiáng)則整個(gè)方案的效率越高。語(yǔ)義等效的強(qiáng)弱程度直接影響元數(shù)據(jù)的共享和重用。本體(人工智能和計(jì)算機(jī)科學(xué))本體(Ontology)源自哲學(xué)本體論,而哲學(xué)本體論則是源自哲學(xué)中“形而上學(xué)”分支。本體有時(shí)也被翻譯成本體論,在人工智能和計(jì)算機(jī)科學(xué)領(lǐng)域本體最早源于上世紀(jì)70年代中期,隨著人工智能的發(fā)展人們發(fā)現(xiàn)知識(shí)的獲取是構(gòu)建強(qiáng)大人工智能系統(tǒng)的關(guān)鍵,于是開(kāi)始將新的本體創(chuàng)建為計(jì)算機(jī)模型從而實(shí)現(xiàn)特定類(lèi)型的自動(dòng)化推理。之后到了上世紀(jì)80年代,人工智能領(lǐng)域開(kāi)始使用本體表示模型化時(shí)間的一種理論以及知識(shí)系統(tǒng)的一種組件,認(rèn)為本體(人工智能)是一種應(yīng)用哲學(xué)。最早的本體(人工智能和計(jì)算機(jī)科學(xué))定義是Neches等人在1991給出的:“一個(gè)本體定義了組成主題領(lǐng)域的詞匯的基本術(shù)語(yǔ)和關(guān)系,以及用于組合術(shù)語(yǔ)和關(guān)系以及定義詞匯外延的規(guī)則”。而第一次被業(yè)界廣泛接受的本體定義出自Tom Gruber,其在1993年提出:“本體是概念化的顯式的表示(規(guī)格說(shuō)明)”。Borst 在1997年對(duì)Tom Gruber的本體定義做了進(jìn)一步的擴(kuò)展,認(rèn)為:“本體是共享的、概念化的一個(gè)形式的規(guī)范說(shuō)明”。在前人的基礎(chǔ)上,Stude在1998年進(jìn)一步擴(kuò)展了本體的定義,這也是今天被廣泛接受的一個(gè)定義:“本體是共享概念模型的明確形式化規(guī)范說(shuō)明”。本體提供一個(gè)共享詞匯表,可以用來(lái)對(duì)一個(gè)領(lǐng)域建模,具體包括那些存在的對(duì)象或概念的類(lèi)型、以及他們的屬性和關(guān)系2。一個(gè)簡(jiǎn)單的本體示例發(fā)票概念及其相互關(guān)系所構(gòu)成的語(yǔ)義網(wǎng)絡(luò)如圖2所示:圖2簡(jiǎn)單本體(發(fā)票)示例隨著時(shí)間的推移和技術(shù)的發(fā)展,本體從最開(kāi)始的人工智能領(lǐng)域逐漸擴(kuò)展到圖書(shū)館學(xué)、情報(bào)學(xué)、軟件工程、信息架構(gòu)、生物醫(yī)學(xué)和信息學(xué)等越來(lái)越多的學(xué)科。與哲學(xué)本體論類(lèi)似,本體(人工智能和計(jì)算機(jī)科學(xué))依賴(lài)某種類(lèi)別體系來(lái)表達(dá)實(shí)體、概念、事件及其屬性和關(guān)系。本體的核心是知識(shí)共享和重用,通過(guò)減少特定領(lǐng)域內(nèi)概念或術(shù)語(yǔ)上的分歧,使不同的用戶(hù)之間可以順暢的溝通和交流并保持語(yǔ)義等效性,同時(shí)讓不同的工具軟件和應(yīng)用系統(tǒng)之間實(shí)現(xiàn)互操作。根據(jù)研究層次可以將本體的種類(lèi)劃分為“頂級(jí)本體”(top-level ontology)、應(yīng)用本體(application ontology)、領(lǐng)域本體(domain ontology)和任務(wù)本體(task ontology),各個(gè)種類(lèi)之間的層次關(guān)系如圖3所示。圖3本體層次關(guān)系l 頂級(jí)本體,也被稱(chēng)為上層本體(upper ontology)或基礎(chǔ)本體(foundation ontology),是指獨(dú)立于具體的問(wèn)題或領(lǐng)域,在所有領(lǐng)域都適用的共同對(duì)象或概念所構(gòu)成的模型,主要用來(lái)描述高級(jí)別且通用的概念以及概念之間的關(guān)系。l 領(lǐng)域本體是指對(duì)某個(gè)特定的領(lǐng)域建模,顯式的實(shí)現(xiàn)對(duì)領(lǐng)域的定義,確定該領(lǐng)域內(nèi)共同認(rèn)可的詞匯、詞匯業(yè)務(wù)含義和對(duì)應(yīng)的信息資產(chǎn)等,提供對(duì)該領(lǐng)域知識(shí)的共同理解。領(lǐng)域本體所表達(dá)的是適合自己領(lǐng)域的術(shù)語(yǔ)的特定含義,缺乏兼容性,因而在其他領(lǐng)域往往不適用。在同一領(lǐng)域內(nèi),由于文化背景、語(yǔ)言差異、受教育程度或意識(shí)形態(tài)的差異,也可能會(huì)出現(xiàn)不同的本體。很多時(shí)候,隨著依賴(lài)領(lǐng)域本體系統(tǒng)的擴(kuò)展,需要將不同的領(lǐng)域本體合并為更通用的規(guī)范說(shuō)明,對(duì)并非基于同一頂級(jí)本體所構(gòu)建的本體進(jìn)行合并是一項(xiàng)非常具有挑戰(zhàn)的任務(wù),很多時(shí)候需要靠手工來(lái)完成,相反,對(duì)那些基于同一頂級(jí)本體構(gòu)建的領(lǐng)域本體可以實(shí)現(xiàn)自動(dòng)化的合并。l 任務(wù)本體是針對(duì)任務(wù)元素及其之間關(guān)系的規(guī)范說(shuō)明或詳細(xì)說(shuō)明,用來(lái)解釋任務(wù)存在的條件以及可以被用在哪些領(lǐng)域或環(huán)境中。是一個(gè)通用術(shù)語(yǔ)的集合用來(lái)描述關(guān)于任務(wù)的定義和概念等。l 應(yīng)用本體:描述依賴(lài)于特定領(lǐng)域和任務(wù)的概念及概念之間的關(guān)系,是用于特定應(yīng)用或用途的本體,其范疇可以通過(guò)可測(cè)試的用例來(lái)指定。從詳細(xì)程度上來(lái)分,本體又可以分為參考本體(reference ontologies)和共享本體(share ontologies),參考本體的詳細(xì)程度高,而共享本體的詳細(xì)程度低。本體(哲學(xué))哲學(xué)中的本體(ontology)也被稱(chēng)為存在論,源自哲學(xué)中“形而上學(xué)”分支,主要探討存在的本質(zhì),也就是存在的存在。英文ontology實(shí)際上就是來(lái)源于希臘文“”(存在)和“”(學(xué)科)的組合。本體是由早期希臘哲學(xué)在公元前6世紀(jì)到公元前4世紀(jì)提出的“始基”延伸出來(lái)的。始基(Principle,又稱(chēng)本原)最早由泰勒斯(米利都學(xué)派)最早提出來(lái),認(rèn)為萬(wàn)物由水而生,其學(xué)生阿那克西曼德認(rèn)為萬(wàn)物由一種簡(jiǎn)單的原質(zhì)組成,該原質(zhì)不是水3。而畢達(dá)哥拉斯(學(xué)派)認(rèn)為“萬(wàn)物都是數(shù)”,數(shù)不僅被看作萬(wàn)物的本原,而且被看作萬(wàn)物的原型、世界的本體。后來(lái)巴門(mén)尼德(愛(ài)利亞學(xué)派)提出了“存在”的概念,認(rèn)為存在才是唯一真正存在的真理,其創(chuàng)造了一種形而上學(xué)論證方式,之后的哲學(xué)一直到近時(shí)期為止,都從巴門(mén)尼德處接受了其“實(shí)體的不可毀滅性”。蘇格拉底繼承了巴門(mén)尼德的存在概念,主張“真正的善”并完善了巴門(mén)尼德弟子芝諾的辯證法,其學(xué)生柏拉圖提出了“理念論”,認(rèn)為只要若干個(gè)個(gè)體擁有一個(gè)共同的名字,它們就有一個(gè)共同的理念或形式。亞里士多德(柏拉圖學(xué)生)總結(jié)了先哲們的思想,完成了形而上學(xué),并將本體總結(jié)為:對(duì)世界上客觀存在事物的系統(tǒng)的描述,即存在論,也就是最形而上學(xué)的知識(shí)。形而上學(xué)不是指孤立、靜止之類(lèi)的意思,而是指超越具體形態(tài)的抽象意思,是關(guān)于物質(zhì)世界最普遍的、最一般的、最不具體的規(guī)律的學(xué)問(wèn)。第二步:元數(shù)據(jù)集成體系結(jié)構(gòu)在明確了元數(shù)據(jù)管理策略后需要確定實(shí)現(xiàn)該管理策略所需的技術(shù)體系結(jié)構(gòu),即元數(shù)據(jù)集成體系結(jié)構(gòu)。各個(gè)企業(yè)的元數(shù)據(jù)管理策略和元數(shù)據(jù)管理成熟度差別較大,因此元數(shù)據(jù)集成體系結(jié)構(gòu)也多種多樣。大體上元數(shù)據(jù)集成體系結(jié)構(gòu)可以分為點(diǎn)對(duì)點(diǎn)的元數(shù)據(jù)集成體系結(jié)構(gòu)、中央輻射式元數(shù)據(jù)體系結(jié)構(gòu)、基于CWM(Common Warehouse Meta Model,公共倉(cāng)庫(kù)元模型)模型驅(qū)動(dòng)的點(diǎn)對(duì)點(diǎn)元數(shù)據(jù)集成體系結(jié)構(gòu)、基于CWM模型驅(qū)動(dòng)的中央存儲(chǔ)庫(kù)元數(shù)據(jù)集成體系結(jié)構(gòu)、分布式(聯(lián)邦式)元數(shù)據(jù)集成體系結(jié)構(gòu)和層次/星型元數(shù)據(jù)集成體系結(jié)構(gòu)等。針對(duì)信息供應(yīng)鏈中不同的組件,為了實(shí)現(xiàn)跨組件的元數(shù)據(jù)交換和集成,最開(kāi)始人們采用點(diǎn)對(duì)點(diǎn)的方式進(jìn)行,也就是每一對(duì)組件之間通過(guò)一個(gè)獨(dú)立的元數(shù)據(jù)橋(metadata bridge)進(jìn)行元數(shù)據(jù)交換,橋一般是雙向的能夠理解兩個(gè)方向的元數(shù)據(jù)映射4。點(diǎn)對(duì)點(diǎn)的元數(shù)據(jù)集成體系結(jié)構(gòu)幫助用戶(hù)實(shí)現(xiàn)了跨企業(yè)的元數(shù)據(jù)集成和元數(shù)據(jù)交換,對(duì)提升信息化水平提供了巨大幫助。這種體系結(jié)構(gòu)在應(yīng)用過(guò)程中,也暴露了很多問(wèn)題,比如元數(shù)據(jù)橋的構(gòu)建工作量和耗時(shí)都非常大,對(duì)中間件廠商、應(yīng)用廠商、集成商和用戶(hù)來(lái)說(shuō)都是一個(gè)巨大的挑戰(zhàn),而且構(gòu)建元數(shù)據(jù)橋還必須具有所有者的元數(shù)據(jù)模型和接口的詳細(xì)信息。構(gòu)建完成的橋很多時(shí)候無(wú)法在構(gòu)建其他元數(shù)據(jù)橋時(shí)進(jìn)行重用,因此開(kāi)發(fā)和維護(hù)費(fèi)用大幅度增加,用戶(hù)投資回報(bào)率(ROI)不高。以動(dòng)態(tài)數(shù)據(jù)倉(cāng)庫(kù)為例,其點(diǎn)對(duì)點(diǎn)的元數(shù)據(jù)集成體系結(jié)構(gòu)具體如圖4所示,信息供應(yīng)鏈各組件之間的空心箭頭表示全部的數(shù)據(jù)流,實(shí)心箭頭表示不同的元數(shù)據(jù)橋和與之關(guān)聯(lián)的元數(shù)據(jù)流。圖4點(diǎn)對(duì)點(diǎn)的元數(shù)據(jù)集成體系結(jié)構(gòu)通過(guò)使用中央元數(shù)據(jù)存儲(chǔ)庫(kù)(central metadata repository)取代各個(gè)工具軟件和應(yīng)用程序之間的點(diǎn)對(duì)點(diǎn)連接方式,改成中央元數(shù)據(jù)存儲(chǔ)庫(kù)與各個(gè)工具軟件和應(yīng)用程序?qū)崿F(xiàn)元數(shù)據(jù)交換的訪問(wèn)層(也是一種橋),可以有效降低總成本,減少建立點(diǎn)對(duì)點(diǎn)元數(shù)據(jù)橋的工作,提高投資回報(bào)率。信息供應(yīng)鏈各組件可以從存儲(chǔ)庫(kù)訪問(wèn)元數(shù)據(jù),不必與其他產(chǎn)品進(jìn)行點(diǎn)對(duì)點(diǎn)交互。這種使用中央元數(shù)據(jù)存儲(chǔ)庫(kù)方式進(jìn)行元數(shù)據(jù)集成的方式就是中央輻射式元數(shù)據(jù)體系結(jié)構(gòu)(hub-and-spoke metadata architecture),具體如圖5所示。由于特定的元數(shù)據(jù)存儲(chǔ)庫(kù)是圍繞其自身的元模型、接口和交付服務(wù)建立的,所以仍需要建立元數(shù)據(jù)橋?qū)崿F(xiàn)與ISC各組件的互相訪問(wèn)。圖5中央輻射式元數(shù)據(jù)體系結(jié)構(gòu)采用模型驅(qū)動(dòng)的元數(shù)據(jù)集成方法(比如使用CWM)可以有效降低元數(shù)據(jù)集成的成本和復(fù)雜度,無(wú)論點(diǎn)對(duì)點(diǎn)元數(shù)據(jù)集成體系結(jié)構(gòu)還是中央輻射式元數(shù)據(jù)集成體系結(jié)構(gòu)都可以因此受益。在點(diǎn)對(duì)點(diǎn)體系結(jié)構(gòu)中,通過(guò)使用基于模型的方法可以不必在每一對(duì)需要集成的產(chǎn)品之間構(gòu)建元數(shù)據(jù)橋,每個(gè)產(chǎn)品只需要提供一個(gè)適配器(adapter)即可實(shí)現(xiàn)各個(gè)產(chǎn)品之間的元數(shù)據(jù)交換,適配器既了解公共的元模型也了解本產(chǎn)品元模型的內(nèi)部實(shí)現(xiàn)。如圖6所示,基于CWM模型驅(qū)動(dòng)點(diǎn)對(duì)點(diǎn)元數(shù)據(jù)集成體系結(jié)構(gòu)使用通用元模型,不再需要在各個(gè)產(chǎn)品間建立元數(shù)據(jù)橋,在各個(gè)產(chǎn)品之間通過(guò)適配器實(shí)現(xiàn)了語(yǔ)義等價(jià)性。圖6基于CWM模型驅(qū)動(dòng)的點(diǎn)對(duì)點(diǎn)元數(shù)據(jù)集成體系結(jié)構(gòu)如圖7所示,在基于模型驅(qū)動(dòng)(比如CWM)的中央輻射式元數(shù)據(jù)體系結(jié)構(gòu)中,中央存儲(chǔ)庫(kù)包含公共元模型和整個(gè)領(lǐng)域(domain)用到的該元模型的各個(gè)實(shí)例(模型)、存儲(chǔ)庫(kù)自身元模型及其實(shí)例、理解元模型(公共元模型和自身元模型)的適配器層,當(dāng)然存儲(chǔ)庫(kù)也可以直接實(shí)現(xiàn)公共元模型的某些內(nèi)部表示。圖7基于CWM模型驅(qū)動(dòng)的中央存儲(chǔ)庫(kù)元數(shù)據(jù)集成體系結(jié)構(gòu)如圖8所示,這種體系架構(gòu)是基于CWM模型驅(qū)動(dòng)的中央存儲(chǔ)庫(kù)元數(shù)據(jù)集成體系結(jié)構(gòu)的一個(gè)變種,兩個(gè)中央輻射式的拓?fù)浣Y(jié)構(gòu)通過(guò)各自的元數(shù)據(jù)存儲(chǔ)庫(kù)連接起來(lái),也被稱(chēng)為分布式(Distributed)或聯(lián)邦(Federated)體系結(jié)構(gòu)。兩個(gè)元數(shù)據(jù)存儲(chǔ)庫(kù)之間通過(guò)元數(shù)據(jù)橋連接,兩個(gè)存儲(chǔ)庫(kù)使用相同的元模型和接口,也可以使用不同的元模型和接口。建立分布式元數(shù)據(jù)集成體系結(jié)構(gòu)的原因有很多種,比如企業(yè)基于多個(gè)區(qū)域單獨(dú)部署自己的應(yīng)用,每個(gè)區(qū)域有自己的數(shù)據(jù)中心。圖8分布式(聯(lián)邦式)元數(shù)據(jù)集成體系結(jié)構(gòu)如圖9所示,這種體系結(jié)構(gòu)是分布式體系結(jié)構(gòu)的變體,根存儲(chǔ)庫(kù)實(shí)現(xiàn)了元模型的公共部分(橫跨整個(gè)企業(yè)),葉子存儲(chǔ)庫(kù)實(shí)現(xiàn)了一個(gè)或多個(gè)特定的公共元模型子集,并只保存這些自己所對(duì)應(yīng)的元數(shù)據(jù)實(shí)例。特定客戶(hù)可以主要訪問(wèn)其感興趣的元數(shù)據(jù)所在的葉子存儲(chǔ)庫(kù),也可以訪問(wèn)其它葉子存儲(chǔ)庫(kù)和根存儲(chǔ)庫(kù)。這種體系結(jié)構(gòu)被稱(chēng)為層次或星型拓?fù)浣Y(jié)構(gòu)。圖9層次或星型元數(shù)據(jù)集成體系結(jié)構(gòu)結(jié)束語(yǔ)本文詳細(xì)介紹了大數(shù)據(jù)治理的基本概念和統(tǒng)一流程參考模型,并闡述了該模型的第一步“明確元數(shù)據(jù)管理策略”和第二步“元數(shù)據(jù)集成體系結(jié)構(gòu)”等內(nèi)容。在第一步“明確元數(shù)據(jù)管理策略”中講述了元數(shù)據(jù)的基本概念以及本體在人工智能/計(jì)算機(jī)科學(xué)和哲學(xué)中的含義。在第二步“元數(shù)據(jù)集成體系結(jié)構(gòu)”講述了元數(shù)據(jù)集成體系結(jié)構(gòu)的六種示例,分別為:點(diǎn)對(duì)點(diǎn)的元數(shù)據(jù)集成體系結(jié)構(gòu)、中央輻射式元數(shù)據(jù)體系結(jié)構(gòu)、基于CWM模型驅(qū)動(dòng)的點(diǎn)對(duì)點(diǎn)元數(shù)據(jù)集成體系結(jié)構(gòu)、基于CWM模型驅(qū)動(dòng)的中央存儲(chǔ)庫(kù)元數(shù)據(jù)集成體系結(jié)構(gòu)、分布式(聯(lián)邦式)元數(shù)據(jù)集成體系結(jié)構(gòu)和層次/星型元數(shù)據(jù)集成體系結(jié)構(gòu)。在本系列文章的下一部分將繼續(xù)介紹大數(shù)據(jù)治理統(tǒng)一流程參考模型第二步“元數(shù)據(jù)集成體系結(jié)構(gòu)”,具體包括元模型、元-元模型、公共倉(cāng)庫(kù)元模型(CWM)、CWM發(fā)展史、OMG的模型驅(qū)動(dòng)體系結(jié)構(gòu)(ModelDrivenArchitecture,MDA)。參考文獻(xiàn)1 David Frankel Consulting,”Using Mode lDriven Architectureto Manage Metadata”,P3;2 Fredrik Arvidssonand Annika Flycht-Eriksson,2008,OntologiesI,”Anontology provide a share dvocabulary,which can be used to modela domain,that is,the type of objects and/or concepts that exist,and their properties and relations”;3 更多內(nèi)容請(qǐng)參考:專(zhuān)著/(英)伯特蘭.羅素/著孫紹武/主編;4 John Poole,Dan Chang,Douglas Tolbertand David Mellor,2002,Common Warehouse Metamodel,p18-32,p180-202;5 本系列文章參考了Sunil Soares編寫(xiě)的The IBM Data Governance Unified Process和Big data Governance書(shū)中內(nèi)容第二部分:元數(shù)據(jù)集成體系結(jié)構(gòu)在明確了元數(shù)據(jù)管理策略后需要確定實(shí)現(xiàn)該管理策略所需的技術(shù)體系結(jié)構(gòu),即元數(shù)據(jù)集成體系結(jié)構(gòu)。元數(shù)據(jù)集成體系結(jié)構(gòu)涉及到多個(gè)概念,如元模型、元-元模型、公共倉(cāng)庫(kù)元模型(CWM)等,本部分將繼續(xù)介紹大數(shù)據(jù)治理統(tǒng)一流程參考模型第二步“元數(shù)據(jù)集成體系結(jié)構(gòu)”的相關(guān)內(nèi)容。在本系列的第一篇文章中,我們主要介紹了大數(shù)據(jù)治理的基本概念和統(tǒng)一流程參考模型,并闡述了該模型的第一步“明確元數(shù)據(jù)管理策略”和第二步“元數(shù)據(jù)集成體系結(jié)構(gòu)”的六種示例等內(nèi)容。大數(shù)據(jù)治理統(tǒng)一流程參考模型的第二步是“元數(shù)據(jù)集成體系結(jié)構(gòu)”,具體包括元模型、元-元模型、公共倉(cāng)庫(kù)元模型(CWM)、CWM發(fā)展史、OMG的模型驅(qū)動(dòng)體系結(jié)構(gòu)(Model Driven Architecture,MDA)本文將對(duì)元數(shù)據(jù)集成體系結(jié)構(gòu)包含的各種模型展開(kāi)敘述。大數(shù)據(jù)治理統(tǒng)一流程參考模型,第二步:元數(shù)據(jù)集成體系結(jié)構(gòu)元模型(Meta model)模型(Model)是用來(lái)描述特定的系統(tǒng)、過(guò)程、事物或概念的準(zhǔn)確而抽象的表示。例如軟件架構(gòu)師可以用概要設(shè)計(jì)的形式建立一個(gè)應(yīng)用系統(tǒng)的模型。本質(zhì)上來(lái)說(shuō),元數(shù)據(jù)是數(shù)據(jù)的形式化模型,是數(shù)據(jù)的抽象描述,該描述準(zhǔn)確地描述了數(shù)據(jù)。元模型(Meta model)也就是模型的模型(或者元-元數(shù)據(jù)),是用來(lái)描述元數(shù)據(jù)的模型。下面基于關(guān)系型表實(shí)體-關(guān)系(ER)模型舉例說(shuō)明什么是元模型。如圖1所示,一個(gè)簡(jiǎn)單的關(guān)系型表元模型描述了如何定義一個(gè)關(guān)系型表,規(guī)定了每個(gè)表必須有一個(gè)名字(字符串),一個(gè)表可以有1到多個(gè)列,每個(gè)列必須有一個(gè)名字(字符串)和數(shù)據(jù)類(lèi)型(字符串):圖1簡(jiǎn)單關(guān)系型表元模型如果要?jiǎng)?chuàng)建一個(gè)關(guān)系型表模型,基于該表元模型創(chuàng)建一個(gè)實(shí)例即可,比如創(chuàng)建一個(gè)常見(jiàn)的雇員表Employees表模型,具體如圖2所示,Employees表包含6個(gè)列,分別是編號(hào)、姓、名字、部門(mén)編號(hào)、經(jīng)理編號(hào)和職位編號(hào)。圖2Employees表實(shí)例比如在DB2中創(chuàng)建employees表,可以很容易的從employees表模型中得到相應(yīng)的DDL語(yǔ)句,執(zhí)行DDL語(yǔ)句時(shí)DB2會(huì)生成描述employees表的內(nèi)部元數(shù)據(jù)并存儲(chǔ)在目錄(DB2內(nèi)部的元數(shù)據(jù)存儲(chǔ)庫(kù))中。清單1 在DB2中創(chuàng)建employees表示例Create table employees (Id integer not null,F(xiàn)irst_name String not null,Last_name String not null,Depart_ID Integer not null,Manager_ID Integer not null,Job_ID Integer not null)同樣基于圖1簡(jiǎn)單關(guān)系型表元模型創(chuàng)建另一個(gè)實(shí)例department表模型。department表包含2個(gè)列,分別是編號(hào)和部門(mén)名稱(chēng),具體如圖3所示。由于department表模型和employees表模型都是基于相同的公共元模型,其它工具和應(yīng)用程序軟件(了解關(guān)系型表的公共元模型)可以很容易理解department表和employees表,因?yàn)樗鼈兌际峭粋€(gè)元模型的實(shí)例。其它工具或應(yīng)用程序通過(guò)調(diào)用導(dǎo)入映射(import mapping)將該department表模型或employees表模型翻譯成自己內(nèi)部的元數(shù)據(jù)實(shí)例。同樣,也可以將該軟件內(nèi)部元數(shù)據(jù)翻譯成一個(gè)與平臺(tái)無(wú)關(guān)的形式化模型,也就是導(dǎo)出映射(export mapping),以便其他軟件使用其專(zhuān)有的元數(shù)據(jù)。這種基于公共元模型的集成方法就是模型驅(qū)動(dòng)的元數(shù)據(jù)集成體系結(jié)構(gòu)1。圖3 department表實(shí)例元-元模型(Meta-meta model)元-元模型就是元模型的模型,有時(shí)也被稱(chēng)為本體(ontology),是模型驅(qū)動(dòng)的元數(shù)據(jù)集成體系結(jié)構(gòu)的基礎(chǔ),其定義了描述元模型的語(yǔ)言,規(guī)定元模型必須依照一定的形式化規(guī)則來(lái)建立,以便所有的軟件工具都能夠?qū)ζ溥M(jìn)行理解。元-元模型比元模型具有更高的抽象級(jí)別,一個(gè)元模型是一個(gè)元-元模型的實(shí)例,元模型比元-元模型更加精細(xì),而元-元模型比元模型更加抽象。元數(shù)據(jù)(模型)則是一個(gè)元模型的實(shí)例,遵守元模型的規(guī)定和約束。用戶(hù)對(duì)象(或用戶(hù)數(shù)據(jù))則是元數(shù)據(jù)(或者稱(chēng)為模型)的實(shí)例。元數(shù)據(jù)層次結(jié)構(gòu)具體如表1所示,共分為4層,最高層L3是元-元模型,之下是L2元模型和L1模型/元數(shù)據(jù),最底層是L0用戶(hù)對(duì)象/用戶(hù)數(shù)據(jù):表1 元數(shù)據(jù)層次結(jié)構(gòu)元層次名稱(chēng)示例L3元-元模型元類(lèi)、元屬性、元操作L2元模型類(lèi)、屬性、操作、構(gòu)件L1模型/元數(shù)據(jù)實(shí)體-關(guān)系(ER)圖L0用戶(hù)對(duì)象/用戶(hù)數(shù)據(jù)交易數(shù)據(jù)、ODS數(shù)據(jù)、數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)、數(shù)據(jù)集市數(shù)據(jù)、數(shù)據(jù)中心數(shù)據(jù)等公共倉(cāng)庫(kù)元模型(CWM)概述公共倉(cāng)庫(kù)元模型(Common Warehouse MetaModel,CWM)是被對(duì)象管理組織OMG(Object Management Group)采納的數(shù)據(jù)倉(cāng)庫(kù)和業(yè)務(wù)分析領(lǐng)域元數(shù)據(jù)交換開(kāi)放式行業(yè)標(biāo)準(zhǔn),在數(shù)據(jù)倉(cāng)庫(kù)和業(yè)務(wù)分析領(lǐng)域?yàn)樵獢?shù)據(jù)定義公共的元模型和基于XML的元數(shù)據(jù)交換(XMI)。CWM作為一個(gè)標(biāo)準(zhǔn)的接口,可以幫助分布式、異構(gòu)環(huán)境中的數(shù)據(jù)倉(cāng)庫(kù)工具,數(shù)據(jù)倉(cāng)庫(kù)平臺(tái)和數(shù)據(jù)倉(cāng)庫(kù)元數(shù)據(jù)存儲(chǔ)庫(kù)之間輕松實(shí)現(xiàn)數(shù)據(jù)倉(cāng)庫(kù)和業(yè)務(wù)分析元數(shù)據(jù)交換。CWM提供一個(gè)框架為數(shù)據(jù)源、數(shù)據(jù)目標(biāo)、轉(zhuǎn)換、分析、流程和操作等創(chuàng)建和管理元數(shù)據(jù),并提供元數(shù)據(jù)使用的世系信息2。CWM是一個(gè)基于模型驅(qū)動(dòng)方法的完整地描述數(shù)據(jù)倉(cāng)庫(kù)和業(yè)務(wù)分析領(lǐng)域的元模型,提供構(gòu)建元數(shù)據(jù)所需的語(yǔ)法和語(yǔ)義,由若干個(gè)不相同又緊密相關(guān)的子元模型組成。CWM模型的目的是最大限度的重用對(duì)象模型(Object Model,UML的一個(gè)子集),并在可能的地方共享通用模型結(jié)構(gòu)。如圖4所示,CWM元模型使用包(package)和層次來(lái)簡(jiǎn)化管理的復(fù)雜度并便于理解,共包含21個(gè)單獨(dú)的包,這些包被分為5個(gè)層次。對(duì)象模型層包含定義基本元模型的概念、關(guān)系和約束的包,其它CWM包都需要用到這些定義,對(duì)象模型層的包構(gòu)成了其它CWM包所需要的基本元模型服務(wù)的全部集合。對(duì)象模型層主要包括核心包(Core package)、行為包(Behavioral package)、關(guān)系包(Relationships package)和實(shí)例包(Instance package)。l 數(shù)據(jù)源層(Data Resources):主要描述CWM元數(shù)據(jù)交換中既可作為源又可以作為目標(biāo)的數(shù)據(jù)源的結(jié)構(gòu),本層含有的元模型主要描述面向?qū)ο蟮臄?shù)據(jù)庫(kù)和應(yīng)用、關(guān)系型數(shù)據(jù)庫(kù)、面向記錄的數(shù)據(jù)源(如文件、記錄數(shù)據(jù)庫(kù)管理系統(tǒng)等)、多維數(shù)據(jù)庫(kù)和XML數(shù)據(jù)源等。對(duì)于面向?qū)ο髷?shù)據(jù)源,CWM一般情況下重用基本的對(duì)象模型(位于對(duì)象模型層),如果該數(shù)據(jù)源具有對(duì)象模型層無(wú)法處理的一些特征和功能時(shí),可以通過(guò)定義一個(gè)擴(kuò)展包來(lái)解決。l 數(shù)據(jù)分析層(Data Analysis):本層含有的元模型主要描述數(shù)據(jù)轉(zhuǎn)換、在線分析處理OLAP、數(shù)據(jù)挖掘、信息可視化和業(yè)務(wù)術(shù)語(yǔ)等。l 倉(cāng)庫(kù)管理層(Warehouse Management):本層含有的元模型主要描述數(shù)據(jù)倉(cāng)庫(kù)處理和數(shù)據(jù)倉(cāng)庫(kù)操作。圖4 CWM1.1元模型CWM1.1是在2003年3月發(fā)布的,與之相關(guān)的OMG組織規(guī)范還有MOF、UML和XMI。CWM使用統(tǒng)一建模語(yǔ)言(UML)定義公共元數(shù)據(jù)的模型(CWM元模型),使用可擴(kuò)展標(biāo)記語(yǔ)言(XML)生成CWM元數(shù)據(jù)交換規(guī)范(也就是XML元數(shù)據(jù)交換,XMI),使用CORBA接口定義語(yǔ)言(IDL)為訪問(wèn)CWM元數(shù)據(jù)生成編程語(yǔ)言API的規(guī)范(依賴(lài)MOF到IDL的映射)。UML是一種規(guī)范化、可視化、描述明確、結(jié)構(gòu)化和文檔化的定義分布式對(duì)象系統(tǒng)的圖形化語(yǔ)言。1996年,業(yè)內(nèi)三種最杰出的面向?qū)ο蠼UZ(yǔ)言:Grady Booch的Booch方法、Ivar Jacobson的面向?qū)ο筌浖こ蹋∣OSE)和Jim Rumbaugh的對(duì)象建模技術(shù)(OMT)被統(tǒng)一起來(lái)發(fā)布,也就是UML0.9。2011年,UML2.4.1發(fā)布。CWM依賴(lài)于UML規(guī)范的前三個(gè)部分,即UML語(yǔ)義、UML符號(hào)向?qū)Ш蛯?duì)象約束語(yǔ)言規(guī)范。UML語(yǔ)義定義UML元模型的語(yǔ)義,UML元模型是層次結(jié)構(gòu)并以包為單位進(jìn)行組織,每個(gè)包按照抽象語(yǔ)言(使用類(lèi)圖)、結(jié)構(gòu)良好規(guī)則(采用OCL)和語(yǔ)義(采用英語(yǔ))來(lái)定義。UML符號(hào)指定表達(dá)UML元模型語(yǔ)義的圖形語(yǔ)法(例如類(lèi)圖)。對(duì)象約束語(yǔ)言規(guī)范定義對(duì)象約束語(yǔ)言(OCL)的句法、語(yǔ)義和語(yǔ)法,OCL是一種表述約束的形式化語(yǔ)言3。l 構(gòu)造塊和結(jié)構(gòu)良好規(guī)則:UML提供了組成構(gòu)造塊和結(jié)構(gòu)良好規(guī)則的面向?qū)ο蠼UZ(yǔ)言,基本的構(gòu)造塊包括模型元素(如類(lèi)、對(duì)象、接口、組件、用例等)、關(guān)系(如關(guān)聯(lián)、泛化、依賴(lài)等)和圖(如類(lèi)圖、對(duì)象圖、用例圖等)等。l UML可以為一個(gè)系統(tǒng)進(jìn)行不同方面的建模,比如結(jié)構(gòu)建模(又包括使用類(lèi)圖和對(duì)象圖的靜態(tài)結(jié)構(gòu)建模、使用組件圖和部署圖實(shí)現(xiàn)建模)、用例建模和行為建模等。元數(shù)據(jù)建模只需要靜態(tài)結(jié)構(gòu)建模,靜態(tài)結(jié)構(gòu)的核心元素是類(lèi)、對(duì)象、屬性和操作。l UML用包來(lái)將模型元素組織成語(yǔ)義上相關(guān)聯(lián)的分組,每個(gè)包擁有其自己的模型元素,每個(gè)模型元素不能同時(shí)被多個(gè)包擁有。UML在CWM中主要作為三種角色出現(xiàn)4:1、UML作為和MOF等價(jià)的元-元模型。UML,或者部分對(duì)應(yīng)MOF模型、UML符號(hào)和OCL的UML分別被用作建模語(yǔ)言、圖形符號(hào)和約束語(yǔ)言,用來(lái)定義和表示CWM。2、UML作為基礎(chǔ)元模型。對(duì)象模型層(ObjectModel)與UML關(guān)系密切,是UML的一個(gè)子集。3、UML用來(lái)作為面向?qū)ο笤P?。元?duì)象框架(Meta Object Framework,MOF,本文以2.4.1版本為例)是一個(gè)以獨(dú)立于平臺(tái)的方式定義、操作、集成元數(shù)據(jù)和數(shù)據(jù)的、可擴(kuò)展、模型驅(qū)動(dòng)的分布式對(duì)象集成框架。此框架支持各種類(lèi)型的元數(shù)據(jù),還可以根據(jù)需求添加新類(lèi)型的元數(shù)據(jù)。MOF包括MOF模型(定義建立元模型的建模元素和使用規(guī)則)、MOF反射接口(允許程序在不使用元模型指定接口時(shí)對(duì)元數(shù)據(jù)進(jìn)行各種操作)和MOF到IDL的映射(定義MOF模型定義的元模型到CORBAIDL之間的標(biāo)準(zhǔn)映射)。MOF模型是以UML的概念和結(jié)構(gòu)為基礎(chǔ),尤其是以UML的靜態(tài)結(jié)構(gòu)模型和模型管理為基礎(chǔ)。MOF模型沒(méi)有定義自己的圖形符號(hào)和約束語(yǔ)言,而是采用UML的圖形符號(hào)和OCL來(lái)實(shí)現(xiàn)。MOF模型也是層次結(jié)構(gòu),并以包為單位進(jìn)行組織。MOF支持各種類(lèi)型的元數(shù)據(jù),采用四層元數(shù)據(jù)體系結(jié)構(gòu)(也就是OMG元數(shù)據(jù)體系結(jié)構(gòu))5,具體如表2所示,該體系架構(gòu)將元數(shù)據(jù)(M1)視同為數(shù)據(jù)(M0),并對(duì)之進(jìn)行形式化建模(即元模型,M2)。元模型(M2)使用元-元模型(M3)所提供的元建模結(jié)構(gòu)來(lái)表示。表2表明MOF模型(元-元模型)、UML元模型、用戶(hù)模型和用戶(hù)對(duì)象/數(shù)據(jù)之間的關(guān)系。表2 MOF四層元數(shù)據(jù)體系結(jié)構(gòu)描述示例M3MOF,i.e. the set of constructs used to define metamodelsMOF Class,MOF Attribute,MOF Association,etc .M2Metamodels,consisting ofinstances of MOF constructs.UML Class,UMLAssociation,UML Attribute,UML State,UML Activity,etc.CWM Table,CWM Column,etc.M1Models,consisting of instancesof M2 metamodel constructs.Class“Customer”,Class“Account”Table “Employee”,Table“Vendor”,etc.M0Objects and data,i.e.instances of M1 modelconstructsCustomer Jane Smith,Customer Joe Jones,Account 2989,Account2344,Employee A3949,Vendor 78988,etc.XML元數(shù)據(jù)交換(XMI)是在工具軟件、應(yīng)用程序之間進(jìn)行元數(shù)據(jù)交換的XML語(yǔ)言,整合了UML、MOF和XML三種技術(shù),允許MOF元數(shù)據(jù)(即遵從MOF或基于MOF的元模型的元數(shù)據(jù))以流或文件的形式按照XML的標(biāo)準(zhǔn)格式進(jìn)行交換。XMI是OMG在元數(shù)據(jù)交換方面的標(biāo)準(zhǔn)之一,同時(shí)也是W3C認(rèn)可的標(biāo)準(zhǔn)。本質(zhì)上,XMI是W3C的XML和MOF之間,以及XML文檔和MOF元數(shù)據(jù)之間的一對(duì)平行映射。2011年8月,XML發(fā)布了2.4.1。CWM發(fā)展史其實(shí)早在上世紀(jì)80年代末90年代初,很多企業(yè)就嘗試使用一種元模型實(shí)現(xiàn)元數(shù)據(jù)集成以整合分布于各個(gè)業(yè)務(wù)豎井中的元數(shù)據(jù),但最終失敗了,因?yàn)楹芏嗟睦嫦嚓P(guān)者各自擁有不同的觀點(diǎn),且需要不同的模型結(jié)構(gòu)。1997年,OMG將UML采納為標(biāo)準(zhǔn),為CWM標(biāo)準(zhǔn)制定打下了第一個(gè)基礎(chǔ)。同樣在1997年,MOF被OMG采納為標(biāo)準(zhǔn),為CWM的產(chǎn)生打下了第二個(gè)基礎(chǔ)。1999年初,OMG采納XMI作為標(biāo)準(zhǔn),為CWM的出現(xiàn)打下了第三個(gè)基礎(chǔ)。1998年5月,IBM、ORACLE和Unisys向OMG提交了公共倉(cāng)庫(kù)元數(shù)據(jù)交換(Common Warehouse Metadata Interchange,CWMI)征求意見(jiàn)稿(RFP),同年9月OMG發(fā)布了該征求意見(jiàn)稿,經(jīng)過(guò)8個(gè)公司(IBM、Unisys、Oracle、Hyperion、UBS、NCR、Genesis和Dimension EDI)2年半的努力和協(xié)作,OMG于2001年4月正式采納CWM為標(biāo)準(zhǔn)。在CWM發(fā)展的同時(shí),其他一些元數(shù)據(jù)標(biāo)準(zhǔn)的制定也在進(jìn)行中。最早在1993年,電子信息組織就發(fā)布了計(jì)算機(jī)輔助工程數(shù)據(jù)交換格式(CASE Data Interchange Format,CDIF)并得到了一定的認(rèn)可。1995年10月,元數(shù)據(jù)聯(lián)盟(Meta Data Coalition,MDC)成立,并與1996年4月發(fā)布了元數(shù)據(jù)交換規(guī)范1.0(Meta Data Interchange Specification,MDIS),與CWM相比,MDIS涉及的范疇少很多,且其規(guī)范和交換語(yǔ)言都是自身獨(dú)有的。此時(shí)微軟也在和其他一些合作者一起開(kāi)發(fā)開(kāi)放信息模型(Open Information Model,OIM),該模型于1996年10月成形,采用UML作為其規(guī)范語(yǔ)言。1998年11月,微軟加入MDC并提交OIM標(biāo)準(zhǔn),1999年7月MDC發(fā)布了OIMv1.0版本,由此業(yè)內(nèi)面臨著兩種元數(shù)據(jù)集成規(guī)范的競(jìng)爭(zhēng)局面,之后考慮到業(yè)內(nèi)對(duì)CWM的認(rèn)可,MDC于2000年9月決定終止其OIM后續(xù)工作,將其元數(shù)據(jù)標(biāo)準(zhǔn)歸入到OMG中,從此CWM影響力和范圍持續(xù)擴(kuò)大并得到了業(yè)內(nèi)的統(tǒng)一認(rèn)可。OMG的模型驅(qū)動(dòng)體系結(jié)構(gòu)(Model Driven Architecture,MDA)OMG組織成立不久制定了對(duì)象管理體系結(jié)構(gòu)(Object Management Architecture,OMA)參考模型,描述了OMG規(guī)范所遵循的概念化的基礎(chǔ)結(jié)構(gòu)。OMA是由對(duì)象請(qǐng)求代理(Object Request Broker,ORB)、對(duì)象服務(wù)、公共設(shè)施、域接口和應(yīng)用接口等幾個(gè)部分組成,其核心是對(duì)象請(qǐng)求代理(ORB)。對(duì)象請(qǐng)求代理(ORB)是公共對(duì)象請(qǐng)求代理體系結(jié)構(gòu)(Common Object Request Broker Architecture,CORBA)的核心組件,提供了識(shí)別和定位對(duì)象、處理連接管理、傳送數(shù)據(jù)和請(qǐng)求通信所需的框架結(jié)構(gòu)。OMA和CORBA被定位為軟件框架,用來(lái)指導(dǎo)基于OMG規(guī)范的技術(shù)開(kāi)發(fā)。從1995年開(kāi)始,OMG開(kāi)始非正式的采用針對(duì)特定行業(yè)(“領(lǐng)域”,Domain)的技術(shù)規(guī)范,為了保持?jǐn)U張重點(diǎn),OMG在2001年正式采用第二個(gè)框架,模型驅(qū)動(dòng)體系架構(gòu)(Model Driven Architecture,MDA)。與OMA和CORBA不一樣,MDA不是部署分布式系統(tǒng)的框架,而是在軟件開(kāi)發(fā)中基于模型驅(qū)動(dòng)的方法。為了實(shí)現(xiàn)MDA,OMG隨后制定了一系列標(biāo)準(zhǔn)如UML、MOF、XMI和CWM等,解決了MDA的模型建立、擴(kuò)展、交換等幾個(gè)方面的問(wèn)題。模型驅(qū)動(dòng)體系結(jié)構(gòu)源自眾所周知的和長(zhǎng)期建立的思想:“將系統(tǒng)操作規(guī)范從系統(tǒng)利用底層平臺(tái)能力的細(xì)節(jié)中分離出來(lái)”。MDA提供了一種方法(基于相關(guān)工具)來(lái)規(guī)范化一個(gè)平臺(tái)獨(dú)立的系統(tǒng),為系統(tǒng)選擇一個(gè)特定的實(shí)現(xiàn)平臺(tái),并把系統(tǒng)規(guī)范轉(zhuǎn)換到特定的實(shí)現(xiàn)平臺(tái)。MDA的首要三個(gè)目標(biāo)是:可移植性、互操作性和可重用性。MDA三個(gè)視角(viewpoint)6分別是:l 計(jì)算無(wú)關(guān)視角(Computation Independent Viewpoint):側(cè)重系統(tǒng)環(huán)境和系統(tǒng)需求;系統(tǒng)結(jié)構(gòu)和流程細(xì)節(jié)被隱藏或尚未確定。其對(duì)應(yīng)的是計(jì)算無(wú)關(guān)模型(Computation Independent Model,CIM)。l 平臺(tái)無(wú)關(guān)視角(Platform Independent Viewpoint):側(cè)重系統(tǒng)的操作,同時(shí)隱藏用于特定平臺(tái)的必要細(xì)節(jié)。其對(duì)應(yīng)的是平臺(tái)無(wú)關(guān)模型(Platform Independent Model,PIM),PIM是抽出技術(shù)和具體工程細(xì)節(jié)之后的模型。l 平臺(tái)相關(guān)視角(Platform Specific Viewpoint):結(jié)合平臺(tái)無(wú)關(guān)系視角和系統(tǒng)所使用的特定平臺(tái)細(xì)節(jié)。其對(duì)應(yīng)的是平臺(tái)相關(guān)模型(Platform Specific Viewpoint Model,PSM),PSM是包含技術(shù)和具體工程細(xì)節(jié)的模型。OMG模型驅(qū)動(dòng)體系結(jié)構(gòu)如圖5所示:圖5 OMG模型驅(qū)動(dòng)體系架構(gòu)CWM元模型、規(guī)范以及生成的產(chǎn)品同MDA非常契合,從技術(shù)平臺(tái)角度來(lái)說(shuō),所有的平臺(tái)相關(guān)模型(CWMXML、CWMIDL和CWM Java等)都是自動(dòng)地從平臺(tái)無(wú)關(guān)模型(CWM元模型和規(guī)范)中產(chǎn)生的;從產(chǎn)品平臺(tái)角度來(lái)說(shuō),平臺(tái)相關(guān)模型(比如DB2、ORACLE、SQLSERVER等)都是人工從平臺(tái)無(wú)關(guān)模型(CWM元模型和規(guī)范)中構(gòu)造出來(lái)的。結(jié)束語(yǔ)本文詳細(xì)介紹了大數(shù)據(jù)治理統(tǒng)一流程參考模型第二步“元數(shù)據(jù)集成體系結(jié)構(gòu)”的后續(xù)內(nèi)容,主要包括元模型、元-元模型、公共倉(cāng)庫(kù)元模型(CWM)、CWM發(fā)展史、對(duì)象管理組織OMG的模型驅(qū)動(dòng)體系結(jié)構(gòu)(Model Driven Architecture,MDA)。在本系列文章的下一部分將重點(diǎn)介紹大數(shù)據(jù)治理統(tǒng)一流程參考模型的第三步:“實(shí)施元數(shù)據(jù)管理”,講述在大數(shù)據(jù)時(shí)代如何實(shí)施元數(shù)據(jù)管理,如何使用元數(shù)據(jù)管理成熟度模型,以及IBM在元數(shù)據(jù)管理方面的產(chǎn)品:業(yè)務(wù)元數(shù)據(jù)管理工具IBM Info Sphere Business Glossary、業(yè)務(wù)詞匯表小工具Info Sphere Business Glossary Anywhere和技術(shù)元數(shù)據(jù)管理工具Info Sphere Metadata Workbench。參考文獻(xiàn)1 更多信息請(qǐng)參考:OMG Model Driven Architecture :/mda/;2 OMG,Common Warehouse Metamodel(CWM)Specification v1.1,P44 ;3 John Poole,Dan Chang,Douglas Tolbert and David Mellor,2002,Common Warehouse Metamodel,p48-53,p58-63 ;4 OMG,Common Warehouse Metamodel(CWM)Specification v1.1,P45 ;5 David Frankel Consulting,”Using Model Driven Architecture to Manage Metadata”,P46 ;6 OMG,2003,MDA Guide Version 1.0.1,p11-12,P15-16 ;第三部分:實(shí)施元數(shù)據(jù)管理了解了元數(shù)據(jù)管理策略和元數(shù)據(jù)集成體系結(jié)構(gòu)之后,企業(yè)可以根據(jù)需要選擇合適的業(yè)務(wù)元數(shù)據(jù)和技術(shù)元數(shù)據(jù)管理工具,并制定相應(yīng)的元數(shù)據(jù)管理制度進(jìn)行全面的元數(shù)據(jù)管理。本部分主要介紹大數(shù)據(jù)治理統(tǒng)一流程參考模型第三步“實(shí)施元數(shù)據(jù)管理”,元數(shù)據(jù)管理成熟度模型、IBM元數(shù)據(jù)管理相關(guān)工具等內(nèi)容。第三步:實(shí)施元數(shù)據(jù)管理在明確了元數(shù)據(jù)管理策略和元數(shù)據(jù)集成體系結(jié)構(gòu)之后,企業(yè)可以根據(jù)需要選擇合適的業(yè)務(wù)元數(shù)據(jù)和技術(shù)元數(shù)據(jù)管理工具,并制定相應(yīng)的元數(shù)據(jù)管理制度進(jìn)行全面的元數(shù)據(jù)管理。比如可以使用 IBM InfoSphere Business Glossary 進(jìn)行業(yè)務(wù)元數(shù)據(jù)的管理,使用 IBM InfoSphere Metadata Workbench 作為元數(shù)據(jù)管理統(tǒng)一工具并進(jìn)行圖形化的元數(shù)據(jù)分析。大數(shù)據(jù)擴(kuò)大了數(shù)據(jù)的容量、速度和多樣性,給元數(shù)據(jù)管理帶來(lái)了新的挑戰(zhàn)。在構(gòu)建關(guān)系型數(shù)據(jù)倉(cāng)庫(kù)、動(dòng)態(tài)數(shù)據(jù)倉(cāng)庫(kù)和關(guān)系型數(shù)據(jù)中心時(shí)進(jìn)行元數(shù)據(jù)管理,有助于保證數(shù)據(jù)被正確地使用、重用并滿(mǎn)足各種規(guī)定。同樣,對(duì)大數(shù)據(jù)來(lái)說(shuō),元數(shù)據(jù)管理過(guò)程中出現(xiàn)的任何錯(cuò)誤,都會(huì)導(dǎo)致數(shù)據(jù)重復(fù)、數(shù)據(jù)質(zhì)量差和無(wú)法訪問(wèn)關(guān)鍵信息等問(wèn)題1。隨著大數(shù)據(jù)技術(shù)在企業(yè)中的應(yīng)用越來(lái)越廣泛,企業(yè)需要在原有的元數(shù)據(jù)管理策略中增加大數(shù)據(jù)相關(guān)的內(nèi)容。通常,大數(shù)據(jù)分析是受用例驅(qū)動(dòng)的,企業(yè)可以通過(guò)梳理大數(shù)據(jù)用例的方式逐步完善大數(shù)據(jù)的元數(shù)據(jù)管理。針對(duì)大數(shù)據(jù)的業(yè)務(wù)元數(shù)據(jù),依舊可以通過(guò)構(gòu)建基礎(chǔ)本體、領(lǐng)域本體、任務(wù)本體和應(yīng)用本體等的方式來(lái)實(shí)現(xiàn)。通過(guò)構(gòu)建基礎(chǔ)本體,實(shí)現(xiàn)對(duì)級(jí)別且通用的概念以及概念之間關(guān)系的描述;通過(guò)構(gòu)建領(lǐng)域本體,實(shí)現(xiàn)對(duì)于領(lǐng)域的定義,并確定該領(lǐng)域內(nèi)共同認(rèn)可的詞匯、詞匯業(yè)務(wù)含義和對(duì)應(yīng)的信息資產(chǎn)等,提供對(duì)該領(lǐng)域知識(shí)的共同理解;通過(guò)構(gòu)建任務(wù)本體,實(shí)現(xiàn)任務(wù)元素及其之間關(guān)系的規(guī)范說(shuō)明或詳細(xì)說(shuō)明;通過(guò)構(gòu)建應(yīng)用本體,實(shí)現(xiàn)對(duì)特定應(yīng)用的概念描述,其是依賴(lài)于特定領(lǐng)域和任務(wù)的。這樣就通過(guò)構(gòu)建各種本體,在整個(gè)企業(yè)范圍提供一個(gè)完整的共享詞匯表,保證每個(gè)元數(shù)據(jù)元素在信息供應(yīng)鏈中每個(gè)組件的語(yǔ)義上保持一致,實(shí)現(xiàn)是語(yǔ)義等效。為了實(shí)現(xiàn)信息供應(yīng)鏈中各個(gè)組件元數(shù)據(jù)的交互和集成,大數(shù)據(jù)平臺(tái)的元數(shù)據(jù)集成體系結(jié)構(gòu)依然可以采用基于模型驅(qū)動(dòng)的中央輻射式元數(shù)據(jù)體系結(jié)構(gòu)。對(duì)大數(shù)據(jù)平臺(tái)中的結(jié)構(gòu)化數(shù)據(jù)的元數(shù)據(jù)管理可以遵循公共倉(cāng)庫(kù)元模型(CWM)構(gòu)建元數(shù)據(jù)體系結(jié)構(gòu),以便方便的實(shí)現(xiàn)各個(gè)組件間元數(shù)據(jù)的交互;對(duì)大數(shù)據(jù)平臺(tái)中的半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的元數(shù)據(jù)管理,因?yàn)闃I(yè)內(nèi)還沒(méi)有通用的公共元模型,企業(yè)可以嘗試采用基于自定義模型驅(qū)動(dòng)的方式構(gòu)建中央輻射式元數(shù)據(jù)體系結(jié)構(gòu)。簡(jiǎn)單來(lái)說(shuō)
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 球賽頒獎(jiǎng)活動(dòng)方案
- 甘肅結(jié)對(duì)幫扶活動(dòng)方案
- 生活委員打卡活動(dòng)方案
- 愛(ài)心演講活動(dòng)方案
- 球類(lèi)運(yùn)動(dòng)活動(dòng)方案
- 物業(yè)員工活動(dòng)方案
- 獻(xiàn)禮公司黨代會(huì)活動(dòng)方案
- 牛排節(jié)活動(dòng)策劃方案
- 煙臺(tái)家電換購(gòu)活動(dòng)方案
- 愛(ài)心捐贈(zèng)雷鋒活動(dòng)方案
- 銀行貿(mào)易融資業(yè)務(wù)介紹
- 弱電簡(jiǎn)單維修方案
- AutoCAD 2020中文版從入門(mén)到精通(標(biāo)準(zhǔn)版)
- gkg全自動(dòng)印刷機(jī)評(píng)估報(bào)告
- 隆基樂(lè)葉光伏板560檢測(cè)報(bào)告
- 學(xué)校財(cái)務(wù)人員述職報(bào)告范文
- 履帶式微耕機(jī)的結(jié)構(gòu)設(shè)計(jì)說(shuō)明書(shū)
- 一種鰭狀結(jié)型場(chǎng)效應(yīng)晶體管及其制備方法、芯片與流程
- 設(shè)備安裝施工方案完整版
- 基于PLC的智能車(chē)庫(kù)門(mén)系統(tǒng)設(shè)計(jì)
- 【2023有效教學(xué)設(shè)計(jì)原理、策略與評(píng)價(jià)讀書(shū)報(bào)告3600字】
評(píng)論
0/150
提交評(píng)論