



下載本文檔
版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、面向Ontology適應(yīng)性的知識(shí)發(fā)現(xiàn)模型研究 【內(nèi)容提要】文章從Ontology和文獻(xiàn)知識(shí)發(fā)現(xiàn)出發(fā),在整理現(xiàn)有Ontology系統(tǒng)的基礎(chǔ)上,分析了其存在的問(wèn)題,針對(duì)問(wèn)題中關(guān)鍵的適應(yīng)性問(wèn)題,提出了分層的面向Ontology的知識(shí)發(fā)現(xiàn)模型。該模型將整個(gè)Ontology系統(tǒng)分成5個(gè)層次,以適應(yīng)不停變化的世界需要。文章最后提出了與模型相關(guān)的尚未進(jìn)行研究的問(wèn)題。 【摘 要 題】信息化與網(wǎng)絡(luò)化建設(shè) 【關(guān) 鍵 詞】本體/知識(shí)發(fā)現(xiàn)/適應(yīng)性/Ontolo
2、gy/模型 【正 文】 Gruber提出“Ontology是概念化的一個(gè)形式化的規(guī)格說(shuō)明”。所謂概念化可以理解為一組概念(如實(shí)體、屬性、過(guò)程)及其定義和相互關(guān)系。1Borst在Gruber定義基礎(chǔ)上引入了共享概念,認(rèn)為Ontology是被共享的概念化的一個(gè)形式化的規(guī)格說(shuō)明。2 在目前的知識(shí)發(fā)現(xiàn)領(lǐng)域中,知識(shí)之間的語(yǔ)義關(guān)系得到了重視,很多研究人員都將語(yǔ)義網(wǎng)的概念引入到知識(shí)發(fā)現(xiàn)過(guò)程中。各領(lǐng)域的Ontology被開(kāi)發(fā),各專業(yè)的概念以及概念之間的關(guān)系被揭示出來(lái),并且被投入到知識(shí)發(fā)現(xiàn)過(guò)程當(dāng)中去
3、,對(duì)知識(shí)發(fā)現(xiàn)過(guò)程起到了至關(guān)重要的作用,但也存在不適應(yīng)變化等諸多問(wèn)題。本文嘗試從目前生物信息學(xué)和商業(yè)領(lǐng)域知識(shí)發(fā)現(xiàn)系統(tǒng)入手,分析Ontology應(yīng)用于這些系統(tǒng)時(shí)所存在的問(wèn)題,并針對(duì)這些問(wèn)題提出一個(gè)適應(yīng)變化的基于Ontology的知識(shí)發(fā)現(xiàn)模型。 1 Ontology在知識(shí)發(fā)現(xiàn)領(lǐng)域中的應(yīng)用 目前Ontology應(yīng)用廣泛,本文僅從生物信息學(xué)和商業(yè)領(lǐng)域?qū)贠ntology的知識(shí)發(fā)現(xiàn)系統(tǒng)進(jìn)行研究,并提出應(yīng)用中存在的問(wèn)題。 1.1 Padmini Srinivasan的基于文獻(xiàn)的知識(shí)發(fā)現(xiàn)方法 &
4、#160; 基于文獻(xiàn)的知識(shí)發(fā)現(xiàn)方法最早是由Swanson提出,其目標(biāo)是通過(guò)挖掘文獻(xiàn)數(shù)據(jù)庫(kù)(如MEDLINE)發(fā)現(xiàn)概念和概念之間新的、潛在的、有意義的關(guān)系。3 Padmini Srinivasan在Swanson的基礎(chǔ)上將基于文獻(xiàn)的知識(shí)發(fā)現(xiàn)的算法進(jìn)行了改進(jìn)。4他們使用了超越簡(jiǎn)單詞頻統(tǒng)計(jì)范圍的詞頻權(quán)重,并且采用了基于 UMLS語(yǔ)義過(guò)濾篩選機(jī)制,他們的研究算法還利用了文獻(xiàn)的元數(shù)據(jù)來(lái)代表文獻(xiàn)的主題。由于元數(shù)據(jù)是概念集合,所以可以利用元數(shù)據(jù)將非結(jié)構(gòu)化的文本生成結(jié)構(gòu)化的數(shù)據(jù),對(duì)非結(jié)構(gòu)化文本的復(fù)雜挖掘方法就簡(jiǎn)化為對(duì)結(jié)構(gòu)化文本的知識(shí)挖掘。
5、0; 圖1 面向ontology適應(yīng)性的知識(shí)發(fā)現(xiàn)模型 1.2 IBM MedTAKMI的知識(shí)發(fā)現(xiàn) IBM開(kāi)發(fā)的用于挖掘生物醫(yī)學(xué)知識(shí)的軟件Med TAKMI利用醫(yī)學(xué)Ontology對(duì)生物醫(yī)學(xué)文獻(xiàn)數(shù)據(jù)庫(kù)進(jìn)行動(dòng)態(tài)和交互式挖掘。5它使用自然語(yǔ)言處理技術(shù)抽取深層次的生物醫(yī)學(xué)概念,對(duì)生物醫(yī)學(xué)概念(基因、蛋白質(zhì)、疾病)的抽取是目前基于文獻(xiàn)的知識(shí)發(fā)現(xiàn)領(lǐng)域中研究活躍的領(lǐng)域之一,在MedTAKMI系統(tǒng)中實(shí)現(xiàn)知識(shí)挖掘功能的主要為信息抽取和實(shí)體/關(guān)系挖掘這兩個(gè)部分,其中實(shí)體抽取是對(duì)生物醫(yī)學(xué)文獻(xiàn)中基因、蛋白質(zhì)、化學(xué)物質(zhì)名
6、稱的識(shí)別;關(guān)系抽取是抽取這些實(shí)體之間的關(guān)系。 1.3 GenesTrace基于整合Ontology的知識(shí)發(fā)現(xiàn) GenesTrace系統(tǒng)充分利用了UMLS、Gene Ontology (GO)、Gene Ontology相關(guān)數(shù)據(jù)庫(kù)(GODB)所提供的知識(shí)資源,將UMLS中的疾病概念與GO相關(guān)數(shù)據(jù)庫(kù) (GODB)中的基因產(chǎn)品相關(guān)聯(lián)起來(lái),其中對(duì)UMLS和 Gene Ontology的整合是非常重要的一部分。6Genes Tace的知識(shí)發(fā)現(xiàn)主要是借助整合的Ontology,并根據(jù)概念之間的共性關(guān)系,挖掘出新的知識(shí)。
7、; 1.4 UNSPESC中的知識(shí)發(fā)現(xiàn) Ding Ying利用UNSPSC(The United Nations Standard Products and Services Code)對(duì)非結(jié)構(gòu)化的文本數(shù)據(jù)進(jìn)行挖掘。7當(dāng)然,在獲取商業(yè)知識(shí)的過(guò)程中,僅僅使用 UNSPSC是完全不夠的,必須根據(jù)不同的需求,重用UNSPSC開(kāi)發(fā)、界定適合各自需求的詞表、屬性和關(guān)聯(lián)規(guī)則,構(gòu)建面向應(yīng)用的商業(yè)Ontology。 2 存在的主要問(wèn)題 以上這些Ontology用不同的語(yǔ)言和系
8、統(tǒng)開(kāi)發(fā),概念的定義缺乏統(tǒng)一性,概念的等級(jí)關(guān)系也存在著混亂性,例如在生物醫(yī)學(xué)領(lǐng)域中,UMLS的基因類目和Gene Ontology就存在著很大的不同。另外在競(jìng)爭(zhēng)情報(bào)領(lǐng)域,有專門的進(jìn)行網(wǎng)絡(luò)信息搜集的公司,信息被保存在專業(yè)的市場(chǎng)行情數(shù)據(jù)庫(kù)中,這些公司也為用戶提供各種知識(shí)挖掘的服務(wù),為了有效地進(jìn)行知識(shí)發(fā)現(xiàn),他們也開(kāi)發(fā)了適合競(jìng)爭(zhēng)情報(bào)服務(wù)的Ontology來(lái)幫助確定不同公司之間的關(guān)系。目前在挖掘不同領(lǐng)域的知識(shí)的時(shí)候,出現(xiàn)了許多問(wèn)題,主要表現(xiàn)在以下兩個(gè)方面: (1)現(xiàn)有的Ontology的整合方法并不完善。在前面介紹的Ontology在知識(shí)發(fā)現(xiàn)中的應(yīng)用中,可以看出研究人
9、員已經(jīng)開(kāi)始了進(jìn)行Ontology的整合,現(xiàn)有Ontology的整合方式主要是將其它的Ontology直接按照某種規(guī)則移植進(jìn)到一個(gè)相對(duì)全面的Ontology中,如Gene Ontology與UMLS之間的整合。經(jīng)過(guò)整合后的中間集合的Ontology在語(yǔ)法、句法和各種規(guī)則上是相容的,各個(gè)Ontology之間是保持相對(duì)獨(dú)立的,對(duì)這些不兼容的Ontology采用不同的語(yǔ)言、不同的句法、不同的表現(xiàn)方式。生物醫(yī)學(xué)在知識(shí)發(fā)現(xiàn)方面,是一個(gè)特殊的領(lǐng)域,由美國(guó)國(guó)家醫(yī)學(xué)圖書(shū)館開(kāi)發(fā)的UMLS包含了幾十個(gè)專業(yè)的詞表,并建立了各種概念之間的映射關(guān)系,是一個(gè)比較全面的Ontology,在生物醫(yī)學(xué)領(lǐng)域已經(jīng)被當(dāng)作公認(rèn)的Onto
10、logy,但是在其他領(lǐng)域,如商業(yè)領(lǐng)域同樣也包含了大量的面向不同應(yīng)用的Ontology,對(duì)這些Ontology的整合成為商業(yè)知識(shí)挖掘領(lǐng)域亟待解決的問(wèn)題。Chimaera在這方面提供了一些有效的解決方案。8。 (2)Ontology缺乏適應(yīng)性。隨著科學(xué)技術(shù)的快速發(fā)展,在各個(gè)領(lǐng)域產(chǎn)生了大量的新概念,那么為了充分挖掘各個(gè)領(lǐng)域的新知識(shí),必須及時(shí)掌握各個(gè)領(lǐng)域的新的概念?,F(xiàn)有的大部分Ontology都沒(méi)有適應(yīng)環(huán)境變化的要求對(duì)詞表和詞間的關(guān)系進(jìn)行及時(shí)的更新。雖然UMLS現(xiàn)在已經(jīng)出版了幾版,但是這種更新速度是無(wú)法滿足各領(lǐng)域知識(shí)發(fā)掘的需要,所以O(shè)ntology的動(dòng)態(tài)更新是進(jìn)行
11、知識(shí)發(fā)現(xiàn)的必要條件。另外一方面也表現(xiàn)出了On tology缺乏穩(wěn)定性,過(guò)于頻繁的變化也會(huì)影響Ontology在知識(shí)發(fā)現(xiàn)中的應(yīng)用,從發(fā)展的角度衡量動(dòng)態(tài)性和穩(wěn)定性也是Ontology發(fā)展過(guò)程中急需重視的問(wèn)題之一。 3 面向Ontology適應(yīng)性的知識(shí)發(fā)現(xiàn)模型構(gòu)建 為了適應(yīng)“變化”的需要,需要用一個(gè)能隨時(shí)改變業(yè)務(wù)流程和Ontology實(shí)體內(nèi)容的模型。本文嘗試就適應(yīng)性問(wèn)題提出一個(gè)分層解決方案。如圖1所示,該圖展示了一種面向Ontology適應(yīng)性的知識(shí)發(fā)現(xiàn)模型。 在該模型中,最高層為知識(shí)發(fā)現(xiàn)
12、表示層,該層將知識(shí)發(fā)現(xiàn)以一定的方式表示,該表示應(yīng)為該模型系統(tǒng)可讀的。第二層為規(guī)則層或者知識(shí)發(fā)現(xiàn)過(guò)程層,在該層將知識(shí)發(fā)現(xiàn)的過(guò)程分解為各個(gè)活動(dòng),各個(gè)活動(dòng)通過(guò)與Ontology實(shí)體層的互動(dòng)來(lái)實(shí)現(xiàn)活動(dòng)的功能,知識(shí)發(fā)現(xiàn)的完成依賴于全部活動(dòng)的完成。針對(duì)不同的需求,通過(guò)重組活動(dòng),可以獲得不同的知識(shí)發(fā)現(xiàn)過(guò)程以適應(yīng)不同的實(shí)際需要。 Ontology實(shí)體單獨(dú)成為一個(gè)層,該層通過(guò)接口與規(guī)則層和實(shí)現(xiàn)層實(shí)現(xiàn)訪問(wèn)和調(diào)用。Ontology實(shí)體層可以實(shí)現(xiàn)對(duì)Ontology實(shí)體的即使插拔操作,只要按照規(guī)定好的接口描述Ontology實(shí)體,就可以將Ontology實(shí)體加入到以該模型為實(shí)現(xiàn)基礎(chǔ)
13、的系統(tǒng)中,這樣可以方便地對(duì)Ontology實(shí)體進(jìn)行增、刪、改操作,以適應(yīng)Ontology不斷變化的實(shí)際情況。 實(shí)現(xiàn)層為Ontology實(shí)體和活動(dòng)提供具體的實(shí)現(xiàn)支持,該層可以通過(guò)調(diào)用已存在的對(duì)象來(lái)簡(jiǎn)化實(shí)現(xiàn),可以用不同的實(shí)現(xiàn)方式來(lái)實(shí)現(xiàn)同一功能。表示與實(shí)現(xiàn)的分開(kāi),可以在實(shí)現(xiàn)細(xì)節(jié)需要改變時(shí)無(wú)需更動(dòng)系統(tǒng)框架,在不影響系統(tǒng)運(yùn)行的情況下實(shí)現(xiàn)改變。 對(duì)象層存放各個(gè)領(lǐng)域已開(kāi)發(fā)的成熟對(duì)象、免費(fèi)對(duì)象或自主開(kāi)發(fā)的對(duì)象,該層主要對(duì)實(shí)現(xiàn)層進(jìn)行對(duì)象調(diào)用的支持。 在以上分層知識(shí)發(fā)現(xiàn)模型中,適應(yīng)變化是其一個(gè)最重要的
14、特征,當(dāng)知識(shí)發(fā)現(xiàn)過(guò)程、Ontology實(shí)體、實(shí)現(xiàn)或?qū)ο蟀l(fā)生變化時(shí),無(wú)需對(duì)整個(gè)系統(tǒng)進(jìn)行更改,只需要在不影響整個(gè)系統(tǒng)的情況下對(duì)各個(gè)單獨(dú)的層進(jìn)行相應(yīng)的更改即可。該適應(yīng)性也很好地體現(xiàn)了系統(tǒng)的可擴(kuò)展性,新的需求可以很方便地增加到系統(tǒng)中。 4 總結(jié) 基于文獻(xiàn)的知識(shí)發(fā)現(xiàn)方法從20世紀(jì)80年代被Swanson提出之后,很多研究人員都投身到知識(shí)發(fā)現(xiàn)領(lǐng)域中,并對(duì)Swanson的知識(shí)發(fā)現(xiàn)方法進(jìn)行了改進(jìn)。但各個(gè)領(lǐng)域的基于Ontology的文獻(xiàn)知識(shí)發(fā)現(xiàn)系統(tǒng)也存在不少問(wèn)題,文本僅嘗試對(duì)系統(tǒng)的適應(yīng)性問(wèn)題提出一個(gè)可能的解決模型,在該方案中,尚未對(duì)知識(shí)
15、發(fā)現(xiàn)表示的方法、統(tǒng)一Ontology接口描述等問(wèn)題進(jìn)行研究,這些問(wèn)題有待于進(jìn)一步研究。 【參考文獻(xiàn)】 1 Thomas R Gruber. Ontolingua: A Translation Approach to Potable Ontology Specification. Knowledge Acquisition, 1993,5(2): 199-200 2 Bomt W N. Construction of Engineering Ontofogies for Knowle
16、dge Sharing and Reuse. PhD Thesis, Enschede: University of Twente, 1997 3 Swanson D R. Fish oil, Raynaud's syndrome, and undiscovered public knowledge. Perspectives in Biology and Medline, 1986,30 (1):18 4 Padmini Srinivasan. Text Mining: Generating Hypotheses From MEDLINE. JASIST, 2004, 55(5): 396-413 5 N Uramoto. A Text-mining System for Knowledge Discovery from Biomedical Documents. IBM SYSTEMS JOURNAL, 2004,43 (3):516-533 6 Anand Kumar, Barry Smith. The Unified Medical Language System and the Gene Ontology:
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 業(yè)務(wù)流程跟蹤與監(jiān)控表
- 鋁灰渣資源化利用改建項(xiàng)目實(shí)施方案(范文模板)
- 2025年四川省達(dá)州市中考英語(yǔ)真題含答案
- 房屋預(yù)售購(gòu)銷合同
- 中試平臺(tái)建設(shè)的資金籌措與資源配置策略
- 生物制藥中試平臺(tái)建設(shè)的背景與發(fā)展趨勢(shì)
- 建筑設(shè)計(jì)原理與設(shè)計(jì)題集
- 《宏觀經(jīng)濟(jì)與微觀經(jīng)濟(jì):高二經(jīng)濟(jì)學(xué)基礎(chǔ)教案》
- 資源整合與優(yōu)化在中試能力建設(shè)中的應(yīng)用
- 品牌加盟合作合同協(xié)議書(shū)詳細(xì)內(nèi)容約定
- 諸暨市城北片控制性詳細(xì)規(guī)劃
- 2023年10月自考00539中國(guó)古代文學(xué)史二試題及答案含評(píng)分標(biāo)準(zhǔn)
- 安保服務(wù)方案(技術(shù)標(biāo) )
- 高中化學(xué)課程標(biāo)準(zhǔn)解讀課件
- 輥壓機(jī)的維護(hù)與檢修
- 四年級(jí)下冊(cè)數(shù)學(xué)說(shuō)課稿-1歌手大賽-北師大版
- 北京市朝陽(yáng)區(qū)2021-2022學(xué)年四年級(jí)下學(xué)期期末語(yǔ)文試卷
- 金融系統(tǒng)反洗錢考試題庫(kù)(含答案)
- 甘肅省張掖市2023年中考地理真題試題(含解析)
- 人教小學(xué)數(shù)學(xué)五年級(jí)下冊(cè)綜合與實(shí)踐《怎樣通知最快》示范公開(kāi)課教學(xué)課件
- 脫不花三十天溝通訓(xùn)練營(yíng)
評(píng)論
0/150
提交評(píng)論