




已閱讀5頁,還剩40頁未讀, 繼續(xù)免費閱讀
版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
口 東南大學學位論文獨創(chuàng)性聲明 本人聲明所呈交的學位論文是我個人在導師指導下進行的研究工作及取得的研究成果。 盡我所知,除了文中特別加以標注和致謝的地方外,論文中不包含其他人已經發(fā)表或撰寫過 的研究成果,也不包含為獲得東南大學或其它教育機構的學位或證書而使用過的材料。與我 一同工作的同志對本研究所做的任何貢獻均已在論文中作了明確的說明并表示了謝意。 研究生簽名:么隆畢日期:玉墜j 2 耳l 東南大學學位論文使用授權聲明 東南大學、中國科學技術信息研究所、國家圖書館有權保留本人所送交學位論文的復印 件和電子文檔,可以采用影印、縮印或其他復制手段保存論文。本人電子文檔的內容和紙質 論文的內容相一致。除在保密期內的保密論文外,允許論文被查閱和借閱,可以公布( 包括 以電子信息形式刊登) 論文的全部內容或中、英文摘要等部分內容。論文的公布( 包括以電 子信息形式刊登) 授權東南大學研究生院辦理???研究生簽名 導師簽鼉汐日期:刪 摘要 摘要 為了實現不同組織和應用程序之間的數據集成和共享,萬維網聯盟( w 3 c ) 提出了語 義w e b 的設想。隨著語義w e b 的發(fā)展,很多領域都出現了被人們普遍認可的本體,比如社 交領域的f o a f 本體。因此在數據發(fā)布時,人們能夠使用共同的統(tǒng)一資源標識符( u ) 來 標識本體中的概念和屬性。然而,在實例數據層,由于語義w e b 的分布式特性,不同的數 據源使用不同的u r i 來標識相同的現實世界對象的情況大量存在。這種不同的u r i 但指稱 著相同對象的現象稱為對象共指,導致了語義w e b 數據分散不容易集成。為了構建更好的 數據網絡和實現數據源之間的互操作性,迫切需要有效的方法來識別出這些共指的u r i 。 目前,在鏈接數據( l i n k e dd a t a ) 的驅動下,針對對象共指的研究已經引起了語義w e b 社區(qū)的廣泛關注。本文針對語義w e b 環(huán)境下的對象共指問題,從兩個不同的角度提出了兩 種共指u r i 的識別方法:面向實例數據集的共指識別方法和大規(guī)模的語義w e b 共指識別方 法。前者從包含實例對象的數據集出發(fā),綜合利用對象本身的信息和對象之間的語義關系, 即首先根據實例對象的文本信息計算初始相似度,然后再利用實例之間的語義關系構建候選 實例對的依賴關系圖,進而對初始相似度進行精化,最終識別出數據集中的共指u r i 。后者 則是從整個語義w e b 的角度出發(fā),充分利用語義w e b 數據的特征,通過分析具有特定性質 的語義屬性導出u r i 之間的語義等價關系,然后通過迭代的方式識別出語義w e b 中大規(guī)模 的共指u r i 的集合。 基于以上的方法,本文設計與實現了一個共指u r i 識別的在線系統(tǒng)o b j e c t c o r e f o 此外, 設計相關實驗對識別方法的效果進行評估,結果表明本文提出的識別方法在實驗中是行之有 效的。 關鍵詞:語義w e b ,對象共指,共指識別,u r i 別名,實例匹配,數據集成 a b s t r a c t a b s t r a c t w i 廿lt h ea i mo fa c t u a l i z i n gd a t ai n t e g r a t i o na n ds h a r i n ga c r o s sd i f f e r e n to r g a n i z a t i o n sa n d a p p l i c a t i o n s t h es e m a n t i cw e bh a sb e e nr a i s e db yt h ew o r l dw i d ew e bc o n s o r t i u m ( w 3 c ) w i t h t h ed e v e l o p m e n to ft h es e m a n t i cw e b ,an u m b e ro fd o m i n a n to n t o l o g i e sh a v ee m e r g e df o r s p e c i f i cd o m a i n s ,s u c ha st h ef r i e n do faf r i e n d ( f o a f ) o n t o l o g yf o rs o c i a lc o m m u n i t y t h e r e f o r e i ti sc a p a b l eo fu s i n gc o m m o nu n i f i e dr e s o u r c ei d e n t i f i e r ( u r i ) f o rt h eo n t o l o g y c l a s s e sa n dp r o p e r t i e sw h i l ep u b l i s h i n gd a t a o nt h ei n s t a n c ed a t a1 e v e l h o w e v e r d u et ot h e d e c e n t r a l i z e dn a t u r eo ft h es e m a n t i cw e b i tf r e q u e n t l yh a p p e n st h a td i f f e r e n tu 砌sf r o mv a r i o u s s o u r c e sa r er e f e r r e dt ot h es a m er e a lw o r l de n t i t i e s t h eo b j e c t si d e n t i f i e db ym u l t i p l eu r i so ft h e s a m ee n t i t ya r en a m e da sc o r e f e r e n c i n go b j e c t s w h i c hl e a dt od a t af r a g m e n t a t i o na n dc a n tb e e a s i l yi n t e g r a t e d i no r d e rt ob u i l db e t t e rd a t aw e ba n da c h i e v ei n t e r o p e r a b i l i t yb e t w e e nd a t a s o u r c e s ,i ti sr a t h e ru r g e n tt or e c o g n i z et h e s ec o r e f e r e n c i n go b j e c t s t od a t e ,d r i v e nb yt h el i n k e dd a t ai n i t i a t i v e ,s t u d i e so no b j e c tc o r e f e r e n c eh a v ea t t r a c t e d c o n s i d e r a b l ea t t e n t i o nf r o mt h es e m a n t i cw e bc o m m u n i t y i nt h i sp a p e rw ep r e s e n tt w od i f f e r e n t a p p r o a c h e sa g a i n s tt h i sp r o b l e m ,i n c l u d i n ga na p p r o a c ho fo b j e c tc o r e f e r e n c er e c o g n i t i o nf o r i n s t a n c ed a t a s e t sa n da na p p r o a c ho fl a r g es c a l eo b j e c tc o r e f e r e n e er e c o g n i t i o no nt h es e m a n t i c w e b t h ef o r m e ri sc o n c e m e da b o u tt h ed a t a s e t sc o m p o s e do fi n s t a n c eo b i e c t s a n di sb a s e do n t h eu t i l i z a t i o no fb o t ht h ea t t r i b u t e sa n dt h es e m a n t i cr e l a t i o n sb e t w e e nt h eo b j e c t st or e c o g n i z et h e c o r e f e r e n c i n go b i e c t sc o n t a i n e di nt h ed a t a s e t s s p e c i f i c a l l y i tf i r s tc o m p u t e st h ei n i t i a ls i m i l a r i t y b a s e do nt h et e x t u a li n f o r m a t i o no ft h eo b j e c t s a n dt h e nad e p e n d e n c eg r a p ho fc a n d i d a t eo b j e c t p a i r sw a sc o n s t r u c t e db a s e do nt h es e m a n t i cr e l a t i o n sb e t w e e n0 b j e c t st or e f i n e t h es i m i l a r i t y i t e r a t i v e l y t h el a t t e ri sc o n c e r n e da b o u to b j e c tc o r e f e r e n c eo nt h ew h o l es e m a n t i cw e b i tt a k e s f u l la d v a n t a g eo ft h ec h a r a c t e r i s t i c so fd a t ao nt h es e m a n t i cw e b s p e c i f i c a l l y w ee x p l o i t p r o p e r t i e sw i t hs t a n d a r ds e m a n t i c st od e r i v et h ee q u i v a l e n c er e l a t i o n sb e t w e e no b j e c t sa n dt h u s i t e r a t i v e l yr e c o g n i z et h el a r g es c a l eo b j e c tc o r e f e r e n c ec o l l e c t i o n s b a s e do nt h ea b o v ea p p r o a c h e s ,w eh a v ed e s i g n e da n di m p l e m e n t e da no n l i n es y s t e mc a l l e d o b j e c t c o r e f , w h i c hi su s e dt op e r f o r mo b j e c tc o r e f e r e n c er e c o g n i t i o nf o rt h es e m a n t i cw e b f i n a l l y ,w ed e m o n s t r a t et h ef e a s i b i l i t yo fo u ra p p r o a c hv i ae x p e r i m e n t a lr e s u l t s k e yw o r d s :s e m a n t i cw e b ,o b j e c tc o r e f e r e n c e ,c o r e f e r e n c er e c o g n i t i o n , u r ia l i a s e s ,i n s t a n c e m a t c h i n g , d a t ai n t e g r a t i o n i l 目錄 目錄 摘要i a b s t r a c t i i 目勇匙i i i 第一章緒論1 1 1 研究背景l(fā) 1 2 問題描述。2 1 3 研究內容。4 1 4 論文組織結構。4 第二章相關工作。5 2 1 本體及本體匹配5 2 2 實例匹配及對象共指6 2 2 1 實例匹配7 2 2 2 對象共指7 2 3 記錄鏈接及記錄去重8 第三章一種面向實例數據集的共指識別方法。l o 3 1 概述。1 0 3 2 利用對象間語義關系的共指識別方法11 3 2 1 基于文本的相似度計算1 2 3 2 2 基于語義關系構建依賴圖。1 3 3 2 3 基于語義關系的相似度計算1 4 3 2 4 結果生成1 5 3 3 小結一1 5 第四章一種大規(guī)模的語義w e b 共指識別方法1 6 4 1 概述l6 4 2 基本思想16 4 3 利用特定性質語義屬性的共指識別方法1 7 4 3 1 共指u r i 迭代識別算法17 4 3 2 利用i f p 的識別過程1 9 4 3 - 3 利用o w l :s a m e a s 的識別過程。2 0 4 4 ,j 、結:1 1 第五章o b j e c t c o r e f 的設計與實現2 2 5 1 概述。2 2 5 2 概要設計2 2 5 2 1 系統(tǒng)體系結構2 2 5 2 2 功能模塊2 3 5 3 具體實現2 4 5 3 1 查詢處理模塊的實現2 4 5 3 2 結果生成模塊的實現2 5 5 4 小結一2 7 第六章實驗結果與分析2 8 6 1 評估方法與測試用例2 8 6 1 1 評估方法2 8 i 第七章總結與展望。3 5 7 1 工作總結。3 5 7 2 展望3 5 致謝3 7 參考文獻。3 8 i v 第一章緒論 1 1 研究背景 第一章緒論 在過去的二十年時間里,萬維網( w o r l dw i d ew e b ,簡稱w e b ) 的出現和蓬勃發(fā)展改 變了人們的生活方式,人們利用w e b 來瀏覽新聞、觀看電視節(jié)目、購物和訂機票,傳統(tǒng)的 節(jié)日活動也越來越多地受到w e b 的影響。萬維網是建立在i n t e m e t 上的信息系統(tǒng),它允許用 戶在一臺計算機上訪問另一臺計算機的信息,包括文字、圖片、聲音、軟件等,這些信息被 稱作“資源”。因此我們可以把w e b 看成一個豐富的資源倉庫,并且通過一個全局的u r l 來標識其中的資源,使得人們可以通過超鏈接來訪問資源。 w e b 提供的資源信息相當豐富,幾乎涵蓋所有的知識領域,但是w e b 上資源的龐雜和 分散化,使得人們面對如此巨大的信息量而不知所措,帶來了很多方面的問題。比如說,在 信息檢索方面,海量的信息一方面為人們找到自己所需信息提供可能,另一方面也為準確找 到所需信息提出了挑戰(zhàn),因為會出現大量冗余甚至無關的信息。目前通用的查詢策略是將用 戶發(fā)出的查詢分解為若干關鍵字,根據關鍵字計算w e b 上文檔和用戶的查詢請求的匹配程 度,從而返回若干匹配的文檔。然而簡單的匹配不能解決同名異義和異名同義問題,導致的 查詢的結果往往不盡人意。如果機器能夠理解用戶的查詢和文檔的內容,并且w e b 上的資 源互相聯結成一個巨大的數據庫,機器就可以方便的按照用戶的需求自動處理和集成網上可 用的信息,從而更好的滿足用戶的需求。 此外,目前我們所使用的萬維網,實際上是一個存儲和共享圖像、文本等資源的媒介, 機器所能看到的只是一堆文字或圖像,對其內容無法進行識別。因此,萬維網中的信息,如 果要讓機器進行自動處理的話,就必須首先將這些原始信息加工成計算機可以理解的形式, 而這一過程是相當麻煩的事情。 在這樣的背景下,萬維網的創(chuàng)始人t i mb e m e r s l e e 早在9 0 年代末就提出了語義w e b ( s e m a n t i cw e b ) 的概念【l 】,并將語義w e b 看作是下一代萬維網發(fā)展的方向。語義w e b 的 目標是為w e b 的信息提供形式化的含義,以實現信息在語義層的互操作,便于計算機和人 的協同工作。為了實現這個目標,語義w e b 使用共同的模型和語言將數據和現實生活中對 象對應,并將不同數據的數據源整合。這樣,整個w e b 就成為一個結構嚴謹的知識庫,它 就可以為有邏輯內涵的w e b 內容提供語義結構和相應的信息訪問和集成機制,從而為構建 一個能夠按需集成各種信息、完成特定任務的信息管理系統(tǒng)奠定基礎。 語義w e b 涉及的三大關鍵技術包括:x m l 吲、r d f l 3 1 和o n t o l o g y 。x m l ( e x t e n s i b l e m a r k e dl a n g u a g e ,即可擴展標記語言) 可以讓信息提供者根據需要,自行定義標記及屬性名, 從而使x m l 文件的結構可以復雜到任意程度。它具有良好的數據存儲格式和擴展性、高度 結構化以及便于網絡傳輸等優(yōu)點,再加上其特有的n s 機制及x m ls c h e m a 所支持的多種數 據類型與校驗機制,使其成為語義w e b 的關鍵技術之一。 r d f ( r e s o u r c ed e s c r i p t i o nf r a m e w o r k ) 資源描述框架,是w 3 c 組織推薦使用的用來描 述資源及其之間關系的語言規(guī)范,具有簡單、易擴展、開放性、易交換和易綜合等特點。 r d f 的基本構造為陳述或聲明( s t a t e m e n t ) ,表述形式為( 資源,資源所具有的屬性,屬性 值) ( 即s u b j e c t - - p r e d i c a t e - - - o b j e c t ) 的三元組。r d f 所表達的是一個數據模型,簡言之就是 陳述一個事物( 資源) ,這個事物具有什么屬性,這些屬性應該有什么樣的屬性值,其中使 用u 】u 州( 統(tǒng)一資源標識符) 來對事物( 資源) 進行標識。值得注意的是r d f 只定義了資源 的描述方式,卻沒有定義用哪些數據來描述資源。r d f 由多個部分組成,比如r d fd a t a 東南大學碩士學位論文 m o d e l 、r d fs c h e m a l 5 1 和r d fs y n t a x 。 本體( o n t o l o g y ) 原本是哲學的一個概念,在近幾十年里,受到信息領域的廣泛關注, 并在人工智能、數據庫理論、語義w e b 等研究領域中扮演重要的角色。目前對本體的理解 還沒有形成統(tǒng)一的定義,但是一個被廣泛認可的定義認為本體是“共享概念模型的明確的形 式化規(guī)范說明”。一個本體往往就是一個正式的詞匯表,用于定義某一領域或多個領域內的 專業(yè)詞匯和它們之間的聯系,這一系列概念為交流提供一個統(tǒng)一的認識。出于對語義分析進 一步細化的需要,科學家規(guī)定了本體描述語言,如o w l ( w e bo n t o l o g yl a n g u a g e ,即w e b 本體語言) ,并開發(fā)了許多特定領域的本體,比如:用來描述人以及人與人關系的本體 f o a f 6 1 ,用來描述在線社區(qū)的本體s i o c ,以及用來描述分類系統(tǒng)和百科全書的本體s k o s 等等,正是由于這些本體的廣泛應用,使得知識的搜索、積累與共享的效率大大提高,以及 真正意義上的知識共享與重用成為可能。 近十多年來,隨著語義w e b 的蓬勃發(fā)展,特別是l i n k i n go p e nd a t a l ( 簡稱l o d ) 項 目的開展,越來越多的機構在網絡上發(fā)布了大量的r d f 數據,比如維基百科的r d f 版本 d b p e d i a ,描述地理位置信息的g e o n a m e s ,描述論文出版物信息的d b l p 等。這些r d f 數 據集通過鏈接將數據相互關聯起來,使得人們可以在不同的數據源的數據之間進行瀏覽和導 航。這些大規(guī)模的數據不僅豐富了語義w e b 的內容,與此同時如何有效的管理和利用這些 與日劇增的數據也已經引起了人們的研究興趣。w 3 c 組織對語義w e b 的定位是“s e m a n t i c w e bi saw e bo f d a t a ,l ,可見語義w e b 本身就是關于數據的w e b 。結合近年來的語義w e b 的研究現狀可以看出,過去是以本體為中心展開研究,目前則進入到以數據為中心的研究新 階段,人們越來越多的關注如何能夠有效的利用海量的語義w e b 數據,給生產實踐帶來切 實的推動作用,從而推動語義w e b 更進一步的發(fā)展。 盡管目前語義w e b 原理及相關技術在許多應用領域取得了階段性的成功,但是它距離 真正的實際應用仍然有一個很長的過程,其中一個重要的原因就是目前語義w e b 數據的質 量還沒有達到較高的水平,限制了語義w e b 的發(fā)展,比如:濫用標識符造成的u r i 別名現 象,導致了語義w e b 數據太過分散且缺乏鏈接,給數據集成和數據挖掘等相關應用造成了 很大的困難。這一點從l i n k i n g o p e n d a t a 項目對語義w e b 數據進行分析的結果可以看出: 在總規(guī)模超過2 0 億條三元組的r d f 數據中,表達數據間鏈接的三元組僅僅只有三百萬條瞄j , 數據之間缺乏鏈接給瀏覽、集成等應用帶來了負面的影響。海量的語義w e b 數據,一方面 可以成為構建語義w e b 應用程序的重要數據來源,使得這些應用程序有足夠的真實數據來 實現更加智能的服務,另一方面如何有效的管理和利用數據也給語義w e b 研究提出的很多 新的挑戰(zhàn)。本文所關注的對象共指問題就是其中之一,這一問題的解決必定能夠提高語義 w e b 數據的質量以及對數據集成、信息共享等領域產生積極的影響。 1 2 問題描述 本節(jié)首先提出對象共指這一問題,其次針對這一問題分析其形成的原因,接著闡述解決 這一問題的意義,最后指出語義w e b 對象的共指識別所面臨的困難。 隨著語義w e b 的蓬勃發(fā)展,出現了大量的語義數據,大致可以分為概念層數據和實例 層數據兩部分,其中各種本體中所定義的類( c l a s s ) 和屬性( p r o p e r t y ) 以及它們之間的關 系就屬于概念層數據,而利用概念層所定義的類和屬性來描述某個具體資源的數據則屬于實 例層數據,比如:f o a f 本體中定義了人這樣一個類,同時還定義了人的姓名、電子郵件、 1 h t t p :e s w w 3 o r g t o p i e s w e o l g t a s k f o r c e s c o m m u n i t y p r o j e e t s l i n k i n g o p e n d a t a 2 第一章緒論 主頁等屬性,這些屬于概念層數據;利用該類和屬性可以描述某個具體的人的信息,則屬于 實例層數據,被描述的人稱為類的實例( i n s t a n c e 或i n d i v i d u a l ) 。由于實例反映的是現實世 界中的對象的信息,是對象信息的載體,并且通過u r i 來對實例進行標識,因此語義w e b 對象的共指識別本質上就是共指u r i 的識別。 為了幫助用戶在數據的海洋中找到自己所需要的數據,語義w e b 數據搜索引擎相繼問 世滿足了用戶的需求。下面以搜索引擎f a l c o n s 2 為例,通過f a l c o n s 提供的對象級別r d f 數 據的搜索功能,用戶通過關鍵字就可以找到自己所關心的實例對象,并且瀏覽對象的相關信 息。可以說,語義w e b 數據搜索引擎幫助用戶找到了數據瀏覽的入1 2 1 ,由于語義w e b 的數 據是通過有類型的鏈接關聯起來的,用戶可以沿著自己關心的鏈接進一步的瀏覽數據。 由于網絡的分布式特性帶來了信息的分散性,不同的數據源在描述數據時無法達成共 識,它們可能以不同的方式來描述相同現實世界的對象,例如它們可以描述了相同對象不同 側面的信息,并且使用不同的u r i 來標識對象。盡管把這些描述相同對象的不同側面的信 息集成起來將顯得很有意義,但由于對象缺乏全局唯一的u r i ,導致了信息無法輕易集成。 這種來自不同數據源的不同的u r i 卻指稱相同現實世界對象的現象稱為對象共指。這 種現象相當普遍,舉例來說:在f a l c o n s 系統(tǒng)中,通過搜索關鍵字 t i mb e m e r sl e e ”來查詢 語義w e b 之父t i mb e m e r sl e e 先生的相關信息,共返回了8 2 條搜索結果,通過人工觀察發(fā) 現,這些來自不同數據源的對象描述的都是t i mb e m e r sl e e 先生,而且它們的描述信息存 在著很大的重復性,然而因為對象的u r i 不同,搜索引擎無法對共指對象進行區(qū)分,導致 搜索結果包含了大量的重復信息,降低了用戶的滿意度。 對象共指問題的形成原因主要包括以下三個方面: 首先,從理論角度來看,語義w e b 的一個核心的思想就是資源通過u r i 來標識,并且 以u r i 為基礎來實現跨應用程序、跨數據源的數據集成,這也是語義w e b 較之于萬維網的 優(yōu)點之一,即可以很自然通過u r i 將描述某個資源的數據來集成起來,盡管這些數據可能 分布于不同的數據源中。從這里可以看出,資源具有全局統(tǒng)一的u r i 在數據集成的過程中 起到了至關重要的作用。對于某個資源來說,如果不同的數據源之間沒有使用共同的u r i , 那么就無法輕易的集成該資源的相關數據。然而,在語義w e b 的體系結構中,沒有相關的 協議和標準來確保數據提供者能夠重用已有的u r i 來標識某個已經在其他應用程序或者數 據源中描述過的資源,因此引發(fā)了大量的共指u r i 的出現。 其次,從實踐角度來看,語義w e b 是一個分布式的多數據源系統(tǒng),不同數據源可以獨 立的為自己描述的資源或者事物選取標識符,那么從全局來看,就造成了資源或者事物缺乏 全局唯一的標識符,在不同的數據源之間不同的標識符不一定代表不同的資源或事物。此外, 語義w e b 的數據并不都是原生的,很多是從關系數據庫中轉換而來的,比如:d b p e d i a 。在 數據的轉換過程中,往往是根據某種特定的規(guī)則來確定資源的標識符,比如:采用表格名加 編號來標識,完全沒有考慮重用現有資源的u r i ,因此轉換后的數據包含了很多共指u r i , 導致無法很好的和現有的數據集成起來。 最后,雖然缺乏全局唯一的標識符對于任何類型的資源都存在,包括概念層的類和屬性, 但是實例層的對象的情況則更加嚴重,因為首先概念層的本體數量相當較少,經過優(yōu)勝劣汰 的篩選,目前保留下來的本體已被人們廣泛認可,使得人們能夠使用一致的u r i 來標識本 體中的類和屬性,然而發(fā)現不同數據源之間實例層的對象的等價關系卻很困難。 對象共指導致了數據之間的聯系丟失,數據無法很好的集成到一起,進而無法提供高質 量、高可靠的數據服務,因此識別出這些共指的u r i ,提出有效的方法來解決資源或者事物 無法全局統(tǒng)一標識的問題,必定會對那些以數據為中心的應用,包括數據集成、數據挖掘、 2 h t t p :i w s s e u e d u o n s e r v i c e s f a l c o n s 3 東南大學碩士學位論文 語義搜索、語義查詢等帶來很大的促進作用。 語義w 曲對象的共指識別面臨很多困難和挑戰(zhàn),主要來自以下三個方面: 首先,共指u r i 的識別方法應該是自動化或者半自動化的,識別過程要盡可能多的減 少人工參與,并且識別的結果要具有較高的準確度。 其次,語義w e b 包含了海量對象數據,共指u r i 的識別方法必然要具有很強的可伸縮 性,同時還需要考慮到語義w e b 的數據規(guī)模正以很快的速度增長這一挑戰(zhàn)。 最后,語義w e b 數據是由大量的研究人員和研究機構創(chuàng)建的,其數據的質量和完整性 無法保證,共指u r i 的識別算法必須要足夠健壯,能夠處理這些可能存在問題的數據。 1 3 研究內容 本文首先調查和研究對象共指這一問題,全面了解研究現狀,理解該問題的本質和研究 難點。然后圍繞共指u r i 識別這一問題,從兩個不同的角度提出了以下兩種識別方法: 第一,提出了一種面向實例數據集的共指識別方法,即在給定一組實例數據集作為輸入 數據的情況下,通過綜合利用實例本身的信息和實例間的語義關系來計算實例之間的相似 度,進而識別出數據集中的共指u r i 的方法。 第二,提出了一種大規(guī)模的語義w e b 共指識別方法,即從整個語義w 曲的角度出發(fā), 以搜索引擎抓取的數據集為基礎,通過分析具有特定性質的語義屬性來識別出語義w 曲中 的共指u r i 。 在實驗評估方面,通過選取來自真實世界的數據集,設計相關的實驗來對共指u r i 的 識別方法進行評估。 另外,本文還設計和實現了一個共指u r i 識別的應用系統(tǒng),將共指u r i 識別作為一種 服務提供給用戶或應用程序,使得共指信息可以得到更好的重用。 1 4 論文組織結構 全文共分七章,各章節(jié)內容如下: 第一章,首先介紹了論文的研究背景,包括語義w e b 的興起以及目前的研究與發(fā)展, 接著指出了對象共指的問題以及識別的必要性,最后闡述了本文的研究內容。 第二章,介紹了相關工作,包括語義w e b 研究領域的一些相關工作,以及其他領域相 關工作的調研; 第三章,闡述了一種面向實例數據集的共指識別方法,該方法適用于給定的實例數據集 并且數據集規(guī)模適中的情景; 第四章,闡述了一種大規(guī)模的語義w e b 共指識別方法,該方法以大規(guī)模的數據分析為 基礎,通過分析具有特定性質的語義屬性來識別出語義w e b 中的共指u ; 第五章,闡述了共指u r i 識別的在線系統(tǒng)o b j e c t c o r e f 的設計和實現; 第六章,給出了相關的實驗結果,并對實驗結果進行分析: 最后一章對本文的研究工作做出總結,并展望下一步的研究工作。 4 第二章相關工作 第二章相關工作 本章主要介紹與本文研究內容相關的一些工作,包括已有的一些針對語義w e b 對象共 指問題的解決途徑,以及關于語義w e b 概念層本體匹配的相關方法和傳統(tǒng)的關系數據庫領 域中關于重復記錄刪除的方法,并且分析了這些工作的優(yōu)點和不足之處,闡述了這些工作和 本文研究內容的關系。 2 1本體及本體匹配 1 9 9 3 年,斯坦福大學的g r u b e r 給出本體的一個最為流行的定義,即“本體是概念模型 的明確的規(guī)范說明”1 9 1 。b o r s t 在此基礎上,給出了本體的另外一個定義“本體是共享概念 模型的形式化規(guī)范說明”【1 0 j 。s t u d e r 等對上述兩個定義進行了深入的研究,認為“本體是共 享概念模型的明確的形式化規(guī)范說明”。這包含四層含義:概念模型( c o n c e p t u a l i z a t i o n ) 、 明確( e x p l i c i t ) 、形式化( f o r m a l ) 、共享( s h a r e ) 1 1 j ?!案拍钅P汀笔侵竿ㄟ^抽象出客觀 世界中的一些現象的相關概念而得到的模型。概念模型所表現的含義獨立于具體的環(huán)境狀 態(tài);“明確”是指所使用的概念以及這些概念的約束都有精確無二義的定義;“形式化”是 指本體是計算機可讀的,能夠被計算機處理;“共享”是指本體中體現的是共同認可的知識, 反映相關領域中公認的概念集,而不是某個團體或個人的認識。本體的目的是捕獲相關領域 的知識,提供對該領域知識的共同理解,確定該領域內共同認可的詞匯,并從不同層次的形 式化模式上給出這些詞匯和詞匯間相互關系的明確定義。 隨著語義w e b 的發(fā)展,出現了一系列基于w e b 的本體表示語言,如s h o e 、x o l 、 r d f ( s ) 、o i l 、d a m l + o i l 、o w l 1 2 j 等,這些為本體在語義w 曲研究領域的發(fā)展注入了活 力。萬維網聯盟w 3 c 先后推薦了r d f ( s ) 、o w l 作為本體描述的語言標準。r d f ( s ) 是r d f 和r d fs c h e m a ( 簡稱r d f s ) 的合稱。r d f 定義了簡單的模型,可以表示任意類型的數據, r d f s 為數據定義了模式。o i l 以r d f ( s ) 為起點,用豐富的本體建模原語對r d f ( s ) 進行擴 充。d a m l 擴展了r d f ,增加了更多更復雜的類、屬性定義。之后d a m l 和o i l 合作,推 出了o i l + d a m l 語言,成為w 3 c 研究語義w e b 中本體語言的起點。o w l 就是在d a m l + o i l 基礎上發(fā)展起來的,目的是提供更多的原語以支持更加豐富的語義表達和推理。 由于w e b 具有分散性的特點,經常在相交甚至相同領域中存在描述同一些概念的不同 本體。不同本體的存在阻礙了知識的共享和重用。這種本體間的匹配( o n t o l o g ym a t c h i n g ) 【13 】被認為是解決這種語義異構性的一種有效途徑。本體匹配的過程就是發(fā)現本體間映射關 系的過程。對于使用不同但相關本體的w e b 應用程序而言,本體匹配提供了它們之間的互 操作性。這種互操作性使得應用程序之間可以實現:信息集成、數據遷移、分布式查詢處理 與查詢回答等功能。 為了讓本體發(fā)揮最大的作用,就需要讓本體得到充分的共享。為了使得開發(fā)本體時盡可 能的節(jié)省人力,就需要使得開發(fā)的本體能夠被重用。因此,本體的匹配工作是本體研究的難 點和關鍵問題,眾多文獻表明:只有實現本體的匹配,本體的知識庫才會得到廣泛應用。 當前很多高校及研究機構對本體匹配均有研究,開發(fā)了不少算法和工具如p r o m p t b 4 i 、 o o m 【u 】、s i m i l a r i t yf l o o d i n g l l 6 l 、g l u e l l 7 j 、以及我們實驗室的f a l c o n a o t l 8 l ,從不同角度 對概念的相似度進行度量。本體匹配的目標是構建本體間的映射關系,它是完成本體的發(fā)現、 聯合、學習以及最終獲取知識等服務的基礎。 通常匹配過程中需要考慮的信息包含以下幾個方面:基于語言學上的相似性的匹配方 5 東南大學碩士學位論文 法、基于結構上的相似性的匹配方法以及在有較多實例數據的情況下,考慮基于實例的匹配 方法和技術。 基于語言學相似性的匹配方法是一種采用自然語言處理技術進行匹配的方法,它通過計 算本體中元素之間的名字、標簽以及注釋的相似性作為元素之間是否匹配的依據。目前使用 的比較多的方法是基于字符串處理的方法和基于詞典的方法?;谧址幚淼姆椒ㄖ饕?編輯距離、單詞前后綴的相似性等等。而基于詞典的方法主要有采用現成的詞典( 比如: w o r d n e t 3 ) 識別出詞匯間是否屬于近義詞、是否存在上下位關系等等。目前幾乎所有的匹配 工具都會采用自然語言處理的相關技術,或者單獨使用其中的一種技術或綜合多種技術。例 如:在上面提到的本體匹配工具中f a l c o n - a o 就集成了基于語言學的匹配方法。該方法通過 領域對象在本體中的用法來揭示它們可能的含義,從而計算匹配結果。具體來說,就是通過 抽取本體中對象以及它鄰居對象的描述信息來構建虛擬文檔,然后通過向量空間模型方法計 算虛擬文檔之間的相似度,從而得到對象之間的相似度。 基于結構相似性的匹配方法就是利用本體結構作為圖模型所表達的信息來進行匹配,這 種方法都表達了這樣一個思想,即如果一組元素的鄰居元素匹配程度越高,那么這組元素匹 配的幾率就越大,反之亦然。在上面提到的本體匹配算法中,s i m i l a r i t yf l o o d i n g 就是這類 方法的典型代表。需要指出的是,該方法是一個面向一般圖模型的匹配,不僅適用于本體間 的匹配,也適用于其他圖模型的匹配場合。其主要思想是根據圖中相鄰概念節(jié)點之間的相似 傳遞性來計算相似度,也就是說如果兩個概念節(jié)點的鄰居節(jié)點是相似的,那么這兩個概念節(jié) 點在迭代計算的過程中也趨向于相似,即節(jié)點相似性的傳播。 基于實例的匹配方法一般情況下屬于綜合多種學習策略的機器學習方法,通過實例的學 習尋找概念元素之間的映射關系。目前基于實例的匹配方法和工具還比較少,其中比較著名 的有g l u e 。它是美國w a s h i n g t o n 大學開發(fā)的一個本體匹配工具,其主要思想是采用概念 之間的聯合概率分布來度量概念間的相似度,并且通過機器學習的方法來估計這種概率分布 情況。該方法使用了多種機器學習的策略,每種策略針對特定的實例信息或者本體所包含的 結構信息進行學習。 本體匹配是尋找概念層元素之間映射關系的過程,主要關注的是本體概念層的異構問 題,通過匹配使得異構的相交本體實現概念層的互操作。然而這些方法大多都不具有很好的 可伸縮性,在匹配概念層的時候可能能夠勝任,但是面對大量的r d f 實例數據卻顯得有些 無能為力。即便如此,由于共指u r i 的識別是尋找u r i 的之間的映射關系,兩者目標都是 尋找映射關系,因此本體匹配相關的方法對共指u r i 的識別具有很大的借鑒意義。 2 2實例匹配及對象共指 語義w e b 的數據大致可以分為概念層數據和實例層數據,鑒于尋找概念層數據之間的 映射關系的過程稱為本體匹配,尋找實例之間映射關系的過程也常被稱為實例匹配。另外我 們知道,實例匹配就是要識別出那些描述相同現實世界對象的匹配實例,也就是說實例匹配 和共指u r i 的識別的目標本質上是一致的,只是實例匹配通常傾向于處理局部的數據集, 而共指u r i 的識別則含義更加廣泛,并且更加側重于從語義w e b 的全局出發(fā)來解決對象共 指的問題。 3 h t t p :w o r d n e :t p r i n c e t o n e d u 6 第二章相關工作 2 2 1 實例匹配 在語義w e b 中,實例匹配是尋找實例之間的映射關系的過程,如果某對實例描述了相 同現實世界對象,那么這對實例就是匹配的。匹配的過程通常是從給定一組實例對象數據集 開始,通過某種策略計算實例之間的相似度,然后根據算出的相似度從中提取出匹配結果。 目前,已有的實例匹配的工作基本上關注的都是成對的、局部的、與領域相關的數據集之間 的匹配,比如【1 9 】?!緇 川中作者提出了一種面向語義w e b 音樂數據的匹配方法,通過使用數據集本 身所配備的查詢接口來進行數據層的鏈接。該方法首先假設目標數據集中能夠和源數據集的某個 實例匹配的實例最多只有一個,其主要思想是這樣的:對某個待匹
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 機關國慶活動方案
- 普通話活動語言活動方案
- 村委志愿活動方案
- 期末聚餐活動方案
- 棗糕引流活動方案
- 木蘭公園活動策劃方案
- 普查宣傳活動方案
- 普法進蘇巷小學活動方案
- 暖場音樂公司團建活動方案
- 村殘疾人活動方案
- 2024年江西省公安廳招聘警務輔助人員考試真題
- 2025年湖北省普通高中學業(yè)水平合格性考試模擬(三)歷史試題(含答案)
- 2025年高考全國二卷數學高考真題解析 含參考答案
- 2025年普通高等學校招生全國統(tǒng)一考試數學試題(全國一卷)(有解析)
- 2025年日歷表全年(打印版)完整清新每月一張
- 2023年建設銀行紀檢監(jiān)察條線考試真題模擬匯編(共858題)
- 國開經濟學(本)1-14章練習試題及答案
- 安全生產費用提取計算公式(附計算模板)
- 赤平投影原理PPT
- 2021年包頭職業(yè)技術學院教師招聘試題及答案解析
- DBJ50∕T-342-2019 工程建設對既有建(構)筑物安全影響評估標準
評論
0/150
提交評論