




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、Good is good, but better carries it.精益求精,善益求善。一種用于專利實(shí)體的實(shí)體消歧方法-文章編號(hào):XXXX一種用于專利實(shí)體的實(shí)體消歧方法王琰炎,王裴巖,蔡?hào)|風(fēng)(沈陽航空航天大學(xué)知識(shí)工程與人機(jī)交互研究中心,沈陽,110136)摘要:專利實(shí)體是用以表述專利、實(shí)用新型或外觀設(shè)計(jì)的具有實(shí)際意義的實(shí)體,作為專利文本的核心內(nèi)容,專利實(shí)體是專利文本中最值得實(shí)體搜索用戶關(guān)注的焦點(diǎn)。專利實(shí)體搜索是專利技術(shù)方案信息抽取的第一步,而專利實(shí)體消歧是專利實(shí)體搜索中最重要的操作,是將具有領(lǐng)域歧義性的專利實(shí)體相關(guān)詞,按照實(shí)體不同的領(lǐng)域含義,劃分為不同類別的過程。將實(shí)體搜索技術(shù)應(yīng)用于中文專
2、利摘要文本,并在實(shí)體搜索過程中使用了實(shí)體消歧技術(shù),得到用戶最關(guān)注的實(shí)體相關(guān)信息。本文在充分分析了專利摘要文本的特點(diǎn)的基礎(chǔ)上,提出一種面向?qū)@麑?shí)體的消歧方法。本文使用基于IPC和向量空間模型的詞向量表示法,結(jié)合凝聚式層次聚類算法,得到專利實(shí)體消歧結(jié)果。根據(jù)對(duì)比實(shí)驗(yàn)的結(jié)果能夠得出結(jié)論,本方法能夠?qū)崿F(xiàn)準(zhǔn)確的實(shí)體消歧,評(píng)測(cè)結(jié)果高達(dá)78.9%。關(guān)鍵詞:專利實(shí)體、實(shí)體搜索、實(shí)體消歧、IPC、凝聚式層次聚類中圖分類號(hào):TP391.1文獻(xiàn)標(biāo)識(shí)碼:AAnEntityDisambiguationMethodforPatentEntityWANGYan-yan,WANGPei-yan,CAIDong-feng(Kn
3、owledgeEngineeringResearchCenter,ShenyangAerospaceUniversity,Shenyang110136)Abstract:PatentEntityisasignificantentitythatusedtoexpresspatents,utilitymodels,andappearancedesign,asthekernelofpatenttext,patententityistheabsolutefocusofentitysearchusers.PatentEntitySearchisthefirststepofPatentInformatio
4、nExtraction,andtheentitydisambiguationofpatentisthemostimportantoperationofPatentEntitySearch,whichisdividerelativewordstodifferenttypesaccordingtodifferentdomains.ApplyentitysearchtechnologytotheabstracttextofChinesepatent,makeuseofthetechnologyofentitydisambiguation,whichcangettherelativeinformati
5、onthattheuserconcerned.Thispaperproposeadisambiguationmethodonthebasisofanalyzingthefeatureoftheabstracttextofpatentadequately.CombinedwithHAC,thispaperhavegottentheresultofdisambiguationbyusingthewordvectorrepresentationonthebasisofIPCandVectorSpaceModel,combinedwithHAC.Accordingtotheparallelexperi
6、ments,wecometotheconclusionthatthemethodcoulddisambiguateaccuratelywiththemeasurevalueof78.9percent.Keywords:PatentEntity,EntitySearch,EntityDisambiguation,IPC,HAC專利文本是集技術(shù)情報(bào)、法律情報(bào)和經(jīng)濟(jì)情報(bào)于一體的實(shí)用知識(shí)載體,是極為重要的科技信息來源1。專利實(shí)體作為專利文本中的核心對(duì)象,研究價(jià)值較高。專利實(shí)體的消歧是專利實(shí)體搜索的核心步驟,目標(biāo)是解決專利實(shí)體搜索中同名實(shí)體的歧義問題,幫助用戶準(zhǔn)確定位目標(biāo)信息。在專利文本的基礎(chǔ)上進(jìn)行實(shí)體
7、消歧,就是將具有領(lǐng)域歧義的實(shí)體相關(guān)詞按照不同的領(lǐng)域含義劃分為不同的類別。因此,專利實(shí)體上的歧義消解實(shí)際上就是目標(biāo)詞的聚類過程,消歧結(jié)果的好壞就取決于聚類中目標(biāo)詞向量的原始特征選擇。本文嘗試了三種不同的特征選取方法,將目標(biāo)詞表示成特征向量,再進(jìn)行類別劃分。經(jīng)過實(shí)驗(yàn)驗(yàn)證,使用基于IPC分類的特征生成目標(biāo)詞向量的方法取得了更好的效果。本文共分為5部分內(nèi)容,第1部分介紹了國內(nèi)外的相關(guān)研究,第2部分介紹了本文提出的三種相關(guān)詞特征向量表示方法,第3部分介紹了使用聚類算法進(jìn)行專利實(shí)體消歧的過程,第4部分則是實(shí)驗(yàn)和分析,最后一部分是本文得出的結(jié)論與展望。1相關(guān)研究實(shí)體消歧問題是當(dāng)下比較熱點(diǎn)的研究問題,國內(nèi)外的
8、大多熟研究從兩個(gè)角度解決實(shí)體歧義造成的影響,分別是通過尋求更高質(zhì)量的特征和引入外部資源輔助消解。在特征選取方面,何正焱2利用DNN(深度神經(jīng)網(wǎng)絡(luò))方法,提出了一種文檔和實(shí)體的相似度為框架的消歧模型;姜麗麗3提出了一種基于帶權(quán)圖結(jié)構(gòu)的框架來實(shí)現(xiàn)人物實(shí)體的消歧工作,并使用實(shí)體標(biāo)簽對(duì)每個(gè)人物實(shí)體進(jìn)行標(biāo)注;Bagga和Baldwin4將不同文檔間上下文的相似度作為特征實(shí)現(xiàn)實(shí)體消歧的;R.Bekkerman和A.McCallum5則結(jié)合了社交網(wǎng)絡(luò)的鏈接信息和聚類兩種非監(jiān)督的框架對(duì)社交網(wǎng)絡(luò)中的人物實(shí)體進(jìn)行消歧。給定的文檔集中所包含的被査詢?nèi)说男畔⑼欠浅S邢薜?,因此網(wǎng)絡(luò)公共資源經(jīng)常被用來挖掘更多的信息以
9、提高同名消歧質(zhì)量。其中,中科院的韓先培6使用了在線知識(shí)庫信息來輔助解決實(shí)體歧義的,D.Bollegara7通過擴(kuò)展查詢?cè)~來對(duì)Web搜索引擎中的同名人物實(shí)體進(jìn)行消歧;R.Bunescu8嘗試使用在線百科全書(Wikipedia)的部分錨文本信息來擴(kuò)充文檔集,從而完成信息檢測(cè)和同名消歧的任務(wù)。這些方法能夠非常出色的完成實(shí)體消歧的任務(wù),但是由于其需要花費(fèi)大量的時(shí)間進(jìn)行在線信息采集,因此更適合于服務(wù)器端的應(yīng)用。現(xiàn)在階段的實(shí)體消歧研究集中在通用文本上,而專利文本上的實(shí)體,又與通用文本中的實(shí)體有本質(zhì)的區(qū)別。因此,本文需要充分利用專利文本及專利實(shí)體的特點(diǎn),并在通用的實(shí)體消歧方法的基礎(chǔ)上進(jìn)行優(yōu)化。2特征向量表
10、示方式實(shí)體消歧的目標(biāo)是對(duì)專利相關(guān)詞解析并分類,利用向量空間模型(VSM)的思想,將相關(guān)詞表示成特征向量的形式,再對(duì)它們進(jìn)行消歧。本文嘗試了三種特征向量的表示方式,分別是利用基于TF-IDF的文檔特征表示法、Word2vec詞向量表示法,以及基于IPC分類的輔助表示法。2.1TF-IDF特征表示法TF-IDF是一種利用詞語的詞頻(TF)和反文檔頻率(IDF)特征的統(tǒng)計(jì)方法,主要思想在于,如果某個(gè)詞在一篇專利文檔中出現(xiàn)的頻率TF高,而在其他文檔中出現(xiàn)較少,則認(rèn)為此詞具有很好的類別區(qū)分能力。基于TF-IDF的特征權(quán)值選取方法,使每個(gè)特征維度代表一篇相關(guān)文檔,將每個(gè)目標(biāo)詞在每篇對(duì)應(yīng)文檔中的TD-IDF
11、值作為對(duì)應(yīng)維度上的特征值,表示形式如下。其中,表示的是目標(biāo)詞w在專利文本中的詞頻,idf表示w在文本集上的反文檔頻率,N表示專利文本集中的文本總數(shù),則表示w在文本集中的文檔頻率。由于考慮到專利文本的長度對(duì)目標(biāo)詞在不同專利文本中的權(quán)重值影響較大,需要進(jìn)行的向量的歸一化操作。2.2Word2vec詞向量表示法本文使用了由Google的TomasMikolov1011團(tuán)隊(duì)研發(fā)的Word2vec詞向量生成工具,生成指定維度的目標(biāo)詞向量。Word2vec工具是基于DeepLearning和神經(jīng)網(wǎng)絡(luò)模型,利用深度神經(jīng)網(wǎng)絡(luò)(DNN)的思想,通過上下文的分析,自動(dòng)選取特征,并通過用戶指定的參數(shù),經(jīng)過多次的迭代
12、,訓(xùn)練出詞向量。Word2vec常用的參數(shù)包含上下文窗口大?。╓indow)、向量維度(size)、訓(xùn)練架構(gòu)選擇(cbow)以及最低訓(xùn)練詞頻(min-count)等。本文先利用分詞工具和命名實(shí)體識(shí)別工具,將相關(guān)文檔集進(jìn)行分詞和實(shí)體識(shí)別操作,并將經(jīng)過分詞和識(shí)別之后的文檔作為word2vec工具的訓(xùn)練語料,進(jìn)行詞向量的訓(xùn)練。2.3IPC向量表示法IPC(國際專利分類)是目前國際上唯一通用的專利文獻(xiàn)分類和檢索工具12,是一個(gè)復(fù)雜的層次結(jié)構(gòu)分類系統(tǒng),分為部、大類、小類、主組和分組5個(gè)層次13。例如,篇專利文本的IPC分類編號(hào)是A47B1/02,可按照IPC體系做如下分解。表1專利文本的IPC編號(hào)分解舉
13、例分解片段IPC層次含義A部(最外層)人類生活需要A47大類家具A47B小類桌子、寫字臺(tái)、抽屜、櫥柜等A47B1/00主組可伸展的桌子A47B1/02分組(最內(nèi)層)有可插入的活板和固定框架的桌子基于IPC的特征選取方法是利用IPC體系中每個(gè)層次的類別特征,將實(shí)體相關(guān)詞詞表示成特征向量的形式?;贗PC的特征向量表示方法是利用IPC的5個(gè)不同層次的IPC類別作為特征。以IPC的最外層(部)為例,IPC的部有AH類的8種特征,如下表所示。表2IPC的部的層次特征介紹標(biāo)識(shí)表示含義舉例說明A類人類生活需要A01:農(nóng)業(yè);A41:服裝;A63:運(yùn)動(dòng)娛樂B類作業(yè)、運(yùn)輸B27:木材;B64:航空、飛行器C類化
14、學(xué)、冶金C01:無機(jī)化學(xué);C10:石油、煤氣;C21:煉鐵D類紡織、造紙D03:織造;D21:造紙E類固定構(gòu)造E02:水利工程;E04:建筑物;E05:門窗、鑰匙F類機(jī)械工程、照明、加熱F02:燃?xì)鈾C(jī);F21:照明;F23:燃燒設(shè)備G類物理G02:光學(xué);G11:信息貯存;G21:核物理、核工程H類電學(xué)H01:基本電氣元件;H04:電子通信技術(shù)其中,AH類的每個(gè)特征向量的維度都是8,此時(shí)對(duì)于目標(biāo)詞w,其特征向量的形式是,向量的8個(gè)特征權(quán)值分別表示目標(biāo)詞w的上表中的8個(gè)類別上的權(quán)重值。使用類似于基于詞語的TF-IDF的特征權(quán)值表示法,將基于單篇文檔的特征更改為基于8種部的特征,將基于N篇專利文檔的
15、特征進(jìn)行降維,從而將基于文檔的特征映射到基于IPC的8種部的特征。于是權(quán)值的表示形式為:其中,表示目標(biāo)詞在類文本中的詞頻,N是相關(guān)文檔集大小,表示的是目標(biāo)詞w在類文本中的文檔頻率。同理,在IPC分類體系的大類和小類的層面上進(jìn)行相同的特征選擇,得到不同層次下的特征向量。本文在前三個(gè)層次的特征進(jìn)行了實(shí)驗(yàn),其中大類和小類的特征數(shù)目是123和629。3聚類分析3.1凝聚式層次聚類實(shí)體消歧中對(duì)于實(shí)體相關(guān)詞的劃分,使用的是聚類的思想,將實(shí)體相關(guān)詞利用VSM表示成特征向量之后,對(duì)這些目標(biāo)向量進(jìn)行聚類分析。由于對(duì)于聚類結(jié)果缺乏預(yù)知,無法預(yù)測(cè)目標(biāo)詞會(huì)分為幾類,因此本文使用層次聚類來實(shí)現(xiàn)專利實(shí)體的消歧。根據(jù)層次分
16、解的順序是自下向上的還是自上向下的,分為凝聚的層次聚類算法和分裂的層次聚類算法14,本文使用的是前者。HAC是一個(gè)自底向上的層次聚類過程,一開始將每個(gè)目標(biāo)詞都看做一個(gè)由單個(gè)詞組成的小聚簇,然后不斷地對(duì)簇進(jìn)行兩兩合并的操作,直到所有聚簇都合并成一個(gè)類為止。實(shí)體的歧義消解過程中,將每個(gè)目標(biāo)詞作為聚類的對(duì)象,每個(gè)目標(biāo)詞用特征向量的形式表示,對(duì)這些目標(biāo)詞進(jìn)行聚類的過程就是對(duì)這些特征向量聚類的過程,其中向量之間的距離衡量公式使用的是歐氏距離。3.2聚類終止條件控制HAC的聚類過程需要通過閾值控制聚類的終止。本文選取6個(gè)不同的簇內(nèi)相似度值水平k進(jìn)行閾值控制,分別是0.5、0.3、0.1、0.001、1e-
17、9和0,分別對(duì)應(yīng)聚類終止控制策略的16層。對(duì)于一個(gè)歧義實(shí)體,以這6個(gè)相似度作為層次聚類的終止條件得到6種聚類結(jié)果,分別采集每種聚類結(jié)果的詳細(xì)記錄,其表示形式如下:其中,表示第i層聚類結(jié)果的聚簇?cái)?shù)目,是第i層聚類結(jié)果的F評(píng)價(jià)值;而則表示第i層的詳細(xì)聚類結(jié)果記錄,詳細(xì)記錄了每個(gè)聚簇包含的相關(guān)詞數(shù)目以及簇內(nèi)對(duì)象的相似度平均值,表示形式如下:隨著層數(shù)的增加,相似度閾值逐層降低,聚簇?cái)?shù)目逐層減少,每個(gè)聚簇內(nèi)詞語間的平均相似度值也逐層衰減,本文就是通過相似度的衰減程度來控制聚類的終止,本文嘗試了幾種衰減策略來控制,即最大值衰減、最小值衰減、平均值衰減,以及它們之間的融合衰減方法。3.2.1衰減程度首先計(jì)算
18、每個(gè)相似度水平k下的聚類結(jié)果中除1外的類內(nèi)的目標(biāo)相似度值。從第二層的相似度水平k=0.3開始,根據(jù)本層的類內(nèi)相似度值和上一層的相似度值,計(jì)算衰減程度,第i層的衰減程度的表示形式如下:其中,和表示當(dāng)前層和上一層的目標(biāo)相似度值,可以表示當(dāng)前聚類結(jié)果中簇內(nèi)相似度的最大值、最小值或平均值。于是得到每一層的的三個(gè)衰減度、和。再通過實(shí)驗(yàn)選取合適的衰減閾值,當(dāng)在第i層的衰減度大于該閾值時(shí)終止聚類,并將上一層的聚類結(jié)果作為最終的消歧結(jié)果。3.2.2衰減融合策略將三種衰減度中的兩種以上加以融合,形成新的衰減策略,即衰減融合策略。共存在如表2的4種衰減策略。表2四種融合衰減策略融合策略策略說明RMax+Min同時(shí)
19、使用最大值策略、最小值策略RMax+Avg同時(shí)使用最大值策略、平均值策略RMin+Avg同時(shí)使用最小值策略、平均值策略RAll同時(shí)使用三種策略例如,在表2所示的聚類結(jié)果中使用RMax+Min的融合策略,此融合策略要求在每層的聚類結(jié)果中,兩個(gè)衰減度和需同時(shí)滿足和,若條件之一不滿足就終止聚類。其他三種融合策略的應(yīng)用方法與RMax+Min方法相似,只是使用的衰減度類型不同。通過實(shí)驗(yàn)分別驗(yàn)證這四種融合策略對(duì)于實(shí)體消歧的有效性,并與前一節(jié)提及的三種使用單獨(dú)的衰減度的策略進(jìn)行對(duì)比,找出最佳的衰減策略應(yīng)用于專利實(shí)體的消歧。4實(shí)驗(yàn)與分析4.1實(shí)驗(yàn)設(shè)置本文使用的實(shí)驗(yàn)語料為來源于不同領(lǐng)域的2009-2010年的中
20、文專利摘要,共92萬篇。本實(shí)驗(yàn)使用了10個(gè)具有領(lǐng)域歧義性的查詢?cè)~,每個(gè)查詢?cè)~通過相關(guān)詞檢索和篩選,得到50個(gè)最相關(guān)的目標(biāo)詞語。每個(gè)查詢(Query)都含有至少兩個(gè)領(lǐng)域含義例如,領(lǐng)域概念“載體”具有3個(gè)領(lǐng)域含義,將實(shí)體相關(guān)詞映射到“載體”的3種不同的領(lǐng)域含義上,并按照不同的領(lǐng)域含義對(duì)標(biāo)注這些目標(biāo)詞,從而實(shí)現(xiàn)專利實(shí)體的歧義消解,標(biāo)準(zhǔn)的消歧結(jié)果如下表所示。表3“載體”的實(shí)體相關(guān)詞的標(biāo)注結(jié)果相關(guān)詞標(biāo)注結(jié)果備注說明抗體DNA基因數(shù)據(jù)載體信道導(dǎo)體POC金屬載體1112233生物醫(yī)藥類載體生物醫(yī)藥類載體生物醫(yī)藥類載體數(shù)據(jù)通信類載體數(shù)據(jù)通信類載體工業(yè)領(lǐng)域載體工業(yè)領(lǐng)域載體4.2評(píng)價(jià)指標(biāo)專利實(shí)體消歧的目標(biāo)是將實(shí)體
21、相關(guān)詞利用層次聚類的方法劃分為不同的類別,因而使用聚類技術(shù)的評(píng)價(jià)方法評(píng)價(jià)實(shí)體消歧的有效性,本文使用的評(píng)價(jià)方法是基于人工判定的F-Measure值。已知實(shí)體相關(guān)詞標(biāo)注結(jié)果和聚類結(jié)果集,其中表示標(biāo)注結(jié)果中包含s個(gè)類別,表示聚類結(jié)果中包含的聚簇?cái)?shù)目是m。計(jì)算每個(gè)標(biāo)注類別在不同聚簇下的準(zhǔn)確率(Precision)、召回率(Recall)和聚類F值,其中聚類準(zhǔn)確率、召回率和F值的計(jì)算公式如下:,從中挑選最優(yōu)指標(biāo)值以及與其對(duì)應(yīng)的簇,并以該最優(yōu)的指標(biāo)值來判定的質(zhì)量,每個(gè)標(biāo)注類別的F值表示為。本次聚類結(jié)果的最終F值的表示為:4.3實(shí)驗(yàn)結(jié)果與分析=1*GB2*MERGEFORMAT聚類終止條件的閾值控制由于實(shí)體
22、消歧的過程就是層次聚類的過程,需要控制聚類的終止條件得到最終的消歧結(jié)果。本文使用了3種單獨(dú)的衰減方式(最大值衰減、最小值衰減、平均值衰減)以及它們之間相互融合的4種衰減方式,以控制了層次聚類的終止。7種衰減方式的聚類結(jié)果評(píng)價(jià)如下表所示。表4聚類終止條件控制結(jié)果展示RMaxRMinRAvgRMax+MinRMax+AvgRMin+AvgRAll0.67240.62880.65860.63210.62970.63040.7565從表中數(shù)據(jù)可得出結(jié)論,使用三種衰減方式相融合的衰減方式RAll得到最優(yōu)的聚類結(jié)果。在此基礎(chǔ)上,本文選取了4個(gè)候選的衰減度閾值0.2、0.3、0.4和0.5,分別在這4個(gè)閾值
23、的基礎(chǔ)上得出聚類的評(píng)測(cè)結(jié)果,如下表所示。表5不同衰減度水平的評(píng)價(jià)結(jié)果0.50.71010.74850.76180.7887從實(shí)驗(yàn)結(jié)果中可以看出,本文在使用三種衰減度融合的基礎(chǔ)上,并使用衰減度閾值為0.5的情況下,得到最優(yōu)的結(jié)果。=2*GB2*MERGEFORMAT消歧評(píng)測(cè)結(jié)果本文提出的專利實(shí)體消歧方法是基于IPC分類體系結(jié)合VSM生成相關(guān)詞的特征向量,并利用HAC算法進(jìn)行聚類分析的過程,因而本文提出方法的評(píng)價(jià)指標(biāo)采用的是層次聚類的評(píng)價(jià)方法F-Measure。將TF-IDF的特征表示法作為Baseline;在word2vec的詞向量表示法方面,使用了三種維度的特征向量表示;而在
24、基于IPC的特征表示法方法則使用了IPC的三個(gè)層次進(jìn)行特征向量的輔助生成。作為對(duì)比實(shí)驗(yàn),本文引用了姜麗麗3的基于文檔的詞語相似度方法。本文在十個(gè)查詢中的結(jié)果如表6所示。表6十個(gè)查詢?cè)~的F值查詢?cè)~Baselineword2vec方法共現(xiàn)度方法IPC方法size=200size=250size=300PBCSC病毒0.72480.75710.75710.75710.91110.98430.9921緩沖器0.37110.65990.64610.64610.65890.61220.61220.569引擎0.38820.55680.55680.55680.35150.75910.75420.7941接口
25、0.63850.69890.69890.69890.65350.68580.68580.6858種子0.54880.68840.77930.77930.9230.93890.93420.9389粉碎機(jī)0.45880.52770.52770.52770.60350.68170.74810.6986過濾器0.53040.43550.46270.46270.55870.63270.69930.6549散熱器0.41280.45310.45310.45310.49590.72030.76830.752牽引器0.48220.41220.41220.41220.57920.76250.83260.7915
26、載體0.52170.63570.63570.63570.68050.82130.86090.7936Avg0.50770.58250.5930.5930.64160.760.78870.7678從實(shí)驗(yàn)結(jié)果可以看出,基于IPC的特征向量表示方法的聚類效果明顯優(yōu)于其他方法,且在IPC的3個(gè)層次上都獲得了較好的歧義消解結(jié)果??傮w上看,此方法在大類的層次上獲得了最好的評(píng)價(jià)結(jié)果,因?yàn)樵诓康膶哟紊?,相關(guān)詞的特征向量維度是8,在低維空間上較稠密,不利于實(shí)體的歧義消解;而在小類層次上,特征向量又比較稀疏,使一些具有較高領(lǐng)域相關(guān)度的詞對(duì),由于在很多特征維度上沒有交集,使它們的相關(guān)度較低,未被聚到一起,而影響最終
27、的消歧結(jié)果?;赥F-IDF的方法能夠反映的實(shí)體信息有限,大部分實(shí)體相關(guān)詞都是專利術(shù)語,其對(duì)應(yīng)的特征向量較稀疏,而特征向量的維度較大,在聚類過程中不利于形成明顯的聚簇,使聚類的準(zhǔn)確率降低。使用Word2vec工具生成的詞向量,能夠在一定程度上引入語義信息,但這種語義信息只是集中于一定范圍的上下文中,對(duì)于信息較為分散的專利文本,并沒有生成對(duì)歧義消解有幫助的特征向量。使用文檔共現(xiàn)度的信息表示法取得了不錯(cuò)的效果,但對(duì)于專利相關(guān)詞之間的關(guān)系,文檔共現(xiàn)信息不能完全體現(xiàn)詞對(duì)的相關(guān)性。5結(jié)論與展望本文提出了一種用于專利實(shí)體的實(shí)體消歧方法,在充分分析和利用專利文本特點(diǎn)的基礎(chǔ)上,利用IPC分類體系對(duì)專利實(shí)體進(jìn)行
28、消歧分析。充分利用IPC分類編號(hào)的特點(diǎn),按照領(lǐng)域的歧義性,對(duì)實(shí)體相關(guān)詞進(jìn)行類別的劃分。本文在IPC體系的三個(gè)層次上分別利用詞頻、文檔頻率以及類別頻率等特征,得到能夠表達(dá)詞語領(lǐng)域標(biāo)識(shí)性的特征向量,再利用HAC算法對(duì)這些特征向量進(jìn)行聚類,得到的聚類結(jié)果就是實(shí)體消歧的結(jié)果。同時(shí),為了驗(yàn)證本方法的有效性,本文還引入了其他三種方法做對(duì)比,分別是基于TF-IDF的向量表示法、Word2vec詞向量表示法以及文檔共現(xiàn)度信息表示法。結(jié)果表明,本文提出的方法能夠有效地實(shí)現(xiàn)專利實(shí)體的消歧。下一步的工作中,將嘗試在不同的IPC層次下的特征在領(lǐng)域不同上進(jìn)行混合和篩選。例如,在IPC的部的層次上,G類和H類都是與物理工
29、業(yè)相關(guān)的領(lǐng)域,可以考慮將二者合并;A類是“人類日常生活類”,其中包含的領(lǐng)域較復(fù)雜,可以考慮將A類特征按照不同領(lǐng)域進(jìn)行分解等。這樣,在新的IPC層次上進(jìn)行實(shí)驗(yàn),以期獲得更好的效果。參考文獻(xiàn)(References)1鄧要武.科技報(bào)告、專利文獻(xiàn)和標(biāo)準(zhǔn)文獻(xiàn)資源檢索與利用.圖書館工作與研究J.2008(7):71-7412ZhengyanHe,ShujiLiu,MuLietal.LearningEntityRepresentationforEntityDisambiguationC.InproceedingsofAssociationofComputationalLanguage,2013:30-343
30、姜麗麗.實(shí)體搜索與實(shí)體解析方法研究D.蘭州:蘭州大學(xué),2012.4A.Bagga,B.Baldwin.Entity-basedcross-documentcoreferencingusingthevectorspacemodelC.InProceedingsofthe36thAnnualMeetingoftheAssociationforComputationalLinguisticsandthe17thInternationalConferenceonComputationalLinguistics(COLING-ACL),1998:79-85.5R.Bekkerman,A.McCallum.Disambiguatingweb
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 持續(xù)進(jìn)步2025年商務(wù)英語考試試題及答案
- 消控證的試題及答案
- 家具設(shè)計(jì)的市場(chǎng)導(dǎo)向與社會(huì)需求考核試題及答案
- 幼兒園數(shù)學(xué)討論的試題及答案例子
- 如何借助政策實(shí)現(xiàn)項(xiàng)目快速落地的試題及答案
- 大學(xué)化學(xué)考試原子模型與發(fā)展試題及答案
- 農(nóng)村青年參與電商創(chuàng)業(yè)的機(jī)遇試題及答案
- 建筑施工中防止職業(yè)病的措施與試題及答案
- 大學(xué)化學(xué)考試未來發(fā)展試題及答案
- 數(shù)值積分測(cè)試題及答案
- 2023年副主任醫(yī)師(副高)-中醫(yī)婦科學(xué)(副高)考試高頻試題(歷年真題)帶答案
- 大學(xué)生器樂訓(xùn)練基礎(chǔ)知到章節(jié)答案智慧樹2023年麗水學(xué)院
- 無形資產(chǎn)轉(zhuǎn)讓協(xié)議書(2篇)
- GB/T 37356-2019色漆和清漆涂層目視評(píng)定的光照條件和方法
- GB/T 262-2010石油產(chǎn)品和烴類溶劑苯胺點(diǎn)和混合苯胺點(diǎn)測(cè)定法
- GB/T 22720.1-2017旋轉(zhuǎn)電機(jī)電壓型變頻器供電的旋轉(zhuǎn)電機(jī)無局部放電(Ⅰ型)電氣絕緣結(jié)構(gòu)的鑒別和質(zhì)量控制試驗(yàn)
- 機(jī)柜間主體施工方案
- 福格行為模型
- 銀級(jí)考試題目p43測(cè)試題
- 有限空間作業(yè)及應(yīng)急物資清單
- 思想道德與法治教案第一章:領(lǐng)悟人生真諦把握人生方向
評(píng)論
0/150
提交評(píng)論