




免費預覽已結(jié)束,剩余4頁可下載查看
下載本文檔
版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
題目:基于知識的智能問答技術(PDF)作者:許坤,馮巖松(北京大學)作者簡介:許坤,北京大學計算機科學技術研究所博士生,研究方向為基于知識庫的智能問答技術,已連續(xù)三年在面向結(jié)構化知識庫的知識問答評測QALD-4, 5, 6中獲得第一名。馮巖松,北京大學計算機科學與技術研究所講師。2011年畢業(yè)于英國愛丁堡大學,獲得信息科學博士學位。主要研究方向包括自然語言處理、信息抽取、智能問答以及機器學習在自然語言處理中的應用;研究小組已連續(xù)三年在面向結(jié)構化知識庫的知識問答評測QALD中獲得第一名;相關工作已發(fā)表在TPAMI、ACL、EMNLP等主流期刊與會議上。作為項目負責人或課題骨干已承擔多項國家自然科學基金及科技部863計劃項目。分別在 2014 和 2015 年獲得 IBM Faculty Award。引言近年來,信息抽取技術的快速發(fā)展使得快速構建大規(guī)模結(jié)構化、半結(jié)構化知識庫成為可能。一大批結(jié)構化知識庫如雨后春筍般涌現(xiàn)出來,如Google Knolwedge Graph (Freebase)、Yago,DBpedia、微軟ProBase、搜狗知立方及百度等企業(yè)內(nèi)部的知識圖譜等。同時,這些大規(guī)模知識庫也被應用于關聯(lián)檢索、個性化推薦、知識問答等任務中。相比于傳統(tǒng)基于文本檢索的問答系統(tǒng),利用知識庫回答自然語言問題可以為用戶提供更精確、簡潔的答案,因此一直受到學術界和工業(yè)界的廣泛關注。目前基于知識庫的問答技術可以大致分為兩類。第一類基于語義解析的方法。這類方法通過學習相關語法將自然語言轉(zhuǎn)問題轉(zhuǎn)換成可以用來描述語義的形式化語言,如邏輯表達式等。構建這樣的語義解析器需要大量的標注數(shù)據(jù),例如,自然語言問題及其對應的語義描述形式。然而,針對Freebase這樣大規(guī)模的結(jié)構化知識庫,在實際中很難收集到足夠多的高質(zhì)量訓練數(shù)據(jù)。另外,語義描述形式與知識庫的結(jié)構之間的不匹配也是這類方法普遍遇到的一個問題,例如,在Freebase中并沒有“爸爸”或“媽媽”這樣的謂詞關系,只有“父母”,因此,如果想表示 “A 是 B的母親”這樣的關系,則需明確表示為“” 并且 “”。 另一類知識問答技術是傳統(tǒng)的基于信息檢索的方法。這類方法不會將自然語言問題完全轉(zhuǎn)換成形式化的語義描述,而是首先利用實體鏈接技術從知識庫中收集候選答案集合,然后構建排序模型對候選答案進行排序。因為不需要完整地解析自然語言問題的語義結(jié)構,因此,這類方法構造訓練數(shù)據(jù)的過程相對簡單,只需收集問題答案對即可。實驗表明,基于檢索的方法對語義簡單的自然語言問題比較有效,但是難以處理語義結(jié)構復雜的問題,尤其是包含多個實體和關系的自然語言問題。例如,對于自然語言問題“What mountain is the highest in North America?”,檢索類的方法由于缺乏對highest的正確解析,通常會將所有坐落在北美的山脈返回給用戶。事實上,為了得到正確的答案,問答系統(tǒng)還需要根據(jù)山脈高度對候選答案進行排序,并選擇海拔最高的山脈返回給用戶。該過程通常需要人工編寫解析規(guī)則對答案進行篩選,費時費力。此外,由于自然語言描述的多樣性,人們也無法事先窮舉所有這樣的規(guī)則。 然而事實上,F(xiàn)reebase這樣的結(jié)構化知識庫希望存儲關于真實世界的知識條目,而像維基百科頁面這樣的文本百科資源則存儲支持這些事實的文本描述。例如,在維基百科頁面中,我們可以找到一段與候選答案有關的文本Denali (also known as Mount McKinley, its former official name) is the highest mountain peak in North America, with a summit elevation of 20,310 feet (6,190 m) above sea level。很明顯可以看出,這段文本描述可以幫助我們提升 Denali 或者 Mount McKinley 作為正確答案的置信度,并過濾掉候選集中的錯誤答案。正是受到這個發(fā)現(xiàn)的啟發(fā),我們提出同時利用結(jié)構化知識庫與可信的文本百科資源,如維基百科頁面,來回答知識類自然語言問題?;诙喾N知識資源的問答技術框架圖1:針對問題who did shaq first play for的流程圖以樣例問題 who did shaq first play for的處理流程為例,圖1展示了融合多種知識資源的問答框架。該問答系統(tǒng)框架主要包含基于結(jié)構化知識庫Freebase的問題求解和基于非結(jié)構化知識資源Wikipedia文本的淺層推理。 基于結(jié)構化知識庫的問題求解基于結(jié)構化知識資源的問題求解部分只需給出候選答案集合即可,因此既可采用基于語義解析的方法,也可以直接采用基于檢索的方法來實現(xiàn)。這里我們采用的是基于檢索的方案,主要包括實體鏈接,關系抽取,以及這兩部分的聯(lián)合消解三大部分。1) 實體鏈接實體鏈接在知識類問題解析中扮演著十分重要的角色。我們采用詞性POS序列來篩選問題中的所有實體候選,以前面的問題為例,我們可以利用POS序列NN識別出實體shaq。對于識別出來的實體候選,我們使用實體鏈接工具S-MART獲取可以潛在鏈接到Freebase的5個候選實體。具體而言,對給定的實體候選,S-MART首先根據(jù)字符串相似度從Freebase中獲取一些候選實體,然后利用統(tǒng)計模型根據(jù)知識庫實體與實體候選之間的共現(xiàn)頻率計算出一個得分并排序,最終給出實體鏈接結(jié)果。2) 關系抽取關系抽取用于識別問句中的實體與答案(疑問詞)之間的語義關系。我們使用多通道卷積神經(jīng)網(wǎng)絡來確定自然語言問題中實體與答案之間存在的關系。具體地講,我們使用兩個通道,一個通道捕捉句法信息,另一個通道捕捉上下文信息。每個通道的卷積層接受一個長度不固定的輸入,但是返回一個固定長度的向量(我們使用最大采樣法)。這些固定長度的向量被拼接在一起形成最后softmax分類器的輸入,該分類器的輸出向量維度等于關系類別的總數(shù),每一維的值等于映射到對應知識庫謂詞的置信度。3) 實體和關系的聯(lián)合消歧通常情況下的實體鏈接與實體關系抽取都是獨立預測的,因而不可避免的會存在流水線框架下常見的錯誤傳遞現(xiàn)象。因此,我們提出了一種聯(lián)合優(yōu)化模型從實體鏈接和關系抽取的候選結(jié)果中選擇一個全局最優(yōu)的“實體-關系”配置。這個挑選全局最優(yōu)配置的過程本質(zhì)上可以被視作一個排序問題,即,“合理”的實體-關系配置在知識庫中應更常見,應該有更高的得分。我們主要依賴從知識庫中抽取的三類特征,即實體特征、關系特征和答案的特別特征。 基于Wikipedia文本描述的淺層推理基于結(jié)構化知識庫求解的候選答案集,我們從維基百科文本資源中收集候選答案的支持文本,并訓練答案過濾器對候選答案集進行篩選,以得到更準確的答案。1) 數(shù)據(jù)預處理具體地講,我們首先從維基百科中找出描述自然語言問題中實體的頁面。我們抽取維基百科頁面的內(nèi)容,并利用Wikifier識別句子中的維基百科實體,再利用Freebae API將這些實體映射到Freebase中的實體。最后在頁面中尋找包含候選答案的句子當做支持文本。2) 答案過濾模型 我們將淺層推理的過程抽象為一個面向候選答案的二分類任務。在實驗中,我們使用LibSVM來訓練該二分類器。該分類器主要使用的特征是詞級別配對特征,其中第一個部分來自給定的問題,而第二個部分來自維基百科中的支持文本。更形式化地,給定一個問題q = 和一個作為支持文本的句子s = ,其中記q和s中的單詞分別為qi和sj。對每個問題與支持文本對(q,s),我們可以生成詞級別配對特征集合(qi,sj),這些詞對出現(xiàn)的次數(shù)作為特征用來訓練分類器。需要指出的是,這里僅嘗試了最簡單的二分類方式,主要目的是檢驗附加文本資源的作用;而使用線性優(yōu)化、或神經(jīng)網(wǎng)絡等更精巧的融合方式可能會帶來更明顯的準確率提升。實驗我們使用WebQuestions數(shù)據(jù)集進行相關實驗。該數(shù)據(jù)集一共包含5810個自然語言問題以及答案。其中訓練集包含3778個問題(65%),測試集包含2032個問題(35%)。我們使用答案的平均F1值來評測本框架。表1給出了不同方法在WebQuestions數(shù)據(jù)集上的結(jié)果。方法平均F1(Bast et al. 2015)49.4(Berant et al. 2015)49.7(Reddy et al. 2016)50.3(Yih et al.2015)52.5本研究工作Structured44.1Structured + Joint47.1Structured + Unstructured47.0Structured + Joint + Unstructured53.3表1基于關系抽取問答技術在WebQuestions數(shù)據(jù)集上的結(jié)果 為了確定所提出框架中不同模塊的重要性,我們詳細比較了以下幾種模型變種的結(jié)果。Structured 該方法只包含基于結(jié)構化知識庫Freebase的問題求解。具體地講,我們首先進行實體鏈接,將自然語言問題中包含的實體名詞映射到Freebase中的實體,其中得分最高的實體被當做結(jié)果。然后我們進行關系抽取并從候選關系中選擇與實體最匹配的關系當做最終的實體-關系配置。最后,我們使用這個實體-關系配置來預測問題的答案。Structured + Joint 與上面的方法略有不同,這個方法使用聯(lián)合消歧的方法去選擇全局最優(yōu)的實體-關系組合,并進行基于結(jié)構化知識庫的問題解答。Structured + Unstructured 這個方法里,我們使用流水線的實體鏈接和關系抽取結(jié)果進行基于結(jié)構化知識庫的問題求解,進而,利用基于維基百科的淺層推理來篩選答案。Structured + Joint + Unstructured 這是我們所提出的融合多種知識資源的完整的問答框架。我們首先在結(jié)構化知識庫Freebase上進行問題求解,即,進行實體鏈接和關系抽取的聯(lián)合優(yōu)化,并在Freebase上獲得候選答案集合;在此基礎上進行基于文本的淺層推理,即,從維基百科中抽取答案支持文本,并對候選答案進行篩選,獲得最終答案。從表1中的結(jié)果,我們可以發(fā)現(xiàn)實體鏈接和關系抽取的聯(lián)合推理結(jié)果會優(yōu)于流水線方法,整體效果提高了3%,并且比大部分語義解析的方法要好。另一方面,與(Yih et al. 2015)利用人工編寫規(guī)則的工作相比,融合結(jié)構化知識庫與文本知識資源的方法在問答準確率上整體提高了0.8%,這進一步說明了恰當?shù)氖褂梅墙Y(jié)構化的文本知識資源可以在很大程度上代替人工編寫規(guī)則來輔助回答自然語言問題。本文提出的融合不同知識資源的問題解答框架具有較好的可擴展性,無論在結(jié)構化知識庫求解部分,還是多種資源的融合利用方面都可進一步改進,以更大限度的發(fā)揮不同資源之間的互補作用,提高知識類問題的解答精度。參考文獻 Hannah Bast, Elmar Haussmann. More Accurate Question Answering on Freebase. CIKM. 2015, 1431-1440 Jonathan Berant, Percy Liang. Imitation Learning of Agenda-based Semantic ParsersJ. Transactions of the Association for Computational Linguistics. 2015, 3:545558 Siva Reddy, Oscar Tckstrm, Michael Collins, Tom Kwiatkowski, Dipanjan Das, Mark Steedman, Mirella Lapata. Transforming Dependency Structures to Logical Forms for Semantic ParsingJ. Transactions of the Association for Computational Linguistics. 2016, 4: 127-140 Kun Xu; Siva Reddy; Yansong Feng; Songfang Huang; Dongyan Zhao Question Answering on Freebase via Relation Extraction and Textual Evidence. ACL 2016, Kun Xu; Yansong Feng; Songfang Huang; Dongyan Zhao, Hybrid Question Answering over Knowledge Base and Free Text, COLING 2016 Yi Yang; Ming-Wei Chang, S-MART: Novel Tree-based Struc
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 追加商品免運費合同協(xié)議
- 沙石加工協(xié)議書
- 軟件技術協(xié)議書范本
- 國土合同協(xié)議書
- 通貨舊衣出售合同協(xié)議
- 車輛有償保管服務合同協(xié)議
- 2025年家庭教育指導服務市場供需關系調(diào)整與行業(yè)變革研究報告
- 道路開放協(xié)議書范本
- 漏水和解協(xié)議書
- 2025年工業(yè)互聯(lián)網(wǎng)平臺SDN優(yōu)化與云計算技術在工業(yè)大數(shù)據(jù)中的應用報告
- 液化石油氣安全標簽
- 水車租賃合同范本(3篇)
- 空港新城特勤消防站施工組織設計
- 北師大版三年級數(shù)學下冊競賽卷
- 餐具消毒記錄表
- 2022山東歷史高考答題卡word版
- 中醫(yī)醫(yī)院兒科建設與管理指南(試行)
- Q∕SY 1143-2008 三維地質(zhì)建模技術要求
- 化工企業(yè)安全風險辨識分級管控清單
- 大地構造學派及其構造單元匯總
- 麗聲北極星分級繪本第二級上Dinner for a Dragon 課件
評論
0/150
提交評論