關鍵詞抽取方法研究PPT課件_第1頁
關鍵詞抽取方法研究PPT課件_第2頁
關鍵詞抽取方法研究PPT課件_第3頁
關鍵詞抽取方法研究PPT課件_第4頁
關鍵詞抽取方法研究PPT課件_第5頁
已閱讀5頁,還剩67頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

關鍵詞抽取方法研究,劉知遠(清華大學)2020年6月1日,1,.,報告摘要,關鍵詞抽取簡介關鍵詞抽取方法關鍵詞抽取的應用展望,2,.,問題描述,關鍵詞自動抽取AutomaticKeyphraseExtraction定義:自動從文檔中抽取關鍵詞作為文檔摘要特點:多個詞或短語一般來自文檔內(nèi)容,3,.,關鍵詞抽取的典型應用場景,4,.,關鍵詞標注方式,5,.,關鍵詞標注方法,6,.,有監(jiān)督方法,轉化為二分類問題判斷某個候選關鍵詞是否為關鍵詞Frank1999采用樸素貝葉斯分類器Turney2000采用C4.5決策樹分類器轉化為多分類多標簽問題傳統(tǒng)文本分類方法受限詞表作為候選關鍵詞集合(分類標簽),7,.,無監(jiān)督方法,詞頻基于TFIDF及其變形對候選關鍵詞進行排序圖方法Rada2004:PageRankTextRankHuang2006:復雜網(wǎng)絡統(tǒng)計性質LitvakandLast2007:HITS,8,.,詞頻方法,Term-frequencyinversedocument-frequency(TFIDF)TF:theimportanceofthetermwithinthedocumentIDF:theinformativenessoftheterminthedocumentset,9,.,TextRank,10,.,文獻綜述-無監(jiān)督方法小結,11,.,研究問題,關鍵詞應當具備以下特點相關性,可讀性,覆蓋性關鍵詞與文檔主題保持一致性如何在關鍵詞抽取中考慮對文檔主題的覆蓋性一個文檔往往有多個主題現(xiàn)有方法沒有提供機制對主題進行較好覆蓋如何解決文檔與關鍵詞間的詞匯差異問題許多關鍵詞在文檔中頻度較低、甚至沒有出現(xiàn)“machinetransliteration”vs“machinetranslation”“iPad”vs“Apple”,12,.,研究思路,對文檔主題結構進行建模,并用于提高關鍵詞抽取的覆蓋性利用文檔內(nèi)部信息構造文檔主題利用文檔外部信息構造文檔主題結合文檔內(nèi)部、外部信息利用無標注文檔集中的文檔與關鍵詞的主題一致性,彌合文檔與關鍵詞的詞匯差異,13,.,研究內(nèi)容,通過文檔詞聚類構建主題進行關鍵詞抽取利用隱含主題構建主題進行關鍵詞抽取綜合利用隱含主題和文檔結構進行關鍵詞抽取利用機器翻譯彌合詞匯差異進行關鍵詞抽取關鍵詞抽取的典型應用,14,.,通過文檔詞聚類構建主題進行關鍵詞抽取,15,.,研究動機與方法,動機:利用文檔內(nèi)部信息對文檔主題進行建模方法在文檔中選取候選關鍵詞計算候選關鍵詞之間的語義相似度對文檔中的詞進行聚類在每個聚類中選取聚類中心(exemplar)擴展出關鍵詞,16,.,算法細節(jié),候選關鍵詞相似度度量基于同現(xiàn)關系的相似度基于維基百科的相似度Cosine,Euclid,PMI,NGD聚類方法選取層次聚類(hierarchicalclustering)譜聚類(spectralclustering)消息傳遞聚類(AffinityPropagation),17,.,實驗結果,數(shù)據(jù)集合:論文摘要參數(shù)影響,18,.,實驗結果,與其他算法的比較舉例,19,.,小結,提出了利用聚類對文檔內(nèi)部主題結構建模的關鍵詞抽取算法對比了不同的相似度度量算法、聚類算法較好地實現(xiàn)推薦關鍵詞的覆蓋性問題不同聚類個數(shù)較大地影響關鍵詞抽取效果,ZhiyuanLiu,PengLi,YabinZheng,MaosongSun.ClusteringtoFindExemplarTermsforKeyphraseExtraction.TheConferenceonEmpiricalMethodsinNaturalLanguageProcessing(EMNLP),2009.,20,.,通過隱含主題模型構建主題進行關鍵詞抽取,21,.,隱含主題模型,對文檔主題進行建模的無監(jiān)督學習模型由用戶指定隱含主題個數(shù)根據(jù)大規(guī)模文檔集合中學習每個主題是在詞上的分布每個詞和文檔都可以表示為主題上的分布常見隱含主題模型LatentSemanticAnalysis(LSA/LSI)ProbabilisticLSA(pLSA)LatentDirichletallocation(LDA),22,.,隱含主題模型示例,23,.,利用隱含主題模型進行關鍵詞抽取,24,.,LDA學習算法,GibbsSampling,其他位置上的詞w的主題分布,該文檔其他位置上詞的主題分布,25,.,隱含主題模型的并行研究,26,.,PLDA+算法,機器分為兩種功能:一部分機器用于維護訓練文檔一部分機器用于維護主題模型,27,.,PLDA+算法,28,.,實驗效果-維基百科(20萬詞匯),29,.,在線學習-OnlineLDA,基本思想整個數(shù)據(jù)集合上的大循環(huán)每個文檔上的小循環(huán)每次只在一個很小的集合上學習并更新模型不再返回去看舊的數(shù)據(jù)特點快速有利于Web隨時間變化較快的數(shù)據(jù)NIPS2010OnlineLearningforLatentDirichletAllocationDeterministicSingle-PassAlgorithmforLDA,30,.,小結,通過并行或者在線學習可以有效加速LDA學習將在下部分一并展示利用隱含主題模型進行關鍵詞抽取的效果,ZhiyuanLiu,YuzhouZhang,EdwardY.Chang,MaosongSun.PLDA+:ParallelLatentDirichletAllocationwithDataPlacementandPipelineProcessing.ACMTransactionsonIntelligentSystemsandTechnology(ACMTIST),2010.,31,.,綜合利用隱含主題模型和文檔結構進行關鍵詞抽取,32,.,研究思路,前述工作LDA:利用隱含主題模型發(fā)現(xiàn)文檔主題TextRank:利用文檔內(nèi)部結構信息綜合考慮文檔主題和內(nèi)部結構進行關鍵詞抽取Topical-PageRank(TPR),33,.,研究方法,34,.,研究方法,35,.,研究方法,36,.,(a)Topicon“Terrorism”,(b)Topicon“Israel”,(c)Topicon“U.S.”,(d)TPRResult,示例,37,.,實驗,38,.,參數(shù)影響,39,.,參數(shù)影響,40,.,不同偏好參數(shù)設置的影響,41,.,與其他方法比較,42,.,與其他方法比較,43,.,與其他方法比較,44,.,小結,LDA通過文檔主題進行關鍵詞抽取,因此取得較TFIDF、TextRank較優(yōu)的結果TPR綜合了TextRank和LDA的優(yōu)點,在兩個數(shù)據(jù)集合上都表現(xiàn)出了它的優(yōu)勢由于TPR可以按照主題推薦關鍵詞,因此可以用于文檔可視化,也可以用來進行查詢導向(queryfocused)的關鍵詞抽取,ZhiyuanLiu,WenyiHuang,YabinZheng,MaosongSun.AutomaticKeyphraseExtractionviaTopicDecomposition.TheConferenceonEmpiricalMethodsinNaturalLanguageProcessing(EMNLP),2010.,45,.,利用機器翻譯模型進行關鍵詞抽取,46,.,研究問題,文檔和關鍵詞都是對同一事物的描述主題一致,詞匯差異詞匯差異的表現(xiàn)很多關鍵詞在文檔中出現(xiàn)次數(shù)不高有的關鍵詞在文檔中根本沒有出現(xiàn)(尤其是短文本)問題TFIDF、TextRank及其擴展、LDA等方法均沒有很好解決詞匯差異問題,47,.,相關工作,TextRank的擴展ExpandRank在構建詞網(wǎng)時,同時考慮文檔的近鄰文檔從“文檔層次(documentlevel)”利用外部信息容易引入噪音LDA通過主題分布的相似度來對候選關鍵詞排序從“主題層次(topiclevel)”利用外部信息由于主題一般是粗粒度的傾向于推薦普通詞容易發(fā)生主題漂移,48,.,研究思路,在“詞匯層次(wordlevel)”利用外部信息文檔和關鍵詞是對同一事物的描述關鍵詞抽取問題翻譯問題,翻譯,49,.,研究方法,50,.,研究方法-構建翻譯對集合,將文檔標題或摘要看作近似用關鍵詞語言寫成大部分文檔有標題或摘要信息將標題/摘要與文檔正文形成翻譯對問題摘要、文檔往往較長直接使用詞對齊算法效率較低、效果較差沒有標題/摘要的時候怎么辦,51,.,研究方法-構建翻譯對集合,52,.,研究方法-構建翻譯對集合,當沒有標題或摘要,從文檔正文中選擇重要的句子來與正文構成翻譯對選擇文檔第一句話選擇與文檔最相關的一句話,53,.,實驗設置,句子對齊算法采用IBMModel-1的工具GIZA+在13,702篇中文新聞上進行試驗,54,.,實驗結果,55,.,實驗結果,56,.,57,.,實驗結果-抽取重要句子構建翻譯對,58,.,實驗結果-關鍵詞生成(keywordGeneration),在測試時,只能夠根據(jù)新聞標題產(chǎn)生關鍵詞,59,.,實驗結果-關鍵詞生成舉例,文檔題目:“以軍方稱伊朗能造核彈可能據(jù)此對伊朗動武”,60,.,小結,機器翻譯技術可以有效解決詞匯差異問題推薦更符合文檔主題的關鍵詞甚至能夠勝任關鍵詞生成任務標題/摘要與文檔能夠構建高質量的翻譯對對于新聞文檔而言,正文第一句也可以用來構建高質量翻譯對,ZhiyuanLiu,XinxiongChen,MaosongSun.ASimpleWordTriggerMethodforSocialTagSuggestion.EMNLP11ZhiyuanLiu,XinxiongChen,YabinZheng,MaosongSun.AutomaticKeyphraseExtractionbyBridgingVocabularyGap.CoNLL11,61,.,典型應用:微博關鍵詞抽取,62,.,應用簡介,以新浪微博為平臺利用關鍵詞抽取技術獲取用戶發(fā)表微博的關鍵詞應用前景發(fā)現(xiàn)和建模用戶興趣為用戶之間鏈接賦予更豐富信息推薦用戶感興趣的產(chǎn)品、信息和好友等具有廣闊的商業(yè)前景,63,.,64,.,應用界面,65,.,關鍵詞抽取舉例-我的微博關鍵詞,66,.,關鍵詞抽取舉例-馬少平老師的微博關鍵詞,67,.,關鍵詞抽取舉例-MSRA的微博關鍵詞,68,.,應用使用情況-統(tǒng)計概覽(5.25-9.29),小結,系統(tǒng)受到了微博用戶的普遍認可微博關鍵詞抽取系統(tǒng)驗證了本文對于基于文檔主題結構關鍵詞抽取研究的有效性不足:交互機制,69,.,研究總結,利用文檔主題結構對關鍵詞抽取覆蓋度的作用進行了深入研究通過文檔內(nèi)詞聚類構建文檔主題通過隱含主題模型構建文檔主題綜合

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論