面向自動(dòng)文摘的主題劃分方法.ppt_第1頁
面向自動(dòng)文摘的主題劃分方法.ppt_第2頁
面向自動(dòng)文摘的主題劃分方法.ppt_第3頁
面向自動(dòng)文摘的主題劃分方法.ppt_第4頁
面向自動(dòng)文摘的主題劃分方法.ppt_第5頁
已閱讀5頁,還剩12頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

面向自動(dòng)文摘的主題劃分方法,童毅見 2012-11-4,主題的概念,1,主題的定義現(xiàn)狀:鮮有確切的關(guān)于主題的定義。 2,幾個(gè)關(guān)于“主題”的定義 Labadi認(rèn)為主題是會(huì)話或討論的主要問題 Chafe主題是正在討論的命題 所謂“主題”,是介于篇章與段落之間的一個(gè)語言單位,一個(gè)主題表達(dá)或闡述一個(gè)相對獨(dú)立的意義或話題 3,本文對主題的定義 主題是用來描述一個(gè)話語片段所表達(dá)內(nèi)容的一種直觀方式,該話語片段闡述了一個(gè)相對獨(dú)立的意義或話題。主題不應(yīng)是一個(gè)語言單位,但是可以通過篇章集、段落集或句子集的方式呈現(xiàn)。,主題劃分,1,主題劃分的概念 主題劃分就是將一個(gè)含有多個(gè)主題的話語(在本文中以文本方式體現(xiàn))切分成一系列單個(gè)主題。 Reynar認(rèn)為,作者在寫作前,會(huì)在腦海中收集一些沒有連接的主題,在寫作過程中為了保證文本的流暢,會(huì)有意無意的設(shè)置一些主題邊界 2,主題劃分的分類 主題劃分可以分為層次劃分(hierarchical segmentation)和線性劃分(linear segmentation) 從劃分結(jié)果來看,線性劃分還可以進(jìn)一步分為連續(xù)劃分和非連續(xù)劃分,主題劃分對自動(dòng)文摘的意義,1,有助于平衡摘要的結(jié)構(gòu),提高摘要的覆蓋面 如果采用傳統(tǒng)的基于句子重要度從高到低抽取的方法,很容易造成對次要主題的遺漏或忽略,并且容易導(dǎo)致主要主題的冗余。 2,主題特征對自動(dòng)文摘的促進(jìn)作用 Louis.et al.在比較話語結(jié)構(gòu)特征、語義特征和非話語性特征(如主題詞、句子位置等)在單文檔自動(dòng)文摘中的效果時(shí)發(fā)現(xiàn),基于話語結(jié)構(gòu)特征的方法在摘要內(nèi)容上效果最好,常見主題劃分方法,1,基于詞匯銜接理論的方法 TextTiling、C99、dotplotting 2,融合特定語言現(xiàn)象和文本特征的方法 1)特定領(lǐng)域的提示短語。例如在廣播新聞文本中,joining us 2)二元詞組頻率。避免單詞頻率引發(fā)的歧義問題; 3)命名實(shí)體的重復(fù)。 4)代詞特征。 3,基于概率統(tǒng)計(jì)模型的方法 PLSA(概率潛在語義分析)、LDA(Latent Dirichlet Allocation)以及小世界模型,TSF算法,由Kern & Granitzer提出,是一種基于滑動(dòng)窗口技術(shù)的主題劃分方法算法 該算法在很多方面與TextTiling算法相近,也是一種基于詞匯銜接理論的方法。 根據(jù)文章呈現(xiàn)的評價(jià)結(jié)果,TSF算法在切分效果上要遠(yuǎn)好于TextTiling算法,并且只有O(n)的計(jì)算復(fù)雜度。 TSF算法默認(rèn)主題是由句子集組成,TSF算法描述,TSF算法描述,關(guān)于主題的呈現(xiàn)方式的討論,1,句子集 or 段落集 2,主題的呈現(xiàn)方式與文本的特征、任務(wù)對主題顆粒度的要求有關(guān) 3,自動(dòng)文摘對主題劃分顆粒度的要求 4,句子集 and 段落集,以段落集為主題表征的TSF算法,面向自動(dòng)文摘的主題劃分策略,后期處理,引入代詞特征 對于切分出來的主題如果首段是代詞,則認(rèn)為切分不正確,將前后兩個(gè)主題合并,主題劃分評價(jià),1,傳統(tǒng)的評價(jià)方法的不足 文本切分和主題劃分的區(qū)別 召回率、準(zhǔn)確率,F(xiàn)值等無法反應(yīng)near miss現(xiàn)象,2,引入?yún)⒖记蟹?3,引入切分合理度R,切分合理度R,主題劃分評價(jià)結(jié)果,1,內(nèi)部評價(jià):針對以句子集和段落集表征的TSF算法(無關(guān)比較),2,外部評價(jià):針對主題劃分策略對自動(dòng)文摘的影響(F值),進(jìn)一步改進(jìn),1

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論