Lucene中文分析器的中文分詞準(zhǔn)確性和性能比較_第1頁
Lucene中文分析器的中文分詞準(zhǔn)確性和性能比較_第2頁
Lucene中文分析器的中文分詞準(zhǔn)確性和性能比較_第3頁
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、Lucene中文分析器的中文分詞準(zhǔn)確性和性能比較作者:approximation對幾種中文分析器,從分詞準(zhǔn)確性和效率兩方面進(jìn)行比較。分析器依次為:StandardAnalyzer、ChineseAnalyzer、CJKAnalyzer、IK_CAnalyzer、MIK_CAnalyzer、MMAnalyzer(JE分詞)、PaodingAnalyzer。單純的中文分詞的實(shí)現(xiàn)一般為按字索引或者按詞索引。按字索引顧名思義,就是按單個(gè)字建立索引。按詞索引就是按詞嘍,根據(jù)詞庫中的詞,將文字進(jìn)行切分。車東的交叉雙字分割或者叫二元分詞我覺得應(yīng)該算是按字索引的改進(jìn),應(yīng)該還是屬于字索引的范疇吧。分詞準(zhǔn)確性的評

2、估比較難,很難有統(tǒng)一的標(biāo)準(zhǔn),不同應(yīng)用的要求也不同,這個(gè)統(tǒng)一以“2008年8月8日晚,舉世矚目的北京第二十九屆奧林匹克運(yùn)動(dòng)會開幕式在國家體育場隆重舉行?!睘槔f明。分詞效率,統(tǒng)一使用射雕英雄傳的全文文本為例說明。呵呵。對于按詞索引的分析器,使用統(tǒng)一的基本詞庫,詞匯量為227,719個(gè)。在開發(fā)環(huán)境下運(yùn)行,性能不準(zhǔn)確,但可比較相對值。分析器:按字StandardAnalyzerLucene自帶的標(biāo)準(zhǔn)分析器。ChineseAnalyzerLucene contrib中附帶的分析器,與StandardAnalyzer類似。注意是類似啊,還是有區(qū)別的。CJKAnalyzerLucene contrib中附

3、帶的二元分詞按詞IK_CAnalyzer、MIK_CAnalyzerhttp:/lucene-MMAnalyzer現(xiàn)在能找到的最新版本是1.5.3。不過在原始網(wǎng)站已經(jīng)找不到下載了,而且據(jù)說聲明為不提供維護(hù)和支持。因?yàn)檎務(wù)摰娜吮容^多,所以列出來。但在使用中感覺不太穩(wěn)定。PaodingAnalyzer庖丁解牛。   分詞準(zhǔn)確性:StandardAnalyzer2008/年/8/月/8/日/晚/舉/世/矚/目/的/北/京/第/二/十/九/屆/奧/林/匹/克/運(yùn)/動(dòng)/會/開/幕/式/在/國/家/體/育/場/隆/重/舉/行/一元分詞,沒什么好說的。ChineseAnalyzer年/月

4、/日/晚/舉/世/矚/目/的/北/京/第/二/十/九/屆/奧/林/匹/克/運(yùn)/動(dòng)/會/開/幕/式/在/國/家/體/育/場/隆/重/舉/行/還是有區(qū)別吧,這是因?yàn)镃hineseAnalyzer只對Character.LOWERCASE_LETTER、Character.UPPERCASE_LETTER、和Character.OTHER_LETTER進(jìn)行了處理,其他類型的都濾掉了。具體可以參見代碼。CJKAnalyzer2008/年/8/月/8/日晚/舉世/世矚/矚目/目的/的北/北京/京第/第二/二十/十九/九屆/屆奧/奧林/林匹/匹克/克運(yùn)/運(yùn)動(dòng)/動(dòng)會/會開/開幕/幕式/式在/在國/國家/家體

5、/體育/育場/場隆/隆重/重舉/舉行/二元分詞,作為一元分詞的改進(jìn),建立的索引小于一元,查詢效率較好,能滿足一般的查詢要求。PaodingAnalyzer2008/年/8/月/8/日/晚/舉世/矚目/舉世矚目/目的/北京/二/第二/十/二十/第二十/九/十九/二十九/九屆/奧林/奧林匹克/運(yùn)動(dòng)/運(yùn)動(dòng)會/奧林匹克運(yùn)動(dòng)會/開幕/開幕式/國家/體育/體育場/隆重/舉行/隆重舉行/細(xì)粒度全切分。對于不在詞典中的詞進(jìn)行二元分詞。IK_CAnalyzer2008年/2008/年/8月/8/月/8日/8/晚/舉世矚目/舉世/矚目/目的/北京/第二十九屆/第二十九/第二十/第二/二十九/二十/十九/九屆/九/

6、奧林匹克運(yùn)動(dòng)會/奧林匹克/奧林/運(yùn)動(dòng)會/運(yùn)動(dòng)/開幕式/開幕/在國/國家/國/體育場/體育/隆重舉行/隆重/舉行/行/細(xì)粒度全切分。對于不在詞典中的詞進(jìn)行二元分詞。MIK_CAnalyzer2008年/8月/8日/晚/舉世矚目/目的/北京/第二十九屆/奧林匹克運(yùn)動(dòng)會/開幕式/在國/國家/體育場/隆重舉行/最大匹配分詞。和細(xì)粒度全切分配合使用。MMAnalyzer2008/年/8/月/8/日/晚/舉世矚目/北京/第二十/九屆/奧林匹克運(yùn)動(dòng)會/開幕式/國家/體育場/隆重舉行/對于不在字典項(xiàng)的內(nèi)容,進(jìn)行一元分詞。分詞性能(毫秒):分析器第一次第二次第三次分詞數(shù)StandardAnalyzer243246241767675ChineseAnalyzer245233242766298CJKAnalyzer383383373659264PaodingAnalyzer927899909482890IK_CAnalyzer184218771855530830MIK_CAnalyzer200919781998371013MMAnalyzer292329332948392521需要

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論