

下載本文檔
版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、概率檢索模型BM25系列-文檔相關(guān)性檢索的利器給定一個(gè)用戶需求(query),如果搜索系統(tǒng)展示的搜索結(jié)果是根據(jù)文檔和query的相關(guān)性由高向低排序的,那么這個(gè)搜索引擎是最優(yōu)的。在文檔集合的基礎(chǔ)上計(jì)算其相關(guān)性估計(jì)是其核心概率排序原理以往的向量空間模型是將query和文檔使用向量表示然后計(jì)算其內(nèi)容相似性來(lái)進(jìn)行相關(guān)性估計(jì)的,而概率檢索模型是一種直接對(duì)用戶需求進(jìn)行相關(guān)性的建模方法,一個(gè)query進(jìn)來(lái),將所有的文檔分為兩類一-相關(guān)文檔、不相關(guān)文檔,這樣就轉(zhuǎn)為了一個(gè)相關(guān)性的分類問(wèn)題,贊!對(duì)于某個(gè)文檔DD來(lái)說(shuō),P(RID)P(R|D)表示該文檔數(shù)據(jù)相關(guān)文檔的概率,則P(NRID)P(NR|D)表示該文檔屬于
2、不相關(guān)文檔的概率,如果query屬于相關(guān)文檔的概率大于不相關(guān)文檔P(R|D)>P(RN|D)p(R|D)>p(RN|D),則認(rèn)為這個(gè)文檔是與用戶查詢相關(guān)相關(guān)的.現(xiàn)在使用貝葉斯公式將其轉(zhuǎn)一下:P(R|D)>P(nr|D)<=>p(d|r)p(r)p(d)>P(DINR)P(NR)P(D)<=>P(DIR)P(DINR)>P(nr)p(r)P(R|D)>P(NR|D)v=>P(D|R)P(R)P(D)>P(D|NR)P(NR)P(D)v=>P(D|R)P(D|NR)>P(NR)P(R)在搜索排序過(guò)程中不需要真正的分
3、類,只需要保證相關(guān)性由高到底排序即可,所以只需要p(d|r)p(d|nr)P(D|R)P(D|NR)降序即可,這樣就最終轉(zhuǎn)為計(jì)算P(D|R)P(D|R),P(D|NR)P(D|NR)的值即可.二元獨(dú)立模型但I(xiàn)M)詞匯獨(dú)立性假設(shè):文檔里面出現(xiàn)的詞沒(méi)有任何關(guān)聯(lián),這樣一個(gè)文檔的出現(xiàn)就可以轉(zhuǎn)為各個(gè)單詞出現(xiàn)概率的乘積(雖然這種假設(shè)有違實(shí)際,但是算起來(lái)簡(jiǎn)單的啊上述提到的文檔DD表示為1,0,1,0,1,用PiPi來(lái)表示第ii個(gè)單詞在相關(guān)文檔出現(xiàn)的概率,則在已知相關(guān)文檔集合的情況下,觀察到DD的概率為:P(D|R)=PX(1p2)xp3x(lp4)xp5P(D|R)二p1x(1-p2)xp3x(1-p4)x
4、P5第1,3,5表示這個(gè)單詞在DD中出現(xiàn),所以其貢獻(xiàn)概率為Pipi,而第2,4這兩個(gè)單詞并沒(méi)有在DD中出現(xiàn),所以其貢獻(xiàn)的概率為1Pi1-pi同理在不相關(guān)文檔中觀察到的概率為:P(DIR)=SiX(1s2)xs3x(1S4)xs5P(D|R)二s1x(1-s2)xs3x(1-s4)xs5最終得到的相關(guān)性概率估算為:P(DIR)P(DINR尸P1X(1P2)xp3x(lP4)XP5S1X(1S2)XS3x(1S4)XS5P(D|R)P(D|NR)=Plx(1-p2)xp3x(1-p4)xp5s1x(1-s2)xs3x(1-s4)xs5現(xiàn)在將其推廣之后可以有通用的式子:P(DIR)P(DINR)=n
5、i:di=iPiSiXni:di=olPiMP(D|R)P(D|NR)二ni:di=1pisixni:di=01-pi1-sidi=1di=1表示在文檔中出現(xiàn)的單詞,di=°di=O表示沒(méi)在文檔中出現(xiàn)的單詞:在這里進(jìn)一步對(duì)上述公式進(jìn)行等價(jià)變換之后有:$beginequationbeginsplitfracP(D|R)P(D|NR)&=prod_i:d_i=1fracp_is_i'timesleft(prod_i:d_i=1frac1-s_i1-p_i'timesprod_i:d_i=1frac1-p_i1-s_i'right)timesprod_i:d
6、l_i=0frac1-p_i1-s_i&=left(prod_i:d_i=1fracp_is_i'timesprod_i:d_i=1frac1-s_i1-p_iright)timesleft(prod_i:d_i=1frac1-p_i1-s_itimesprod_i:d_i=0frac1-p_i1-s_iright)&=prod_i:d_i=1fracp_i(1-s_i)s_i(1-p_i)'timesprod_frac1-pi1-s_i&=prod_i:d_i=1fracp_i(1-s_i)s_i(1-p_i)endsplitendequation$其
7、中上面式子第三步的第二部分nil-Pi1-Si口i1-pi1-si表示各個(gè)單詞在所有文檔中出現(xiàn)的概率,所以這個(gè)式子的值和具體文檔并沒(méi)有什么關(guān)系,在排序中不起作用,才可以簡(jiǎn)化到第4步.為了方便計(jì)算,將上述連乘公式取loglog:log(P(DIR)P(DINR)=Ei:di=1logpi(1-si)si(1-pi)log(P(D|R)P(D|NR)=Ei:di=1logpi(1-si)si(1-pi)有了上述最終可計(jì)算的式子之后,我們就只需要統(tǒng)計(jì)文檔DD中的各個(gè)單詞在相關(guān)文檔/不相關(guān)文檔中出現(xiàn)的概率即可:相關(guān)文檔不相關(guān)文檔文檔數(shù)量di=1di=1ririni-rini-rininidi=0di=
8、0R-riR-ri(N-R)-(ni-ri)(N-R)-(ni-ri)N-niN-ni文檔數(shù)量RRN-RN-RNN上面的表格表示各個(gè)單詞在文檔集合中的相關(guān)文檔/不相關(guān)文檔出現(xiàn)數(shù)量,同時(shí)為了避免log(0)log(0)出現(xiàn),加上平滑之后可以計(jì)算得到:Pi=ri+0.5R+lPi=ri+°5R+1si=(ni-ri)+0.5(N-R)+lsi=(ni-ri)+0-5(N-R)+1則最終可以得到如下公式:Eqi=di=1log(ri+0.5)(N-R)-(ni-ri)+0.5)(ni-ri+0.5)(R-ri+0.5)Zqi=di=1log(ri+0-5)(N_R)_(ni-ri)+0.5
9、)(ni-ri+0.5)(R-ri+0.5)上面的公式表示對(duì)于同時(shí)出現(xiàn)查詢qiqi以及文檔didi的時(shí)候,對(duì)qiqi在didi中出現(xiàn)的單詞在相關(guān)文檔/不相關(guān)文檔進(jìn)行統(tǒng)計(jì),即可得到查詢與文檔的相關(guān)性估計(jì)值.在不確定哪些文檔是相關(guān)的,哪些文檔是不相關(guān)的的時(shí)候,可以給公式的估算因子直接賦予固定值,則該公式將會(huì)蛻化為IDFIDF因子.BM25模型模型概述上一小節(jié)中的BIM模型效果并不佳,也沒(méi)有考慮單詞權(quán)重,但是他給BM25模型打下了深深的基礎(chǔ)BM25模型在BIM模型的基礎(chǔ)上考慮了查詢?cè)~在Query以及Doc中的權(quán)重,并通過(guò)實(shí)驗(yàn)引入了一些經(jīng)驗(yàn)參數(shù)。BM25模型是目前最成功的內(nèi)容排序模型.改進(jìn)之后的BM2
10、5模型的擬合公式如下:ZieQl°g(ri+0.5)(NR)(ni耳)+0.5)(鳥ri+0.5)(Rri+0.5)°(ki+l)fiK+fi(k2+l)qfik2+qfiieQlog(ri+0.5)(N-R)-(ni-ri)+0.5)(ni-ri+0.5)(R-ri+0.5)(k1+1)fiK+fi(k2+1)qfik2+qfi上面的式子中:1. 第1部分即為上一小節(jié)的二元獨(dú)立模型BIM計(jì)算得分2. 第2部分是查詢?cè)~在DD中的權(quán)重,其中fifi代表詞在文檔中的詞頻,KK因子代表了對(duì)文檔長(zhǎng)度的考慮,其計(jì)算公式為K=ki(l-b)+bpiavdi)K=k1(1-b)+bdav
11、dl)1. k1k1為經(jīng)驗(yàn)參數(shù),這里的k1k1一般設(shè)置為1.2,2. bb為調(diào)節(jié)因子,將bb設(shè)為0時(shí),文檔長(zhǎng)度因素將不起作用,經(jīng)驗(yàn)表明一般b=0.75b=0.753. dldl代表當(dāng)前文檔的長(zhǎng)度4. avdlavdl代表所有文檔的平均長(zhǎng)度3. 第3部分是查詢?cè)~在自身的權(quán)重,qfiqfi表示在查詢中的詞頻,k2k2也為調(diào)節(jié)因子,因?yàn)樵诙滩樵兿逻@部分一般為1,為了放大這部分的差異,k2k2一般取值為01000綜合看來(lái),BM25模型結(jié)合了BIM因子、文檔長(zhǎng)度、文檔詞頻和查詢?cè)~頻進(jìn)行公式融合,并利用klk1、k2k2、bb對(duì)各種因子進(jìn)行權(quán)重的調(diào)整.栗子假設(shè)當(dāng)前以喬布斯IPAD2這個(gè)查詢?cè)~為例,來(lái)計(jì)算在
12、某文檔DD中BM25相關(guān)性的值,由于不知道文檔集中相關(guān)與不相關(guān)的分類,所以這里直接將相關(guān)文檔個(gè)數(shù)rr置為0,則將得到的BIM因子為:RelBIM=log(0+0.5)(N0)(ni0)+0.5)(ni0+0.5)(00+0.5)=logNni+0.5ni+0.5RelBIM=log(0+0.5)(N-0)-(ni-0)+0.5)(ni-0+0.5)(0-0+0.5)=logN-ni+0.5ni+0.5其他數(shù)值假定如下:1. 文檔的集合總數(shù)N=1°°°°°N=10°°°°2. 包含喬布斯的文檔個(gè)數(shù)為n喬布斯
13、=10°°n喬布斯=10003. 包含IPAD2的文檔個(gè)數(shù)為nIPAD2=100nIPAD2=1004. 文檔DD中出現(xiàn)喬布斯的詞頻為f喬布斯=8f喬布斯=85. 文檔DD中出現(xiàn)IPAD2的詞頻為fiPAD2=8fIPAD2=86. 查詢?cè)~頻均為qfirgfiT7. 調(diào)節(jié)因子k1=1-2k1=1-28調(diào)節(jié)因子k2=200k2=2009. 調(diào)節(jié)因子b=°75b=°.7510. 設(shè)文檔DD的長(zhǎng)度為平均長(zhǎng)度的1.5倍(dlavdl=1-5dlavdl=1-5),即K=1.2x(0.25+0.75x1.5)=1.65K=1.2x(0.25+0.75x1.5)=1
14、.65則最終可以計(jì)算到的BM25結(jié)果為:RelBM25=log100000-1000+0.51000+0.5X(1.2+1)x81.65+8X(2OO+1)x12OO+1+log100000-1000+0.51000+0.5X(1.2+1)x51.65+5X(2OO+1)x12OO+1=8.59RelBM25=log100000-1000+0.51000+0.5x(1.2+1)x81.65+8x(200+1)x1200+1+log100000-1000+0.51000+0.5x(1.2+1)x51.65+5x(200+1)x1200+1=8.59每個(gè)文檔按上述公式計(jì)算得到相關(guān)性排序即可.BM2
15、5F模型在BM25模型中,文檔被當(dāng)做一個(gè)整體進(jìn)行進(jìn)行詞頻的統(tǒng)計(jì),而忽視了不同區(qū)域的重要性,BM25F模型正是抓住了這點(diǎn)進(jìn)行了相應(yīng)的改進(jìn)。BM25F模型在計(jì)算相關(guān)性時(shí)候,會(huì)對(duì)文檔分割成不同的域來(lái)進(jìn)行加權(quán)統(tǒng)計(jì),非常適用于網(wǎng)頁(yè)搜索,因?yàn)樵谝粋€(gè)網(wǎng)頁(yè)有標(biāo)題信息、meta信息、頁(yè)面內(nèi)容信息等,而標(biāo)題信息無(wú)疑是最重要的,其次是meta信息,最后才是網(wǎng)頁(yè)內(nèi)容,BM25F在計(jì)算相關(guān)性的,會(huì)將網(wǎng)頁(yè)分為不用的區(qū)域,在各個(gè)區(qū)域分別統(tǒng)計(jì)自己的詞頻。所以BM25F模型的計(jì)算公式為:i:qi=di=ilog(ri+0.5)(NR)(nj耳)+0.5)廠ri+0.5)(Rri+0.5)xfuik+fuii:qi二di=1log(ri+0.5)(N-R)-(ni-ri)+0.5)(ni-ri+0.5)(R-ri+0.5)xfiuk1+fiuBM25F的第1部分還是BIM的值其中與BM25主要的差別體現(xiàn)在fuifiU因子上,它是單詞ii在各個(gè)區(qū)域不同的得分,計(jì)算公式如下:fui=uk=iWkXfuiBufiu=k=1uwkxfuiBuBu=(1-bu)+buxuluuvulu)Bu=(1-bu)+buxuluuvulu)上面的公式表示:1. 文檔DD
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 浙江省嘉興市2025屆物理高二下期末質(zhì)量跟蹤監(jiān)視試題含解析
- 巢湖市重點(diǎn)中學(xué)2025年物理高二下期末預(yù)測(cè)試題含解析
- 2025年日喀則市重點(diǎn)中學(xué)物理高一下期末質(zhì)量跟蹤監(jiān)視試題含解析
- 2025屆湖南省茶陵縣三中高二物理第二學(xué)期期末考試試題含解析
- 銀行還款憑證管理辦法
- 丹鳳縣防雷減災(zāi)管理辦法
- 江西省吉安安??h聯(lián)考2024-2025學(xué)年八上數(shù)學(xué)期末質(zhì)量檢測(cè)模擬試題含解析
- 河北省秦皇島市2024-2025學(xué)年八年級(jí)物理第一學(xué)期期末檢測(cè)試題含解析
- 遼寧省沈陽(yáng)市法庫(kù)縣2024-2025學(xué)年物理八年級(jí)第一學(xué)期期末綜合測(cè)試試題含解析
- 礦產(chǎn)資源合作保密協(xié)議樣本
- 預(yù)防艾滋病、梅毒和乙肝母嬰傳播相關(guān)報(bào)表、上報(bào)流程和要求
- 《鐵路技術(shù)管理規(guī)程》(普速鐵路部分)-14年新版
- 食用油儲(chǔ)存期品質(zhì)變化的太赫茲光譜無(wú)損識(shí)別
- 胎盤早剝預(yù)案演練腳本
- 五山文學(xué)全集第一卷
- 聚磷腈功能高分子材料的合成及應(yīng)用
- 中國(guó)鐵路總公司《鐵路技術(shù)管理規(guī)程》(高速鐵路部分)2014年7月
- 鈣加維生素Dppt課件(PPT 14頁(yè))
- TRD深基坑止水帷幕施工方案(22頁(yè))
- 八少八素初試甄別試題
- 企業(yè)組織架構(gòu)圖模板
評(píng)論
0/150
提交評(píng)論