




版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、信息檢索相關(guān)性近十年我國(guó)信息檢索相關(guān)性研究現(xiàn)狀分析一一基于共詞分析的視角摘要:相關(guān)性是信息檢索領(lǐng)域的核心研究的內(nèi)容之一,對(duì)其進(jìn)行深入研究將有助于提高信息檢索的效率,推動(dòng)信息檢索的研究。本文將通過(guò)共詞分析的方法,利用知識(shí)圖譜對(duì)其進(jìn)行可視化分析研究。關(guān)鍵詞:信息檢索;相關(guān)性;共詞分析前言相關(guān)性一直以來(lái)都是信息檢索領(lǐng)域的核心研究?jī)?nèi)容之一,其概念的起源可以追溯到17世紀(jì)的早期圖書(shū)館用戶(hù)認(rèn)識(shí)到查找相關(guān)信息的問(wèn)題。但由于客觀(guān)原因,相關(guān)性只是作為一種朦朧意識(shí)停留在人們頭腦中,直到20世紀(jì)20年代少數(shù)學(xué)者Lotka(1926)、Zipf(1949)、Urquhart(1959)、Price(1965)才陸續(xù)從
2、各個(gè)領(lǐng)域開(kāi)始了相關(guān)性的研究工作。在信息科學(xué)界Saracevic認(rèn)為Bradford是最先使用相關(guān)性一詞的學(xué)者。其在20世紀(jì)30年代發(fā)表的文獻(xiàn)的混沌狀態(tài)一文中首次提出主題相關(guān)”的概念。而此后關(guān)于“相關(guān)性”的探討并未引起學(xué)界更大范圍的關(guān)注。直到1958年國(guó)際科學(xué)信息會(huì)議(ICSI)的召開(kāi),相關(guān)性(Relevance)才作為信息科學(xué)領(lǐng)域的一個(gè)重要概念被學(xué)術(shù)界認(rèn)可。至此“相關(guān)性”逐漸成為信息科學(xué)尤其是信息檢索領(lǐng)域經(jīng)久不衰的研究課題,甚至知識(shí)交流學(xué)派的代表人物Saracevic認(rèn)為信息科學(xué)之所以成為獨(dú)立學(xué)科,而不再隸屬于圖書(shū)館學(xué)或文獻(xiàn)學(xué)的原因就在于它開(kāi)展了相關(guān)性的研究也在于相關(guān)性能夠解釋科學(xué)交流中的諸多
3、問(wèn)題。足見(jiàn)“相關(guān)性”在信息檢索的相關(guān)性問(wèn)題展開(kāi)了深入研究,本文將通過(guò)共詞分析法,使用知識(shí)圖譜對(duì)其進(jìn)行可視化處理分析??茖W(xué)中的重要地位。當(dāng)前,各國(guó)學(xué)者已對(duì)信息1信息檢索相關(guān)性基本概念之后又吸引了眾多學(xué)者的參與。2信息檢索相關(guān)性共詞分析2.1數(shù)據(jù)收集處理本文研究的數(shù)據(jù)收集是以中國(guó)知網(wǎng)(cnki)中文數(shù)據(jù)庫(kù)中的期刊文獻(xiàn)為基礎(chǔ),期刊來(lái)源為SCI、ELCSSCI,以“信息檢索”并含“相關(guān)性”作為主題進(jìn)行檢索,檢索年限為2004年至2013年,共檢索文獻(xiàn)95篇。對(duì)其關(guān)鍵詞進(jìn)行統(tǒng)計(jì)分析,共有關(guān)鍵詞202個(gè),對(duì)其進(jìn)行詞頻統(tǒng)計(jì),將詞頻超過(guò)2次的關(guān)鍵詞作為高頻關(guān)鍵詞,共有高頻關(guān)鍵詞42個(gè)(表1),本文的數(shù)據(jù)分析將
4、基于這些高頻關(guān)鍵詞o表1高頻關(guān)鍵詞及其頻次統(tǒng)計(jì)關(guān)鍵詞頻次信息檢索59相關(guān)性29搜索引擎8用戶(hù)相關(guān)性5情報(bào)學(xué)4關(guān)鍵詞頻次信息系統(tǒng)成功模型2信息素養(yǎng)2信息檢索模型2相關(guān)性判據(jù)2模糊聚類(lèi)2對(duì)信息檢索相關(guān)性基本概念方面的研究工作始世紀(jì)50末,各國(guó)借助數(shù)學(xué)及各種概取方法從角度對(duì)“性”的含內(nèi)容進(jìn)行入剖析。關(guān)性的基念研究以年為邊界了前后兩段第1959-197攙的圖書(shū)主要成MaronKuhns利代模型代率話(huà)交互相關(guān)性判義及了諾性艮而相本概度靄相關(guān)經(jīng)歷個(gè)階信息階段果有模和卩用概言信息檢索1用戶(hù)需求44433學(xué)術(shù)信檢索系模糊矩陣模糊方法可視化檢索系統(tǒng)檢索評(píng)價(jià)關(guān)聯(lián)理論息2統(tǒng)性化次序效應(yīng)2222詞頻矩陣查詢(xún)擴(kuò)展查全率
5、測(cè)試集標(biāo)準(zhǔn)本體TEDS模型率論定義相關(guān)性的概念,提出相關(guān)性并非只是簡(jiǎn)單的是/非選擇問(wèn)題。Rees認(rèn)為相關(guān)性受文檔所包含的信息概念的影響,認(rèn)為相關(guān)信息是對(duì)用戶(hù)原來(lái)所具備的知識(shí)而言有用的信息Goffman和Newill把相關(guān)性當(dāng)成連接有效性的一種測(cè)度,并試圖用數(shù)學(xué)方法證明相關(guān)性(Relevance)與關(guān)聯(lián)性(Relation)之間具有等價(jià)關(guān)系。Saracevic則建議從文檔、詞與文獻(xiàn)引用等各種文獻(xiàn)特征上來(lái)定義檢索的相關(guān)性。Cooper利用數(shù)理邏輯給相關(guān)性做了一個(gè)明確的定義。Wilson則在Cooper研究的基礎(chǔ)上對(duì)數(shù)理邏輯相關(guān)性描述做了進(jìn)一步擴(kuò)充,并將“情境相關(guān)性”的概念首次引入到相關(guān)性的研究中,
6、第二階段研究工作的基礎(chǔ)。在第二階段,1977年至今,由于相關(guān)性各領(lǐng)域研究成果的相繼岀現(xiàn),使相關(guān)性的概念描述也呈現(xiàn)岀許多新的時(shí)代特征。首先是從面向用戶(hù)及認(rèn)知方法的觀(guān)點(diǎn)重新審視相關(guān)性,認(rèn)為相關(guān)性是個(gè)多念,在很大程度上依賴(lài)于用戶(hù)個(gè)人對(duì)信息的理解以及信息需求的情境。相關(guān)性是一個(gè)動(dòng)態(tài)的概念它依賴(lài)于信息與用戶(hù)某一特定時(shí)間所需信息之間關(guān)系質(zhì)量的評(píng)價(jià),以用戶(hù)的觀(guān)點(diǎn)來(lái)看,相關(guān)性是個(gè)復(fù)雜的、系統(tǒng)的、可測(cè)度的概念。其次是一些學(xué)者試圖給信息檢索定義一個(gè)邏輯模型來(lái)理解相關(guān)性概念這項(xiàng)工作由Rijsbergen開(kāi)創(chuàng)用戶(hù)行為22建立共詞矩陣在EXCEL表格中,刪除低頻關(guān)鍵詞之后,對(duì)確定的42個(gè)關(guān)鍵詞所在列進(jìn)行兩兩配對(duì),統(tǒng)計(jì)其
7、在文獻(xiàn)同時(shí)岀現(xiàn)的頻次,建立透視表,并通過(guò)Ucinet軟件將42個(gè)關(guān)鍵詞建立共詞矩陣,圖1為共詞矩陣部分效果圖。圖1共詞矩陣效果圖(部分)晉詞詞頻性化TEDS模型000000000本體000000000標(biāo)準(zhǔn)00100DC00測(cè)試集010000000杳辛率000001000查詢(xún)擴(kuò)展000000000查準(zhǔn)率000200000詞頻矩陣000000000坎序效應(yīng)000000000個(gè)性化0000000002.3分析數(shù)據(jù)結(jié)果本文利用社會(huì)網(wǎng)絡(luò)分析軟件Ucinet6.0版本和Netdraw2.0版本對(duì)獲取的關(guān)鍵詞數(shù)據(jù)進(jìn)行分析并繪制出社會(huì)網(wǎng)絡(luò)分析圖譜。231K-core分析在本文中,首先使用Ucinet6.0軟件
8、建立共詞矩陣的電子表格,然后采用Netdraw2.0軟件繪制科學(xué)知識(shí)圖譜,在此基礎(chǔ)上,采用K-core分析法進(jìn)行社會(huì)網(wǎng)絡(luò)分析,建立不同連接度k核(最高為4)的共詞網(wǎng)絡(luò)圖譜,經(jīng)過(guò)處理后得到可視化結(jié)果,如圖2所示,其中紅色代表關(guān)聯(lián)度為4的關(guān)鍵詞,綠色為關(guān)聯(lián)度為3的關(guān)鍵詞,藍(lán)色為關(guān)聯(lián)度為2的關(guān)鍵詞,黑色為關(guān)聯(lián)度為1的關(guān)鍵詞。|P-l|用戶(hù)艾E:*;Ti/r淪-iiArZ3疏二褲可儷;b*W圖2K-core分析效果圖2.3.2多維尺度分析使用Ucinet6.0軟件中的非量綱式多維尺度分析方法分析近十年我國(guó)信息檢索相關(guān)性的關(guān)鍵詞的數(shù)據(jù)結(jié)構(gòu),統(tǒng)計(jì)這些關(guān)鍵詞坐標(biāo),統(tǒng)計(jì)結(jié)果如表2所示,并形成散點(diǎn)圖,效果如圖3
9、所示。表2關(guān)鍵詞分布坐標(biāo)關(guān)鍵詞X坐標(biāo)Y坐標(biāo)處象限關(guān)鍵詞X坐標(biāo)Y坐標(biāo)處象限TEDS模型-0.7941.984第1評(píng)價(jià)-0.234-0.438第T象限O限本體0.4-0145情報(bào)學(xué)-0.0180.168第2象限標(biāo)準(zhǔn)-0.368-0.089數(shù)字圖書(shū)館-0.215-0.92第3-象限測(cè)試集-0.8590.175搜索引擎-0.3170.409第T象限查全率-0.048-0.261網(wǎng)絡(luò)信息檢索-0.7160.905第T象限查詢(xún)擴(kuò)展0.315-0.505系統(tǒng)相關(guān)性0.3170.358第T象限查準(zhǔn)率-0.056-0.524相關(guān)度0.2530.135第T象限詞頻矩陣0.676-0.556相關(guān)性0.023-0.0
10、57第4象限次序效應(yīng)-0.4490.128相關(guān)性反饋0.902-0.545象限個(gè)性化-0.689-0.11相關(guān)性判斷-0.2310.057第T象限關(guān)聯(lián)理論0.540.056相關(guān)性判據(jù)-0.4852.055第T象限檢索-0.52-0.571第3信息檢索0.175-0.256第4象限O限檢索模型0.127-0.858信息檢索模型-0.0620.363第2象限檢索評(píng)價(jià)-0.244-0.73信息檢索系統(tǒng)0.558-0.773第象限檢索系統(tǒng)0.5420.268信息素養(yǎng)0.699-0.233第象限可視化-1.1640.349信息系統(tǒng)成功模型-0.4052.366第T象限跨語(yǔ)言信息檢索0.389-1.334
11、學(xué)術(shù)信息檢索系統(tǒng)-0.8032.397第T象限模糊方法0.111-0.689用戶(hù)交互0.384-0.956第象限模糊矩陣0.6-0.374用戶(hù)相關(guān)性0.1270.471第T象限模糊聚類(lèi)0.846-0.061用戶(hù)行為0.057-1102第象限模型-0.4-0.284用戶(hù)需求1.036-0.275第象限學(xué)術(shù)信息檢索系統(tǒng)系統(tǒng)成功模型teds模型相關(guān)性判據(jù)網(wǎng)絡(luò)信息檢索搜索引信息檢索-測(cè)醉次序效相關(guān)性判斷相關(guān)度關(guān)聯(lián)理論個(gè)性化標(biāo)隹相關(guān)性本體模糊聚類(lèi)模型查全率言息僉索廿模糊矩陣素養(yǎng)用戶(hù)檢索評(píng)價(jià)查隹率查詢(xún)擴(kuò)展詞頻矩陣關(guān)性反饋檢索評(píng)價(jià)館檢索矗信息檢索系統(tǒng)數(shù)子圖書(shū)館檢索模型用戶(hù)交互用戶(hù)亍為跨語(yǔ)言信息檢索可視化2.
12、62.42.221.81.61.41.210.80.60.40.20-0.2-0.4-0.6-0.8-1-1.2-1.4-1.4-1.2-1-0.8-0.6-0.4-0.200.20.40.60.811.21.41.61.822.22.42.6圖3多維尺度分析散點(diǎn)圖分布效果圖根據(jù)多維尺度分析圖和表2的統(tǒng)計(jì)可以看出,42個(gè)關(guān)鍵詞中,分布在第一象限的有:關(guān)聯(lián)理論、檢索系統(tǒng)、系統(tǒng)相關(guān)性、相關(guān)度、用戶(hù)相關(guān)性,共五個(gè);分布在第二象限的有:TEDS模型、測(cè)試集、次序效應(yīng)、可視化、情報(bào)、搜索引擎、網(wǎng)絡(luò)信息檢索、相關(guān)性判斷、相關(guān)性判據(jù)、信息檢索模型、信息系統(tǒng)成功模型、學(xué)術(shù)信息檢索系統(tǒng);分布在第三象限的有:標(biāo)準(zhǔn)
13、、查全率、查準(zhǔn)率、個(gè)性化、檢索、檢索評(píng)價(jià)、模型、評(píng)價(jià)、數(shù)字圖書(shū)館;分布在第四象限的有:本體、查詢(xún)擴(kuò)展、詞頻矩陣、檢索模型、跨語(yǔ)言信息檢索、模糊方法、模糊矩陣、模糊聚類(lèi)、相關(guān)性、相關(guān)性反饋、信息檢索、信息檢索系統(tǒng)、信息素養(yǎng)、用戶(hù)交互、用戶(hù)行為、用戶(hù)需求。3信息檢索相關(guān)性研究分析通過(guò)核心關(guān)鍵詞所處的象限分布情況以及K-core分析圖所示,我國(guó)信息檢索相關(guān)性的研究熱點(diǎn)主要集中在兩個(gè)方面:第一,信息檢索系統(tǒng)的相關(guān)性評(píng)價(jià)標(biāo)準(zhǔn)及模型的研究,包括查全率、査準(zhǔn)率、相關(guān)度、TEDS模型、學(xué)術(shù)信息檢索系統(tǒng)、信息系統(tǒng)成功模型等;第二,有關(guān)用戶(hù)的研究,包括用戶(hù)需求、用戶(hù)行為、用戶(hù)相關(guān)性、信息素養(yǎng)等。31信息檢索系統(tǒng)的
14、相關(guān)性評(píng)價(jià)及模型研究對(duì)于信息檢索系統(tǒng)的相關(guān)性評(píng)價(jià)研究是這一研究領(lǐng)域的研究重點(diǎn),也一直是研究者們關(guān)注的重點(diǎn)。傳統(tǒng)的相關(guān)性評(píng)價(jià)指標(biāo)為查全率和查準(zhǔn)率,目前系統(tǒng)相關(guān)性評(píng)價(jià)可用相關(guān)度作為相關(guān)性好壞的評(píng)價(jià)指標(biāo),相關(guān)度是文檔表示與查詢(xún)表達(dá)式間的匹配程度,相關(guān)度越高則說(shuō)明文檔與表達(dá)式越相近。作為相關(guān)性的量化指標(biāo),相關(guān)度已廣為接受。系統(tǒng)相關(guān)性評(píng)價(jià)的模型包括布爾模型、向量空間模型、概率模型、模糊模型、邏輯模型、概念模型、網(wǎng)絡(luò)模型等。信息檢索系統(tǒng)是相關(guān)性評(píng)價(jià)的一個(gè)重要極點(diǎn),檢索系統(tǒng)性能的好壞直接影響到反饋結(jié)果質(zhì)量的高低,從而影響用戶(hù)相關(guān)性的判斷。從系統(tǒng)的角度看,提高信息檢索的相關(guān)性可以從以下五個(gè)方面來(lái)考慮:系統(tǒng)設(shè)計(jì)
15、的用戶(hù)觀(guān)。信息組織的合理化。系統(tǒng)實(shí)現(xiàn)的智能化。檢索功能的全面化。相關(guān)算法的最優(yōu)化。3.2與用戶(hù)有關(guān)的信息檢索系統(tǒng)相關(guān)性的關(guān)系研究信息檢索的目的是要預(yù)言信息對(duì)于用戶(hù)需求的適用性,即信息能否滿(mǎn)足用戶(hù)需求或在何種程度上滿(mǎn)足用戶(hù)需求,但情報(bào)檢索系統(tǒng)所能提供給我們的只是信息表示和查詢(xún)表示之間的關(guān)系。一般認(rèn)為相關(guān)性是最終用戶(hù)對(duì)信息檢索結(jié)果輸出的認(rèn)可或明確的判定,它隱含地表明了用戶(hù)對(duì)使用系統(tǒng)的滿(mǎn)意程度。因此在信息檢索的相關(guān)性研究中,與用戶(hù)相關(guān)的研究顯得十分必要。用戶(hù)是信息檢索活動(dòng)的主體,是檢索結(jié)果的最終判定者和使用者,從提出信息需求的時(shí)刻起,用戶(hù)所進(jìn)行的每一個(gè)步驟都與最后的檢索結(jié)果相關(guān),是相關(guān)性評(píng)價(jià)的另一極點(diǎn)。從用戶(hù)的角度看,提高信息檢索相關(guān)性需提高信息用戶(hù)的五種能力:提高用戶(hù)對(duì)信息需求的認(rèn)知能力。提高用戶(hù)對(duì)信息需求的表達(dá)能力。提高用戶(hù)對(duì)檢索系統(tǒng)的選擇能力。提高用戶(hù)對(duì)領(lǐng)域知識(shí)的識(shí)別能力。提高用戶(hù)對(duì)檢索結(jié)果的判斷能力。4結(jié)論目前,信息檢索的相關(guān)性研究已經(jīng)越來(lái)越引起人們的重視,其發(fā)展也已經(jīng)取得了一定的成效。但縱觀(guān)現(xiàn)有的研究成果,主要還是集中于相關(guān)性的理論探討階段。由于相關(guān)性研究領(lǐng)域的
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 社會(huì)問(wèn)題分析的中級(jí)考試試題及答案
- 礦山壓力觀(guān)測(cè)試題及答案
- 初級(jí)車(chē)床考試題及答案
- 多媒體應(yīng)用設(shè)計(jì)師知識(shí)更新的試題及答案
- 實(shí)戰(zhàn)經(jīng)驗(yàn)分享軟件評(píng)測(cè)師考試試題及答案
- 網(wǎng)絡(luò)考試中的自我管理技巧與試題答案
- 軟件評(píng)測(cè)中的常見(jiàn)挑戰(zhàn)試題及答案
- 江西省病歷管理制度
- 冷鮮肉倉(cāng)庫(kù)管理制度
- 文旅公司激勵(lì)管理制度
- 如何理解中國(guó)人民抗日戰(zhàn)爭(zhēng)勝利對(duì)實(shí)現(xiàn)中華民族偉大復(fù)興的意義?參考答案三
- 2025-2030中國(guó)數(shù)字PCR(DPCR)和QPCR行業(yè)市場(chǎng)現(xiàn)狀供需分析及投資評(píng)估規(guī)劃分析研究報(bào)告
- 相機(jī)全景拍攝與拼接技術(shù)考核試卷
- 職業(yè)暴露與防試題及答案
- 佛山公務(wù)員試題及答案
- 2025年高考政治搶押秘籍(江蘇專(zhuān)用)時(shí)政熱點(diǎn)03發(fā)展民營(yíng)經(jīng)濟(jì)-(江蘇專(zhuān)用)(學(xué)生版+解析)
- 2025年四川省成都市錦江區(qū)中考二診物理試題(含答案)
- 2025年安徽高考?xì)v史模擬預(yù)測(cè)試卷(含答案解析)
- DB34T 4720-2024工會(huì)驛站運(yùn)維服務(wù)規(guī)范
- 安川機(jī)器人手動(dòng)操縱及編程基礎(chǔ)
- 焊接設(shè)備維護(hù)與保養(yǎng)試題及答案
評(píng)論
0/150
提交評(píng)論