




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、6.1 信息檢索技術(shù)n6.1.1 檢索模型概述n6.1.2 布爾模型n6.1.3 向量空間模型n6.1.4 概率模型n6.1.5 全文檢索n6.1.6 語義檢索6.1 信息檢索技術(shù)(續(xù))n6.1.7 超文本模型n6.1.8 多媒體檢索n6.1.9 跨語言檢索n6.1.10分布式檢索n6.1.11 P2P檢索n6.1.12 網(wǎng)格信息檢索信息檢索過程n信息檢索過程實際上涉及到三個重要的處理:n文檔集的邏輯表示n查詢的表示n相似匹配及其排序n對上述因素和檢索過程建模(抽象描述),產(chǎn)生各種不同的信息檢索模型圖6-1 信息檢索系統(tǒng)的一般模型表達(dá)式構(gòu)造表達(dá)式構(gòu)造標(biāo)引標(biāo)引信息資源信息資源信息資源信息資源替代
2、替代物物需求替代物需求替代物用戶需求用戶需求檢索結(jié)果檢索結(jié)果相關(guān)性判斷相關(guān)性判斷6.1.2 布爾模型n布爾檢索模型的理論基礎(chǔ)是布爾邏輯和集合理論6.1.2 布爾模型n布爾邏輯主要內(nèi)容:命題邏輯與謂詞邏輯n布爾邏輯是數(shù)理邏輯的基礎(chǔ)部分n利用符號來表示邏輯中的各種概念n建立了一系列的運算法則,利用代數(shù)的方法研究邏輯問題布爾運算n布爾邏輯運算符:n“與(AND)”、“或(OR)”、“非(NOT)”運算的定義 傳統(tǒng)布爾檢索模型 n文獻(xiàn)表示n將文檔表示成一個集合,集合中的每個元素都為一個二元變量,取值非“0”即“1”,表示該元素所代表的主題詞是否包含在該篇文檔之內(nèi)。若包括在文檔中,則元素取值為1,反之則
3、取0。 n給定一個文獻(xiàn)集合D,包含m篇文獻(xiàn),分別用d1,d2,d3dm表示。再給出一個標(biāo)引詞集合T,包含n個標(biāo)引詞t1,t2,tn。假定對文獻(xiàn)集D的描述完全是基于該標(biāo)引詞集合的,則文獻(xiàn)集D中任意一篇文獻(xiàn)di就可以表示為(di1,di2,din) 傳統(tǒng)布爾檢索模型 n查詢表示 n在布爾檢索系統(tǒng)中,根據(jù)用戶提出的檢索需求,選取適當(dāng)?shù)臋z索標(biāo)識,與布爾運算符“與”、“或”、“非”共同構(gòu)成與查詢相符的檢索提問式,也即相應(yīng)的布爾表達(dá)式n例如 :n1) “飛碟”n2) “飛碟”AND “美國”n3) “飛碟”AND (“中國” OR (NOT “科幻小說”)傳統(tǒng)布爾檢索模型 n查詢表示 n布爾提問式q =
4、t1 and(t2 or not t3) nq的主析取范式 (t1 and t2 and t3)or(t1 and t2 and not t3)or(t1 and not t2 and not t3) nq的簡化形式qdnf (1,1,1) or (1,1,0) or (1,0,0),其中,(1,1,1)、(1,1,0)和(1,0,0)是qdnf的3個合取子項(合取子項可用符號qcc表示) 傳統(tǒng)布爾檢索模型 n匹配函數(shù)n菊池敏典算法 傳統(tǒng)布爾檢索模型 n文獻(xiàn)D1=(t1 ,t2 ,not t3)n查詢Q=t1 and t2 and not t3布爾檢索示例布爾檢索示例傳統(tǒng)布爾查詢的評價 n該模
5、型結(jié)構(gòu)簡單、容易實現(xiàn)和快速檢索。傳統(tǒng)布爾查詢的評價 n布爾模型在檢索系統(tǒng)的開發(fā)與應(yīng)用中表現(xiàn)出的主要問題有:n(1)準(zhǔn)確匹配(exact matching)策略問題。布爾模型采用準(zhǔn)確匹配策略,對檢索過程中客觀存在的一些不確定性情形絕對排斥,認(rèn)為一篇文獻(xiàn)對于某一提問要么是“相關(guān)的”,要么是“不相關(guān)的”。這種“非此即彼”的二值判斷標(biāo)準(zhǔn)嚴(yán)重影響到檢索系統(tǒng)的性能改善,并帶來其他一些相關(guān)問題。n(2)布爾邏輯表達(dá)用戶需求的能力問題。把用戶的一個信息需求轉(zhuǎn)換成一個恰當(dāng)?shù)牟紶柋磉_(dá)式,在很多情況下并不容易實現(xiàn)。傳統(tǒng)布爾查詢的評價 n為了彌補這些缺陷,發(fā)展了一些別的檢索模型,如向量空間、擴展布爾、概率檢索和聚類模
6、型。6.1.3 向量空間模型n向量空間模型(Vector space model)介紹n向量空間模型(VSM)的評價向量空間模型介紹n1. 文獻(xiàn)空間n(1)文獻(xiàn)空間的概念n文獻(xiàn)集合中的任一文獻(xiàn)都可以表示為這個多維空間中的一個向量,這個空間就稱為“文獻(xiàn)空間”n在一個文獻(xiàn)空間內(nèi),用向量D1來代表某一文獻(xiàn),則該向量在這個文獻(xiàn)空間各個軸上的分量就是相應(yīng)的表述該文獻(xiàn)的各個項的權(quán)重n文獻(xiàn)與空間點n(2)標(biāo)引詞空間向量空間模型介紹T2T3T1D1=d11,d12, d13 D2= d21,d22, d23 D3= d31,d32, d33 圖圖 三維文獻(xiàn)空間三維文獻(xiàn)空間向量空間模型介紹n2. 項權(quán)重 n(1
7、)詞頻 n越重要的項分配越高的權(quán)值n可以用詞頻來作為該項的權(quán)重(用tf表示) n(2)文獻(xiàn)頻率 n假設(shè)存在一個文獻(xiàn)集合,其中大部分的文獻(xiàn)都包含了某一項,則說明該項對某一主題的專指度較差,可能就不太重要 n在設(shè)計項權(quán)重時,要考慮逆文獻(xiàn)頻率 (用idf表示) 向量空間模型介紹n2. 項權(quán)重 n(3)權(quán)重的規(guī)范化處理 n為了抵消由篇幅帶來的不同影響,經(jīng)常要對項權(quán)重進(jìn)行規(guī)范化處理n在各種規(guī)范化方法中,余弦規(guī)范是一種常用、有效的方法:tfidf權(quán)重/文獻(xiàn)向量的歐氏長度 向量空間模型介紹n3.文獻(xiàn)向量與查詢向量的匹配 n匹配函數(shù)n利用向量的內(nèi)積運算,得到文獻(xiàn)向量Di與查詢向量q之間的相似度 nSim(Di
8、,q)=Diqn簡單n存在的一個主要的不足是它忽略了項之間存在一些相互聯(lián)系的事實。通常,需要引入一些特別的方法來改進(jìn)這個相似度計算公式,使得其能夠考慮到項的相互聯(lián)系這一重要因素相似度的計算n內(nèi)積相似度運算n余弦相似度n“距離”相似度運算n等等NiiDTQTiDQSim1),(22),(iiiiQTQTDTQTDQSimppttpddDDL12121|),(向量空間模型的評價v 優(yōu)點v 簡單,功能卻非常強大v能將非結(jié)構(gòu)化的文獻(xiàn)表示成向量的形式,使得各種數(shù)學(xué)處理成為可能 v模型的檢索效果和布爾檢索模型比起來,要好得多 v 不足v 忽略項之間存在的相互聯(lián)系,必然使得檢索效果產(chǎn)生極大的偏差 v 傳統(tǒng)向
9、量處理模型不能處理布爾表達(dá)等結(jié)構(gòu)化查詢v 改進(jìn)v 廣義向量空間模型(GVSM)、潛在語義標(biāo)引(LSI)、概率向量處理模型以及基于語義分析的向量空間模型(SVSM) 6.1.4 概率模型概率模型n概率論模型主要基于概率論原理來理解和解決信息檢索問題n主要有早期的經(jīng)典概率模型(又稱為二值獨立檢索模型,英文簡稱BIR)n基于貝葉斯網(wǎng)絡(luò)的推理網(wǎng)絡(luò)模型和信念網(wǎng)絡(luò)模型等nINQUERY檢索系統(tǒng)是基于概率模型的代表6.1.4 概率模型概率模型n基本思路:n給定一個用戶提問,則檢索系統(tǒng)中存在著一個與該提問相關(guān)的理想命中結(jié)果集合R(該集合只包括與查詢完全相關(guān)的文檔而不包括其他不相關(guān)的文檔)n在用戶提出檢索要求時
10、,檢索系統(tǒng)并不知道這個理想結(jié)果集合的特性n在檢索開始之時就需要對R的特性進(jìn)行某種猜測n根據(jù)初始的猜測,檢索系統(tǒng)檢索到一個初步的命中結(jié)果集合n基于相關(guān)反饋的原理,需要進(jìn)行一個逐步求精的過程 6.1.4 概率模型概率模型檢索問題轉(zhuǎn)化為求條件概率問題If Prob(R|di, q) Prob(NR|di, q) then di是檢索結(jié)果,否則不是檢索結(jié)果6.1.5 全文檢索全文檢索 n直接在全文中進(jìn)行匹配檢索n獲得的也是全文信息而非文獻(xiàn)線索 n全文檢索技術(shù)以其較高的查準(zhǔn)率和查全率被廣泛應(yīng)用于網(wǎng)絡(luò)信息的檢索中 n全文檢索還提供位置檢索功能6.1.5 全文檢索全文檢索 n全文檢索模型中信息資源的邏輯表示
11、n全文索引 n目前常見的全文檢索模型主要有n倒排表、署名文件、位圖、Pat樹和Pat數(shù)組等模型n從中文語言特點出發(fā)提出的互關(guān)聯(lián)后繼樹模型等6.1.5 全文檢索全文檢索 n基于單漢字的全文索引n索引倒排結(jié)構(gòu) 單漢字(主鍵字)記錄號段落號位置號單漢字(主鍵字)記錄數(shù)記錄號1該記錄位置集合記錄號1該記錄位置集合 6.1.5 全文檢索全文檢索n以倒排表模型為基礎(chǔ)的全文檢索有檢索速度快,與原文無關(guān)的特點n其缺點主要包括兩個方面:n首先,空間和時間效率低;n其次,當(dāng)文本集合不斷變化時,需要不斷重建全文索引n第一個問題通常采用壓縮技術(shù)和更加高效的編碼策略加以解決6.1.5 全文檢索全文檢索n全文檢索模型中的
12、查詢表示n通常采用布爾模型的查詢表示方式6.1.5 全文檢索全文檢索n全文檢索模型中的匹配方式n檢索的匹配算法一般是根據(jù)索引結(jié)構(gòu)而研制的n檢索速度取決于匹配算法,一個優(yōu)秀的全文檢索算法,在百兆級的數(shù)據(jù)庫中,檢索速度應(yīng)該在秒級水平,否則,不能算是一個好的全文檢索算法nLucene6.1.5 全文檢索全文檢索n全文檢索技術(shù)指標(biāo)n基本指標(biāo)有:查全率、查準(zhǔn)率、檢索速度、索引膨脹率等n索引的膨脹系數(shù)是指針對全文所建的索引文件大小與全文文件大小之比,其中索引文件的大小取決于索引的結(jié)構(gòu)n沒有為全文創(chuàng)建索引的全文檢索系統(tǒng),其膨脹系數(shù)為06.1.6 語義檢索語義檢索n基于關(guān)鍵詞匹配的傳統(tǒng)文本信息檢索技術(shù)對語義匹
13、配的支持能力較差,其性能取決于用戶對方法的理解,具有很大的局限性n盡管基于關(guān)鍵詞匹配的檢索技術(shù)已經(jīng)經(jīng)過多次改進(jìn),但是由于沒有添加語義處理方面的功能,檢索性能沒有得到本質(zhì)的改善,那些沒有被文字直接表述出來但隱含在文本內(nèi)容中的一些重要的信息無法被檢索n語義檢索是對檢索條件、信息組織以及檢索結(jié)果顯式賦予了一定語義成分的一種新的檢索方式n與傳統(tǒng)關(guān)鍵詞檢索相比,它更加強調(diào)語義,其性能明顯改善圖圖6-3 基于本體的文本信息檢基于本體的文本信息檢索系統(tǒng)的一般模型索系統(tǒng)的一般模型 實體關(guān)系標(biāo)引實體關(guān)系標(biāo)引指導(dǎo)主題標(biāo)引指導(dǎo)主題標(biāo)引指導(dǎo)查詢表達(dá)式的構(gòu)造本體指導(dǎo)查詢表達(dá)式的構(gòu)造本體表達(dá)式構(gòu)造表達(dá)式構(gòu)造主題標(biāo)引主題標(biāo)
14、引文檔文檔帶所屬領(lǐng)域標(biāo)帶所屬領(lǐng)域標(biāo)識的標(biāo)引詞序識的標(biāo)引詞序列列查詢表達(dá)式查詢表達(dá)式檢索結(jié)果檢索結(jié)果相關(guān)性判斷相關(guān)性判斷領(lǐng)域概念關(guān)系本體集領(lǐng)域概念關(guān)系本體集指導(dǎo)實體關(guān)系標(biāo)引指導(dǎo)實體關(guān)系標(biāo)引指導(dǎo)查詢本體的構(gòu)造本體指導(dǎo)查詢本體的構(gòu)造本體領(lǐng)域?qū)嶓w關(guān)系本體集領(lǐng)域?qū)嶓w關(guān)系本體集實體關(guān)系本體實體關(guān)系本體相關(guān)性匹配相關(guān)性匹配用戶需用戶需求求查詢本體查詢本體指導(dǎo)實體關(guān)系標(biāo)引指導(dǎo)實體關(guān)系標(biāo)引查詢本體構(gòu)造查詢本體構(gòu)造6.1.7 超文本模型超文本模型n所謂超文本,既是一種信息的組織形式,也是一種信息檢索技術(shù)n超文本不是單純以線性方式存儲文本,而是附加了一種非線性結(jié)構(gòu)來組織信息,即在文本中設(shè)置若干超級鏈接(簡稱超鏈)指
15、向相關(guān)位置,以確保在順序閱讀文獻(xiàn)的同時,還可以順著超級鏈接的指引“跳躍”閱讀信息n超文本組織強調(diào)了信息與對象之間的聯(lián)系關(guān)系,符合人們聯(lián)想式閱讀和思維習(xí)慣 6.1.7 超文本模型超文本模型n超文本技術(shù)的優(yōu)點n1)非線性的組織結(jié)構(gòu)n2)以信息單元為檢索對象n3)體現(xiàn)了信息層次關(guān)系n4)交互更加友好n5)信息內(nèi)容豐富多樣n6)避免了檢索語言的復(fù)雜性6.1.7 超文本模型超文本模型n超文本技術(shù)的缺陷n1)偶然發(fā)現(xiàn) n2)失控 n3)迷航6.1.8 多媒體檢索多媒體檢索 n多媒體信息的檢索主要是研究如何快速有效地獲取多媒體信息所涉及的相關(guān)技術(shù),它包括多媒體信息的壓縮、組織、檢索和展示等n由于多媒體信息與
16、文本信息的組織方式和表現(xiàn)形式完全不同,所涉及的檢索技術(shù)也存在著較大差異 6.1.8 多媒體檢索多媒體檢索 n基于文本的多媒體信息檢索方法是多媒體信息檢索最常用的方法 n基于內(nèi)容的多媒體信息檢索方法是一種新型的檢索技術(shù),它融合了圖像理解、模式識別、計算機視覺等技術(shù),直接根據(jù)描述媒體對象內(nèi)容的各種特征進(jìn)行檢索,從數(shù)據(jù)庫中查找到具有指定特征或含有特定內(nèi)容的聲音、圖像、視頻等對象 6.1.9 跨語言檢索 n跨語言信息檢索是指用戶以一種語言提問,檢出另一種語言或多種語言描述的相關(guān)信息n跨語言信息檢索的主要實現(xiàn)方法有:提問式翻譯法、文獻(xiàn)翻譯法、提問式文獻(xiàn)翻譯法、中間翻譯法、不翻譯法、提問式構(gòu)造法和音譯法等
17、方法6.1.10分布式檢索分布式檢索n分布式信息檢索主要是指在分布式的環(huán)境中,利用分布式計算和移動代理等技術(shù)從大量的、異構(gòu)的信息資源中檢索出對用戶有用的信息的過程n這些信息資源在物理上分布于各地,在邏輯上是一個整體,在數(shù)據(jù)庫結(jié)構(gòu)上存在差異n分布式信息檢索主要有基于元搜索引擎、基于Z39.50、基于XML語言、基于Web服務(wù)等模式 6.1.11 P2P檢索檢索nP2P信息檢索的目的就是網(wǎng)絡(luò)中的任意節(jié)點都可以提交檢索的請求,然后這些檢索通過某種路由機制被路由到和檢索相關(guān)的節(jié)點上去,存儲有和該檢索相關(guān)信息的節(jié)點將會回應(yīng)請求,把本地相關(guān)的內(nèi)容以對等的形式直接傳送到請求節(jié)點上 n與傳統(tǒng)的客戶端服務(wù)器模式
18、相比,P2P模式具有明顯的優(yōu)點:n資源利用率高;n節(jié)點越多網(wǎng)絡(luò)越穩(wěn)定,不存在瓶頸問題;n信息在對等節(jié)點間直接交換,高速及時,降低中轉(zhuǎn)成本;n基于內(nèi)容的尋址方式處于一個更高的語義層6.1.12 網(wǎng)格信息檢索網(wǎng)格信息檢索n網(wǎng)格信息檢索的發(fā)展離不開傳統(tǒng)信息技術(shù)的支持,但是,必須對傳統(tǒng)信息技術(shù)進(jìn)行改進(jìn),才能使它們更好地適應(yīng)網(wǎng)格環(huán)境,為提高信息檢索系統(tǒng)的性能發(fā)揮重要的作用 圖6-5 科學(xué)數(shù)據(jù)網(wǎng)格系統(tǒng)結(jié)構(gòu)圖數(shù)據(jù)訪問服務(wù)接口數(shù)據(jù)訪問服務(wù)接口虛擬數(shù)據(jù)庫虛擬數(shù)據(jù)庫物理數(shù)據(jù)庫物理數(shù)據(jù)庫映射工具映射工具M(jìn)appingBuilderDataView基于信息檢索服務(wù)集成的信息檢索系統(tǒng) n目前已經(jīng)出現(xiàn)一些網(wǎng)格信息檢索研究
19、項目,其中比較有名的GridIR、GRACE、ARCO、Digital Library Grid、ChinaGrid、中國科學(xué)數(shù)據(jù)網(wǎng)格,等等n網(wǎng)格信息檢索系統(tǒng)的實現(xiàn)方式與網(wǎng)格體系結(jié)構(gòu)關(guān)系緊密,目前主要有OGSA、七層沙漏兩種網(wǎng)格體系結(jié)構(gòu)用于構(gòu)建網(wǎng)格信息檢索系統(tǒng) 6.2 信息檢索過程的優(yōu)化n6.2.1 標(biāo)引算法優(yōu)化n6.2.2 查詢表達(dá)式優(yōu)化n6.2.3 檢索結(jié)果的組織n6.2.4 檢索可視化n6.2.5 個性化信息檢索說明n對于信息資源的邏輯表示、查詢表達(dá)式而言,改善其中的一個或多個就可以在一定程度上改善信息檢索系統(tǒng)的性能n對檢索結(jié)果進(jìn)行有效排序或者重新組織,也可以改善信息檢索系統(tǒng)的性能 6.
20、2.1 標(biāo)引算法優(yōu)化n加權(quán)標(biāo)引n多種標(biāo)引方法的集成n深層語言知識的運用n本體技術(shù)的運用6.2.2 查詢表達(dá)式優(yōu)化n查詢表述不準(zhǔn)確的原因 n1)在很多情況下,用戶真實的信息需求并不明確,感知到的信息需求、以及表達(dá)出來的信息需求可能與自己真實的信息需求有一定的偏差;n2)在缺少上下文的情況下經(jīng)常會出現(xiàn)詞的歧義;n3)受自身的認(rèn)知水平、文化程度等方面的限制,用戶對檢索內(nèi)容所屬領(lǐng)域的主題詞或概念不熟悉,無法想到一組合適的檢索詞來表達(dá)自己的信息需求;n4)關(guān)鍵詞式Web 信息檢索系統(tǒng)提供的是全文檢索,而不是主題檢索;n5)用戶選擇的主題范圍過寬導(dǎo)致檢索結(jié)果過多,選擇的主題范圍過窄導(dǎo)致檢索結(jié)果過少,等等。
21、6.2.2 查詢表達(dá)式優(yōu)化n查詢表述的修正n查詢擴展(query expansion)、相關(guān)反饋(relevance feedback)、查詢修正(query modification)是最主要的幾類方法,它們之間具有密切的聯(lián)系n檢索詞賦權(quán) n查詢修正包括查詢擴展,是指用一組新的檢索詞替換原有查詢表達(dá)式中的部分檢索詞,產(chǎn)生新的查詢表達(dá)式,試圖使新的查詢表達(dá)式能夠更加準(zhǔn)確地反映用戶真實的信息需求,達(dá)到在盡量保證查全率的前提下提高查準(zhǔn)率的目的 6.2.2 查詢表達(dá)式優(yōu)化n查詢修正用詞的來源n1)詞語語義關(guān)系網(wǎng)絡(luò),例如,包含上位詞、下位詞、同義詞、反義詞等多種相關(guān)詞的信息的詞表,概念關(guān)系網(wǎng)絡(luò),領(lǐng)域本
22、體。這些詞語關(guān)系網(wǎng)絡(luò)可以用于擴大和縮小檢索的主題范圍,可以用于解決詞語歧義的問題,也可以幫助用戶確定檢索詞;n2)系統(tǒng)從用戶反饋的相關(guān)文檔集合中抽取出來的主題詞(或者關(guān)鍵詞)、姓名等各種命名實體(named entity)這些詞語用于取代檢索表達(dá)式中的部分檢索詞,其中主題詞用于限定檢索內(nèi)容的主題范圍,各種命名實體用于限定用戶感興趣的信息片段;n3)系統(tǒng)進(jìn)行全局分析所獲得的詞語共現(xiàn)關(guān)系網(wǎng)絡(luò),包括文檔用詞詞語共現(xiàn)關(guān)系網(wǎng)絡(luò)、查詢用詞詞語共現(xiàn)關(guān)系網(wǎng)絡(luò)兩種,主要用于縮小檢索結(jié)果集合,提高檢索結(jié)果的相關(guān)度。 6.2.2 查詢表達(dá)式優(yōu)化n查詢修正方案中的信息行為因素 n1)大多數(shù)人每次檢索只提交一個提問式,
23、不會修改提問進(jìn)行連續(xù)檢索,三分之二的人只提交一個提問式,七分之六的人不用兩個以上的提問式;n2)在被測試用戶的檢索提問式中,人均輸入的檢索詞為3.34個,最多的為2個,其次是3個和4個,但用戶提問的平均長度呈穩(wěn)步增長之勢;n3)檢索詞分布極不對稱,出現(xiàn)頻率在100次以上的63個主題詞只占全部檢索詞的萬分之三,有一半以上的詞僅僅出現(xiàn)過一次;n4)相關(guān)反饋很少被利用,只有較少的人會修改提問或用到相關(guān)反饋;n5)大多數(shù)用戶只查看返回結(jié)果的頭十條,平均查看結(jié)果的數(shù)量是2.35 頁(每頁有十個記錄),等等。6.2.3 檢索結(jié)果的組織 n提煉輸出內(nèi)容n利用多文檔文摘技術(shù)提煉檢索結(jié)果的內(nèi)容,可以減少用戶的閱
24、讀量,提高相關(guān)性判斷的效率 n檢索結(jié)果排序n檢索結(jié)果聚類 6.4.4 檢索可視化檢索可視化n在信息檢索系統(tǒng)中合理地使用可視信息會進(jìn)一步提高信息檢索系統(tǒng)的整體性能 n1)信息資源可視化 n2)查詢可視化n查詢可視化是對查詢擴展、翻譯的可視化展現(xiàn)n3)查詢結(jié)果可視化n查詢結(jié)果的可視化分為兩個層次:文檔集合可視化和單個文檔可視化n4)查詢反饋可視化 n5)信息檢索可視化模型 信息檢索的可視化n可視化信息檢索是把文獻(xiàn)信息、用戶提問、各類檢索模型以及利用檢索模型進(jìn)行信息檢索的過程,展示在一個可視化空間中,并向用戶提供信息檢索服務(wù)。其實質(zhì)是提供一種有效的信息反饋機制,即所謂的“所見即所得”。 可視化檢索的
25、應(yīng)用舉例如國家衛(wèi)星氣象中心設(shè)置了網(wǎng)上極軌氣象衛(wèi)星資料的可視化檢索系統(tǒng)。復(fù)旦大學(xué)圖書館在其主頁推出了一個可視化圖書查詢系統(tǒng),圖書館可視化多媒體多環(huán)境導(dǎo)讀圖書館可視化多媒體多環(huán)境導(dǎo)讀與查詢系統(tǒng)與查詢系統(tǒng)(1999年12月通過教育部級技術(shù)鑒定)形象生動,可單擊書庫某一書架的某一層的藏書,并將其放大,檢索途徑有書名、作者、排架號三種,開本與厚薄也與原書相符(由MARC的相應(yīng)字段轉(zhuǎn)化),圖形右邊反映卡片式目錄,下邊反映館藏情況。 6.2.5 個性化信息檢索個性化信息檢索n一般過程:n1)新用戶注冊n2)形成用戶興趣表n3)接收用戶查詢請求n4)對用戶的查詢請求進(jìn)行分析n5)根據(jù)查詢請求進(jìn)行檢索n6)分析
26、、篩選查詢結(jié)果n7)顯示查詢結(jié)果6.3 信息服務(wù)n6.3.1 信息服務(wù)過程n6.3.2 定題信息提供n6.3.3 查新服務(wù)n6.3.4 信息推送服務(wù)n6.3.5 聯(lián)機檢索服務(wù)6.3.1 信息服務(wù)過程n信息用戶主要可以通過兩種方式得到信息n第一,由信息服務(wù)部門提供信息;n第二,自助式查詢信息,即信息用戶自己通過網(wǎng)絡(luò)或聯(lián)機檢索獲取信息 6.3.1 信息服務(wù)過程n信息服務(wù)部門提供信息的服務(wù)過程信息服務(wù)部門提供信息的服務(wù)過程n用戶需求確定。這一過程要求用戶能夠明確本次查詢的目的和確切需求,分清主次目的和需求;n用戶需求表達(dá)。將本次查詢的目的和需求用文字表達(dá),并向信息服務(wù)部門提交查詢申請書;n用戶需求理
27、解。信息服務(wù)人員與用戶交談,理解用戶查詢目的與需求,確立查詢的關(guān)鍵詞與查詢范圍,以及對檢索結(jié)果的有關(guān)要求等;n選擇查詢數(shù)據(jù)庫或相關(guān)檢索工具。針對用戶的檢索要求,選擇對口的數(shù)據(jù)庫或相關(guān)檢索工具;n擬定檢索策略。根據(jù)所選數(shù)據(jù)庫或檢索工具的規(guī)則確定檢索詞,構(gòu)造檢索式或制定檢索步驟和執(zhí)行方案,以及檢索結(jié)果不滿足檢索需求后的修訂措施;n檢索實施。根據(jù)擬定的檢索策略執(zhí)行檢索過程;6.3.1 信息服務(wù)過程n自助式查詢信息的過程自助式查詢信息的過程n明確查詢目的n確定信息資源對應(yīng)的網(wǎng)站地址n查詢6.3.2 定題信息提供定題信息提供n定題信息提供通常被稱為SDI(Selective Dissemination
28、of Information Service)n它的主要功能是由信息服務(wù)部門定期(或成批)地向用戶提供所需最新信息的服務(wù)。6.3.2 定題信息提供定題信息提供nSDI的服務(wù)流程的服務(wù)流程nSDI是一種變被動為主動的信息服務(wù)手段,通常包括以下過程:n用戶提交檢索需求。檢索需求中需說明檢索目的、要求、主要檢索詞、以及檢索詞之間的關(guān)系等;n填寫檢索提問單。這一過程需要用戶與檢索人員進(jìn)行交談,并在其指導(dǎo)下填寫用戶提問單;n構(gòu)造檢索策略。有信息檢索人員根據(jù)與用戶交談的結(jié)果并根據(jù)檢索提問單的內(nèi)容設(shè)計檢索式;n檢索調(diào)試。利用已構(gòu)造好的檢索式進(jìn)行預(yù)檢索,檢索結(jié)果送達(dá)用戶征求意見。如果用戶對檢索結(jié)果不滿意,再根
29、據(jù)用戶的意見修改檢索式,直到用戶滿意為止;n歸并檢索式。將用戶滿意的檢索式歸并入用戶提問檔,等待定期檢索;n定期檢索。定期(或每當(dāng)有新信息入庫時)用檢索提問檔去匹配數(shù)據(jù)庫中的最新信息,檢索結(jié)果分發(fā)用戶。6.3.3 查新服務(wù)查新服務(wù) n查新服務(wù)是指對某一研究專題或新產(chǎn)品等國內(nèi)外發(fā)展的最新成果、水平動向、最新動態(tài)等調(diào)查研究,撰寫調(diào)查報告,并提交有關(guān)部門或個人的信息服務(wù)工作。 6.3.3 查新服務(wù)查新服務(wù) n查新服務(wù)從接受查新請求到提交查新報告大致歷經(jīng)如下幾個過程:n受理查新課題。主要由項目委托人遞交查新申請書,申請書中需注明項目名稱、查新種類和查新目的,查新人員閱讀查新申請書后與之交談,并指導(dǎo)填寫查新委托書;n分析查新項目確定查新重點。由查新人員根據(jù)查新委托書以及交談理解,分析用戶查新特點,擬定查新重點,確定查新總目標(biāo);n設(shè)計查新檢索策略。檢索策略涉及到:選擇查新工具(數(shù)據(jù)庫),應(yīng)盡可能多的選擇查詢工具,以確保獲得較高的查全率;針對不同的查新工具確定檢索途徑,選擇檢索詞,設(shè)計檢索式,確保查詢結(jié)果全面、準(zhǔn)確;n檢索實施。根據(jù)擬定的檢索方案,進(jìn)行檢索操作。在實施過程中注意檢索結(jié)果的查準(zhǔn)率和查全率,如不能達(dá)到預(yù)期目標(biāo),及時更新檢索策略;n分析評價。整理查新結(jié)果,并將其
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 玉溪美食跨年活動方案
- 理化加試活動方案
- 烘焙品鑒活動方案
- 物業(yè)征集書法活動方案
- 珠寶周年活動方案
- 理療店國慶活動方案
- 環(huán)保雷鋒活動方案
- 瓷磚福利價格活動方案
- 豬肉推廣活動方案
- 煙花集會活動方案
- 人工血管內(nèi)瘺穿刺技巧與護(hù)理
- 脊柱術(shù)后腦脊液漏護(hù)理
- 預(yù)防溺水小學(xué)課件
- 2025年福建福州地鐵春季校園招聘105人筆試參考題庫附帶答案詳解
- 血小板減少課件
- 裝修工程滿堂腳手架施工方案
- 12J12無障礙設(shè)施圖集
- VMware數(shù)據(jù)中心的服務(wù)器虛擬化與運維管理解決方案
- 夫妻婚內(nèi)財產(chǎn)約定協(xié)議書范本(2025年)
- 2025年中醫(yī)師承合同范本文字
- 2025年牢牢堅守廉潔與廉政職業(yè)底線專題課件
評論
0/150
提交評論