




已閱讀5頁,還剩7頁未讀, 繼續(xù)免費閱讀
版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
精品文檔 1歡迎下載 信息檢索 1 信息檢索概念 P1 2 信息檢索的原理一整節(jié)內容要自己理解 P3 P4 圖 1 1 要掌握 文獻替代和文獻整序的概念要掌握 3 信息檢索在歷史上的不同表現(xiàn) 聯(lián)機檢索 光盤檢索 網(wǎng)絡檢索的區(qū)別和特征 P6 P9 4 信息檢索的模型概念 P9 5 布爾模型 向量空間模型 經(jīng)典概率模型要理解并掌握各自的優(yōu)缺點 P11 P12 6 信息檢索系統(tǒng)的概念 P12 7 檢索效果的評價指標 P15 P16 4 個指標 查全率 查準率 漏檢率 誤檢率 掌握它們的含義并懂得計算 8 網(wǎng)絡檢索的表達式 布爾邏輯檢索 鄰近檢索 短語檢索 截詞檢索的特點 區(qū)別和聯(lián) 系 P17 P21 9 信息檢索的技巧要理解尤其是要掌握及時調整檢索策略 P33 P36 10 搜索引擎的概念 P37 11 數(shù)據(jù)庫知識 實驗內容 特點 12 引文的概念 13 搜索引擎的分類 P40 41 搜索引擎劃分的類別以及元搜索引擎的概念要掌握 12 CBR 概念 P113 12 多媒體信息檢索的原理和方法 P110 P114 其中要重點理解基于內容的多媒體信息檢索的檢索形式 可以結合課件 13 專利的概念 P125 14 專利的類型 P126 理解一下各類型的區(qū)別 15 專利文獻的概念 P127 16 專利文獻的類型 P127 理解一下各類型的區(qū)別 17 灰色文獻的概念 P147 18 會議文獻的概念 P158 19 科技報告的概念 P163 20 查新的概念 P200 21 科技查新的作用 P201 每一個小標題后面要自己展開一段 關于上課講的那幾個數(shù)據(jù)庫大家自己看一下 PPT 掌握一下 以上純屬個人觀點 題型 名詞解釋 5 4 20 簡答題 4 10 40 論述題 2 20 40 考試時間 1 月 8 日 上午 9 00 11 00 精品文檔 2歡迎下載 1 1 信息檢索的概念信息檢索的概念 P1 P1 信息檢索有廣義和狹義兩重含義 廣義廣義上說 信息檢索是指將信息按照一定的方式組織和 存儲起來 并根據(jù)信息用戶的需求查找相關信息的過程 它包含信息存儲和信息查找兩個 過程 信息檢索是對信息項進行表示 存儲 組織和存取 狹義狹義的講 信息檢索僅僅指信 息查找的過程 即從信息集合中找出所需信息的過程 相當于 信息查詢 或 信息查找 文獻替代 著錄 文獻替代 著錄 即將表示文獻資源特征的元數(shù)據(jù)替代它指代的資源 文獻替代過程實 際上是對原始文獻的外表特征 包括題名 著者 出處等 和內容特征 包括分類號 主 題詞 摘要等 進行描述的過程 這項工作通常稱為著錄 著錄的結果是將原始文獻制成 它的替代文獻 二次文獻 文獻整序 文獻整序 指的是對替代文獻進行標引 給出文獻標識 如分類號 主題詞等 將所有替 代文獻按其標識進行有規(guī)律的組織排列 形成可檢索的信息資源集合 信息檢索系統(tǒng) 信息檢索系統(tǒng) 信息存儲與信息查詢功能的一類信息服務設施 或工具 信息檢索的模型 信息檢索的模型 就是運用數(shù)學的語言和工具 對信息檢索系統(tǒng)中的信息及其處理的過程 加以翻譯和抽象 表述為某種數(shù)學公式 再經(jīng)過演繹 推理 解釋和實際校驗 反過來指 導信息檢索實踐 搜索引擎 搜索引擎 是一種 Web 上應用的軟件系統(tǒng) 它以一定的策略在 Web 上搜集和發(fā)現(xiàn)信息 對 信息處理組織后 為用戶提供 Web 信息查詢服務 元搜索引擎 元搜索引擎 又稱多元搜索引擎或集成式搜索引擎 是多個獨立搜索引擎的集合 無獨立 的數(shù)據(jù)庫 通過一個統(tǒng)一的用戶界面 可以同時對多個搜索引擎進行檢索操作 即用戶只 需一次輸入檢索式 便可檢索一個或多個獨立搜索引擎 嚴格來說 元搜索引擎只能算是 一種用戶代理 而不是真正的搜索引擎 CBRCBR 基于內容的多媒體信息檢索 主要利用計算機自動收集 量化和存儲信息內容自身的 特征 如顏色 紋理 形狀 表示成向量空間 建立基于內容特征的多媒體索引庫 用戶 在查詢過程中 系統(tǒng)會自動將用戶提問轉化成向量 并與已有信息的向量空間進行相似度 匹配計算 具有較強的客觀性 專利 專利 即專利權的簡稱 是由專利機構依據(jù)發(fā)明申請所頒發(fā)的一種文件 這種文件敘述發(fā) 明的內容 并且產(chǎn)生一種法律狀態(tài) 即該獲得專利的發(fā)明在一般情況下只有得到專利所有 人的許可才能利用 包括制造 使用 銷售和進口等 專利的保護有時間和地域的限制 我國專利法將專利分為三種 即發(fā)明 實用新型和外觀設計 專利權 專利技術 專利說 明書 專利文獻 專利文獻 主要是指是實行專利制度的國家及國際專利組織在受理 審批 注冊專利過程 中產(chǎn)生的官方文件及其出版物的總稱 就廣義而論 專利文獻是指實行專利制度的國家及 國際性專利組織 在審批專利過程中產(chǎn)生的官方事件及其出版物的總稱 主要包括申請說 明書 專利說明書等各類有關文件 以及專利公報 檢索工具和專利分類表等出版物 就 狹義而言 專利文獻通常單指專利說明書 灰色文獻 灰色文獻 通常指不經(jīng)營利性出版商控制 而由各級政府 科研院所 學術機構 工商業(yè) 界等所發(fā)布的各類印刷版與電子版文獻資料 會議文獻 會議文獻 就是在各種會議上宣讀和交流的論文 報告 產(chǎn)生的記錄及發(fā)言 論述 總結 等各種形式的文獻資料 是國際學術交流的重要組成部分 按其出版方式可分為會前文獻 會中文獻和會后文獻 新穎性 專業(yè)針對性 及時性 連續(xù)性 查全率查全率 是指檢出文獻中合乎需要的文獻數(shù)量占數(shù)據(jù)庫存在的合乎該需要的所有文獻的比 例 用來表示信息系統(tǒng)能滿足用戶需求的完備程度 精品文檔 3歡迎下載 查準率查準率 是指檢出文獻中合乎需要的文獻數(shù)量占檢出文獻全部數(shù)量的比例 是衡量信息系 統(tǒng)拒絕非相關信息的能力的量度 科技報告 科技報告 是圍繞某個課題的科技活動所取得的階段性進展或最終性成果的記錄與書面報 告 是科研生產(chǎn)活動的第一手資料 有時又被稱為研究報告 它是科技人員交流其研究活 動的重要手段 是研究單位向為其提供經(jīng)費的部門反映研究情況的正式技術文件 以積累 傳播和交流為目的 由科技人員按照有關規(guī)定和格式撰寫 真實而完整地反映科研人員所 從事科技活動的內容和經(jīng)驗 查新 查新 是科技查新的簡稱 是指查新機構根據(jù)查新委托人提供的需要查證其新穎性的科學 技術內容 按照本規(guī)范操作 并作出結論 一 信息存儲與檢索原理一 信息存儲與檢索原理 1 原理 信息檢索的實質就是將用戶的檢索提問標識與存儲在信息檢索系統(tǒng)中的信息特征 標識進行比較 匹配 兩者一致或者信息特征標識包含了檢索提問標識 則具有該標識的 信息就從檢索系統(tǒng)中輸出 輸出的信息就是檢索命中的信息 通過對大量的 分散無序的 文獻信息進行搜集 加工 組織 存儲 建立各種各樣的檢索系統(tǒng) 并通過一定的方法和 手段使存儲與檢索這兩個過程所采用的特征標識達到一致 以便有效地獲得和利用信息源 其中 存儲是檢索的基礎 檢索是存儲的目的 信息存儲與檢索的一般過程 2 文獻替代 著錄 即用表示文獻資源特征的元數(shù)據(jù)替代所指代的資源 特征包括外表特征和內容特征 著錄的結果是將原始文獻制成二次文獻 3 文獻整序 標引 對文獻進行標引 給出檢索標識 如分類號 主題詞等 將所有替代文獻按照其標識進 行有規(guī)律的組織排列 形成可檢索的信息資源集合 精品文檔 4歡迎下載 文獻特征標識與檢索提問標識的匹配 二 聯(lián)機檢索 光盤檢索 網(wǎng)絡信息檢索的特征和區(qū)別二 聯(lián)機檢索 光盤檢索 網(wǎng)絡信息檢索的特征和區(qū)別 1 聯(lián)機檢索 1965 1990 即信息用戶利用終端設備 通過通信網(wǎng)絡或通信線路與檢索 系統(tǒng)聯(lián)機 進行 人機對話 從檢索中心的數(shù)據(jù)庫查找所需的文獻倍息的過程 1 構成 聯(lián)機檢索中心 通訊設施 檢索終端 2 聯(lián)機檢索的特點 3 優(yōu)點 檢索效率高 可在幾分鐘內完成檢索 檢索范圍廣泛全面 提供的數(shù)據(jù)量從幾十到幾百個不等 檢索內容新 實時性強 可檢索到最新文獻 檢索功能強 檢索途徑多 缺點 檢索費用高 機時 DU 記錄輸出打印費 通信費 檢索界面單一 檢索技術和技巧不易掌握 2 光盤檢索 1 由于光盤具有存儲密度高 輕便 無機械磨損 易攜帶耐用等待點 從 20 世紀 80 年代中期生產(chǎn)后便很快被廣泛用作信息載體 檢索工具 2 光盤按存儲信息的種類可分為 激光唱盤 激光視盤以及存儲文字 數(shù)字等文件資 料的數(shù)字光盤 按讀寫數(shù)據(jù)的模式可分為只讀光盤 寫一次光盤和可擦寫光盤 3 光盤檢索的類型 1 單機 Stand Along 光盤檢索系統(tǒng) 由微機 光驅 光盤數(shù)據(jù)庫等硬件設備 操作程序 檢索程序等軟件組成 提供單用戶 單機的使用 系統(tǒng)結構簡單 但數(shù)據(jù)量少 利用率低 2 聯(lián)機光盤檢索系統(tǒng) 將光盤上網(wǎng) 一般只提供在局域網(wǎng)上的檢索 用戶可以分時共享光盤數(shù)據(jù)庫的信息 光驅 常采用光盤塔 Tower 和光盤庫 Jukebox 兩種形式 4 光盤檢索的特點 價格低 一次購買無限次使用 無需聯(lián)機檢索費用 存儲容量大而體積較小 無需通訊聯(lián)系 不受時間限制 使用方便 易于操作 使用壽命長 機房 設備無特別要求 投資少 信息獲取速度和更新頻率較聯(lián)機檢索慢 3 網(wǎng)絡信息檢索 90 年代至今 1 早期的 Internet 信息服務模式 常見服務 FTP Telnet 郵件 新聞組 操作復雜 表現(xiàn)形式單調 信息以文件形式存在 2 網(wǎng)絡信息檢索 90 年代至今 網(wǎng)絡信息檢索一般指因特網(wǎng)檢索 是通過網(wǎng)絡接口軟件 用戶可以在一終端查詢各 地上網(wǎng)的信息資源 網(wǎng)絡信息檢索與聯(lián)機信息檢索最根本的不同在于網(wǎng)絡信息檢索 是基于客戶機 服務器的網(wǎng)絡支撐環(huán)境的 客戶機和服務器是同等關系 只要遵守 共同協(xié)議 一個服務器可以被多個用戶訪問 一個客戶也可以訪問多個服務器 特點 精品文檔 5歡迎下載 檢索范圍大 覆蓋因特網(wǎng)上幾乎所有的網(wǎng)絡資源 超文本檢索 結合多媒體的全文信息檢索 界面友好 用戶操作相當方便 良好的反饋能力和快速響應能力 與國際聯(lián)機檢索相比 其最大的優(yōu)點在于經(jīng)濟 與光盤檢索相比 其最大的優(yōu)點在于 內容更新快 網(wǎng)絡檢索與聯(lián)機檢索和光盤檢索有許多相同之處如需要數(shù)據(jù)庫 要制定檢索 策略等 1 聯(lián)機檢索的速度快 效率高 檢索的范圍廣泛 全面 檢索途徑多 方便 靈活 檢索內容新 實時性強 檢索輔助功能完善 但是檢索的費用高 對檢索系統(tǒng)及其文檔的 收錄 標引 特點等問題較難了解 熟悉 檢索技巧和技術不易掌握 2 光盤檢索其存儲容量大而體積微小 使用方便 不需要通信聯(lián)系 不受時間限制 使用方便 易于操作 價格低 使用壽命長 用戶易接受 機房無特別要求 投資少 要 求設備簡單 可隨地安裝 但是光盤檢索的信息獲得比聯(lián)機檢索慢 信息更新不及時 三 信息檢索系統(tǒng)的評價指標三 信息檢索系統(tǒng)的評價指標 1 查全率 檢全率 召回率 Recall Ratio 檢全率 檢出相關文獻量 100 系統(tǒng)中相關文獻總量 2 漏檢率 Omission factor 漏檢率 漏檢相關文獻量 100 系統(tǒng)中相關文獻總量 3 查準率 檢準率 相關率 Precision Ratio 檢準率 檢出相關文獻量 100 檢出文獻總量 4 誤檢率 Noise Factor 誤檢率 誤檢文獻量 100 檢出文獻總量 查全率與查準率示例 查詢 Q 本應該有 100 篇相關文檔 某個系統(tǒng)返回 200 篇文檔 其中 80 篇是真正相關的 文檔 查全率 80 100 0 8 查準率 80 200 0 4 結論 查全率較高 但是查準率較低 四 布爾模型 向量空間模型 經(jīng)典概率模型的優(yōu)缺點 經(jīng)典信息檢索模型 四 布爾模型 向量空間模型 經(jīng)典概率模型的優(yōu)缺點 經(jīng)典信息檢索模型 1 基于集合論的模型 Set Theoretic models 精品文檔 6歡迎下載 布爾模型 擴展布爾模型 2 基于代數(shù)論的模型 Algebraic models 向量空間模型 3 基于概率統(tǒng)計的模型 Probabilistic models 經(jīng)典概率模型 1 布爾模型 最簡單的信息檢索模型 是基于集合理論和布爾代數(shù)的一種的檢索模型 被大多數(shù)檢索系統(tǒng)所采用 查詢是由三種布爾邏輯運算符 AND OR NOT 連接索引詞組成的 布爾表達式 每個索引詞在一篇文檔中只有兩種狀態(tài) 出現(xiàn)或不出現(xiàn) 對應權值為 0 或 1 將查詢表達式與文檔進行匹配 單詞 文檔矩陣 布爾模型的優(yōu)點 1 簡單 容易理解 經(jīng)過某種訓練的用戶可以容易地寫出布爾查詢式 2 通過使用復雜的布爾表達式 可以很方便地控制查詢結果 3 檢索速度快 到目前為止 布爾模型是最常用的檢索模型 布爾模型的缺點 1 不支持部分匹配 而完全匹配會導致太多或者太少的結果文檔被返回 2 普通用戶構造查詢不一定準確 容易構造錯誤 3 很難對輸出結果進行排序 不考慮索引詞的權重 所有文檔都以相同的方式和查詢相匹配 可通過擴展來實現(xiàn)排序的功能 即 擴展布爾模型 2 擴展布爾模型 為了克服布爾檢索模型查詢結果的無序性 引入擴展的布爾檢索模型 相似度計算公式 若檢索項 Term1 OR Term2 則 若 Term1 AND Term2 則 3 向量空間模型 通過對檢出文獻按相似度降序排列的方式來實現(xiàn)文獻與查詢的部分匹 配 向量空間模型的優(yōu)缺點 優(yōu)點 1 標引詞 Term 加權改進了檢索效果 2 支持部分匹配和近似匹配 其部分匹配策略運行檢出與查詢條件接近的文獻 3 結果可以排序 4 可用到相關領域 文本分類 相似匹配 缺點 1 標引詞獨立的假定 損失掉大量的文本結構信息 2 相似度的計算量較大 4 經(jīng)典概率模型 核心思想 若以往查詢中 如果某個文檔和某個詞相關度大 則在 以后的查詢中 用這個詞查詢時出現(xiàn)該文檔的概率高 給定一個用戶提問 則檢索系統(tǒng)中 存在一個包含所有相關文檔的集合 理想結果集 R 在此基礎上 用戶可以對初始的檢索 結果集合中文檔相關與否進行判斷 在根據(jù)這些反饋信息 系統(tǒng)便可以在后續(xù)的檢索處理 中不斷做出優(yōu)化和改進 精品文檔 7歡迎下載 經(jīng)典概率模型的優(yōu)缺點 優(yōu)點 1 建立在數(shù)學模型基礎上 理論性較強 2 文檔可以按照他們相關概率遞減的順序來排序 缺點 1 需要最初把文獻分為相關集合和不相關集合 2 沒有考慮標引詞在文獻中出現(xiàn)的頻率問題 3 獨立性假設與現(xiàn)實情況不完全相符 4 計算復雜度相對較大 五 布爾邏輯檢索 鄰近檢索概述 短語檢索概述 截詞檢索概述的區(qū)別 聯(lián)系五 布爾邏輯檢索 鄰近檢索概述 短語檢索概述 截詞檢索概述的區(qū)別 聯(lián)系 1 1 布爾邏輯檢索概述 布爾邏輯檢索概述 1 將多個檢索詞用布爾運算符組合在一起進行檢索 2 邏輯運算符 邏輯與 AND 邏輯或 OR 邏輯非 NOT AND NOT 并非所有數(shù)據(jù)庫都遵循以上算符 絕大部分計算機信息檢索系統(tǒng)都支持布爾邏輯檢索 3 3 關于 關于 優(yōu)先級優(yōu)先級 問題問題 1 當布爾運算符在一個檢索式中連續(xù)出現(xiàn)時 它們的優(yōu)先級通常是不同的 2 大部分數(shù)據(jù)庫規(guī)定 優(yōu)先級最高 次之 最低 2 2 鄰近檢索概述 鄰近檢索概述 又稱位置限制檢索 是用位置運算符來表達檢索詞與檢索詞之間順序和詞間距的檢索 支持鄰近檢索的系統(tǒng)包括 ProQuest Dialog ScienceDirect Westlaw 等 ProQuest 的 常用位置算符包括 Near Pre 等 1 位置運算符 Near n 查找包含 A 詞和 B 詞且兩詞距離很近的文檔 使用數(shù)值 n 來指定兩詞之間相隔的詞數(shù) 2 位置運算符 Pre n 查找包含 A 詞和 B 詞且 A 詞在 B 詞之前出現(xiàn)的文檔 使用數(shù)值 n 來指定兩詞之間相隔的詞數(shù) 3 3 短語檢索概述 短語檢索概述 使用 將多個關鍵詞作為整體檢索 又稱精確檢索 多用于人名 機構名 地名 書名 電影名檢索 4 4 截詞檢索概述 截詞檢索概述 截詞檢索即在檢索詞中保留相同的部分 把變化部分用通配符代替 1 一般情況下 使用 或 代表 0 至 1 個字符 有限截詞 使用 或 代表 0 至多個字符 無限截詞 Google 部分支持 檢索 Baidu 不支持通配符檢索 詞形變換 年代區(qū)間 作者 同根詞 2 完全匹配 任意匹配與前方一致 1 完全匹配 要求輸入的檢索詞 與數(shù)據(jù)庫中的文獻標識完全相同 前后無其他字符 才能命中 2 任意匹配 前后可包含其他字符 相當于輸入 檢索詞 3 前方一致 精品文檔 8歡迎下載 屬于截詞檢索的一種 相當于輸入 檢索詞 5 5 字段限制檢索 字段限制檢索 組成數(shù)據(jù)庫的最小單位是記錄 一條完整的記錄中的每個著錄項為字 段 在信息檢索過程中 為了提高查全率或查準率 需要將檢索范圍 限制在特定的字段中 即字段限制檢索 基本索引字段 輔助索引 字段 6 6 其他檢索表達式 其他檢索表達式 1 括號檢索 用于改變運算的先后順序 括號內的運算優(yōu)先進行思考 2 自然語言檢索 直接采用自然語言中的字 詞 句進行提問式搜索 同一般口語一樣 特別適合不熟悉網(wǎng)絡信息檢索技術的用戶使用 3 多語種檢索 提供多種語言的檢索環(huán)境供用戶選擇 系統(tǒng)按照用戶選定的語種進 行檢索并反饋結果 4 模糊檢索 又稱概念檢索 是指使用某一檢索詞進行檢索時 能同時對該詞的同 義詞 近義詞 上位詞 下位詞進行檢索 以達到擴大檢索范圍 避免漏檢的目 的 5 區(qū)分大小寫檢索 對于支持區(qū)分大小寫檢索的工具而言 若用戶輸入小寫檢索式 搜索工具既匹配大寫又匹配小寫 若用戶輸入大寫 則只匹配大寫形式結果 大 部分搜索引擎對大小寫不敏感 六 信息檢索的策略與技巧六 信息檢索的策略與技巧 1 信息檢索策略 信息檢索策略 Retrieval Strategy 是為實現(xiàn)檢索目標而制 定的全盤計劃或方案 是就一個問題檢索一個或多個數(shù)據(jù)庫所輸入的 全部檢索式的集合 2 檢索關鍵詞的選擇 對檢索的概念進行關鍵詞的切分 關鍵詞的剔除 對固定 短語 盡量使用引號進行精確檢索 關鍵詞應盡量簡練 可根據(jù)網(wǎng)頁 特征選擇查詢詞 立足常用詞 規(guī)范詞 兼顧自由詞 旁類以求 善 用詞的全稱 簡稱及縮寫 勿忘上下位類詞擴展 注意外來詞的譯寫 變化 3 擴檢 指初始設定的檢索范圍太小 命中文獻不多 需擴大檢索范圍的方法 擴大檢索范圍 提高查全率的技術方法 1 考慮同義詞或近義詞 使用 OR 連接 2 選擇較大檢索范圍的字段如摘要 3 使用截詞符 4 使用上位詞 如飛行器 航天飛機 載人航天飛機 4 縮檢 指開始的檢索范圍太大 命中文獻太多 或查準率太低的一個方法 縮小檢索范圍 提高查準率的技術方法 1 使用 AND NOT 等運算符限制檢索范圍 2 使用短語檢索 3 使用位置算符 4 選擇檢索范圍較小的字段 5 使用下位詞 5 充分利用組合檢索 除使用布爾檢索表達式外 應盡可能配合鄰近檢索 字 段限制檢索等檢索方法 有些查新課題的查新點內涵很深 難以用有 限的詞匯準確 全面地描述 僅用關鍵詞檢索極易造成漏檢 可采用 分類 主題組合檢索 精品文檔 9歡迎下載 七 搜索引擎的分類七 搜索引擎的分類 1 1 按信息內容組織方式劃分 按信息內容組織方式劃分 1 機器人搜索引擎 狹義的 Search Engine 不依靠人工發(fā)現(xiàn)和甄別信息 由蜘蛛 Spider 以某種策略自動在互聯(lián)網(wǎng)中搜集信息 由索引器建立索引 由檢索器根據(jù)用戶查詢檢索信息并返回給用戶 其優(yōu)點是信息量 大 更新速度快 缺點是返回的信息過多 冗余信息較多 用戶必須從結果中進行篩 選 2 目錄式搜索引擎 以人工或半自動方式搜集信息 由編輯人員對資源進行選擇 評價 編制摘要 分類 后形成的主題目錄 具有信息準確 信息質量較高等優(yōu)點 同時存在收錄網(wǎng)站資源規(guī) 模有限 維護量大 信息更新不及時等不足 代表產(chǎn)品 早期 Yahoo 早期 Sohu 網(wǎng)址導航 2 2 按專業(yè)范疇劃分 按專業(yè)范疇劃分 1 綜合性搜索引擎 內容涵蓋各個學科和生產(chǎn)生活的各個領域 可檢索圖片 音頻 視頻等多種資源類型 適用對象廣泛 代表產(chǎn)品 Google Yahoo 百度 搜狗 2 專業(yè)性搜索引擎 垂直搜索引擎 收錄某一個或幾個學科資源的搜索引擎 具有專門搜索功能的搜索引擎 面向特定 的用戶的搜索引擎 面向特定學科 行業(yè) 對象或用戶 特點 專 精 深 3 3 按檢索功能劃分 按檢索功能劃分 1 獨立搜索引擎 又稱單一搜索引擎或常規(guī)搜索引擎 有自己的數(shù)據(jù)庫 搜索時通常只檢索自己的數(shù)據(jù) 庫 2 元搜索引擎 Meta Search Engine 又稱多元搜索引擎或集成式搜索引擎 是多個獨立搜索引擎的集合 通過統(tǒng)一用戶界 面同時檢索多個引擎 即用戶只需一次輸入檢索式 便可檢索一個或多個獨立搜索引擎 無獨立數(shù)據(jù)庫 嚴格來說 Meta 搜索引擎只能算是一種用戶代理 而不是真正的搜索引 擎 八 多媒體信息檢索八 多媒體信息檢索 1 多媒體信息檢索方式 1 基于文本的多媒體信息檢索 2 基于內容的多媒體信息檢索 2 基于內容的多媒體信息檢索 1 基于內容的信息檢索 Content Based Retrieval CBR 利用計算機自動收集 量化和存儲信息內容特征 表示成向量空間 建立基于內容特征的多媒體索引 庫 用戶在查詢時將用戶提問轉化成向量 并與已有信息的向量空間進行相似 度匹配計算 具有較強的客觀性 2 劣勢 特征空間的維度高 用戶與系統(tǒng)抽取的信息之間存在語言鴻溝 對同一數(shù) 據(jù)的解釋缺乏一致性 3 普及程度 局限在較小的數(shù)據(jù)集合 實驗室層面 有以下幾種 1 基于內容的圖像檢索 顏色分布法 精品文檔 10歡迎下載 1 QBIC Query By Image Content 基于內容圖像檢索領域應用最早的商用產(chǎn)品 由 IBM Almaden 研究中心于 1995 年開發(fā) 為 IBMDB2 數(shù)據(jù)庫提供圖像檢索 并支持基于 Web 的圖像檢索服務 系統(tǒng)結構及所用技術對后來的視頻檢索有深遠的影響 2 TinEye TinEye 是由加拿大 Id e 公司所開發(fā)的圖像搜索系統(tǒng) 于 2008 年發(fā)布 提供用戶依據(jù) URL 或上傳的圖像文件 搜索網(wǎng)絡上近似的圖像與位置 主要用途 1 發(fā)現(xiàn)圖片的來源與相關信
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 公司登山自駕游活動方案
- 公司短期旅游活動方案
- 2025年信息技術與產(chǎn)業(yè)發(fā)展考試試卷及答案
- 2025年心理醫(yī)生職業(yè)倫理考試試卷及答案
- 2025年生命科學基礎知識考試試卷及答案
- 2025年健康管理與慢性病防控考試試題及答案
- 2025年科技創(chuàng)新與知識產(chǎn)權管理考試試題及答案
- 2025年家庭教師資格考試試卷及答案
- 2025年護理學課程公共衛(wèi)生防疫基礎知識考試試卷及答案
- 2025年非營利組織發(fā)展助理考試試題及答案
- 一例壓力性損傷的個案護理
- 初高中生物銜接課件
- 高壓電動機預防性試驗課件
- 2022-2023學年北京市西城區(qū)部編版五年級下冊期末考試語文試卷
- 副舟骨損傷查房
- 女性領導力智慧樹知到課后章節(jié)答案2023年下山東女子學院
- 沖壓成型精密五金機構件生產(chǎn)QC工程圖
- 工程量確認單范本
- 抖音直播運營團隊薪酬績效考核管理方案(直播帶貨團隊薪酬績效提成方案)
- 2022-2023學年遼寧省大連市沙河口區(qū)數(shù)學五下期末復習檢測模擬試題含答案
- 2023年廣東省珠海市經(jīng)濟技術開發(fā)區(qū)事業(yè)單位招聘(共500題含答案解析)高頻考點題庫參考模擬練習試卷
評論
0/150
提交評論