




已閱讀5頁,還剩7頁未讀, 繼續(xù)免費閱讀
版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
信息檢索復習要點2010第一講 網(wǎng)頁采集1. 網(wǎng)頁采集器的基本原理簡答題網(wǎng)頁采集器一般稱為“網(wǎng)路蜘蛛”,也叫網(wǎng)頁機器人。網(wǎng)絡蜘蛛把互聯(lián)網(wǎng)比喻成一個蜘蛛網(wǎng),那么網(wǎng)絡蜘蛛就是在網(wǎng)上爬來爬去的蜘蛛。網(wǎng)絡蜘蛛是通過網(wǎng)頁的鏈接地址來尋找網(wǎng)頁,從一個網(wǎng)頁開始,讀取網(wǎng)頁的內(nèi)容,保存下來,找到在網(wǎng)頁中的鏈接地址,然后通過這些鏈接地址尋找下一個網(wǎng)頁,這樣一直循環(huán)下去。2. 網(wǎng)頁采集器的設計綜合題3. 網(wǎng)絡運營者對網(wǎng)頁采集器的態(tài)度是什么?簡答題網(wǎng)站數(shù)據(jù)被網(wǎng)頁采集器采集后,進入搜索引擎數(shù)據(jù)庫,可擴大網(wǎng)站訪問量、提高網(wǎng)站知名度。因此,網(wǎng)站運營者歡迎網(wǎng)頁采集器,并為其提供便利。網(wǎng)頁采集器需要大量抓取網(wǎng)頁,不同于一般的訪問,如果控制不好,則會引起網(wǎng)站服務器負擔過重。因此,網(wǎng)站運營者希望網(wǎng)頁采集器不要影響網(wǎng)站的正常運轉,并通過各種方法于網(wǎng)頁采集器進行交流,規(guī)范網(wǎng)頁采集器的行為。第二講 分析處理4. 網(wǎng)頁分析處理的必要性簡答題答:分析處理幫助得到更加準確的查詢結果,重復的利用時間和資源。5. 分詞歧義的處理方法簡答題目前,對漢語分詞方法的研究主要有三個方面:1) 基于規(guī)則的分詞方法:這種方法又叫做機械分詞方法,它是按照一定的策略將待分析的漢字串與一個“充分大”的機器詞典中的詞條進行匹配,若在詞典中找到某個字符串,則匹配成功(識別出一個詞)。常用的方法:最小匹配算法,正向(逆向)最大匹配法,逐字匹配算法,神經(jīng)網(wǎng)絡法、聯(lián)想一回塑法,基于 N-最短路徑分詞算法,以及可以相互組合。例如,可以將正向最大匹配方法和逆向最大匹配方法結合起來構成雙向匹配法等。目前機械式分詞占主流地位的是正向最大匹配法和逆向最大匹配法。2) 基于統(tǒng)計的分詞方法:基于統(tǒng)計的方法是基于(兩個或多個)漢字同時出現(xiàn)的概率,通過對語料庫(經(jīng)過處理的大量領域文本的集合)中的文本進行有監(jiān)督或無監(jiān)督的學習??梢垣@取該類文本的某些整體特征或規(guī)律。如果能夠充分地利用這些統(tǒng)計現(xiàn)象、規(guī)律。就可以構造基于語料庫的統(tǒng)計學信息抽取算法統(tǒng)計的分析方法多種多樣。近來研究的熱點主要集中于由隨機過程發(fā)展而來的理論和方法,其中最重要的是應用隱馬爾科夫模型(HMM)進行自然語言處理的方法。隱馬爾科夫模型在語音識別領域已經(jīng)取得很好的成效,在信息抽取領域的應用也正在不斷的嘗試和推廣中。3) 基于理解的分詞方法:又稱之為知識分詞。知識分詞是一種理想的分詞方法,但這類分詞方案的算法復雜度高,其有效性與可行性尚需在實際工作中得到進一步的驗證。知識分詞利用有關詞、句子等的句法和語義信息或者從大量語料中找出漢字組詞的結合特點來進行評價,以期找到最貼近于原句語義的分詞結果。6. 分詞軟件的設計綜合題1) 分詞是將連續(xù)的字序列按照一定的規(guī)范重新組合成詞序列的過程,中文分詞與 其他分詞不同,比如:英文中單詞之間是以空格作為自然分界符;中文只是字、句、段有明顯的分界符;詞沒有一個形式上分界符;從字串到詞串,是一個降低不確定性的過程。2) 利用找到歧義字段、建立歧義字段庫解決分詞歧義問題。3) 利用正向最大匹配法(流程圖)、逆向最大匹配法(流程圖)及最大概率分詞法進行分詞。l 正向最大匹配法(流程圖 見 PPT)l 逆向最大匹配法:1) 將文章分成句子(通過標點符號來實現(xiàn));2) 循環(huán)的讀入每一個句子S,設句子中的字數(shù)為n;3) 設置一個最大詞長度,就是我們要截取的詞的最大長度 max4) 從句子中取n-max 到 n 的字符串 subword,去字典中查找是否有這個詞。如果有就走(5),沒有就走(6);5) 記住 subword,從 n-max 付值給 n,繼續(xù)執(zhí)行(4),直到 n=0.6) 將 max-1,再執(zhí)行(4)。l 最大概率分詞法:列出可能的拆分結果,查表,結果大的,為最終結果?;炯毾耄?) 一個待切分的漢字串可能包含多種分詞結果2) 將其中概率最大的那個作為該字串的分詞結果分詞算法:1) 對一個待分詞的字串 S,按照從左到右的順序取出全部候選詞w1, w2 , ,wi, , wn ;2) 到詞典中查出每個候選詞 的概率值P(wi) ,并記錄每個候選詞的全部左鄰詞;3) 按照公式1計算每個候選詞的累計概率,同時比較得到每個候選詞的最佳左鄰詞;4) 如果當前詞wn是字串S的尾詞,且累計概率P (wn)最大,則wn 就是S的終點詞;5) 從wn開始,按照從右到左順序,依次將每個詞的最佳左鄰詞輸出,即為S的分詞結果。7. 計算準確率、召回率和F值計算題答:準確率 P(Precision):結果中的正確樣例數(shù)與結果中全部樣例總數(shù)的比值。 召回率 R(Recall):結果中的正確樣例數(shù)與實際存在的正確樣例數(shù)的比值。 F 值:準確率和召回率的加權平均,一般用 F1。 (注意:讓求的是 F1 還是 F 其它,然后帶入相應的值值。)舉例:用戶利用某信息檢索系統(tǒng)在資料庫中檢索與和服相關的文章。系統(tǒng)返回給用戶篇文章:日本和服簡介、和服的穿著方法、在日本試穿和服、新款和服特價銷售、青島東和服裝廠簡介。已知資料庫中共有篇文章,其中有篇與和服有關的。請計算此次檢索的準確率、召回率和F1值。答:結果中正確的樣例數(shù)為:4結果集中的總樣例數(shù)為:5P 準確率 = 4/5*100%=80%實際存在的正確的樣例數(shù)為 8R 召回率 = 4/8*100%=50%F1=(2*80%*50%)/(80%+50%)=(2*4/5*1/2)/(4/5+1/2)=(4/5)/(13/10)=8/13第三講 信息檢索模型8. 信息檢索系統(tǒng)的基本模式簡答題從互聯(lián)網(wǎng)上進行網(wǎng)頁采集,然后將采集上來的網(wǎng)頁進行分析處理,建立索引庫,用戶的查詢與索引匹配,返回檢索結果給用戶。(最好將 PPT 上的圖畫出來,然后再詳細解釋)9. 布爾模型的原理簡答題1) 布爾模型信息檢索模型是最簡單的信息檢索模型,是基于集合理論和布爾代數(shù)的一種簡單的檢索模型。2) 文獻表示為不帶權重的標引詞的集合。3) 查詢表示為標引詞的布爾表達式,用邏輯符“and”、“or”、“not”來組織關鍵詞表達式。4) 聯(lián)系機制為:布爾表達式轉換為集合表達式,即布爾算子and 、or、not替換為交、并、補。5) 在結果集合里的文本是相關的,其他是不相關的。10. 利用布爾模型(集合論)的搜索引擎的實現(xiàn)綜合題布爾模型信息檢索模型是最簡單的信息檢索模型,是基于集合理論和布爾代數(shù)的一種簡單的檢索模型。文獻表示為不帶權重的標引詞的集合;查詢表示為標引詞的布爾表達式,用邏輯符“and”、“or”、“not”來組織關鍵詞表達式。聯(lián)系機制為:布爾表達式轉換為集合表達式,即布爾算子and 、or、not替換為交、并、補。在結果集合里的文本是相關的,其他是不相關的D(文獻表示)表示為不帶權重的標引詞的集合,或者說,二值的標引詞權重 wi,j=0 或者 wi,j=1Q(查詢)表示為標引詞的布爾表達式用 and、or、not 連接標引詞構成查詢F(聯(lián)系機制)布爾表達式轉換為集合表達式布爾算字 and、or、not 替換交、并、補R(排序)對于每個標引詞ki,得到一個文本的集合 Dki=dj|wi,j 在結果集合里的文本是相關的,其他是不相關的。11. 向量空間模型的原理簡答題將文獻表示為帶權重的標引詞的集合,權重表示該索引詞與該文本的相關程度。將用戶的查詢也表示為帶權重的標引詞的集合,權重表示標引詞與用戶需求的相關程度。將文本與用戶的查詢的相似度轉化為向量(t 維空間的向量)之間的計算,可以采用向量內(nèi)積或向量夾角余弦方式進行計算。查詢被當作為假想的文本。1) 向量模型用檢索項的向量空間來表示用戶的查詢要求和數(shù)據(jù)庫文檔信息。查詢結果是根據(jù)向量空間的相似性而排列的。2) 向量空間模型可方便地產(chǎn)生有效的查詢結果,能提供相關文檔的文摘,并對查詢結果進行分類,為用戶提供準確的信息。3) 向量空間模型的基本思想是以向量來表示文本:(W1,W2,W3Wn),其中 Wi 為第 i 個特征項的權重,那么選取什么作為特征項呢,一般可以選擇字、詞或詞組。4) 要將文本表示為向量空間中的一個向量,就首先要將文本分詞,由這些詞作為向量的維數(shù)來表示文本。12. 計算用向量表示的網(wǎng)頁的相似度計算題注意:權值的值實際上是由 tf*Idf 算出來的,如果題目中未給出相應的值,則可以通過tf*Idf 算出來,具體算法見13題。13. 計算特征項權重(tf*idf方法)計算題公式: tf*log(N/df)其中 n 為文獻的個數(shù);tf 為該詞在當前文獻中出現(xiàn)的次數(shù);df 為出現(xiàn)該詞的文獻的個數(shù)。例題詳見 PPT 3 建模 P32。14. 利用向量空間模型的搜索引擎的實現(xiàn)綜合題1) 概念、定義及用戶需求:向量空間模型是基于線性代數(shù)的一種信息檢索模型,它用檢查項的向量空間來表示用戶的查詢要求和數(shù)據(jù)庫文檔信息,查詢結果是根據(jù)向量空間的相似性而排列的。向量空間模型可方便地產(chǎn)生有效的查詢結果,能提供相關文檔的文摘,并對查詢結果進行分類,為用戶提供準確的信息。2) 基本思想、算法和數(shù)學推導向量空間模型的基本思想是以向量來表示文本:(W1,W2,W3Wn),其中 Wi 為第 i 個特征項的權重,那么選取什么作為特征項呢,一般可以選擇字、詞或詞組。要將文本表示為向量空間中的一個向量,就首先要將文本分詞,由這些詞作為向量的維數(shù)來表示文本。D(文獻表示)文本表示為帶權重的標引詞的集合,dj=w1,j, w2,j, , wt,j權重表示該標引詞與該文本的相關程度Q(查詢)查詢也表示為帶權重的標引詞的集合, q=w1,q, w2,q, , wt,q權重表示標引詞與用戶需求的相關程度F(聯(lián)系機制)文本和查詢有同樣的表示( t維空間的向量)查詢被當作為假想的文本R(排序)用向量夾角的余弦計算dj和q的相似度可能遇到的技術難點有兩個方面:特征項權重、降維3) 可能遇到的技術難點:特征項權重、降維索引過程首先要從文獻中抽取重要詞,把它們映射到特征項集中,進行權重計算。由于文獻中不同詞匯的出現(xiàn)頻率隨文章的內(nèi)容和作者的習慣而不同,因此,最初的索引系統(tǒng)都是從應用詞頻開始的。實際應用中顯得有些粗糙,比如:為什么中頻詞好?兩個閾值怎么選???等等,但是,這些思想為信息檢索系統(tǒng)中項的選取奠定了基礎。4) 改良方案簡單地把所有的詞匯都作為文獻的特征項,檢索效果并不很好,不同的詞匯對文獻的表示作用不同。一般說來,常用詞在所有文獻中都有著較高的頻率,區(qū)分度低;罕用詞在文獻集中的出現(xiàn)次數(shù)較少,難以確定它們的統(tǒng)計規(guī)律,相關度低;而中等頻率的詞匯常常與文獻所表示的主題相關,區(qū)分度較高,表示能力最強,最有價值。有價值的特征項應具備以下特征:相關度(與文獻內(nèi)容有關,以便在需要時進行索引項的檢索)區(qū)分度(能將一篇文獻與其它文獻區(qū)分開),通過項頻率tf(文獻內(nèi)頻率)和反比文獻頻率idf(inverse document frequency)來度量特征項的價值。5) 用向量空間構造的搜索引擎的應用的展望:第四講 跨語言信息檢索15. 跨語言信息檢索的原理簡答題跨語言信息檢索(CLIR)是指以一種語言的提問式檢索出其它語言信息的一種檢索方法。一般認為,跨語言信息檢索是信息檢索與機器翻譯相結合的技術.跨語言信息檢索是涉及到多種新的概念,是各種技術的有機結合。一般CLIR系統(tǒng)包含以下三個步驟:(1)多語言信息的搜集以及存儲;(2)應用NLP、機器翻譯等技術實現(xiàn)源語言與目標語言的統(tǒng)一;(3)利用傳統(tǒng)的單語檢索技術實現(xiàn)查詢與文檔之間的匹配。其中,步驟(2)是實現(xiàn)CLIR的關鍵。根據(jù)翻譯方向的不同;當前的跨語言檢索方法大體可以分成以下四種種方式:將源語言表示的查詢翻譯到目標語言,即查詢翻譯方法;將目標語言表示的文檔翻譯到源語言,即文檔翻譯方法;將查詢和文檔同時翻譯到另一中間語言,即中間語言翻譯方法。除此之外,還有基于本體的非翻譯方法16. 基于規(guī)則的機器翻譯方法的原理簡答題又稱傳統(tǒng)的翻譯方法,是基于語言規(guī)則的理性方法,,強調(diào)人對語言知識的理性整理?;谝?guī)則的機器翻譯方法認為翻譯的過程是需要對源語言的分析和源語言意義的表示,然后再生成等價的目標語言的過程。根據(jù)翻譯過程的不同,規(guī)則方法可分為兩種主要方法:基于轉換的方法的翻譯過程包括三個階段:分析得到一種源語言的抽象表示;把源語言的抽象表示轉換為目標語言的抽象表示;由目標語言的抽象表示生成目標語言?;谥虚g語言的方法在對源語言分析后產(chǎn)生的是中間語言,而目標語言的生成是直接由這種中間語言開始的。17. 基于實例的機器翻譯方法的原理簡答題基于實例的機器翻譯的本質是“以翻譯實例為基礎,基于相似原理的機器翻譯”,其利用的主要知識源是預處理過的雙語語料和翻譯詞典?;趯嵗姆g過程通常包括三步:在翻譯實例庫中搜索匹配片段;確定相應的譯文片段;重新組合譯文片段以得到最終翻譯。18. 基于統(tǒng)計的機器翻譯方法的原理簡答題是目前非限定領域機器翻譯中性能較佳的一種方法?;舅枷胧峭ㄟ^對大量的平行語料進行統(tǒng)計分析,構建統(tǒng)計翻譯模型,進而使用此模型進行翻譯。統(tǒng)計機器翻譯的首要任務是為語言的產(chǎn)生構造某種合理的統(tǒng)計模型,并在此統(tǒng)計模型基礎上,定義要估計的模型參數(shù),并設計參數(shù)估計算法。一般來說需要參考語料進行有監(jiān)督訓練。19. 跨語言信息檢索的應用簡答題基于Web的搜索引擎是跨語言信息檢索的一個重要應用領域,世界上主要的搜索引擎都相繼實現(xiàn)了跨語言信息檢索的功能??缯Z言信息檢索還可以應用于數(shù)字圖書館和對專業(yè)數(shù)據(jù)庫的檢索等領域20. 跨語言信息檢索的原理是什么?主要技術有哪些?簡答題 跨語言信息檢索是將及其翻譯技術融入到傳統(tǒng)信息檢索中。主要有基于規(guī)則的方法、基于實例的方法和基于統(tǒng)計的方法。21. 跨語言信息檢索的構建綜合題請仔細閱讀參考資料一種新的基于中間語義的跨語言信息檢索模型.pdf第五講 文本分類22. 文本分類的一般過程簡答題文本自動分類是指在給定的分類體系下,根據(jù)文本的內(nèi)容用計算機程序確定文本所屬類別的過程。一般采用機器學習的方法進行自動文本分類。即:基于訓練集的文本自動分類。文本分類的一般過程為:1. 收集訓練集和測試集,對文本進行預處理2. 對文本類別進行人工標注3. 對文本進行特征提取4. 訓練(學習)5. 評價a) 精確率、召回率、F1宏平均(關于類別的均值),微平均(關于文本的均值)23. 文本分類的常用方法簡答題1. Rocchio方法: a) 每一類確定一個中心點(代表元),計算待分類的文檔與各類代表元間的距離,并作為判定是否屬于該類的判據(jù)。b) 構造方法:給定一個類,訓練集中所有屬于這個類的文檔對應向量的分量用正數(shù)表示,所有不屬于這個類的文檔對應向量的分量用負數(shù)表示,然后把所有的向量加起來,得到的和向量就是這個類的原型向量。c) 定義兩個向量的相似度為這兩個向量夾角的余弦,逐一計算訓練集中所有文檔和原型向量的相似度,然后按一定的算法從中挑選某個相似度作為界d) 給定一篇文檔,如果這篇文檔與原型向量的相似度比界大,則這篇文檔屬于這個類,否則這篇文檔就不屬于這個類。訓練文本 Rocchio分類2. K-Nearest Neighbor: 基本思想:在給定新文本后,考慮在訓練文本集中與該新文本距離最近(最相似)的K 篇文本的類別做為該文檔的候選類別。該文檔與K個鄰居間的相似度按類別分別求和,減去一個預先得到的截尾閥值,就得到該文檔的類別測度。3.4. 決策樹方法: 決策樹通過把實例從根節(jié)點排列到某個葉子節(jié)點來分類實例,葉子節(jié)點即為實例所屬的分類。樹上的每一個節(jié)點說明了對實例的某個屬性的測試,并且該節(jié)點的每一個后繼分支對應于該屬性的一個可能值5. 樸素貝葉斯、神經(jīng)網(wǎng)絡。24. 文本分類技術的應用簡答題隨著科學技術的迅猛發(fā)展,特別是隨著因特網(wǎng)的快速發(fā)展,各種信息情報激增,特別是網(wǎng)上信息浩如煙海,人們可能通過因特網(wǎng)能很快地得到大量的資料,因此如何對所獲得資料進行科學有效地管理是擺在人們面前一個不可回避而又很有意義的問題。對資料進行管理一個很常見的方法就是對它們系統(tǒng)地進行分類。用人工對文本材料進行分類具有周期長、費用高、效率低的特點,在信息爆炸的今天很難滿足實際需要,因此運用計算機進行自動分類成為了人們的研究方向。文本分類技術可以應用于以下領域:1. 新聞出版按照欄目分類2. 類別政治,體育,軍事,3. 網(wǎng)頁分類4. 類似于Yahoo的分類5. 個性化新聞6. 智能推薦7. 垃圾郵件過濾8. 類別spam, not-spam25. 文本分類系統(tǒng)的構建綜合題請參考資料文本自動分類系統(tǒng)的研究與實現(xiàn).pdf第六講 自動文摘26. 自動文摘的分類簡答題自動文摘有多種分類方法注意:每種定義的解釋請參考課件,答題時可適當對每種定義進行解釋1) 按文摘面向的用戶:劃分通用文摘;偏重文摘。通用文摘和偏重文摘的區(qū)別在于是否考慮了用戶的興趣。通用型文摘就是面向所有用戶的、文摘內(nèi)容不帶有任何側重的、全面反映原文內(nèi)容的文摘。對于一篇長的文章,如果用戶只關心某一方面(例如工業(yè)) ,這就涉及到了偏重問題。偏重文摘也稱為用戶聚焦文摘、主題聚焦文摘或查詢聚焦文摘。根據(jù)需要或者用戶的興趣提供相應的有側重點的文摘。偏重文摘的結果不僅僅決定于原文的主題,也決定于用戶的個性化要求,它能夠把焦點放在用戶關心的部分,而不是把原文的每個部分平等對待。2) 按文摘處理的文本對象劃分:a) 單文檔文摘:處理的對象是單篇文摘,它對每篇文章獨立生成文摘。b) 多文檔文摘:實際上是對單文檔文摘的一個擴展,比單文檔相比較需要一些新的技術和方法來處理。3) 按文摘的制作方法劃分:a) 基于統(tǒng)計的自動文摘;b) 基于理解的自動文摘;c) 信息抽取型自動文摘;d) 基于結構的自動文摘27. 基于統(tǒng)計的自動文摘的原理簡答題將文本視為句子的線性序列,將句子視為詞
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 智能氣象系統(tǒng)施工工藝及技術措施
- 高中生學習訓詞精神心得體會
- 2025年幼兒園財務資金往來管理計劃
- 幼兒園師德師風示范崗建設工作計劃
- 六年級語文變形記課文作文范文
- 2025麻醉科醫(yī)師職稱晉升培訓計劃
- 建筑節(jié)能項目外墻真石漆施工措施
- 以形啟思:形象思維在中學生命科學教學中的多維應用與實踐探索
- 小學班隊學風提升計劃
- 湘教版五年級上冊音樂教學設計計劃
- 2025住建發(fā)布《房屋市政工程安全員開展崗前巡查指導手冊》
- 遼寧省2024年7月普通高中學業(yè)水平合格性考試地理試卷(含答案)
- 2025年新疆中考數(shù)學試卷真題
- 2025年福建省中考語文試卷真題(含標準答案)
- 護士禮儀與職業(yè)素養(yǎng)課件
- 2025年蘇教版七年級數(shù)學上冊核心知識點梳理
- DB23-T 3336-2022懸掛式單軌交通技術標準-(高清最新)
- 服刑人員心理健康教育課件
- 湖南省長郡中學“澄池”杯數(shù)學競賽初賽試題(掃描版含答案)
- DB32-T 2665-2014機動車維修費用結算規(guī)范-(高清現(xiàn)行)
- 外協(xié)(外委)單位作業(yè)安全管理制度(附安全告知書)
評論
0/150
提交評論