




全文預(yù)覽已結(jié)束
下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
基于Lucene的站內(nèi)搜索引擎技術(shù)的研究與應(yīng)用【摘要】 隨著互聯(lián)網(wǎng)技術(shù)的快速發(fā)展,網(wǎng)絡(luò)上的信息資源正以驚人的速度增長。出于信息化建設(shè)的需要,大量企事業(yè)單位都建立了自己的網(wǎng)站,以便向人們提供信息服務(wù),以提高企業(yè)的知名度和服務(wù)質(zhì)量。隨著時間的推移,許多網(wǎng)站中存儲了大量的信息,但是,相當(dāng)多的網(wǎng)站沒有自己的站內(nèi)搜索引擎系統(tǒng),這就有可能造成用戶無法快速找到自己感興趣的信息。盡管一些大型的web搜索引擎也向用戶提供站內(nèi)檢索的功能。例如Google、百度、雅虎都向Web站點提供了支持站內(nèi)搜索的機制。但是由于Web搜索引擎收錄的Web頁面只占因特網(wǎng)中可收錄頁面的三分之一左右,同時Web搜索引擎通常是經(jīng)過一個固定的周期才刷新其收錄的頁面,這必然導(dǎo)致采用Web搜索引擎作為其站內(nèi)搜索引擎的站點,其搜索結(jié)果質(zhì)量差、不精確、更新慢、不能及時顯示站內(nèi)信息。因此,對于這些沒有提供站內(nèi)信息檢索系統(tǒng)的網(wǎng)站,建立自己的站內(nèi)信息檢索系統(tǒng)成為了當(dāng)務(wù)之急。在對搜索引擎系統(tǒng)、全文檢索技術(shù)和Lucene開源工具包進(jìn)行了深入研究的基礎(chǔ)上,本文設(shè)計并實現(xiàn)了一個基于Lucene的站內(nèi)搜索引擎系統(tǒng)。文中詳細(xì)介紹了站內(nèi)搜索引擎系統(tǒng)的需求分析、系統(tǒng)的整體組織架構(gòu)、系統(tǒng)實現(xiàn)的開發(fā)工具以及系統(tǒng)各個功能.更多還原【Abstract】 With the rapid development of Internet technology, information resource on the internet is increasing at an astonishing rate. For the need of information construction, a lot of enterprises and institutions have set up their own websites, in order to provide information services to the users and improve their popularity and service quality. As time goes on, many websites stored a large amount of pages. However, few websites have their own intranet search engine system. In this condition, the user.更多還原 【關(guān)鍵詞】 搜索引擎; 全文檢索; Lucene; 構(gòu)建索引; 【Key words】 search engine; full-text retrieval; Lucene; indexing; 【索購全文】Q聯(lián)系Q:138113721 Q聯(lián)系Q: 139938848付費即發(fā)目錄摘要 3-5 ABSTRACT 5-6 第一章 緒論 9-12 1.1 課題背景和意義 9-10 1.2 課題研究內(nèi)容和章節(jié)安排 10-12 第二章 搜索引擎概述 12-20 2.1 信息檢索與搜索引擎 12 2.2 搜索引擎的歷史 12-13 2.3 搜索引擎的分類 13-15 2.4 搜索引擎的組成部分 15-17 2.5 搜索引擎的評價標(biāo)準(zhǔn) 17-18 2.6 搜索引擎的發(fā)展方向 18-19 2.7 本章小結(jié) 19-20 第三章 全文檢索技術(shù)分析 20-31 3.1 全文檢索技術(shù)概述 20 3.2 全文檢索系統(tǒng)的工作原理 20-22 3.3 全文檢索關(guān)鍵技術(shù)分析 22-30 3.3.1 中文分詞技術(shù) 22-26 3.3.2 索引結(jié)構(gòu) 26-28 3.3.3 排序算法 28-30 3.4 本章小結(jié) 30-31 第四章 Lucene分析 31-38 4.1 Lucene簡介 31-32 4.2 Lucene的組織結(jié)構(gòu) 32-35 4.3 Lucene索引文件結(jié)構(gòu) 35-36 4.4 Lucene的評分機制 36-37 4.5 本章小結(jié) 37-38 第五章 站內(nèi)搜索引擎系統(tǒng)的設(shè)計與實現(xiàn) 38-59 5.1 系統(tǒng)需求與開發(fā)環(huán)境 38-39 5.2 系統(tǒng)的整體組織結(jié)構(gòu) 39-40 5.3 信息采集模塊的設(shè)計與實現(xiàn) 40-47 5.3.1 網(wǎng)絡(luò)爬蟲系統(tǒng)概述 40-41 5.3.2 網(wǎng)絡(luò)爬蟲的架構(gòu) 41-44 5.3.3 網(wǎng)絡(luò)爬蟲程序的實現(xiàn) 44-47 5.4 索引模塊的設(shè)計與實現(xiàn) 47-53 5.4.1 多類型文檔索引架構(gòu) 47-49 5.4.2 多類型文檔索引流程 49-51 5.4.3 文檔索引操作的實現(xiàn) 51-52 5.4.4 文檔解析操作的實現(xiàn) 52-53 5.5 搜索模塊的設(shè)計與實現(xiàn) 53-57 5.5.1 搜索模塊的分析與設(shè)計 53-54 5.5.2 搜索模塊的實現(xiàn) 54-56 5.5.3 高亮顯示關(guān)鍵字 56-57 5.6 信息展現(xiàn)界面的設(shè)計與實現(xiàn) 57-58 5.7 本章小結(jié) 58-59 第六章 系統(tǒng)部署與實驗 59-64 6.1 系統(tǒng)部署 59-60 6.2 實驗測試 60-
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 公司每日便當(dāng)管理制度
- 公司資金運轉(zhuǎn)管理制度
- 華為視頻平臺擴容方案
- 2025年八省聯(lián)考新高考數(shù)學(xué)模擬練習(xí)卷(二)
- 基于AI的體育場館機器人優(yōu)化系統(tǒng)-洞察闡釋
- 2024年浦江縣事業(yè)單位招聘真題
- 中文個人陳述提綱模板
- 歷史建筑群防災(zāi)減災(zāi)規(guī)劃基礎(chǔ)知識點歸納
- 杭州市余杭區(qū)招聘中小學(xué)事業(yè)編制教師筆試真題2024
- 歷史建筑保護與修復(fù)基礎(chǔ)知識點歸納
- 貴州國企招聘2025貴州省糧食儲備集團有限公司招聘76人筆試參考題庫附帶答案詳解析集合
- 大學(xué)計算機知到智慧樹章節(jié)測試課后答案2024年秋廣西師范大學(xué)
- 體育導(dǎo)論(大學(xué)體育1)(山東聯(lián)盟)智慧樹知到期末考試答案章節(jié)答案2024年青島科技大學(xué)
- MOOC 計量經(jīng)濟學(xué)基礎(chǔ)與EViews軟件操作-江西財經(jīng)大學(xué) 中國大學(xué)慕課答案
- 埃斯頓自動化介紹
- 2022秋期版2208國開電大專科《政治學(xué)原理》網(wǎng)上形考(任務(wù)1至4)試題及答案
- 初中英語一詞多義重點詞匯匯總大全
- 運營管理案例分析-巴里勒
- 我的家鄉(xiāng)福州PPT課件
- XX風(fēng)電場工程風(fēng)機240小時試運行預(yù)驗收實施方案---風(fēng)電場工程必備
- 密封油系統(tǒng)存在的問題及對策
評論
0/150
提交評論