網(wǎng)絡(luò)爬蟲需求分析_第1頁
網(wǎng)絡(luò)爬蟲需求分析_第2頁
網(wǎng)絡(luò)爬蟲需求分析_第3頁
網(wǎng)絡(luò)爬蟲需求分析_第4頁
網(wǎng)絡(luò)爬蟲需求分析_第5頁
已閱讀5頁,還剩5頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、精選優(yōu)質(zhì)文檔-傾情為你奉上網(wǎng)絡(luò)爬蟲需求分析目錄1.引言1.1編寫目的為開發(fā)人員、維護人員、客戶之間提供共同的協(xié)議而創(chuàng)立基礎(chǔ),對該軟件功能的實現(xiàn)作使命描述。本說明書的預期讀者為客戶、業(yè)務(wù)或需求分析人員、測試人員、用戶文檔編寫者、項目管理人員。1.2背景軟件系統(tǒng)的名稱:網(wǎng)絡(luò)爬蟲1.3定義網(wǎng)絡(luò)爬蟲 搜索引擎 Web URL 信息 互聯(lián)網(wǎng)1.4參考資料網(wǎng)絡(luò)爬蟲軟件的研究與開發(fā) 中圖分類號:TP319 軟件導刊 2011年5月 第10卷 第5期軟件需求 - (美) Karl E.Wiegers 著陸麗娜 王忠民 王志敏 等譯2.任務(wù)概述2.1目標系統(tǒng)流程圖1. 客戶端向服務(wù)器發(fā)送自己設(shè)定好的請求。2.

2、通過http 將Web 服務(wù)器上協(xié)議站點的網(wǎng)頁代碼提取出來。3. 根據(jù)一定的正則表達式提取出客戶端所需要的信息。4. 采用深度優(yōu)先搜索從網(wǎng)頁中某個鏈接出發(fā),訪問該鏈接的網(wǎng)頁,并通過遞歸算法實現(xiàn)依次向下訪問。5. 采用廣度優(yōu)先搜索從網(wǎng)頁中某個鏈接出發(fā),訪問該鏈接網(wǎng)頁上的所有鏈接,訪問完成后,再通過遞歸算法實現(xiàn)下一層的訪問。2.2用戶的特點使用本軟件面向不同領(lǐng)域、不同背景的廣大群眾,可以根據(jù)自己制定的搜索主題來使用本軟件。2.3假定和約束1.有CPU133、16兆內(nèi)存配置的計算機就可運行本系統(tǒng)。2.在管理方針、并行操作、安全與保密方面無約束。2.4假設(shè)與依據(jù)本軟件在開發(fā)的過程中,分為技術(shù)實現(xiàn)與軟件

3、工程兩大部分,兩部分都有側(cè)重點,若技術(shù)支持出現(xiàn)故障或疑難問題無法解決、程序開發(fā)出現(xiàn)偏差,會延誤工程進度,影響工程的按期完工。若軟件工程陳述出現(xiàn)問題,部分描述含混不清,則會影響系統(tǒng)的完整性與可繼承性。在管理方面,如管理者沒有預見性,對出向的問題無法采用可行的解決手段,都會影響開發(fā)模塊之間的互動,從而影響工程的順利開展,導致工程無法按期完工。3.需求規(guī)定 3.1對功能的規(guī)定3.1.1 使用庫規(guī)格說明 引言顯示所調(diào)用的數(shù)據(jù)庫。 輸入指定的庫文件名。 加工調(diào)用指定的數(shù)據(jù)庫。 輸出顯示所指定的數(shù)據(jù)庫的庫結(jié)構(gòu)。3.2對性能的規(guī)定3.2

4、.1精度1.用戶在設(shè)置愛好時進行精度提示,提交給服務(wù)器后進行精短校驗。2.在進行向數(shù)據(jù)庫文件提取數(shù)據(jù)時,要求數(shù)據(jù)記錄定位準確,在往數(shù)據(jù)庫文件數(shù)組中添加數(shù)時,要求輸入數(shù)準確。3.2.2時間特性要求a 響應時間應在人的感覺和視覺事件范圍內(nèi)b 更新處理時間:隨著本系統(tǒng)的版本升級,系統(tǒng)將相應的進行更新c 數(shù)據(jù)的轉(zhuǎn)換和傳送時間:12秒3.2.3靈活性當需求發(fā)生某些變化時,本系統(tǒng)操作方式、數(shù)據(jù)結(jié)構(gòu)、運行環(huán)境基本不會發(fā)生變化,變化只是將對應的數(shù)據(jù)庫文件內(nèi)的記錄改變,或?qū)⑦^濾條件改變即可。3.2.4安全性 本軟件大量的參數(shù)及文本內(nèi)容全部放于漢語編程數(shù)據(jù)庫中,所以參數(shù)不容易被錯改、破壞,萬一參數(shù)受到破壞也不會影

5、響源程序。3.2.5可維護性本軟件利用數(shù)據(jù)庫進行編程,系統(tǒng)結(jié)構(gòu)由程序基本確定,大量的參數(shù)及文本內(nèi)容全部放于漢語編程中。修改、更新數(shù)據(jù)只要在數(shù)據(jù)庫進行修改添加,而不需要對系統(tǒng)結(jié)構(gòu)進行修改,這樣系統(tǒng)維護性、升級都十分方便。3.3輸入輸出要求用戶應該輸入一個合法的初始URL作為初始入口。3.4數(shù)據(jù)管理能力要求本系統(tǒng)采用sql server數(shù)據(jù)庫對資源進行存儲,其自帶的空間自增長有效的解決了數(shù)據(jù)管理的問題。3.5故障處理要求當客戶端多數(shù)用戶同時使用,可能造成服務(wù)器負載過重,于是啟用了多線程方法,同時限定最大線程數(shù),防止服務(wù)器崩潰。4.運行環(huán)境規(guī)定4.1設(shè)備本軟件不需要特定的硬件或硬件接口進行支撐。48

6、6以上具備有java的運行環(huán)境jdk的 PC機均可運行此軟件。運行時需要聯(lián)機。 4.2支持軟件本系統(tǒng)采用java語言制作,支持win7/XP/Linux等操作系統(tǒng),由java虛擬機編譯,測試軟件為My Eclipse; 4.3接口客戶端瀏覽器是搜索引擎和用戶之間的接口。其首先獲取用戶搜索條件并加以分析,然后訪問索引數(shù)據(jù)庫進行匹配后獲得檢索結(jié)果,然后根據(jù)設(shè)定的相關(guān)度進行降冪排序處理后返回給用戶。輸出、輸入的相對時間將由pc機本身處理速度來決定。對程序的維護,需進行必要的備份。4.4控制本軟件通過客戶端瀏覽器,用戶設(shè)置自己的愛好,并通過http傳給服務(wù)器,服務(wù)器接受信號執(zhí)行響應操作。5.數(shù)據(jù)流圖第

7、一層第二層第三層6.IPO圖7.數(shù)據(jù)字典1.搜索方法=搜索策略+抓取類型。搜索策略 = “廣度優(yōu)先”|“深度優(yōu)先”|“最好優(yōu)先”抓取類型 = 音頻|視頻|圖片2.網(wǎng)頁信息 = 主題 + 內(nèi)容 + 鏈接地址3.搜索配置 = 搜索方法 + URL4.下載網(wǎng)頁 = 站內(nèi)爬取 + 外鏈爬取5.驗證URL有效性 = 存在性 + 價值性8.小說明加工編號:1.1加工名:設(shè)置搜索方法輸入流:自定義搜索方法表輸出流:完整的搜索方法表加工邏輯:將自定義搜索方法表及系統(tǒng)默認選項參數(shù)加工成完整的搜索方法表有關(guān)信息:當有選擇輸入時執(zhí)行此加工,否則按默認執(zhí)行加工編號:1.2加工名:對URL檢查輸入流:搜索方法中的初始URL輸出流:正確的搜索配置加工邏輯:通過檢查URL的存在性和價值性來判斷該URL是否可行加工編號:2.1加工名:下載網(wǎng)頁輸入流:URL輸出流:網(wǎng)頁加工邏輯:

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論