網(wǎng)絡(luò)爬蟲.網(wǎng)絡(luò)爬蟲_第1頁
網(wǎng)絡(luò)爬蟲.網(wǎng)絡(luò)爬蟲_第2頁
網(wǎng)絡(luò)爬蟲.網(wǎng)絡(luò)爬蟲_第3頁
網(wǎng)絡(luò)爬蟲.網(wǎng)絡(luò)爬蟲_第4頁
網(wǎng)絡(luò)爬蟲.網(wǎng)絡(luò)爬蟲_第5頁
已閱讀5頁,還剩19頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

主講教師:毛凌志浙江經(jīng)貿(mào)職業(yè)技術(shù)學(xué)院數(shù)據(jù)采集與處理網(wǎng)絡(luò)爬蟲產(chǎn)生背景什么是爬蟲為什么學(xué)習(xí)爬蟲123爬蟲分類45常見的爬蟲軟件6爬蟲面臨的問題1產(chǎn)生背景

(1)不同領(lǐng)域、不同背景的用戶往往具有不同的檢索目的和需求,通過搜索引擎所返回的結(jié)果包含大量用戶不關(guān)心的網(wǎng)頁。(2)通用搜索引擎的目標(biāo)是盡可能大的網(wǎng)絡(luò)覆蓋率,有限的搜索引擎服務(wù)器資源與無限的網(wǎng)絡(luò)數(shù)據(jù)資源之間的矛盾將進(jìn)一步加深1產(chǎn)生背景

(3)萬維網(wǎng)數(shù)據(jù)形式的豐富和網(wǎng)絡(luò)技術(shù)的不斷發(fā)展,圖片、數(shù)據(jù)庫、音頻、視頻多媒體等不同數(shù)據(jù)大量出現(xiàn),通用搜索引擎往往對這些信息含量密集且具有一定結(jié)構(gòu)的數(shù)據(jù)無能為力,不能很好地發(fā)現(xiàn)和獲?。?)通用搜索引擎大多提供基于關(guān)鍵字的檢索,難以支持根據(jù)語義信息提出的查詢。1產(chǎn)生背景

為了解決上述問題,定向抓取相關(guān)網(wǎng)頁資源的聚焦爬蟲應(yīng)運(yùn)而生。聚焦爬蟲是一個自動下載網(wǎng)頁的程序,它根據(jù)既定的抓取目標(biāo),有選擇的訪問萬維網(wǎng)上的網(wǎng)頁與相關(guān)的鏈接,獲取所需要的信息。與通用爬蟲(generalpurposewebcrawler)不同,聚焦爬蟲并不追求大的覆蓋,而將目標(biāo)定為抓取與某一特定主題內(nèi)容相關(guān)的網(wǎng)頁,為面向主題的用戶查詢準(zhǔn)備數(shù)據(jù)資源。2什么是爬蟲

網(wǎng)絡(luò)爬蟲又稱網(wǎng)絡(luò)蜘蛛、網(wǎng)絡(luò)螞蟻、網(wǎng)絡(luò)機(jī)器人等,可以自動化瀏覽網(wǎng)絡(luò)中的信息,當(dāng)然瀏覽信息的時候需要按照我們制定的規(guī)則進(jìn)行,這些規(guī)則我們稱之為網(wǎng)絡(luò)爬蟲算法。搜索引擎離不開爬蟲,比如百度搜索引擎的爬蟲叫作百度蜘蛛(Baiduspider)。百度蜘蛛每天會在海量的互聯(lián)網(wǎng)信息中進(jìn)行爬取,爬取優(yōu)質(zhì)信息并收錄,當(dāng)用戶在百度搜索引擎上檢索對應(yīng)關(guān)鍵詞時,百度將對關(guān)鍵詞進(jìn)行分析處理,從收錄的網(wǎng)頁中找出相關(guān)網(wǎng)頁,按照定的排名規(guī)則進(jìn)行排序并將結(jié)果展現(xiàn)給用戶。在這個過程中,百度蜘蛛起到了至關(guān)重要的作用。3為什么學(xué)習(xí)爬蟲

爬蟲的優(yōu)勢:

1)學(xué)習(xí)爬蟲,可以私人訂制一個搜索引擎,并且可以對搜索引擎的數(shù)據(jù)采集工作原理進(jìn)行更深層次地理解。

2)大數(shù)據(jù)時代,要進(jìn)行數(shù)據(jù)分析首先要有數(shù)據(jù)源,而學(xué)習(xí)爬蟲,可以讓我們獲取更多的數(shù)據(jù)源,并且這些數(shù)據(jù)源可以按我們的目的進(jìn)行采集,去掉很多無關(guān)數(shù)據(jù)。

3)對于很多SEO從業(yè)者來說,學(xué)習(xí)爬蟲,可以更深層次地理解搜索引擎爬蟲的工作原理,從而可以更好地進(jìn)行搜索引擎優(yōu)化既然是搜索引擎優(yōu)化,那么就必須要對搜索引擎的工作原理非常清楚,同時也需要掌握搜索引擎爬蟲的工作原理。

4)從就業(yè)的角度來說,爬蟲工程師目前來說屬于緊缺人才,并且薪資待遇普遍較高所以,深層次地掌握這門技術(shù),對于就業(yè)來說,是非常有利的。3.1

網(wǎng)絡(luò)爬蟲的基本原理獲取初始URL抓取頁面獲取新的URL抽取新的URL放入隊列中讀取新的URL下載網(wǎng)頁是否滿足停止條件N停止Y通用的網(wǎng)絡(luò)爬蟲基本工作流程圖:3.2

網(wǎng)絡(luò)爬蟲的基本工作流程(1)獲取初始的URL,該URL地址是用戶自己制訂的初始爬去網(wǎng)頁。(2)爬取對應(yīng)URL地址的網(wǎng)頁時,獲取新的URL地址。(3)將新的URL地址放入URL隊列中。(4)從URL隊列中讀取新的URL,然后依據(jù)新的URL爬取網(wǎng)頁,同時從新的網(wǎng)頁中獲取新的URL地址,重復(fù)上述的抓取過程。(5)設(shè)置停止條件,如果沒有設(shè)置停止條件時,爬蟲會一直爬取下去,知道無法獲取新的URL地址為止。設(shè)置了停止條件后,爬蟲將會在滿足停止條件時停止爬取。4爬蟲分類

1.通用網(wǎng)絡(luò)爬蟲

2.聚焦網(wǎng)絡(luò)爬蟲

3.增量式網(wǎng)絡(luò)爬蟲

4.DeepWeb爬蟲4.1通用網(wǎng)絡(luò)爬蟲

通用網(wǎng)絡(luò)爬蟲又稱全網(wǎng)爬蟲(ScalableWebCrawler),通用網(wǎng)絡(luò)爬蟲的結(jié)構(gòu)大致可以分為頁面爬行模塊、頁面分析模塊、鏈接過濾模塊、頁面數(shù)據(jù)庫、URL隊列、初始URL集合幾個部分。為提高工作效率,通用網(wǎng)絡(luò)爬蟲會采取一定的爬行策略。常用的爬行策略有:深度優(yōu)先策略、廣度優(yōu)先策略。4.1通用網(wǎng)絡(luò)爬蟲策略

4.1.1)深度優(yōu)先策略:其基本方法是按照深度由低到高的順序,依次訪問下一級網(wǎng)頁鏈接,直到不能再深入為止。爬蟲在完成一個爬行分支后返回到上一鏈接節(jié)點(diǎn)進(jìn)一步搜索其它鏈接。當(dāng)所有鏈接遍歷完后,爬行任務(wù)結(jié)束。這種策略比較適合垂直搜索或站內(nèi)搜索,但爬行頁面內(nèi)容層次較深的站點(diǎn)時會造成資源的巨大浪費(fèi)。4.1.2)廣度優(yōu)先策略:此策略按照網(wǎng)頁內(nèi)容目錄層次深淺來爬行頁面,處于較淺目錄層次的頁面首先被爬行。當(dāng)同一層次中的頁面爬行完畢后,爬蟲再深入下一層繼續(xù)爬行。這種策略能夠有效控制頁面的爬行深度,避免遇到一個無窮深層分支時無法結(jié)束爬行的問題,實(shí)現(xiàn)方便,無需存儲大量中間節(jié)點(diǎn),不足之處在于需較長時間才能爬行到目錄層次較深的頁面。4.2聚焦網(wǎng)絡(luò)爬蟲

聚焦網(wǎng)絡(luò)爬蟲(FocusedCrawler),又稱主題網(wǎng)絡(luò)爬蟲(TopicalCrawler),是指選擇性地爬行那些與預(yù)先定義好的主題相關(guān)頁面的網(wǎng)絡(luò)爬蟲。和通用網(wǎng)絡(luò)爬蟲相比,聚焦爬蟲只需要爬行與主題相關(guān)的頁面,極大地節(jié)省了硬件和網(wǎng)絡(luò)資源,保存的頁面也由于數(shù)量少而更新快,還可以很好地滿足一些特定人群對特定領(lǐng)域信息的需求。聚焦網(wǎng)絡(luò)爬蟲和通用網(wǎng)絡(luò)爬蟲相比,增加了鏈接評價模塊以及內(nèi)容評價模塊。聚焦爬蟲爬行策略實(shí)現(xiàn)的關(guān)鍵是評價頁面內(nèi)容和鏈接的重要性,不同的方法計算出的重要性不同,由此導(dǎo)致鏈接的訪問順序也不同。4.3增量式網(wǎng)絡(luò)爬蟲增量式網(wǎng)絡(luò)爬蟲(IncrementalWebCrawler)是指對已下載網(wǎng)頁采取增量式更新和只爬行新產(chǎn)生的或者已經(jīng)發(fā)生變化網(wǎng)頁的爬蟲,它能夠在一定程度上保證所爬行的頁面是盡可能新的頁面。和周期性爬行和刷新頁面的網(wǎng)絡(luò)爬蟲相比,增量式爬蟲只會在需要的時候爬行新產(chǎn)生或發(fā)生更新的頁面,并不重新下載沒有發(fā)生變化的頁面,可有效減少數(shù)據(jù)下載量,及時更新已爬行的網(wǎng)頁,減小時間和空間上的耗費(fèi),但是增加了爬行算法的復(fù)雜度和實(shí)現(xiàn)難度。增量式網(wǎng)絡(luò)爬蟲的體系結(jié)構(gòu)[包含爬行模塊、排序模塊、更新模塊、本地頁面集、待爬行URL集以及本地頁面URL集。

4.3增量式網(wǎng)絡(luò)爬蟲

增量式爬蟲有兩個目標(biāo):保持本地頁面集中存儲的頁面為最新頁面和提高本地頁面集中頁面的質(zhì)量。為實(shí)現(xiàn)第一個目標(biāo),增量式爬蟲需要通過重新訪問網(wǎng)頁來更新本地頁面集中頁面內(nèi)容,常用的方法有:1)統(tǒng)一更新法:爬蟲以相同的頻率訪問所有網(wǎng)頁,不考慮網(wǎng)頁的改變頻率;2)個體更新法:爬蟲根據(jù)個體網(wǎng)頁的改變頻率來重新訪問各頁面;3)基于分類的更新法:爬蟲根據(jù)網(wǎng)頁改變頻率將其分為更新較快網(wǎng)頁子集和更新較慢網(wǎng)頁子集兩類,然后以不同的頻率訪問這兩類網(wǎng)頁。為實(shí)現(xiàn)第二個目標(biāo),增量式爬蟲需要對網(wǎng)頁的重要性排序,常用的策略有:廣度優(yōu)先策略、PageRank優(yōu)先策略等。IBM開發(fā)的WebFountain是一個功能強(qiáng)大的增量式網(wǎng)絡(luò)爬蟲,它采用一個優(yōu)化模型控制爬行過程,并沒有對頁面變化過程做任何統(tǒng)計假設(shè),而是采用一種自適應(yīng)的方法根據(jù)先前爬行周期里爬行結(jié)果和網(wǎng)頁實(shí)際變化速度對頁面更新頻率進(jìn)行調(diào)整。4.4DeepWeb爬蟲Web頁面按存在方式可以分為表層網(wǎng)頁(SurfaceWeb)和深層網(wǎng)頁(DeepWeb,也稱InvisibleWebPages或HiddenWeb)。表層網(wǎng)頁是指傳統(tǒng)搜索引擎可以索引的頁面,以超鏈接可以到達(dá)的靜態(tài)網(wǎng)頁為主構(gòu)成的Web頁面。DeepWeb是那些大部分內(nèi)容不能通過靜態(tài)鏈接獲取的、隱藏在搜索表單后的,只有用戶提交一些關(guān)鍵詞才能獲得的Web頁面。例如那些用戶注冊后內(nèi)容才可見的網(wǎng)頁就屬于DeepWeb。DeepWeb爬蟲體系結(jié)構(gòu)包含六個基本功能模塊(爬行控制器、解析器、表單分析器、表單處理器、響應(yīng)分析器、LVS控制器)和兩個爬蟲內(nèi)部數(shù)據(jù)結(jié)構(gòu)(URL列表、LVS表)。其中LVS(LabelValueSet)表示標(biāo)簽/數(shù)值集合,用來表示填充表單的數(shù)據(jù)源。4.4DeepWeb爬蟲DeepWeb爬蟲爬行過程中最重要部分就是表單填寫,包含兩種類:1)基于領(lǐng)域知識的表單填寫:此方法一般會維持一個本體庫,通過語義分析來選取合適的關(guān)鍵詞填寫表單。利用一個預(yù)定義的領(lǐng)域本體知識庫來識別DeepWeb頁面內(nèi)容,同時利用一些來自Web站點(diǎn)導(dǎo)航模式來識別自動填寫表單時所需進(jìn)行的路徑導(dǎo)航。2)基于網(wǎng)頁結(jié)構(gòu)分析的表單填寫:此方法一般無領(lǐng)域知識或僅有有限的領(lǐng)域知識,將網(wǎng)頁表單表示成DOM樹,從中提取表單各字段值。LEHW方法,該方法將HTML網(wǎng)頁表示為DOM樹形式,將表單區(qū)分為單屬性表單和多屬性表單,分別進(jìn)行處理;基于XQuery的搜索系統(tǒng),它能夠模擬表單和特殊頁面標(biāo)記切換,把網(wǎng)頁關(guān)鍵字切換信息描述為三元組單元,按照一定規(guī)則排除無效表單,將Web文檔構(gòu)造成DOM樹,利用XQuery將文字屬性映射到表單字段5常見的爬蟲軟件1.神箭手云爬蟲2.火車頭采集器3.八爪魚采集器4.后羿采集器網(wǎng)絡(luò)爬蟲按照實(shí)現(xiàn)的技術(shù)和結(jié)構(gòu)可以分為以下幾種類型:通用網(wǎng)絡(luò)爬蟲、聚焦網(wǎng)絡(luò)爬蟲、增量式網(wǎng)絡(luò)爬蟲、深層網(wǎng)絡(luò)爬蟲等。在實(shí)際的網(wǎng)絡(luò)爬蟲中,通常是這幾類爬蟲的組合體。5.1神箭手云爬蟲

簡介:神箭手云是一個大數(shù)據(jù)應(yīng)用開發(fā)平臺,為開發(fā)者提供成套的數(shù)據(jù)采集、數(shù)據(jù)分析和機(jī)器學(xué)習(xí)開發(fā)工具,為企業(yè)提供專業(yè)化的數(shù)據(jù)抓取、數(shù)據(jù)實(shí)時監(jiān)控和數(shù)據(jù)分析服務(wù)。優(yōu)點(diǎn):功能強(qiáng)大,涉及云爬蟲、API、機(jī)器學(xué)習(xí)、數(shù)據(jù)清洗、數(shù)據(jù)出售、數(shù)據(jù)訂制和私有化部署等;缺點(diǎn):它的優(yōu)點(diǎn)同時也在一定程度上成了它的缺點(diǎn)。官網(wǎng):https://www.shenjian.io/

5.2火車頭采集器

簡介:火車采集器是一款網(wǎng)頁數(shù)據(jù)抓取、處理、分析,挖掘軟件??梢造`活迅速地抓取網(wǎng)頁上散亂分布的信息,并通過強(qiáng)大的處理功能準(zhǔn)確挖掘出所需數(shù)據(jù)。優(yōu)點(diǎn):國內(nèi)老牌的采集器,經(jīng)過多年的積累,具有豐富的采集功能;缺點(diǎn):越是年頭長的產(chǎn)品越容易陷入自己的固有經(jīng)驗(yàn)中,火車頭也難以擺脫這問題。官網(wǎng):/5.3八爪魚采集器

簡介:八爪魚采集器是一款可視化采集器,內(nèi)置采集模板,支持各種網(wǎng)頁數(shù)據(jù)采集。優(yōu)點(diǎn):支持自定義模式,可視化采集操作,容易上手;缺點(diǎn):功能使用門檻較高,本地采集時很多功能受限,而云采集收費(fèi)較高。官網(wǎng):/5.4后羿采集器

簡介:后羿采集器是由前谷歌搜索技術(shù)團(tuán)隊基于人工智能技術(shù)研發(fā)的新一代網(wǎng)頁采集軟件,該軟件功能強(qiáng)大,操作極其簡單。優(yōu)點(diǎn):支持智能采集模式,輸入網(wǎng)址就能智能識別采集對象,無需配置采集規(guī)則,操作非常簡單;缺點(diǎn):功能使用門檻較高,本地采集時很多功能受限,而云采集收費(fèi)較高。官網(wǎng):/6爬蟲面臨的問題

截止到2007年底,Internet上網(wǎng)頁數(shù)量超出160億個,研究表明接近30%的頁面是重復(fù)的;動態(tài)頁面的存在:客戶端、服務(wù)器端腳本語言的應(yīng)用使得指向相同Web信息的URL數(shù)量呈指數(shù)級增長。上述特征使得網(wǎng)絡(luò)爬蟲面臨一定的困難,主要體現(xiàn)在Web信息的巨大容量使得爬蟲在給定時間內(nèi)只能下載少量網(wǎng)頁。Lawrence和Giles的研究表明沒有哪個搜索引擎能夠索引超

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論