搜索引擎爬蟲(chóng)外文翻譯文獻(xiàn)_第1頁(yè)
搜索引擎爬蟲(chóng)外文翻譯文獻(xiàn)_第2頁(yè)
搜索引擎爬蟲(chóng)外文翻譯文獻(xiàn)_第3頁(yè)
搜索引擎爬蟲(chóng)外文翻譯文獻(xiàn)_第4頁(yè)
搜索引擎爬蟲(chóng)外文翻譯文獻(xiàn)_第5頁(yè)
已閱讀5頁(yè),還剩9頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

搜索引擎爬蟲(chóng)外文翻譯文獻(xiàn)搜索引擎爬蟲(chóng)外文翻譯文獻(xiàn)(文檔含中英文對(duì)照即英文原文和中文翻譯)譯文:探索搜索引擎爬蟲(chóng)隨著網(wǎng)絡(luò)難以想象的急劇擴(kuò)張,從Web中提取知識(shí)逐漸成為一種受歡迎的途徑。這是由于網(wǎng)絡(luò)的便利和豐富的信息。通常需要使用基于網(wǎng)絡(luò)爬行的搜索引擎來(lái)找到我們需要的網(wǎng)頁(yè)。本文描述了搜索引擎的基本工作任務(wù)。概述了搜索引擎與網(wǎng)絡(luò)爬蟲(chóng)之間的聯(lián)系。關(guān)鍵詞:爬行,集中爬行,網(wǎng)絡(luò)爬蟲(chóng)導(dǎo)言在網(wǎng)絡(luò)上WWW是一種服務(wù),駐留在鏈接到互聯(lián)網(wǎng)的電腦上,并允許最終用戶訪問(wèn)是用標(biāo)準(zhǔn)的接口軟件的計(jì)算機(jī)中的存儲(chǔ)數(shù)據(jù)。萬(wàn)維網(wǎng)是獲取訪問(wèn)網(wǎng)絡(luò)信息的宇宙,是人類知識(shí)的體現(xiàn)。搜索引擎是一個(gè)計(jì)算機(jī)程序,它能夠從網(wǎng)上搜索并掃描特定的關(guān)鍵字,尤其是商業(yè)服務(wù),返回的它們發(fā)現(xiàn)的資料清單,抓取搜索引擎數(shù)據(jù)庫(kù)的信息主要通過(guò)接收想要發(fā)表自己作品的作家的清單或者通過(guò)“網(wǎng)絡(luò)爬蟲(chóng)”、“蜘蛛”或“機(jī)器人”漫游互聯(lián)網(wǎng)捕捉他們?cè)L問(wèn)過(guò)的頁(yè)面的相關(guān)鏈接和信息。網(wǎng)絡(luò)爬蟲(chóng)是一個(gè)能夠自動(dòng)獲取萬(wàn)維網(wǎng)的信息程序。網(wǎng)頁(yè)檢索是一個(gè)重要的研究課題。爬蟲(chóng)是軟件組件,它訪問(wèn)網(wǎng)絡(luò)中的樹(shù)結(jié)構(gòu),按照一定的策略,搜索并收集當(dāng)?shù)貛?kù)中檢索對(duì)象。本文的其余部分組織如下:第二節(jié)中,我們解釋了Web爬蟲(chóng)背景細(xì)節(jié)。在第3節(jié)中,我們討論爬蟲(chóng)的類型,在第4節(jié)中我們將介紹網(wǎng)絡(luò)爬蟲(chóng)的工作原理。在第5節(jié),我們搭建兩個(gè)網(wǎng)絡(luò)爬蟲(chóng)的先進(jìn)技術(shù)。在第6節(jié)我們討論如何挑選更有趣的問(wèn)題。調(diào)查網(wǎng)絡(luò)爬蟲(chóng)網(wǎng)絡(luò)爬蟲(chóng)幾乎同網(wǎng)絡(luò)本身一樣古老。第一個(gè)網(wǎng)絡(luò)爬蟲(chóng),馬修格雷瀏覽者,寫(xiě)于1993年春天,大約正好與首次發(fā)布的OCSAMosaic網(wǎng)絡(luò)同時(shí)發(fā)布。在最初的兩次萬(wàn)維網(wǎng)會(huì)議上發(fā)表了許多關(guān)于網(wǎng)絡(luò)爬蟲(chóng)的文章。然而,在當(dāng)時(shí),網(wǎng)絡(luò)i現(xiàn)在要小到三到四個(gè)數(shù)量級(jí),所以這些系統(tǒng)沒(méi)有處理好當(dāng)今網(wǎng)絡(luò)中一次爬網(wǎng)固有的縮放問(wèn)題。顯然,所有常用的搜索引擎使用的爬網(wǎng)程序必須擴(kuò)展到網(wǎng)絡(luò)的實(shí)質(zhì)性部分。但是,由于搜索引擎是一項(xiàng)競(jìng)爭(zhēng)性質(zhì)的業(yè)務(wù),這些抓取的設(shè)計(jì)并沒(méi)有公開(kāi)描述。有兩個(gè)明顯的例外:股溝履帶式和網(wǎng)絡(luò)檔案履帶式。不幸的是,說(shuō)明這些文獻(xiàn)中的爬蟲(chóng)程序是太簡(jiǎn)潔以至于能夠進(jìn)行重復(fù)。原谷歌爬蟲(chóng)(在斯坦福大學(xué)開(kāi)發(fā)的)組件包括五個(gè)功能不同的運(yùn)行流程。服務(wù)器進(jìn)程讀取一個(gè)URL出來(lái)然后通過(guò)履帶式轉(zhuǎn)發(fā)到多個(gè)進(jìn)程。每個(gè)履帶進(jìn)程運(yùn)行在不同的機(jī)器,是單線程的,使用異步I/O采用并行的模式從最多300個(gè)網(wǎng)站來(lái)抓取數(shù)據(jù)。爬蟲(chóng)傳輸下載的頁(yè)面到一個(gè)能進(jìn)行網(wǎng)頁(yè)壓縮和存儲(chǔ)的存儲(chǔ)服務(wù)器進(jìn)程。然后這些頁(yè)面由一個(gè)索引進(jìn)程進(jìn)行解讀,從HTML頁(yè)面中提取鏈接并將他們保存到不同的磁盤文件中。一個(gè)URL解析器進(jìn)程讀取鏈接文件,并將相對(duì)的網(wǎng)址進(jìn)行存儲(chǔ),并保存了完整的URL到磁盤文件然后就可以進(jìn)行讀取了。通常情況下,因?yàn)槿剿膫€(gè)爬蟲(chóng)程序被使用,所有整個(gè)系統(tǒng)需要四到八個(gè)完整的系統(tǒng)。在谷歌將網(wǎng)絡(luò)爬蟲(chóng)轉(zhuǎn)變?yōu)橐粋€(gè)商業(yè)成果之后,在斯坦福大學(xué)仍然在進(jìn)行這方面的研究。斯坦福WebBase項(xiàng)目組已實(shí)施一個(gè)高性能的分布式爬蟲(chóng),具有每秒可以下載50到100個(gè)文件的能力。Cho等人又發(fā)展了文件更新頻率的模型以報(bào)告爬行下載集合的增量?;ヂ?lián)網(wǎng)檔案館還利用多臺(tái)計(jì)算機(jī)來(lái)檢索網(wǎng)頁(yè)。每個(gè)爬蟲(chóng)程序被分配到64個(gè)站點(diǎn)進(jìn)行檢索,并沒(méi)有網(wǎng)站被分配到一個(gè)以上的爬蟲(chóng)。每個(gè)單線程爬蟲(chóng)程序讀取到其指定網(wǎng)站網(wǎng)址列表的種子從磁盤到每個(gè)站點(diǎn)的隊(duì)列,然后用異步I/O來(lái)從這些隊(duì)列同時(shí)抓取網(wǎng)頁(yè)。一旦一個(gè)頁(yè)面下載完畢,爬蟲(chóng)提取包含在其中的鏈接。如果一個(gè)鏈接提到它被包含在頁(yè)面中的網(wǎng)站,它被添加到適當(dāng)?shù)恼军c(diǎn)排隊(duì);否則被記錄在磁盤。每隔一段時(shí)間,合并成一個(gè)批處理程序的具體地點(diǎn)的種子設(shè)置這些記錄“跨網(wǎng)站”的網(wǎng)址,過(guò)濾掉進(jìn)程中的重復(fù)項(xiàng)。WebFountian爬蟲(chóng)程序分享了魔卡托結(jié)構(gòu)的幾個(gè)特點(diǎn):它是分布式的,連續(xù),有禮貌,可配置的。不幸的是,寫(xiě)這篇文章,WebFountain是在其發(fā)展的早期階段,并尚未公布其性能數(shù)據(jù)。搜索引擎基本類型基于爬蟲(chóng)的搜索引擎基于爬蟲(chóng)的搜索引擎自動(dòng)創(chuàng)建自己的清單。計(jì)算機(jī)程序“蜘蛛”建立他們沒(méi)有通過(guò)人的選擇。他們不是通過(guò)學(xué)術(shù)分類進(jìn)行組織,而是通過(guò)計(jì)算機(jī)算法把所有的網(wǎng)頁(yè)排列出來(lái)。這種類型的搜索引擎往往是巨大的,常常能取得了大齡的信息,它允許復(fù)雜的搜索范圍內(nèi)搜索以前的搜索的結(jié)果,使你能夠改進(jìn)搜索結(jié)果。這種類型的搜素引擎包含了網(wǎng)頁(yè)中所有的鏈接。所以人們可以通過(guò)匹配的單詞找到他們想要的網(wǎng)頁(yè)。B.人力頁(yè)面目錄這是通過(guò)人類選擇建造的,即他們依賴人類創(chuàng)建列表。他們以主題類別和科目類別做網(wǎng)頁(yè)的分類。人力驅(qū)動(dòng)的目錄,永遠(yuǎn)不會(huì)包含他們網(wǎng)頁(yè)所有鏈接的。他們是小于大多數(shù)搜索引擎的。C.混合搜索引擎一種混合搜索引擎以傳統(tǒng)的文字為導(dǎo)向,如谷歌搜索引擎,如雅虎目錄搜索為基礎(chǔ)的搜索引擎,其中每個(gè)方案比較操作的元數(shù)據(jù)集不同,當(dāng)其元數(shù)據(jù)的主要資料來(lái)自一個(gè)網(wǎng)絡(luò)爬蟲(chóng)或分類分析所有互聯(lián)網(wǎng)文字和用戶的搜索查詢。與此相反,混合搜索引擎可能有一個(gè)或多個(gè)元數(shù)據(jù)集,例如,包括來(lái)自客戶端的網(wǎng)絡(luò)元數(shù)據(jù),將所得的情境模型中的客戶端上下文元數(shù)據(jù)倆認(rèn)識(shí)這兩個(gè)機(jī)構(gòu)。爬蟲(chóng)的工作原理網(wǎng)絡(luò)爬蟲(chóng)是搜索引擎必不可少的組成部分:運(yùn)行一個(gè)網(wǎng)絡(luò)爬蟲(chóng)是一個(gè)極具挑戰(zhàn)的任務(wù)。有技術(shù)和可靠性問(wèn)題,更重要的是有社會(huì)問(wèn)題。爬蟲(chóng)是最脆弱的應(yīng)用程序,因?yàn)樗婕暗浇换サ膸装賻浊€(gè)Web服務(wù)器和各種域名服務(wù)器,這些都超出了系統(tǒng)的控制。網(wǎng)頁(yè)檢索速度不僅由一個(gè)人的自己互聯(lián)網(wǎng)連接速度有關(guān),同時(shí)也受到了要抓取的網(wǎng)站的速度。特別是如果一個(gè)是從多個(gè)服務(wù)器抓取的網(wǎng)站,總爬行時(shí)間可以大大減少,如果許多下載是并行完成。雖然有眾多的網(wǎng)絡(luò)爬蟲(chóng)應(yīng)用程序,他們?cè)诤诵膬?nèi)容上基本上是相同的。以下是應(yīng)用程序網(wǎng)絡(luò)爬蟲(chóng)的工作過(guò)程:下載網(wǎng)頁(yè)通過(guò)下載的頁(yè)面解析和檢索所有的聯(lián)系對(duì)于每一個(gè)環(huán)節(jié)檢索,重復(fù)這個(gè)過(guò)程。網(wǎng)絡(luò)爬蟲(chóng)可用于通過(guò)對(duì)完整的網(wǎng)站的局域網(wǎng)進(jìn)行抓取??梢灾付ㄒ粋€(gè)啟動(dòng)程序爬蟲(chóng)跟隨在HTML頁(yè)中找到所有鏈接。這通常導(dǎo)致更多的鏈接,這之后將再次跟隨,等等。一個(gè)網(wǎng)站可以被視為一個(gè)樹(shù)狀結(jié)構(gòu)看,根本是啟動(dòng)程序,在這根的HTML頁(yè)的所有鏈接是根子鏈接。隨后循環(huán)獲得更多的鏈接。一個(gè)網(wǎng)頁(yè)服務(wù)器提供若干網(wǎng)址清單給爬蟲(chóng)。網(wǎng)絡(luò)爬蟲(chóng)開(kāi)始通過(guò)解析一個(gè)指定的網(wǎng)頁(yè),標(biāo)注該網(wǎng)頁(yè)指向其他網(wǎng)站頁(yè)面的超文本鏈接。然后他們分析這些網(wǎng)頁(yè)之間新的聯(lián)系,等等循環(huán)。網(wǎng)絡(luò)爬蟲(chóng)軟件不實(shí)際移動(dòng)到各地不同的互聯(lián)網(wǎng)上的電腦,而是像電腦病毒一樣通過(guò)智能代理進(jìn)行。每個(gè)爬蟲(chóng)每次大概打開(kāi)大約300個(gè)鏈接。這是索引網(wǎng)頁(yè)必須的足夠快的速度。一個(gè)爬蟲(chóng)互留在一個(gè)機(jī)器。爬蟲(chóng)只是簡(jiǎn)單的將HTTP請(qǐng)求的文件發(fā)送到互聯(lián)網(wǎng)的其他機(jī)器,就像一個(gè)網(wǎng)上瀏覽器的鏈接,當(dāng)用戶點(diǎn)擊。所有的爬蟲(chóng)事實(shí)上是自動(dòng)化追尋鏈接的過(guò)程。網(wǎng)頁(yè)檢索可視為一個(gè)隊(duì)列處理的項(xiàng)目。當(dāng)檢索器訪問(wèn)一個(gè)網(wǎng)頁(yè),它提取到其他網(wǎng)頁(yè)的鏈接。因此,爬蟲(chóng)置身于這些網(wǎng)址的一個(gè)隊(duì)列的末尾,并繼續(xù)爬行到下一個(gè)頁(yè)面,然后它從隊(duì)列前面刪除。資源約束爬行消耗資源:下載頁(yè)面的帶寬,支持私人數(shù)據(jù)結(jié)構(gòu)存儲(chǔ)的內(nèi)存,來(lái)評(píng)價(jià)和選擇網(wǎng)址的CPU,以及存儲(chǔ)文本和鏈接以及其他持久性數(shù)據(jù)的磁盤存儲(chǔ)。B.機(jī)器人協(xié)議機(jī)器人文件給出排除一部分的網(wǎng)站被抓取的指令。類似地,一個(gè)簡(jiǎn)單的文本文件可以提供有關(guān)的新鮮和出版對(duì)象的流行信息。對(duì)信息允許抓取工具優(yōu)化其收集的數(shù)據(jù)刷新策略以及更換對(duì)象的政策。C.元搜索引擎一個(gè)元搜索引擎是一種沒(méi)有它自己的網(wǎng)頁(yè)數(shù)據(jù)庫(kù)的搜索引擎。它發(fā)出的搜索支持其他搜索引擎所有的數(shù)據(jù)庫(kù),從所有的搜索引擎查詢并為用戶提供的結(jié)果。較少的元搜索可以讓您深入到最大,最有用的搜索引擎數(shù)據(jù)庫(kù)。他們往往返回最小或免費(fèi)的搜索引擎和其他免費(fèi)目錄并且通常是小和高度商業(yè)化的結(jié)果。爬行技術(shù)A:主題爬行一個(gè)通用的網(wǎng)絡(luò)爬蟲(chóng)根據(jù)一個(gè)URL的特點(diǎn)設(shè)置來(lái)收集網(wǎng)頁(yè)。凡為主題爬蟲(chóng)的設(shè)計(jì)有一個(gè)特定的主題的文件,從而減少了網(wǎng)絡(luò)流量和下載量。主題爬蟲(chóng)的目標(biāo)是有選擇地尋找相關(guān)的網(wǎng)頁(yè)的主題進(jìn)行預(yù)先定義的設(shè)置。指定的主題不使用關(guān)鍵字,但使用示范文件。不是所有的收集和索引訪問(wèn)的Web文件能夠回答所有可能的特殊查詢,有一個(gè)主題爬蟲(chóng)爬行分析其抓起邊界,找到鏈接,很可能是最適合抓取相關(guān),并避免不相關(guān)的區(qū)域的Web。這導(dǎo)致在硬件和網(wǎng)絡(luò)資源極大地節(jié)省,并有助于于保持在最新?tīng)顟B(tài)的數(shù)據(jù)。主題爬蟲(chóng)有三個(gè)主要組成部分一個(gè)分類器,這能夠判斷相關(guān)網(wǎng)頁(yè),決定抓取鏈接的拓展,過(guò)濾器決定過(guò)濾器抓取的網(wǎng)頁(yè),以確定優(yōu)先訪問(wèn)中心次序的措施,以及均受量詞和過(guò)濾器動(dòng)態(tài)重新配置的優(yōu)先的控制的爬蟲(chóng)。最關(guān)鍵的評(píng)價(jià)是衡量主題爬行收獲的比例,這是在抓取過(guò)程中有多少比例相關(guān)網(wǎng)頁(yè)被采用和不相干的網(wǎng)頁(yè)是有效地過(guò)濾掉,這收獲率最高,否則主題爬蟲(chóng)會(huì)花很多時(shí)間在消除不相關(guān)的網(wǎng)頁(yè),而且使用一個(gè)普通的爬蟲(chóng)可能會(huì)更好。B:分布式檢索檢索網(wǎng)絡(luò)是一個(gè)挑戰(zhàn),因?yàn)樗某砷L(zhǎng)性和動(dòng)態(tài)性。隨著網(wǎng)絡(luò)規(guī)模越來(lái)越大,已經(jīng)稱為必須并行處理檢索程序,以完成在合理的時(shí)間內(nèi)下載網(wǎng)頁(yè)。一個(gè)單一的檢索程序,即使在是用多線程在大型引擎需要獲取大量數(shù)據(jù)的快速上也存在不足。當(dāng)一個(gè)爬蟲(chóng)通過(guò)一個(gè)單一的物理鏈接被所有被提取的數(shù)據(jù)所使用,通過(guò)分配多種抓取活動(dòng)的進(jìn)程可以幫助建立一個(gè)可擴(kuò)展的易于配置的系統(tǒng),它具有容錯(cuò)性的系統(tǒng)。拆分負(fù)載降低硬件要求,并在同一時(shí)間增加整體下載速度和可靠性。每個(gè)任務(wù)都是在一個(gè)完全分布式的方式,也就是說(shuō),沒(méi)有中央?yún)f(xié)調(diào)器的存在。挑戰(zhàn)更多“有趣”對(duì)象的問(wèn)題搜索引擎被認(rèn)為是一個(gè)熱門話題,因?yàn)樗占脩舨樵冇涗?。檢索程序優(yōu)先抓取網(wǎng)站根據(jù)一些重要的度量,例如相似性(對(duì)有引導(dǎo)的查詢),返回鏈接數(shù)網(wǎng)頁(yè)排名或者其他組合/變化最精Najork等。表明,首先考慮廣泛優(yōu)先搜索收集高品質(zhì)頁(yè)面,并提出一種網(wǎng)頁(yè)排名。然而,目前,搜索策略是無(wú)法準(zhǔn)確選擇“最佳”路徑,因?yàn)樗麄兊恼J(rèn)識(shí)僅僅是局部的。由于在互聯(lián)網(wǎng)上可得到的信息數(shù)量非常龐大目前不可能實(shí)現(xiàn)全面的索引。因此,必須采用剪裁策略。主題爬行和智能檢索,是發(fā)現(xiàn)相關(guān)的特定主題或主題集網(wǎng)頁(yè)技術(shù)。結(jié)論在本文中,我們得出這樣的結(jié)論實(shí)現(xiàn)完整的網(wǎng)絡(luò)爬行覆蓋是不可能實(shí)現(xiàn),因?yàn)槭芟抻谡麄€(gè)萬(wàn)維網(wǎng)的巨大規(guī)模和資源的可用性。通常是通過(guò)一種閾值的設(shè)置(網(wǎng)站訪問(wèn)人數(shù),網(wǎng)站上樹(shù)的水平,與主題等規(guī)定),以限制對(duì)選定的網(wǎng)站上進(jìn)行抓取的過(guò)程。此信息是在搜索引擎可用于存儲(chǔ)/刷新最相關(guān)和最新更新的網(wǎng)頁(yè),從而提高檢索的內(nèi)容質(zhì)量,同時(shí)減少陳舊的內(nèi)容和缺頁(yè)。原文:DiscussiononWebCrawlersofSearchEngineAbstract-WiththeprecipitousexpansionoftheWeb,extractingknowledgefromtheWebisbecominggraduallyimportantandpopular.ThisisduetotheWeb’sconvenienceandrichnessofinformation.TofindWebpages,onetypicallyusessearchenginesthatarebasedontheWebcrawlingframework.Thispaperdescribesthebasictaskperformedsearchengine.OverviewofhowtheWebcrawlersarerelatedwithsearchengine.KeywordsDistributedCrawling,FocusedCrawling,WebCrawlersⅠ.INTRODUCTIONWWWontheWebisaservicethatresidesoncomputersthatareconnectedtotheInternetandallowsenduserstoaccessdatathatisstoredonthecomputersusingstandardinterfacesoftware.TheWorldWideWebistheuniverseofnetwork-accessibleinformation,anembodimentofhumanknowledge.Searchengineisacomputerprogramthatsearchesforparticularkeywordsandreturnsalistofdocumentsinwhichtheywerefound,especiallyacommercialservicethatscansdocumentsontheInternet.Asearchenginefindsinformationforitsdatabasebyacceptinglistingssentitbyauthorswhowantexposure,orbygettingtheinformationfromtheir“Webcrawlers,””spiders,”or“robots,”programsthatroamtheInternetstoringlinkstoandinformationabouteachpagetheyvisit.WebCrawlerisaprogram,whichfetchesinformationfromtheWorldWideWebinanautomatedmanner.Webcrawlingisanimportantresearchissue.Crawlersaresoftwarecomponents,whichvisitportionsofWebtrees,accordingtocertainstrategies,andcollectretrievedobjectsinlocalrepositories.Therestofthepaperisorganizedas:inSection2weexplainthebackgrounddetailsofWebcrawlers.InSection3wediscussontypesofcrawler,inSection4wewillexplaintheworkingofWebcrawler.InSection5wecoverthetwoadvancedtechniquesofWebcrawlers.IntheSection6wediscusstheproblemofselectingmoreinterestingpages.Ⅱ.SURVEYOFWEBCRAWLERSWebcrawlersarealmostasoldastheWebitself.Thefirstcrawler,MatthewGray’sWanderer,waswritteninthespringof1993,roughlycoincidingwiththefirstreleaseMosaic.SeveralpapersaboutWebcrawlingwerepresentedatthefirsttwoWorldWideWebconference.However,atthetime,theWebwasthreetofourordersofmagnitudesmallerthanitistoday,sothosesystemsdidnotaddressthescalingproblemsinherentinacrawloftoday’sWeb.Obviously,allofthepopularsearchenginesusecrawlersthatmustscaleuptosubstantialportionsoftheWeb.However,duetothecompetitivenatureofthesearchenginebusiness,thedesignsofthesecrawlershavenotbeenpubliclydescribed.Therearetwonotableexceptions:theGoolecrawlerandtheInternetArchivecrawler.Unfortunately,thedescriptionsofthesecrawlersintheliteraturearetootersetoenablereproducibility.TheoriginalGooglecrawler(developedatStanford)consistedoffivefunctionalcomponentsrunningindifferentprocesses.AURLserverprocessreadURLsoutofafileandforwardedthemtomultiplecrawlerprocesses.Eachcrawlerprocessranonadifferentmachine,wassingle-threaded,andusedasynchronousI/Otofetchdatafromupto300Webserversinparallel.ThecrawlerstransmitteddownloadedpagestoasingleStoreServerprocess,whichcompressedthepagesandstoredthemtodisk.Thepagewerethenreadbackfromdiskbyanindexerprocess,whichextractedlinksfromHTMLpagesandsavedthemtoadifferentdiskfile.AURLsresolverprocessreadthelinkfile,relativetheURLscontainedtherein,andsavedtheabsoluteURLstothediskfilethatwasreadbytheURLserver.Typically,threetofourcrawlermachineswereused,sotheentiresystemrequiredbetweenfourandeightmachines.ResearchonWebcrawlingcontinuesatStanfordevenafterGooglehasbeentransformedintoacommercialeffort.TheStanfordWebBaseprojecthasimplementedahighperformancedistributedcrawler,capableofdownloading50to100documentspersecond.Choandothershavealsodevelopedmodelsofdocumentsupdatefrequenciestoinformthedownloadscheduleofincrementalcrawlers.TheInternetArchivealsousedmultiplemachinestocrawltheWeb.Eachcrawlerprocesswasassignedupto64sitestocrawl,andnositewasassignedtomorethanonecrawler.Eachsingle-threadedcrawlerprocessreadalistofseedURLsforitsassignedsitedfromdiskintper-sitequeues,andthenusedasynchronousI/Otofetchpagesfromthesequeuesinparallel.Onceapagewasdownloaded,thecrawlerextractedthelinkscontainedinit.Ifalinkreferredtothesiteofthepageitwascontainedin,itwasaddedtotheappropriatesitequeue;otherwiseitwasloggedtodisk.Periodically,abatchprocessmergedtheselogged“cross-sit”URLsintothesite--specificseedsets,filteringoutduplicatesintheprocess.TheWebFountaincrawlersharesseveralofMercator’scharacteristics:itisdistributed,continuous(theauthorsusetheterm”incremental”),polite,andconfigurable.Unfortunately,asofthiswriting,WebFountainisintheearlystagesofitsdevelopment,anddataaboutitsperformanceisnotyetavailable.Ⅲ.BASICTYPESSOFSEARCHENGINECrawlerBasedSearchEnginesCrawlerbasedsearchenginescreatetheirlistingsautomatically.Computerprograms‘spider’buildthemnotbyhumanselection.Theyarenotorganizedbysubjectcategories;acomputeralgorithmranksallpages.Suchkindsofsearchenginesarehugeandoftenretrievealotofinformation--forcomplexsearchesitallowstosearchwithintheresultsofaprevioussearchandenablesyoutorefinesearchresults.ThesetypesofsearchenginescontainfulltextoftheWebpagestheylinkto.Soonecannfindpagesbymatchingwordsinthepagesonewants;B.HumanPoweredDirectoriesThesearebuiltbyhumanselectioni.e.Theydependonhumanstocreatelistings.Theyareorganizedintosubjectcategoriesandsubjectsdoclassificationofpages.HumanpowereddirectoriesnevercontainfulltextoftheWebpagetheylinkto.Theyaresmallerthanmostsearchengines.C.HybridSearchEngineAhybridsearchenginediffersfromtraditionaltextorientedsearchenginesuchasGoogleoradirectory-basedsearchenginesuchasYahooinwhicheachprogramoperatesbycomparingasetofmetadata,theprimarycorpusbeingthemetadataderivedfromaWebcrawlerortaxonomicanalysisofallinternettext,andausersearchquery.Incontrast,hybridsearchenginemayusethesetwobodiesofmetadatainadditiontooneormoresetsofmetadatathatcan,forexample,includesituationalmetadataderivedfromtheclient’snetworkthatwouldmodelthecontextawarenessoftheclient.Ⅳ.WORKINGOFAWEBCRAWLERWebcrawlersareanessentialcomponenttosearchengines;runningaWebcrawlerisachallengingtask.Therearetrickyperformanceandreliabilityissuesandevenmoreimportantly,therearesocialissues.CrawlingisthemostfragileapplicationsinceitinvolvesinteractingwithhundredsofthousandsofWebserversandvariousnameservers,whichareallbeyondthecontrolofthesystem.Webcrawlingspeedisgovernednotonlybythespeedofone’sownInternetconnection,butalsobythespeedofthesitesthataretobecrawled.Especiallyifoneisacrawlingsitefrommultipleservers,thetotalcrawlingtimecanbesignificantlyreduced,ifmanydownloadsaredoneinparallel.DespitethenumerousapplicationsforWebcrawlers,atthecoretheyareallfundamentallythesame.FollowingistheprocessbywhichWebcrawlerswork:DownloadtheWebpage.Parsethroughthedownloadedpageandretrieveallthelinks.Foreachlinkretrieved,repeattheprocess.TheWebcrawlercanbeusedforcrawlingthroughawholesiteontheInter-/Intranet.Youspecifyastart-URLandtheCrawlerfollowsalllinksfoundinthatHTMLpage.Thisusuallyleadstomorelinks,whichwillbefollowedagain,andsoon.Asitecanbeseenasatree-structure,therootisthestart-URL;alllinksinthatroot-HTMLaredirectsonsoftheroot.Subsequentlinksarethensonsoftheprevioussons.AsingleURLServerserveslistsofURLstoanumberofcrawlers.WebcrawlerstartsbyparsingaspecifiedWebpage,notinganyhypertextlinksonthatpagethatpointtootherWebpages.Theythenparsethosepagesfornewlinks,andsoon,recursively.WebCrawlersoftwaredoesn’tactuallymovearoundtodifferentcomputersontheInternet,asvirusesorintelligentagentsdo.Eachcrawlerkeepsroughly300connectionsopenatonce.ThisisnecessarytoretrieveWebpageatafastenoughpace.Acrawlerresidesonasinglemachine.ThecrawlersimplysendsHTTPrequestsfordocumentstoothermachinesontheInternet,justasaWebbrowserdoeswhentheuserclicksonlinks.Allthecrawlerreallydoesistoautomatetheprocessoffollowinglinks.Webcrawlingcanberegardedasprocessingitemsinaqueue.WhenthecrawlervisitsaWebpage,itextractslinkstootherWebpages.SothecrawlerputstheseURLsattheendofaqueue,andcontinuescrawlingtoaURLthatitremovesfromthefrontofthequeue.ResourceConstraintsCrawlersconsumeresources:networkbandwidthtodownloadpages,memorytomaintainprivatedatastructuresinsupportoftheiralgorithms,CUPtoevaluateandselectURLs,anddiskstoragetostorethetextandlinksoffetchedpagesaswellasotherpersistentdata.B.RobotProtocolTherobot.txtfilegivesdirectivesforexcludingaportionofaWebsitetobecrawled.Analogously,asimpletextfilecanfurnishinformationaboutthefreshnessandpopularityfopublishedobjects.Thisinformationpermitsacrawlertooptimizeitsstrategyforrefreshingcollecteddataaswellasreplacingobjectpolicy.C.MetaSearchEngineAmeta-searchengineisthekindofsearchenginethatdoesnothaveitsowndatabaseofWebpages.Itsendssearchtermstothedatabasesmaintainedbyothersearchenginesandgivesuserstheresultthatcomefromallthesearchenginesqueried.Fewermetasearchersallowyoutodelveintothelargest,mostusefulsearchenginedatabases.Theytendtoreturnresultsfromsmalleradd/orsearchenginesandmiscellaneousfreedirectories,oftensmallandhighlycommercial.Ⅴ.CRAWLINGTECHNIQUESFocusedCrawlingAgeneralpurposeWebcrawlergathersasmanypagesasitcanfromaparticularsetofURL’s.Whereasafocusedcrawlerisdesignedtoonlygatherdocumentsonaspecifictopic,thusreducingtheamountofnetworktrafficanddownloads.Thegoalofthefocusedcrawleristoselectivelyseekoutpagesthatarerelevanttoapredefinedsetoftopics.Thetopicsrespecifiednotusingkeywords,butusingexemplarydocuments.RatherthancollectingandindexingallaccessibleWebdocumentstobeabletoanswerallpossiblead-hocqueries,afocusedcrawleranalyzesitscrawlboundarytofindthelinksthatarelikelytobemostrelevantforthecrawl,andavoidsirrelevantregionsoftheWeb.Thisleadstosignificantsavingsinhardwareandnetworkresources,andhelpskeepthecrawlmoreup-to-date.Thefocusedcrawlerhasthreemaincomponents;:aclassifierwhichmakesrelevancejudgmentsonpages,crawledtodecideonlinkexpansion,adistillerwhichdeterminesameasureofcentralityofcrawledpagestodeterminevisitpriorities,andacrawlerwithdynamicallyreconfigurableprioritycontrolswhichisgovernedbytheclassifieranddistiller.Themostcrucialevaluationoffocusedcrawlingistomeasuretheharvestratio,whichisrateatwhichrelevantpagesareacquiredandirrelevantpagesareeffectivelyfilteredofffromthecrawl.Thisharvestratiomustbehigh,otherwisethefocusedcrawlerwouldspendalotoftimemerelyeliminatingirrelevantpages,anditmaybebettertouseanordinarycrawlerinstead.B.DistributedCrawlingIndexingtheWebisachallengeduetoitsgrowinganddynamicnature.AsthesizeoftheWebsisgrowingithasbecomeimperativetoparallelizethecrawlingprocessinordertofinishdownloadingthepagesinareasonableamountoftime.Asinglecrawlingprocessevenifmultithreadingisusedwillbeinsufficientforlarge-scaleenginesthatneedtofetchl

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論