淺析各類搜索引擎之間的聯(lián)系和區(qū)別.doc_第1頁
淺析各類搜索引擎之間的聯(lián)系和區(qū)別.doc_第2頁
淺析各類搜索引擎之間的聯(lián)系和區(qū)別.doc_第3頁
淺析各類搜索引擎之間的聯(lián)系和區(qū)別.doc_第4頁
淺析各類搜索引擎之間的聯(lián)系和區(qū)別.doc_第5頁
全文預覽已結束

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

淺析各類搜索引擎之間的聯(lián)系與區(qū)別摘要 internet上蘊藏著非常豐富的信息資源,但是要從浩如煙海的信息中準確、及時、方便、迅速的找到自己所需要的信息,卻并不是一件容易的事情.為此應對重點網絡搜索引擎的檢索技術與功能作一全面的介紹.使學生在網絡信息檢索中選擇了好的搜索引擎,才能快速、準確地找到所需要信息.本文主要對百度與google兩個典型搜索引擎之間的檢索技術、各自特點進行全面的比較與分析,從而得出各類搜索引擎之間的聯(lián)系與區(qū)別。關鍵字 google 百度 搜索引擎 比較分析 Google是世界上最大的搜索引擎,通過對200多億網頁信息的整理,每天為世界各地提供1.5億次以上的網上信息查詢服務。百度是全球最大的中文搜索引擎, 擁有超過10多億的中文網頁數(shù)據(jù)庫, 每天響應超過億次的網絡信息搜索請求。在這兩大搜索引擎之間, 搜索的結果平均有85%的不同,因此,有網站把兩者結合建立了百Google度。然而,這兩大搜索引擎之間究竟有什么特點與區(qū)別,本文將根據(jù)數(shù)據(jù)加以分析、比較研究。Google與百度的特點 Google的特點 google秉持著開發(fā)“ 確解用戶之意, 切返用戶之需” 的“ 完美的搜索引擎” , 使得搜索方式發(fā)生了根本性變化, 在業(yè)界獨樹一幟, 其強大的功能與獨到的特點就在于:(1) “ 網頁快照” 功能。能從google服務器里直接取出緩存的網頁。如果原地址打開很慢, 那么可以直接查看google緩存頁面, 因為google服務器速度極快;如果原鏈接已經死掉或者因為網絡的原因暫時鏈接不通, 那么可以通過google快照看到該頁面信息;如果打開的頁面信息量巨大, 一下子找不到關鍵詞所在位置, 那么可以通過google快照, 因為快照中google用黃色表明關鍵字位置。(2) “ 單詞英文解釋” 功能。寫英文文章的時候, 最頭疼的事情就是對某個英文單詞的用法不確定?,F(xiàn)在有了google, 一切就迎刃而解了!無論你是想查找某個生詞的意思還是想了解某個單詞的用法, 均可使用在線詞典。(3) “ 網頁翻譯” 功能。google提供了網頁翻譯功能, 雖然目前只支持有限的拉丁語、法語、西班牙語、德語與葡萄牙文, 但是不得不承認, 這是個杰出功能, 只要你點擊“Translate this page ” 按鈕, google為你提供了人工智能的機器翻譯, 翻譯出來的結果讓你大致能夠看得明白。(4) “ 搜索結果過濾” 功能。網絡上的成人信息浩如煙海, 而且很多站點具有欺騙或者其他不良企圖, 瀏覽者很容易掉入其中的陷阱。為此google新設立了成人內容過濾功能, 見google的設置頁面,不過, 中文狀態(tài)下的尚沒有這個功能。(5) “ 超文本匹配分析” 功能。google的搜索引擎, 同時也分析網頁內容, 它并不采用單純掃描基于網頁的文本的方式, 而是分析網頁的全部內容以及字體、分區(qū)及每個文字精確位置等因素, 同時還會分析相鄰網頁的內容, 以確保返回與用戶查詢最相關的結果。(6) “ PageRank,” 技術。通過對由超過5000萬個變量與20億個詞匯組成的方程進行計算,PageRank能夠對網頁的重要性做出客觀的評價, 它并不計算直接鏈接的數(shù)量, 而是將從網頁A指向網頁B的鏈接解釋為由網頁A對網頁B所投的一票, 這樣會根據(jù)網頁B所收到的投票數(shù)量評估該頁的重要性, 提供準確率極高的搜索結果。(7)“ 圖片搜索” 功能。google可以檢索390000000張圖片, 并稱為“ 互聯(lián)網上最好用的圖像搜索工具” , 對中國用戶而言, google的圖片搜索引擎是最好的圖像搜索工具。(8)“ 新聞組搜索” 功能。新聞組有詳盡的分類主題, 某些主題還有專人管理與編輯, 具有大量的有價值信息。由于新聞組包含的信息實在是海量, 因此不利用工具進行檢索是不大可能的。2001年google將DEJA收購并提供了所有DEJA的功能?,F(xiàn)在, 除了搜索之外, google還支持新聞組的WEB方式瀏覽與張貼功能。(9) “ 目錄檢索” 功能, 如果不想搜索廣泛的網頁, 而是想找某些專題網站, 你可以訪問google的分類目錄。分類的網站目錄一般由專人負責, 分類明確, 信息集中。(10) 其他功能。google的其他功能還包括查詢電話號碼、查找PDF文件、股票報價、找找誰與你鏈接、查找站點、查找字典釋意, 等等。 百度的特點 百度致力于傾聽、挖掘與滿足中國網民的需求, 秉承“ 用戶體驗至上” 的理念, 除網頁搜索外, 還提供MP3、文檔、地圖、傳情、影視等多樣化的搜索服務, 將無數(shù)網民頭腦中的智慧融人了搜索, 使“百度一下” 已經成為了人們進行搜索的新動詞。其獨有的功能與特點就在于:(1)“ 百度快照” 功能。如果無法打開某個搜索結果, 或者打開速度特別慢, “ 百度快照” 能幫您解決。每個被收錄的網頁, 在百度上都存有一個純文本的備份, 稱為“ 百度快照” 。由于百度速度較快, 您可以通過“ 快照” 快速瀏覽頁面內容。(2)“ 相關搜索” 功能。搜索的結果不佳, 有時候是因選擇的查詢詞不妥當。您可以通過參考別人的做法來獲得一些啟發(fā)。百度的“ 相關搜索” ,就是與您的搜索很相似的一系列查詢詞。(3)“ 拼音提示” 功能。如果只知道某個詞的發(fā)音, 卻不知道怎么寫, 或者嫌某個詞拼寫輸入麻煩, 這時百度拼音的提示能夠幫您解決。只要您輸人查詢詞的漢語拼音, 百度就能把最符合要求的對應漢字提示出來。它事實上是一個無比強大的拼音輸人法。(4)“ 錯別字提示” 功能。由于漢字輸人法的局限性, 在搜索時經常會輸人一些錯別字, 導致搜索結果不佳, 這是百度會給出錯別字糾正提示。錯別字提示顯示在搜索結果上方。(5)“ 英漢互譯詞典” 功能。百度在線英漢互譯詞典, 你隨便輸人一個英語單詞, 或者輸人一個漢字詞語, 點擊結果頁上的“ 詞典” 鏈接, 就可以得到高質量的翻譯結果。百度在線詞典不但能翻譯普通的英語單詞、詞組、漢字詞語, 甚至還能翻譯常見的成語, 具有直接使用英漢互譯功能。(6)“ 計算器與度量衡轉換” 功能。百度網頁搜索內嵌的計算器功能, 則能快速高效解決你的計算需求, 你只需簡單的在搜索框內輸人計算式,回車即可看到計算式的結果。百度的搜索框中, 你也可以做度量衡轉換, 當你輸人:換算數(shù)量換算前單位=?換算后單位, 回車即可得到換算的結果。(7)“ 專業(yè)文檔搜索” 功能。百度具有很好的office文檔、Adobe PDF文檔、RTF文檔進行了全文搜索。只要你在普通的查詢詞后面, 加一個“ filetype” 與文檔類型限定。就可快速查看該文檔的網頁格式內容。你也可以通過百度文檔搜索界面而功, 直接使用專業(yè)文檔搜索功能。(8)“ 股票、列車時刻表與飛機航班查詢”功能。你在百度搜索框中輸人股票代碼、列車車次或者飛機航班號, 就能直接獲得相關信息。例如, 輸人股票代碼“ 600001” , 搜索結果上方, 就顯示邯鄲鋼鐵的股票實時行情。(9)“ 天氣查詢” 功能。百度可以隨時查詢天氣預報, 只要你在百度搜索框中輸人你要查詢的城市名稱加上天氣這個詞, 您就能獲得該城市當天的天氣情況。百度支持全國多達400多個城市與近百個國外著名城市的天氣查詢。(10)“ 超鏈分析” 技術。百度將傳統(tǒng)情報學中的引文索引技術同web中最基本的鏈接技術相結合, 通過分析鏈接網站的多少來評價被鏈接的網站質量, 使得在百度搜索時, 越受用戶歡迎的內容排名越靠前. 兩大搜索引擎的相關特點折射出各類搜索引擎的聯(lián)系。它們都有自己服務理念與目標,都有強大的功能為用戶服務,并打造自身的技術特點與專長。為用戶不斷提供優(yōu)秀的服務質量,并完善自身的技術與不足,吸引用戶的使用與得到信賴,不斷發(fā)展。google與百度檢索技術分析評價一個搜索引擎的質量, 就需要對檢索結果進行比較分析, 為此有必要對google與百度從更新時間、響應速度、查全率、檢準率、文檔搜索等方面進行比較分析。(1) 規(guī)模、內容及更新時間 google多為月更新, 有部分日更新或時更新,搜索范圍涵蓋了世界各地的網頁, 網頁數(shù)達200多億。百度平均為周更新, 中文信息大部分時更新,有超過10多億中文網頁, 9千萬張圖片, 擁有目前世界上最大的中文信息庫, 并且還在以每天幾十萬頁的速度快速增長, 涵蓋了中國內地、港澳臺、新加坡等華語地區(qū)及北美、歐洲部分網站。(2)搜索響應的速度 google有1.5萬臺服務器, 200多條T3級寬帶, 索引功能通過索引庫 與排序器來實現(xiàn)。百度在中國各地與美國均設有服務器, 高效的搜索算法與本地服務器保證最快的響應速度。 為了測試google與百度的響應速度, 筆者任意抽取了5個搜索詞進行檢索, 其結果是google的平均響應時間小于0.13秒, 百度的平均響應時間小于0.06秒(參見:搜索響應時間統(tǒng)計表), 百度的搜索響應的速度要快于google。 搜索響應時間統(tǒng)計衰 搜索詞 google 百度 李文紅 393000條 0.23秒 888000 0.001秒 信息組織學 1160條 0.05秒 308000 0.089秒 美對臺軍售 770000條 0.22秒 88300條 0.082秒 新農村文化建設 4560000條 0.07秒 525000條 0.001秒 網絡信息資源檢索 3850000條 0.06秒 27300條 0.125秒 平均響應時間 0.13秒 0.06秒 (3)資源查全率 google收取了大概200億的英文搜索頁面,互聯(lián)網上總的英文網頁的數(shù)量大概在300億左右,google已經覆蓋了英文網頁數(shù)據(jù)量的60%到70%,在這個條件下, 所以它的用戶滿意度能達到60%到70%。互聯(lián)網上中文網頁有效數(shù)量大致在100到150億之間, 而百度與收錄的文網頁量都在40億到50億之間, 因而, 百度與google的中文網絡資源查全率一般只能達到任30一40%。對西方網絡信息資源查全率進行研究, 百度與google同樣無與倫比。(4)網絡信息資源檢準率 檢準率是衡量網絡信息檢索質量的標準, 也是網絡信息檢索的一個突出問題。搜索引擎的檢準率體現(xiàn)在兩個方面, 一是搜索引擎對垃圾網頁的抗干擾能力, 二是搜索引擎對檢索結果的排序能力, 它主要取決與搜索引擎采用的排序算法的優(yōu)劣。(5) 文檔搜索應用 在互聯(lián)網上除了網頁資源外, 還如PDF,DOC,RTF,xls,PPT(S)等文檔文件, 這些文檔通常會包含一些重要的資料, 所以對這一部分網絡信息資源的挖掘與利用, 也是搜索引擎的一個重要功能, 它也是衡量一個搜索引擎完整與否, 成熟與否的重要指標。 Google綜合起來看是比百度要強大一些,各類搜索引擎之間的技術決定了搜索引擎公司的強大與否。結語通過google與百度二個無論從搜索的質量與數(shù)量都是世界一流的搜索引擎,能看出各類搜索引擎速度都非常迅速,它們在更新時間與搜索的速度上有著差別,在數(shù)據(jù)庫規(guī)模、涵蓋范圍與檢準率, 以及網絡信息查全率上因各自的技術不同也有著差別。但是

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論