




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
第二講了解搜索引擎了解搜索引擎1搜索頁(yè)面結(jié)果google、百度、搜搜雅虎、新浪、搜狐InfoSpace、Dogpile、搜星google學(xué)術(shù)、百度音樂(lè)、搜酷視頻等等1搜索頁(yè)面結(jié)果自然搜索結(jié)果廣告1
.1經(jīng)典搜索結(jié)果列表目錄說(shuō)明鏈接、時(shí)間、快照1
.2整合搜索結(jié)果涵蓋了垂直搜索結(jié)果1.3縮進(jìn)列表1.4全站鏈接1.5迷你全站鏈接1.6One-box1.7富摘要
2工作原理簡(jiǎn)介2.1爬行和抓取蜘蛛通過(guò)跟蹤鏈接訪問(wèn)網(wǎng)頁(yè),獲得HTML代碼存入數(shù)據(jù)庫(kù),完成數(shù)據(jù)收集的任務(wù)蜘蛛?yún)f(xié)議:robots.txt,是否允許搜索引擎抓取文件或目錄1.Google爬蟲(chóng)名稱
1)Googlebot:網(wǎng)站索引和新聞索引中抓取網(wǎng)頁(yè)
2)Googlebot-Mobile:移動(dòng)索引抓取網(wǎng)頁(yè)
3)Googlebot-Image:圖片索引抓取網(wǎng)頁(yè)
4)Mediapartners-Google:抓取AdSense,在AdSense廣告情況下,Google才會(huì)使用此漫游器來(lái)抓取您的網(wǎng)站。
5)Adsbot-Google:抓取AdWords目標(biāo)網(wǎng)頁(yè)的質(zhì)量,在GoogleAdWords為你的網(wǎng)站做廣告的情況下,Google才會(huì)使用此漫游器。
2.百度(Baidu)爬蟲(chóng):Baiduspider3.雅虎(Yahoo)爬蟲(chóng):YahooSlurp4.有道(Yodao)蜘蛛:YodaoBot5.搜狗(sogou)蜘蛛:sogouspider6.MSN蜘蛛名稱:Msnbot跟蹤鏈接深度優(yōu)先和廣度優(yōu)先混合使用吸引蜘蛛地址庫(kù)建立地址庫(kù):為了防止重復(fù)爬行和抓取網(wǎng)址,會(huì)建立一個(gè)地址庫(kù),記錄已經(jīng)被發(fā)現(xiàn)還沒(méi)有抓取的頁(yè)面,以及已經(jīng)被抓取的頁(yè)面文件存儲(chǔ)和內(nèi)容檢測(cè)文件存儲(chǔ):搜索引擎抓取的數(shù)據(jù)存入原始頁(yè)面數(shù)據(jù)庫(kù),每個(gè)Url有個(gè)唯一的文件編號(hào)復(fù)制內(nèi)容檢測(cè):權(quán)重低的網(wǎng)頁(yè)是否存在大量抄襲內(nèi)容,如果有就可能不再抓取內(nèi)容。2.2預(yù)處理預(yù)處理:索引程序?qū)ψト?lái)的頁(yè)面數(shù)據(jù)進(jìn)行文字提取、中文分詞、索引等處理,以備排名程序調(diào)用中文分詞中文分詞方法基于詞典匹配:正向匹配和逆向匹配;最大匹配和最小匹配;正向最大匹配和逆向最大匹配基于統(tǒng)計(jì):分析大量文字樣本,計(jì)算出字與字相鄰出現(xiàn)的統(tǒng)計(jì)概率。該方法反響快速,有利于消除歧義。搜索引擎頁(yè)面分詞取決于詞庫(kù)的規(guī)模、準(zhǔn)確性和分詞算法、而非取決于頁(yè)面中文分詞去停止詞:除去“的、得、地”等詞消除噪音:通過(guò)區(qū)分頁(yè)頭、導(dǎo)航、正文、頁(yè)腳、廣告等,排除與頁(yè)面內(nèi)容不相關(guān)的信息去重:識(shí)別和刪除具有相同內(nèi)容頁(yè)面中權(quán)重較低的頁(yè)面。特殊文件處理:PDF、Word、WPS、TXT、PPT等,圖片、視頻等的處理?正向索引記錄每個(gè)關(guān)鍵詞在頁(yè)面出現(xiàn)的頻率、次數(shù)、格式、位置等倒排索引2.3排名用戶輸入關(guān)鍵詞后,排名程序調(diào)用索引數(shù)據(jù)庫(kù),計(jì)算相關(guān)性,然后按一定格式生成搜索結(jié)果頁(yè)面。搜索詞處理中文分詞去停止詞指令處理:多個(gè)關(guān)鍵詞時(shí),默認(rèn)的處理方法是在關(guān)鍵詞之間使用“與邏輯”拼寫(xiě)錯(cuò)誤矯正文件匹配初始子集的選擇搜索結(jié)果并非完全包括所有頁(yè)面信息相關(guān)性計(jì)算對(duì)初始子集中頁(yè)面計(jì)算關(guān)鍵詞相關(guān)性,影響因素包含:關(guān)鍵詞常用程度:戴爾電腦,我們冥王星詞頻及密度:通常認(rèn)為搜索詞在頁(yè)面出現(xiàn)的次數(shù)越多,密度越高關(guān)鍵詞位置及形式:標(biāo)簽、標(biāo)題、正文、黑體等關(guān)鍵詞距離:搜索關(guān)鍵詞中分詞間在頁(yè)面中出現(xiàn)的距離鏈接分析及頁(yè)面權(quán)重:錨文字、外部鏈接等排名過(guò)濾及調(diào)整在排名大體確定后,進(jìn)行一些過(guò)濾算法,如百度11位、google的負(fù)6對(duì)有作弊嫌疑的網(wǎng)頁(yè)加以懲罰,往后調(diào)整。排名顯示搜索緩存2/8定律,長(zhǎng)尾理論,為了節(jié)約資源,搜索引擎會(huì)把最常見(jiàn)的搜索詞存入緩存,便于用戶搜索時(shí)直接搜索,縮短時(shí)間。查詢及點(diǎn)擊日志搜索用戶地址、搜索關(guān)鍵詞、搜索時(shí)間、點(diǎn)擊頁(yè)面等信息3鏈接原理李彥宏超鏈分析專利HITS算法TrustRank算法GooglePRHilltop算法李彥宏超鏈分析專利1997“超鏈文件檢索系統(tǒng)方法”專利申請(qǐng)鏈接詞庫(kù):鏈接錨文字,及其鏈接指向:///netacgi/nph-Parser?patentnumber=5,920,859一個(gè)用于檢索查詢相關(guān)的文件與索引文件的超鏈接指向那些按照文件的搜索引擎。
遍歷的索引數(shù)據(jù)庫(kù),發(fā)現(xiàn)超文本信息,包括文檔的超鏈接指向的地址和每個(gè)超鏈接的錨文本。
該信息存儲(chǔ)在一個(gè)倒排索引文件,它也可用于計(jì)算各指向一個(gè)特定的文檔的超鏈接文件鏈接載體。
當(dāng)輸入一個(gè)查詢,搜索引擎發(fā)現(xiàn)因在其錨文本的查詢字詞的文件所有文件載體。
也是一個(gè)查詢向量計(jì)算,點(diǎn)查詢的載體,每個(gè)文件鏈接向量積的計(jì)算方法。
產(chǎn)品的點(diǎn)與特定文件的總結(jié),以確定每個(gè)文件的相關(guān)性排名。李彥宏超鏈分析專利建立一個(gè)鏈接詞庫(kù),記錄鏈接錨文字的一些相關(guān)信息,如錨文字中包含哪些關(guān)鍵詞,發(fā)出鏈接的頁(yè)面索引,包含特定錨文字的鏈接總數(shù),包含特定關(guān)鍵詞的鏈接都指向哪些頁(yè)面。詞庫(kù)不僅包含關(guān)鍵詞原型,也包含同一個(gè)詞干的其他衍生關(guān)鍵詞。根據(jù)這些鏈接數(shù)據(jù),尤其是錨文字,計(jì)算出基于鏈接的文件相關(guān)性。在用戶搜索時(shí),將得到的基于鏈接的相關(guān)性與基于關(guān)鍵詞匹配的傳統(tǒng)相關(guān)性綜合使用,得到更準(zhǔn)確的排名。李彥宏超鏈分析專利要判斷哪個(gè)頁(yè)面最具權(quán)威性,不能光看頁(yè)面自己怎么說(shuō),還要看其它頁(yè)面怎么評(píng)價(jià)。當(dāng)一個(gè)關(guān)鍵詞被搜索的時(shí)候,含有以關(guān)鍵詞為鏈接文字的反向鏈接數(shù)目最多的那個(gè)文件或網(wǎng)頁(yè),將被作為最相關(guān)的結(jié)果排在前面HITS算法1997,JonKleinber,Hyperlink-InducedTopicSearch,“超鏈誘導(dǎo)主題搜索”:///netacgi/nph-Parser?patentnumber=6,112,202HITS算法會(huì)提煉出兩種比較重要的頁(yè)面,也就是樞紐頁(yè)面和權(quán)威頁(yè)面。樞紐頁(yè)面本身可能沒(méi)有多少導(dǎo)入鏈接,但是有很多導(dǎo)出鏈接指向權(quán)威頁(yè)面。典型的樞紐頁(yè)面就是如雅虎目錄、開(kāi)放目錄或好123這樣的網(wǎng)站目錄。這種高質(zhì)量的網(wǎng)站目錄作用就在于指向其他權(quán)威網(wǎng)站,所以稱為樞紐。權(quán)威頁(yè)面通常是提供真正相關(guān)內(nèi)容的頁(yè)面。權(quán)威頁(yè)面本身可能導(dǎo)出鏈接不多,但是有很多來(lái)自樞紐頁(yè)面的導(dǎo)入鏈接。而權(quán)威頁(yè)面有很多導(dǎo)入鏈接,其中包含很多來(lái)自樞紐頁(yè)面的鏈接。HITS算法樞紐值〔HubScores〕、權(quán)威值〔AuthorityScores〕樞紐值:頁(yè)面上所有導(dǎo)出鏈接指向頁(yè)面的權(quán)威值之和。權(quán)威值:所有導(dǎo)入鏈接所在頁(yè)面的樞紐值之和。缺點(diǎn):查詢時(shí)間長(zhǎng)TrustRank算法2004,斯坦福大學(xué)和雅虎聯(lián)合研究,2006年專利根本假設(shè):好的網(wǎng)站很少會(huì)鏈接到壞的網(wǎng)站如果能挑選出可以百分百信任的網(wǎng)站,這些網(wǎng)站的TrustRank評(píng)為最高,這些trustRank最高的網(wǎng)站所連接的網(wǎng)站信任指數(shù)稍微降低,但也會(huì)很高。與此類似,第二層別信任的網(wǎng)站鏈接出去的第三層網(wǎng)站,信任度繼續(xù)下降。離第一層網(wǎng)站點(diǎn)擊距離越近,信任指數(shù)越高,反之亦反。挑選種子網(wǎng)站,設(shè)定TrustRank值,挑選種子網(wǎng)站有兩種方式:一種是選擇導(dǎo)出鏈接最多的網(wǎng)站;另一種挑選種子網(wǎng)站的方法是選PR值高的網(wǎng)站。兩種計(jì)算TrustRank隨鏈接關(guān)系減少的公式:一是隨鏈接次數(shù)衰減;二是設(shè)置一個(gè)最低TrustRank值門檻。TrustRank算法影響網(wǎng)站TrustRank的因數(shù)1.域名注冊(cè)時(shí)間在五年或五年以上;2.網(wǎng)站托管在專用效勞器上;3.網(wǎng)站加載時(shí)間快;4.網(wǎng)站內(nèi)容是原創(chuàng)的;5.訪客在每個(gè)網(wǎng)頁(yè)的停留時(shí)間超過(guò)90秒;6.網(wǎng)站被多個(gè)國(guó)際IP段引用;7.網(wǎng)站在其所屬行業(yè)中擁有權(quán)威性GooglePRPageRank,網(wǎng)頁(yè)排名,又稱網(wǎng)頁(yè)級(jí)別,Google的創(chuàng)始人拉里·佩奇和謝爾蓋·布林于1998年在斯坦福大學(xué)創(chuàng)造了這項(xiàng)技術(shù)。反向鏈接越多的頁(yè)面就越重要。PageRank通過(guò)網(wǎng)絡(luò)浩瀚的超鏈接關(guān)系來(lái)確定一個(gè)頁(yè)面的等級(jí)。Google把從A頁(yè)面到B頁(yè)面的鏈接解釋為A頁(yè)面給B頁(yè)面投票,Google根據(jù)投票來(lái)源〔甚至來(lái)源的來(lái)源,即鏈接到A頁(yè)面的頁(yè)面〕和投票目標(biāo)的等級(jí)來(lái)決定新的等級(jí)。簡(jiǎn)單的說(shuō),一個(gè)高等級(jí)的頁(yè)面可以使其他低等級(jí)頁(yè)面的等級(jí)提升。GooglePR根本思想:如果網(wǎng)頁(yè)T存在一個(gè)指向網(wǎng)頁(yè)A的連接,那么說(shuō)明T的所有者認(rèn)為A比較重要,從而把T的一局部重要性得分賦予A。這個(gè)重要性得分值為:PR〔T〕/C(T)其中PR〔T〕為T的PageRank值,C(T)為T的出鏈數(shù),那么A的PageRank值為一系列類似于T的頁(yè)面重要性得分值的累加。PR〔A〕=〔1-d〕+d〔PR〔t1〕/C〔t1〕+…+PR〔tn〕/C〔tn〕〕A代表頁(yè)面APR〔A〕那么代表頁(yè)面A的PR值d為阻尼指數(shù)。通常認(rèn)為d=0.85t1…tn代表鏈接向頁(yè)面A的頁(yè)面t1到tnC代表頁(yè)面上的到外鏈接數(shù)目。C〔t1〕即為頁(yè)面t1上的到外鏈接數(shù)目?jī)?yōu)點(diǎn):是一個(gè)與查詢無(wú)關(guān)的靜態(tài)算法,所有網(wǎng)頁(yè)的PageRank值通過(guò)離線計(jì)算獲得;有效減少在線查詢時(shí)的計(jì)算量,極大降低了查詢響應(yīng)時(shí)間。缺乏:人們的查詢具有主題特征,PageRank忽略了主題相關(guān)性,導(dǎo)致結(jié)果的相關(guān)性和主題性降低;另外,PageRank有很嚴(yán)重的對(duì)新網(wǎng)頁(yè)的歧視。GooglePRPR意義和重要性網(wǎng)站收錄深度和總頁(yè)面數(shù):蜘蛛爬行深度和廣度的重要因素之一更新頻率:蜘蛛訪問(wèn)和更新的頻繁程度重復(fù)內(nèi)容判定排名初始子集的選擇GooglePR影響GooglePR值的因素Hilltop算法可以簡(jiǎn)單理解為與主題相關(guān)的PR值。HillTop算法集PageRank,HITs、相關(guān)性算法大成于一身,由康柏系統(tǒng)研究中心的KrishnaBharat和多倫多大學(xué)的GeorgeA.Mihaila在2001年提出并申請(qǐng)了專利,后授權(quán)于Google,2003年12月Google算法更新,其成為Google核心排名算法之一。傳統(tǒng)PR值與特定關(guān)鍵詞或主題沒(méi)有關(guān)聯(lián),只計(jì)算鏈接關(guān)系。這就有可能出現(xiàn)某種漏洞。如大學(xué)網(wǎng)站上出現(xiàn)售貨信息。Hilltop算法就嘗試矯正這種可能出現(xiàn)的疏漏。Hilltop算法同樣是計(jì)算鏈接關(guān)系,不過(guò)它更關(guān)注來(lái)自主題相關(guān)頁(yè)面的鏈接權(quán)重。在Hilltop算法中把這種主題相關(guān)頁(yè)面稱為專家文件。Hilltop算法主要包括兩個(gè)步驟:專家頁(yè)面搜索和目標(biāo)頁(yè)面排序。用戶搜索關(guān)鍵詞后,Google先按正常排名算法找到一系列相關(guān)頁(yè)面并排名,然后計(jì)算這些頁(yè)面有多少來(lái)自專家文件的、與主題相關(guān)的鏈接,來(lái)自專家文件的鏈接越多,頁(yè)面的排名分值越高。優(yōu)點(diǎn):相關(guān)性強(qiáng),結(jié)果準(zhǔn)確。缺乏:專家頁(yè)面的搜索和確定對(duì)算法起關(guān)鍵作用,專家頁(yè)面的質(zhì)量決定了算法的準(zhǔn)確性,而專家頁(yè)面的質(zhì)量和公平性難以保證;忽略了大量非專家頁(yè)面的影響,不能反響整個(gè)Internet的民意;當(dāng)沒(méi)有足夠的專家頁(yè)面存在時(shí),返回空,所以Hilltop適合對(duì)于查詢排序進(jìn)行求精。Hilltop算法提示SEOer,建設(shè)外部鏈接時(shí)更應(yīng)該關(guān)注主題相關(guān)的網(wǎng)站Hilltop算法HillTop算法的指導(dǎo)思想和PageRank的是一致的,都是通過(guò)網(wǎng)頁(yè)被鏈接的數(shù)量和質(zhì)量來(lái)確定搜索結(jié)果的排序權(quán)重。與PageRank的不同之處:僅考慮專家頁(yè)面的鏈接。HillTop認(rèn)為只計(jì)算來(lái)自具有相同主題的相關(guān)文檔鏈接對(duì)于搜索者的價(jià)值會(huì)更大:即主題相關(guān)網(wǎng)頁(yè)之間的鏈接對(duì)于權(quán)重計(jì)算的奉獻(xiàn)比主題不相關(guān)的鏈接價(jià)值要更高。如果網(wǎng)站是介紹“服裝”的,有10個(gè)鏈接都是從“服裝”相關(guān)的網(wǎng)站鏈接過(guò)來(lái),那這10個(gè)鏈接比另外10個(gè)從“電器”相關(guān)網(wǎng)站鏈接過(guò)來(lái)的奉獻(xiàn)要大。英文搜索結(jié)果頁(yè)面中文搜索結(jié)果頁(yè)面4用戶瀏覽和點(diǎn)擊搜索結(jié)果整合搜索及個(gè)人化搜索用戶對(duì)搜索引擎返回的10個(gè)結(jié)果的瀏覽和點(diǎn)擊存在很大差異。研究方法:視線跟蹤〔eye-tracking〕,用特殊設(shè)備跟蹤用戶目光在結(jié)果頁(yè)面上的瀏覽及點(diǎn)擊數(shù)據(jù)。Enquiro中文頁(yè)面和英文頁(yè)面的差異4用戶瀏覽和點(diǎn)擊搜索結(jié)果英文搜索結(jié)果頁(yè)面%ofclick%time56.3628.4313.4525.089.8214.7248.74.736.023.274.010.353.012.913.881.468.012.652.34
英文搜索結(jié)果頁(yè)面冪律分布?Why?中文搜索結(jié)果頁(yè)面
中文搜索結(jié)果頁(yè)面中文用戶無(wú)論是在Google和百度上都花了更長(zhǎng)時(shí)間找到想要的結(jié)果。語(yǔ)言差異?中文搜索比英文搜索結(jié)果準(zhǔn)確度低?
整合搜索及個(gè)人化搜索整合搜索,圖片作用
整合搜索及個(gè)人化搜索個(gè)人化搜索:更關(guān)注熟悉的網(wǎng)站5高級(jí)搜索指令5.1雙引號(hào)5.2減號(hào)5.3星號(hào)5.4inurl5.5inanchor5.6intitle5.7allintitle5.8allinurl5.9filetype5.10site5.11link5.12linkdomain5.13related5.14總和使用高級(jí)搜索指令5.1雙引號(hào)完全匹配搜索5.2減號(hào)搜索不包含減號(hào)后面的詞5.3inurl命令用inurl搜索命令可以幫你搜索到在URL當(dāng)中出現(xiàn)你搜索的關(guān)鍵詞,很有針對(duì)性。
使用格式:inurl:〔+你需要搜索的內(nèi)容〕5.4filetype命令在搜索引擎里面用filetype命令是可以幫助搜到相關(guān)的文檔
使用格式:filetype:+文件格式+搜索內(nèi)容
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 用電客戶受理員-中級(jí)工復(fù)習(xí)題(含答案)
- 2025工程建設(shè)項(xiàng)目施工勞務(wù)分包合同范本
- 農(nóng)村農(nóng)牧綜合開(kāi)發(fā)項(xiàng)目合同書(shū)
- 存量房屋居間買賣合同
- 電商平平臺(tái)運(yùn)營(yíng)及推廣合作框架協(xié)議
- 2025建融金服(河南)科技信息服務(wù)有限公司甘肅分公司招聘30人筆試參考題庫(kù)附帶答案詳解
- 2025年蚌埠市龍子湖區(qū)產(chǎn)業(yè)發(fā)展有限公司招聘22人筆試參考題庫(kù)附帶答案詳解
- 考前沖刺紡織設(shè)計(jì)師證書(shū)考試題目及答案
- 教育評(píng)價(jià)改革的路徑與實(shí)踐探索
- 起草合同協(xié)議書(shū)
- 《心電圖機(jī)操作與應(yīng)用》課件
- 辦公樓清潔服務(wù)工作外包合同5篇
- 2025中小學(xué)學(xué)校校服采購(gòu)工作方案
- 2024年煙臺(tái)龍口市衛(wèi)生健康局所屬事業(yè)單位招聘工作人員筆試真題
- 輸變電工程建設(shè)管理綱要
- 全球化背景下高中歷史家國(guó)情懷教育的策略
- 租地臨時(shí)建房合同協(xié)議
- 中央2024年市場(chǎng)監(jiān)管總局直屬事業(yè)單位招聘筆試歷年參考題庫(kù)附帶答案詳解
- 四川達(dá)州鋼鐵集團(tuán)招聘筆試題庫(kù)2025
- 2025年FRM金融風(fēng)險(xiǎn)管理師考試專業(yè)試卷(金融風(fēng)險(xiǎn)管理案例分析)
- 護(hù)士法律法規(guī)知識(shí)培訓(xùn)課件
評(píng)論
0/150
提交評(píng)論