SEO實(shí)戰(zhàn)密碼第二講了解搜索引擎

上傳人：王*** IP屬地：廣西上傳時(shí)間：2024-05-31 格式：PPT 頁(yè)數(shù)：66 大?。?.20MB 積分：15 舉報(bào) 版權(quán)申訴

已閱讀5頁(yè)，還剩61頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說(shuō)明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第二講了解搜索引擎了解搜索引擎1搜索頁(yè)面結(jié)果google、百度、搜搜雅虎、新浪、搜狐InfoSpace、Dogpile、搜星google學(xué)術(shù)、百度音樂(lè)、搜酷視頻等等1搜索頁(yè)面結(jié)果自然搜索結(jié)果廣告1

.1經(jīng)典搜索結(jié)果列表目錄說(shuō)明鏈接、時(shí)間、快照1

.2整合搜索結(jié)果涵蓋了垂直搜索結(jié)果1.3縮進(jìn)列表1.4全站鏈接1.5迷你全站鏈接1.6One-box1.7富摘要

2工作原理簡(jiǎn)介2.1爬行和抓取蜘蛛通過(guò)跟蹤鏈接訪問(wèn)網(wǎng)頁(yè)，獲得HTML代碼存入數(shù)據(jù)庫(kù)，完成數(shù)據(jù)收集的任務(wù)蜘蛛?yún)f(xié)議：robots.txt，是否允許搜索引擎抓取文件或目錄1.Google爬蟲(chóng)名稱

1)Googlebot：網(wǎng)站索引和新聞索引中抓取網(wǎng)頁(yè)

2)Googlebot-Mobile：移動(dòng)索引抓取網(wǎng)頁(yè)

3)Googlebot-Image：圖片索引抓取網(wǎng)頁(yè)

4)Mediapartners-Google：抓取AdSense，在AdSense廣告情況下，Google才會(huì)使用此漫游器來(lái)抓取您的網(wǎng)站。

5)Adsbot-Google：抓取AdWords目標(biāo)網(wǎng)頁(yè)的質(zhì)量,在GoogleAdWords為你的網(wǎng)站做廣告的情況下,Google才會(huì)使用此漫游器。

2.百度(Baidu)爬蟲(chóng)：Baiduspider3.雅虎(Yahoo)爬蟲(chóng)：YahooSlurp4.有道(Yodao)蜘蛛：YodaoBot5.搜狗(sogou)蜘蛛：sogouspider6.MSN蜘蛛名稱：Msnbot跟蹤鏈接深度優(yōu)先和廣度優(yōu)先混合使用吸引蜘蛛地址庫(kù)建立地址庫(kù)：為了防止重復(fù)爬行和抓取網(wǎng)址，會(huì)建立一個(gè)地址庫(kù)，記錄已經(jīng)被發(fā)現(xiàn)還沒(méi)有抓取的頁(yè)面，以及已經(jīng)被抓取的頁(yè)面文件存儲(chǔ)和內(nèi)容檢測(cè)文件存儲(chǔ)：搜索引擎抓取的數(shù)據(jù)存入原始頁(yè)面數(shù)據(jù)庫(kù)，每個(gè)Url有個(gè)唯一的文件編號(hào)復(fù)制內(nèi)容檢測(cè)：權(quán)重低的網(wǎng)頁(yè)是否存在大量抄襲內(nèi)容，如果有就可能不再抓取內(nèi)容。2.2預(yù)處理預(yù)處理：索引程序?qū)ψト?lái)的頁(yè)面數(shù)據(jù)進(jìn)行文字提取、中文分詞、索引等處理，以備排名程序調(diào)用中文分詞中文分詞方法基于詞典匹配：正向匹配和逆向匹配；最大匹配和最小匹配；正向最大匹配和逆向最大匹配基于統(tǒng)計(jì)：分析大量文字樣本，計(jì)算出字與字相鄰出現(xiàn)的統(tǒng)計(jì)概率。該方法反響快速，有利于消除歧義。搜索引擎頁(yè)面分詞取決于詞庫(kù)的規(guī)模、準(zhǔn)確性和分詞算法、而非取決于頁(yè)面中文分詞去停止詞：除去“的、得、地”等詞消除噪音：通過(guò)區(qū)分頁(yè)頭、導(dǎo)航、正文、頁(yè)腳、廣告等，排除與頁(yè)面內(nèi)容不相關(guān)的信息去重：識(shí)別和刪除具有相同內(nèi)容頁(yè)面中權(quán)重較低的頁(yè)面。特殊文件處理：PDF、Word、WPS、TXT、PPT等，圖片、視頻等的處理？正向索引記錄每個(gè)關(guān)鍵詞在頁(yè)面出現(xiàn)的頻率、次數(shù)、格式、位置等倒排索引2.3排名用戶輸入關(guān)鍵詞后，排名程序調(diào)用索引數(shù)據(jù)庫(kù)，計(jì)算相關(guān)性，然后按一定格式生成搜索結(jié)果頁(yè)面。搜索詞處理中文分詞去停止詞指令處理：多個(gè)關(guān)鍵詞時(shí)，默認(rèn)的處理方法是在關(guān)鍵詞之間使用“與邏輯”拼寫(xiě)錯(cuò)誤矯正文件匹配初始子集的選擇搜索結(jié)果并非完全包括所有頁(yè)面信息相關(guān)性計(jì)算對(duì)初始子集中頁(yè)面計(jì)算關(guān)鍵詞相關(guān)性，影響因素包含：關(guān)鍵詞常用程度：戴爾電腦，我們冥王星詞頻及密度：通常認(rèn)為搜索詞在頁(yè)面出現(xiàn)的次數(shù)越多，密度越高關(guān)鍵詞位置及形式：標(biāo)簽、標(biāo)題、正文、黑體等關(guān)鍵詞距離：搜索關(guān)鍵詞中分詞間在頁(yè)面中出現(xiàn)的距離鏈接分析及頁(yè)面權(quán)重：錨文字、外部鏈接等排名過(guò)濾及調(diào)整在排名大體確定后，進(jìn)行一些過(guò)濾算法，如百度11位、google的負(fù)6對(duì)有作弊嫌疑的網(wǎng)頁(yè)加以懲罰，往后調(diào)整。排名顯示搜索緩存2/8定律，長(zhǎng)尾理論，為了節(jié)約資源，搜索引擎會(huì)把最常見(jiàn)的搜索詞存入緩存，便于用戶搜索時(shí)直接搜索，縮短時(shí)間。查詢及點(diǎn)擊日志搜索用戶地址、搜索關(guān)鍵詞、搜索時(shí)間、點(diǎn)擊頁(yè)面等信息3鏈接原理李彥宏超鏈分析專利HITS算法TrustRank算法GooglePRHilltop算法李彥宏超鏈分析專利1997“超鏈文件檢索系統(tǒng)方法”專利申請(qǐng)鏈接詞庫(kù)：鏈接錨文字，及其鏈接指向:///netacgi/nph-Parser?patentnumber=5,920,859一個(gè)用于檢索查詢相關(guān)的文件與索引文件的超鏈接指向那些按照文件的搜索引擎。

遍歷的索引數(shù)據(jù)庫(kù)，發(fā)現(xiàn)超文本信息，包括文檔的超鏈接指向的地址和每個(gè)超鏈接的錨文本。

該信息存儲(chǔ)在一個(gè)倒排索引文件，它也可用于計(jì)算各指向一個(gè)特定的文檔的超鏈接文件鏈接載體。

當(dāng)輸入一個(gè)查詢，搜索引擎發(fā)現(xiàn)因在其錨文本的查詢字詞的文件所有文件載體。

也是一個(gè)查詢向量計(jì)算，點(diǎn)查詢的載體，每個(gè)文件鏈接向量積的計(jì)算方法。

產(chǎn)品的點(diǎn)與特定文件的總結(jié)，以確定每個(gè)文件的相關(guān)性排名。李彥宏超鏈分析專利建立一個(gè)鏈接詞庫(kù)，記錄鏈接錨文字的一些相關(guān)信息，如錨文字中包含哪些關(guān)鍵詞，發(fā)出鏈接的頁(yè)面索引，包含特定錨文字的鏈接總數(shù)，包含特定關(guān)鍵詞的鏈接都指向哪些頁(yè)面。詞庫(kù)不僅包含關(guān)鍵詞原型，也包含同一個(gè)詞干的其他衍生關(guān)鍵詞。根據(jù)這些鏈接數(shù)據(jù)，尤其是錨文字，計(jì)算出基于鏈接的文件相關(guān)性。在用戶搜索時(shí)，將得到的基于鏈接的相關(guān)性與基于關(guān)鍵詞匹配的傳統(tǒng)相關(guān)性綜合使用，得到更準(zhǔn)確的排名。李彥宏超鏈分析專利要判斷哪個(gè)頁(yè)面最具權(quán)威性，不能光看頁(yè)面自己怎么說(shuō)，還要看其它頁(yè)面怎么評(píng)價(jià)。當(dāng)一個(gè)關(guān)鍵詞被搜索的時(shí)候，含有以關(guān)鍵詞為鏈接文字的反向鏈接數(shù)目最多的那個(gè)文件或網(wǎng)頁(yè)，將被作為最相關(guān)的結(jié)果排在前面HITS算法1997，JonKleinber，Hyperlink-InducedTopicSearch，“超鏈誘導(dǎo)主題搜索”:///netacgi/nph-Parser?patentnumber=6,112,202HITS算法會(huì)提煉出兩種比較重要的頁(yè)面，也就是樞紐頁(yè)面和權(quán)威頁(yè)面。樞紐頁(yè)面本身可能沒(méi)有多少導(dǎo)入鏈接，但是有很多導(dǎo)出鏈接指向權(quán)威頁(yè)面。典型的樞紐頁(yè)面就是如雅虎目錄、開(kāi)放目錄或好123這樣的網(wǎng)站目錄。這種高質(zhì)量的網(wǎng)站目錄作用就在于指向其他權(quán)威網(wǎng)站，所以稱為樞紐。權(quán)威頁(yè)面通常是提供真正相關(guān)內(nèi)容的頁(yè)面。權(quán)威頁(yè)面本身可能導(dǎo)出鏈接不多，但是有很多來(lái)自樞紐頁(yè)面的導(dǎo)入鏈接。而權(quán)威頁(yè)面有很多導(dǎo)入鏈接，其中包含很多來(lái)自樞紐頁(yè)面的鏈接。HITS算法樞紐值〔HubScores〕、權(quán)威值〔AuthorityScores〕樞紐值：頁(yè)面上所有導(dǎo)出鏈接指向頁(yè)面的權(quán)威值之和。權(quán)威值：所有導(dǎo)入鏈接所在頁(yè)面的樞紐值之和。缺點(diǎn)：查詢時(shí)間長(zhǎng)TrustRank算法2004，斯坦福大學(xué)和雅虎聯(lián)合研究，2006年專利根本假設(shè)：好的網(wǎng)站很少會(huì)鏈接到壞的網(wǎng)站如果能挑選出可以百分百信任的網(wǎng)站，這些網(wǎng)站的TrustRank評(píng)為最高，這些trustRank最高的網(wǎng)站所連接的網(wǎng)站信任指數(shù)稍微降低，但也會(huì)很高。與此類似，第二層別信任的網(wǎng)站鏈接出去的第三層網(wǎng)站，信任度繼續(xù)下降。離第一層網(wǎng)站點(diǎn)擊距離越近，信任指數(shù)越高，反之亦反。挑選種子網(wǎng)站，設(shè)定TrustRank值，挑選種子網(wǎng)站有兩種方式：一種是選擇導(dǎo)出鏈接最多的網(wǎng)站；另一種挑選種子網(wǎng)站的方法是選PR值高的網(wǎng)站。兩種計(jì)算TrustRank隨鏈接關(guān)系減少的公式：一是隨鏈接次數(shù)衰減；二是設(shè)置一個(gè)最低TrustRank值門檻。TrustRank算法影響網(wǎng)站TrustRank的因數(shù)1.域名注冊(cè)時(shí)間在五年或五年以上；2.網(wǎng)站托管在專用效勞器上；3.網(wǎng)站加載時(shí)間快；4.網(wǎng)站內(nèi)容是原創(chuàng)的；5.訪客在每個(gè)網(wǎng)頁(yè)的停留時(shí)間超過(guò)90秒；6.網(wǎng)站被多個(gè)國(guó)際IP段引用；7.網(wǎng)站在其所屬行業(yè)中擁有權(quán)威性GooglePRPageRank，網(wǎng)頁(yè)排名，又稱網(wǎng)頁(yè)級(jí)別，Google的創(chuàng)始人拉里·佩奇和謝爾蓋·布林于1998年在斯坦福大學(xué)創(chuàng)造了這項(xiàng)技術(shù)。反向鏈接越多的頁(yè)面就越重要。PageRank通過(guò)網(wǎng)絡(luò)浩瀚的超鏈接關(guān)系來(lái)確定一個(gè)頁(yè)面的等級(jí)。Google把從A頁(yè)面到B頁(yè)面的鏈接解釋為A頁(yè)面給B頁(yè)面投票，Google根據(jù)投票來(lái)源〔甚至來(lái)源的來(lái)源，即鏈接到A頁(yè)面的頁(yè)面〕和投票目標(biāo)的等級(jí)來(lái)決定新的等級(jí)。簡(jiǎn)單的說(shuō)，一個(gè)高等級(jí)的頁(yè)面可以使其他低等級(jí)頁(yè)面的等級(jí)提升。GooglePR根本思想：如果網(wǎng)頁(yè)T存在一個(gè)指向網(wǎng)頁(yè)A的連接，那么說(shuō)明T的所有者認(rèn)為A比較重要，從而把T的一局部重要性得分賦予A。這個(gè)重要性得分值為：PR〔T〕/C(T)其中PR〔T〕為T的PageRank值，C(T)為T的出鏈數(shù)，那么A的PageRank值為一系列類似于T的頁(yè)面重要性得分值的累加。PR〔A〕=〔1-d〕+d〔PR〔t1〕/C〔t1〕+…+PR〔tn〕/C〔tn〕〕A代表頁(yè)面APR〔A〕那么代表頁(yè)面A的PR值d為阻尼指數(shù)。通常認(rèn)為d=0.85t1…tn代表鏈接向頁(yè)面A的頁(yè)面t1到tnC代表頁(yè)面上的到外鏈接數(shù)目。C〔t1〕即為頁(yè)面t1上的到外鏈接數(shù)目?jī)?yōu)點(diǎn)：是一個(gè)與查詢無(wú)關(guān)的靜態(tài)算法，所有網(wǎng)頁(yè)的PageRank值通過(guò)離線計(jì)算獲得；有效減少在線查詢時(shí)的計(jì)算量，極大降低了查詢響應(yīng)時(shí)間。缺乏：人們的查詢具有主題特征，PageRank忽略了主題相關(guān)性，導(dǎo)致結(jié)果的相關(guān)性和主題性降低；另外，PageRank有很嚴(yán)重的對(duì)新網(wǎng)頁(yè)的歧視。GooglePRPR意義和重要性網(wǎng)站收錄深度和總頁(yè)面數(shù)：蜘蛛爬行深度和廣度的重要因素之一更新頻率：蜘蛛訪問(wèn)和更新的頻繁程度重復(fù)內(nèi)容判定排名初始子集的選擇GooglePR影響GooglePR值的因素Hilltop算法可以簡(jiǎn)單理解為與主題相關(guān)的PR值。HillTop算法集PageRank,HITs、相關(guān)性算法大成于一身，由康柏系統(tǒng)研究中心的KrishnaBharat和多倫多大學(xué)的GeorgeA.Mihaila在2001年提出并申請(qǐng)了專利，后授權(quán)于Google，2003年12月Google算法更新，其成為Google核心排名算法之一。傳統(tǒng)PR值與特定關(guān)鍵詞或主題沒(méi)有關(guān)聯(lián)，只計(jì)算鏈接關(guān)系。這就有可能出現(xiàn)某種漏洞。如大學(xué)網(wǎng)站上出現(xiàn)售貨信息。Hilltop算法就嘗試矯正這種可能出現(xiàn)的疏漏。Hilltop算法同樣是計(jì)算鏈接關(guān)系，不過(guò)它更關(guān)注來(lái)自主題相關(guān)頁(yè)面的鏈接權(quán)重。在Hilltop算法中把這種主題相關(guān)頁(yè)面稱為專家文件。Hilltop算法主要包括兩個(gè)步驟：專家頁(yè)面搜索和目標(biāo)頁(yè)面排序。用戶搜索關(guān)鍵詞后，Google先按正常排名算法找到一系列相關(guān)頁(yè)面并排名，然后計(jì)算這些頁(yè)面有多少來(lái)自專家文件的、與主題相關(guān)的鏈接，來(lái)自專家文件的鏈接越多，頁(yè)面的排名分值越高。優(yōu)點(diǎn)：相關(guān)性強(qiáng)，結(jié)果準(zhǔn)確。缺乏：專家頁(yè)面的搜索和確定對(duì)算法起關(guān)鍵作用，專家頁(yè)面的質(zhì)量決定了算法的準(zhǔn)確性，而專家頁(yè)面的質(zhì)量和公平性難以保證；忽略了大量非專家頁(yè)面的影響，不能反響整個(gè)Internet的民意；當(dāng)沒(méi)有足夠的專家頁(yè)面存在時(shí)，返回空，所以Hilltop適合對(duì)于查詢排序進(jìn)行求精。Hilltop算法提示SEOer，建設(shè)外部鏈接時(shí)更應(yīng)該關(guān)注主題相關(guān)的網(wǎng)站Hilltop算法HillTop算法的指導(dǎo)思想和PageRank的是一致的，都是通過(guò)網(wǎng)頁(yè)被鏈接的數(shù)量和質(zhì)量來(lái)確定搜索結(jié)果的排序權(quán)重。與PageRank的不同之處：僅考慮專家頁(yè)面的鏈接。HillTop認(rèn)為只計(jì)算來(lái)自具有相同主題的相關(guān)文檔鏈接對(duì)于搜索者的價(jià)值會(huì)更大：即主題相關(guān)網(wǎng)頁(yè)之間的鏈接對(duì)于權(quán)重計(jì)算的奉獻(xiàn)比主題不相關(guān)的鏈接價(jià)值要更高。如果網(wǎng)站是介紹“服裝”的，有10個(gè)鏈接都是從“服裝”相關(guān)的網(wǎng)站鏈接過(guò)來(lái)，那這10個(gè)鏈接比另外10個(gè)從“電器”相關(guān)網(wǎng)站鏈接過(guò)來(lái)的奉獻(xiàn)要大。英文搜索結(jié)果頁(yè)面中文搜索結(jié)果頁(yè)面4用戶瀏覽和點(diǎn)擊搜索結(jié)果整合搜索及個(gè)人化搜索用戶對(duì)搜索引擎返回的10個(gè)結(jié)果的瀏覽和點(diǎn)擊存在很大差異。研究方法：視線跟蹤〔eye-tracking〕，用特殊設(shè)備跟蹤用戶目光在結(jié)果頁(yè)面上的瀏覽及點(diǎn)擊數(shù)據(jù)。Enquiro中文頁(yè)面和英文頁(yè)面的差異4用戶瀏覽和點(diǎn)擊搜索結(jié)果英文搜索結(jié)果頁(yè)面%ofclick%time56.3628.4313.4525.089.8214.7248.74.736.023.274.010.353.012.913.881.468.012.652.34

英文搜索結(jié)果頁(yè)面冪律分布？Why？中文搜索結(jié)果頁(yè)面

中文搜索結(jié)果頁(yè)面中文用戶無(wú)論是在Google和百度上都花了更長(zhǎng)時(shí)間找到想要的結(jié)果。語(yǔ)言差異？中文搜索比英文搜索結(jié)果準(zhǔn)確度低？

整合搜索及個(gè)人化搜索整合搜索，圖片作用

整合搜索及個(gè)人化搜索個(gè)人化搜索：更關(guān)注熟悉的網(wǎng)站5高級(jí)搜索指令5.1雙引號(hào)5.2減號(hào)5.3星號(hào)5.4inurl5.5inanchor5.6intitle5.7allintitle5.8allinurl5.9filetype5.10site5.11link5.12linkdomain5.13related5.14總和使用高級(jí)搜索指令5.1雙引號(hào)完全匹配搜索5.2減號(hào)搜索不包含減號(hào)后面的詞5.3inurl命令用inurl搜索命令可以幫你搜索到在URL當(dāng)中出現(xiàn)你搜索的關(guān)鍵詞，很有針對(duì)性。

使用格式：inurl:〔+你需要搜索的內(nèi)容〕5.4filetype命令在搜索引擎里面用filetype命令是可以幫助搜到相關(guān)的文檔

使用格式：filetype：+文件格式+搜索內(nèi)容

人人文庫(kù)> 全部分類> 行業(yè)資料 > 管理策劃

溫馨提示

1. 本站所有資源如無(wú)特殊說(shuō)明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

SEO實(shí)戰(zhàn)密碼第二講了解搜索引擎

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論