例如百多、360、谷歌搜索等等這些搜索引擎,用戶在搜索框里輸入的叫做“查詢詞”,經(jīng)過分詞切分出來的單詞叫做“檢索詞”,進過搜索引擎的一系列的算法計算后得出搜索結構。那么,搜索引擎是如何來進行抓取索引的呢?怎么計算Z后得出哪個頁面作為搜索結果呢?
這些并不能算SEO的優(yōu)化技術,為了讓大家在今后的優(yōu)化操作中更得心應手,避免因為一些基礎的問題鬧笑話,先了解下搜索引擎的工作原理;例如:一個沒有收錄的網(wǎng)站為什么沒有快照?快照的時間是頁面被索引(收錄)的時間,沒有收錄就不會有快照。像這些問題是搜索引擎的基本問題,認真看完本章,了解搜索引擎的工作原理,解決在SEO優(yōu)化的時候“為什么要這么做”的問題是一個SEO應當有的潛意識反應。
搜索引擎直至現(xiàn)在,都是在不短完善用戶體驗,爭取在用戶搜索查詢時輸出Z匹配的結果,從而讓用戶依賴上搜索引擎,才能賺取更多的廣告費用(例如百度推廣),舉個例子:CCTV頻道的用戶很多,但是從不跟看CCTV的用戶收錢,但能賺到很多的廣告費;在這里指的匹配不光是字符上的匹配,我們可以去百度搜索“PC”會看到“電腦”也是飄紅的。
SEO學院
或者搜索某一明星,其搜索都會出現(xiàn)相關微博、百科、視頻等等;這就說明了匹配不僅僅是指字符上的匹配,還匹配了用戶的需求;對于想了解明星的,百度展示了百度百科,針對粉絲群體的,百度展示了百度貼吧、微博。能夠更匹配用戶的需求,這是搜索引擎長期的研究項目。
從搜索框輸入關鍵詞,到百度給出搜索結果,每一個結果都對應一個頁面,每一條搜索結果從產(chǎn)生到展現(xiàn)出來,都需要進過四個過程:抓取、過濾、建立索引、輸出結果。
搜索引擎基本工作原理
抓取
百度蜘蛛(Baiduspider)會通過系統(tǒng)計算,來決定對哪些網(wǎng)站進行抓取,以及抓取的內(nèi)容和頻率。搜索引擎計算會參考您網(wǎng)站在歷史記錄中的表現(xiàn),比如內(nèi)容是否優(yōu)質(zhì),是否對用戶存在不友好的設置,搜索引擎過度優(yōu)化等行為。
當我們的網(wǎng)站有內(nèi)容更新時,百度蜘蛛就會通過互聯(lián)網(wǎng)中某個指向該頁面的鏈接進行訪問和抓取,如果我們沒有設置任何的外部鏈接指向網(wǎng)站中的新增內(nèi)容,百度蜘蛛就無法對其進行抓取;對于已經(jīng)收錄的內(nèi)容,搜索引擎會對抓取頁面進行記錄,并依據(jù)這些頁面對用戶的重要程度安排不同頻次的抓取更新工作。
注意:有些抓取軟件,為了其目的,會偽裝成百度蜘蛛對我們的網(wǎng)站進行抓取,這可能是不受控制的抓取,嚴重時會影響到網(wǎng)站的正常運作。
蜘蛛相關知識
1.蜘蛛的介紹
搜索引擎對互聯(lián)網(wǎng)網(wǎng)頁的爬取工作是由爬蟲來完成的,爬蟲指的是一個爬取程序,通常我們稱為蜘蛛,百度的爬蟲命名是Baiduspider(中文譯為:百度蜘蛛)谷歌的爬蟲命名為GoogleBot(中文譯為:谷歌機器人),國內(nèi)大部分是做百度搜索引擎的排名優(yōu)化,所以普遍把這里的爬取程序叫做蜘蛛。
2.蜘蛛的功能
1) 對目標頁面進行爬取,資源下載存取到網(wǎng)頁庫。
2) 對已下載的網(wǎng)頁進行鏈接識別,提取網(wǎng)頁中的鏈接,作為待抓取目標。
3.蜘蛛的抓取策略
蜘蛛不僅要對目標網(wǎng)頁進行抓取,也同時發(fā)現(xiàn)新的URL(網(wǎng)頁地址),那么蜘蛛是如何收集URL的呢?搜索引擎抓取了A頁面的信息,并且收集A頁面上所有的URL,去掉庫中已經(jīng)存在的鏈接,新的鏈接添加到待抓取隊列。對這些新的URL什么時候再去進行抓取,跟A頁面的權重有很大的關系,通常業(yè)內(nèi)人士所說的引蜘蛛就是去蜘蛛訪問頻率較高的頁面去留下自己網(wǎng)站的鏈接,讓蜘蛛更快的發(fā)現(xiàn)該鏈接。
4.蜘蛛的識別
可以先在IIS日志中找到蜘蛛的IP地址,然后點擊開始-運行-輸入cmd-點擊確定-輸入nslookup IP地址-回車。有百度蜘蛛的信息;
SEO學院
過濾
互聯(lián)網(wǎng)中并不是所有的網(wǎng)頁都是對用戶有意義的,比如一些欺騙用戶的網(wǎng)頁、死鏈接、空白頁面等等。這些對用戶、站長和百度啊來說是沒有足夠的價值的,所以百度會自動對這些內(nèi)容進行過濾,為用戶提供更好的互聯(lián)網(wǎng)環(huán)境。
過濾的相關知識
1.網(wǎng)頁去重
并非每一個被蜘蛛抓取來的新頁面都會添加索引(收錄),而是還要考慮這個網(wǎng)站有沒有收錄的價值,影響要不要收錄某一已經(jīng)抓取的網(wǎng)頁,還要考慮頁面的重復度,如果同一篇文章或者具有高相似度的文章被多次收錄,是浪費搜索引擎服務器的資源,并且也不能很好的維護原創(chuàng),若沒有人出原創(chuàng),從而無法給用戶提供潮流的內(nèi)容。
2.信息結構化
爬取程序從互聯(lián)網(wǎng)上下載我們網(wǎng)站的頁面資源添加到網(wǎng)頁庫,期中包含圖片、錨文本、正文等等。搜索引擎需要對頁面信息結構化。從而獲得網(wǎng)頁中的頁面標題、錨文本、正文標題、正文等等,由此可見,如果一個網(wǎng)站所有的頁面標題一樣的話有多么可怕。
3.查重技術
簡單的舉一個例子:想要知道兩個網(wǎng)站的重復度,根據(jù)出現(xiàn)頻率高或者頻率低的關鍵詞是沒有多少價值的,我們可以這樣,去除一篇文章中使用頻率高的詞,像我們、可能、但是等等這樣的詞,去除使用頻率低的詞像灰太狼、二大爺、杜甫等等;來比較剩下的中頻詞。大家進行偽原創(chuàng)的時候,喜歡用“咱倆”代替“我們”等等,其實這些并不是搜索引擎查重的對象所在;搜索引擎判斷兩篇文章相似度的方法有很多,這里只提及到一部分,不付出稍微高成本的偽原創(chuàng)基本上是行不通的,高質(zhì)量的偽原創(chuàng)就是對原文的修飾,變得更適合讀者閱讀,這就是優(yōu)質(zhì)的文章。
4.網(wǎng)頁消重
對于兩個重復的或者高相似度的文章來說,搜索引擎會去掉哪一個,一般有下面三種情況:
1) 追蹤該文章的原創(chuàng),保留原創(chuàng)。
2) 對曝光率較大,用戶多的頁面保留,使用面發(fā)揮Z大價值。
3) 保留Z先被收錄的頁面,保護版權。
對于百度搜索引擎來說,我們一般看到第二和第三兩種情況,但并不是絕對不允許重復收錄。追蹤文章的原創(chuàng)出處,消耗量大,也不準確。保留用戶多的頁面,而多次被檢索到,對用戶體驗來說也是有利的,從而Z先收錄的頁面可以認為是原創(chuàng)頁面。這有我們經(jīng)常會發(fā)現(xiàn)同一篇文章,實際上被收錄很多,是因為原創(chuàng)被保留,平臺轉(zhuǎn)載的也被保留了。
總結:合理利用搜索引擎工作的原理提高我們的網(wǎng)站質(zhì)量,讓我們的網(wǎng)站更穩(wěn)定,優(yōu)質(zhì)。
我的下一篇文章將會講到建立索引、輸出結果的具體內(nèi)容。
技術文章來自:www.panther-chn.com