網(wǎng)站運營的都知道我們網(wǎng)站的流量是有限制的,如果我們的流量都被蜘蛛限制了,那么我們就必須得花費一些去購買其他的。那么假如一個網(wǎng)站很多流量都是蜘蛛抓取所浪費的,有哪些技巧和方法可以限制而不影響seo效果呢?

 

  1,找出虛假蜘蛛進(jìn)行IP屏蔽。

  通過網(wǎng)站日志分析,我們可以知道其實很多所謂的百度spider或谷歌spider其實都是假的,我們可以通過解析出這些虛假蜘蛛的IP進(jìn)行屏蔽,這樣不僅可以節(jié)省流量也可以減少網(wǎng)站被采集的風(fēng)險。具體操作中需要反查出IP是不是真蜘蛛,操作方法為:點擊左下角的開始-運行-CMD-輸入命令nslookup ip 回車就可以看到結(jié)果了。如果是真的搜索蜘蛛都有一個蜘蛛標(biāo)記,而假的蜘蛛?yún)s沒有標(biāo)記。

  2,用robots限制無效頁面或重復(fù)頁面的抓取。

  有一些頁面可能以前存在但是現(xiàn)在沒有了,或者是存在動態(tài)與靜態(tài)的URL一起存在,由于存在反向鏈接或數(shù)據(jù)庫內(nèi)有這樣的鏈接,蜘蛛仍舊會不時進(jìn)行抓取,我們可以找出返回404頁面的URL,把這些URL都給屏蔽掉,這樣既提高了抓取屏蔽也減少了流量浪費。

  3,外部調(diào)用或cdn加速來提高蜘蛛的抓取,減少服務(wù)器的響應(yīng)和流量浪費。

  目前的網(wǎng)站大多采用大量的圖片、視頻等多媒體來展示,而這些圖片缺需要較多的下載流量,如果我們把圖片采用外部調(diào)用的方式,那么就可以節(jié)省大量的蜘蛛抓取流量。目前比較好的方法有把圖片放在其他的服務(wù)器或上傳到一些網(wǎng)盤上都可以。

  4,利用站長工具限制或提高蜘蛛的抓取,或者限制蜘蛛抓取的時間。

  目前百度站長平臺和谷歌站長平臺都有站長抓取的工具,可以用來限制蜘蛛抓取的時間和抓取量,我們可以根據(jù)需要進(jìn)行合理調(diào)配,達(dá)到的效果。

  5,屏蔽無效的蜘蛛或?qū)eo效果小的搜索蜘蛛。

  比如我們知道谷歌蜘蛛是抓取量非常大,但是對于很多行業(yè)來說谷歌的流量很低,seo效果并不好,因此可以進(jìn)行屏蔽谷歌蜘蛛的抓取而節(jié)省大量的流量,例如美麗說網(wǎng)站就屏蔽了谷歌蜘蛛的抓取。除了谷歌之外,還有一些蜘蛛比如的盤古搜索、bing蜘蛛等,這些流量都非常低的,或者幾乎沒有太大作用的蜘蛛其實都可以屏蔽掉。

  6,限制頁面的抓取內(nèi)容來提高抓取效率與抓取速度,減少抓取流量。

  對于任何一個頁面來說,都有很多無效的噪音區(qū),比如一個網(wǎng)站的登錄、注冊部分、最下面的版權(quán)信息和一些幫助性的鏈接導(dǎo)航等,或一些模板上存在一些無法被蜘蛛識別的展示模塊等,這些我們都可以采用加Noffollow標(biāo)簽或ajax、JS等方法進(jìn)行限制或屏蔽抓取,減少抓取量。

  當(dāng)然在實際中我們也可以根據(jù)自身實際需求來解決,比如可以對一些抓取量過大的欄目在sitemap設(shè)置較低的抓取頻率、對一些重要的內(nèi)容如果收錄不好的話也可以增加外鏈或內(nèi)鏈來提高抓取等,方法是死的,我們可以根據(jù)具體的續(xù)期去進(jìn)行合理化的設(shè)置,來達(dá)到更少的抓取而更高的抓取效率