一 。什么是robots
1. robot是指定spider在網(wǎng)站抓取范圍的協(xié)議。
2. spider在訪問一個(gè)網(wǎng)站時(shí),會(huì)首先會(huì)檢查該網(wǎng)站的根域下是否有一個(gè)叫做 robots.txt的純文本文件,有的話就會(huì)根據(jù)里面的協(xié)議進(jìn)行抓取,否則全部抓取。
二 。robots.txt 放置的位置
放在網(wǎng)站的根目錄下面。
robots.txt放在網(wǎng)站的根目錄。根目錄根據(jù)空間商提供的默認(rèn)的目錄。常見的根目錄有/www/、Web/、web、wwwroot等。比如華夏名網(wǎng)的根目錄是www/
三 。常用的語法
三個(gè)語法:
Disallow: / (空格、斜杠) Disallow:抓取空白內(nèi)容。
Allow: / 允許抓取目錄。
*:匹配0或多個(gè)任意字符 $: 匹配行結(jié)束符 #:不匹配
寫法舉例: User-agent: Baiduspider
Disallow: /dede
Allow: /dede/abc
注意斜杠: Disallow: /dede 目錄或者路徑
Disallow: /dede/ 目錄
禁止百度抓取任何內(nèi)容,允許其他搜索引擎抓取
User-agent: Baiduspider
Disallow: /
禁止google抓取任何內(nèi)容,允許其他搜索引擎抓取
User-agent: Googleboot
Disallow: /
禁止所有的搜索引擎抓取。
User-agent: *
Disallow: /
禁止多個(gè)搜索引擎抓�。�
User-agent: Googleboot
Disallow: /
User-agent: Baiduspider
Disallow: /
放置一個(gè)robots.txt文件里面沒有寫任何內(nèi)容與沒有放置robots.txt文件是一樣的,沒有禁止抓取。
以下2種寫法的區(qū)別:
User-agent: Baiduspider
Disallow: (語句不成立,等于沒有寫)
User-agent: Baiduspider
Allow: / (定義了百度蜘蛛,允許抓取所有的,與上面的效果是一樣的)
以下2種寫法的區(qū)別:運(yùn)行所有的搜索引擎抓取,兩者寫法一樣。沒有寫屏蔽某個(gè)蜘蛛等于是默認(rèn)運(yùn)行了。
User-agent: Baiduspider
Allow: /
User-agent: Googlebot
Allow: /
又一種寫法:禁止所有的搜索引擎抓取以下的目錄。
User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /~joe/
案例:允許所有搜索引擎抓取/cgi-bin/see ,只允許所有搜索引擎抓取/tmp下面的hi,只允許所有搜索引擎抓取/~joe/下的look
User-agent: *
Allow: /cgi-bin/see
Allow: /tmp/hi
Allow: /~joe/look
Disallow: /tmp/
Disallow: /~joe/
案例:運(yùn)行所有的搜索引擎抓取以htm為后綴的路徑。
User-agent: *
Allow: /*.htm$
比如:
User-agent: *
Disallow: /cgi-bin/*.htm$
這個(gè)目錄cgi-bin/abcde.html是允許所有的搜索引擎抓取的。
允許抓取gif格式的動(dòng)態(tài)圖片,不允許抓取jpg格式的圖片
User-agent: Baiduspider
Allow: /*.gif$
Disallow: /*.jpg$
路徑格式Disallow: /info-id-169.html
Disallow: /info-id-*.html 可以禁止上面的169.html
Disallow: /info-id-*?*.html 不可以禁止,因?yàn)檫@是禁止抓取的路徑是帶有?.html的路徑。
如果禁止抓取我們的域名:
Disallow: / 后面不要帶任何東西,因?yàn)?就是所有的。
Disallow: /*?* 禁止抓取所有的動(dòng)態(tài)參數(shù),就是動(dòng)態(tài)路徑。
Disallow: /*#more-* 禁止抓取所有的more標(biāo)簽。
蜘蛛的產(chǎn)品名稱:
產(chǎn)品名稱
對(duì)應(yīng)user-agent
無線搜索
Baiduspider
圖片搜索
Baiduspider-image
視頻搜索
Baiduspider-video
新聞搜索
Baiduspider-news
百度搜藏
Baiduspider-favo
百度聯(lián)盟
Baiduspider-cpro
Baiduspider常見問題解答:http://www.baidu.com/search/spider.html
網(wǎng)站優(yōu)化服務(wù)
云優(yōu)化專注搜索引擎優(yōu)化推廣服務(wù)。