一 。什么是robots
1. robot是指定spider在網(wǎng)站抓取范圍的協(xié)議。
2. spider在訪問一個(gè)網(wǎng)站時(shí),會(huì)首先會(huì)檢查該網(wǎng)站的根域下是否有一個(gè)叫做 robots.txt的純文本文件,有的話就會(huì)根據(jù)里面的協(xié)議進(jìn)行抓取,否則全部抓取。

二 。robots.txt 放置的位置
放在網(wǎng)站的根目錄下面。
robots.txt放在網(wǎng)站的根目錄。根目錄根據(jù)空間商提供的默認(rèn)的目錄。常見的根目錄有/www/、Web/、web、wwwroot等。比如華夏名網(wǎng)的根目錄是www/

三 。常用的語法

三個(gè)語法:

Disallow: / (空格、斜杠)  Disallow:抓取空白內(nèi)容。

Allow: / 允許抓取目錄。

*:匹配0或多個(gè)任意字符    $: 匹配行結(jié)束符   #:不匹配

寫法舉例: User-agent: Baiduspider
              Disallow: /dede
              Allow: /dede/abc
注意斜杠:  Disallow: /dede   目錄或者路徑
           Disallow: /dede/  目錄

禁止百度抓取任何內(nèi)容,允許其他搜索引擎抓取   
User-agent: Baiduspider
Disallow: /


禁止google抓取任何內(nèi)容,允許其他搜索引擎抓取
User-agent: Googleboot
Disallow: /


禁止所有的搜索引擎抓取。
User-agent: *
Disallow: /


禁止多個(gè)搜索引擎抓�。�
User-agent: Googleboot
Disallow: /

User-agent: Baiduspider
Disallow: /

放置一個(gè)robots.txt文件里面沒有寫任何內(nèi)容與沒有放置robots.txt文件是一樣的,沒有禁止抓取。

以下2種寫法的區(qū)別:
User-agent: Baiduspider
Disallow:                 (語句不成立,等于沒有寫)

User-agent: Baiduspider
Allow: /                  (定義了百度蜘蛛,允許抓取所有的,與上面的效果是一樣的)


以下2種寫法的區(qū)別:運(yùn)行所有的搜索引擎抓取,兩者寫法一樣。沒有寫屏蔽某個(gè)蜘蛛等于是默認(rèn)運(yùn)行了。
User-agent: Baiduspider
Allow: /

User-agent: Googlebot
Allow: /



又一種寫法:禁止所有的搜索引擎抓取以下的目錄。
User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /~joe/


案例:允許所有搜索引擎抓取/cgi-bin/see ,只允許所有搜索引擎抓取/tmp下面的hi,只允許所有搜索引擎抓取/~joe/下的look
User-agent: *
Allow: /cgi-bin/see
Allow: /tmp/hi
Allow: /~joe/look
Disallow: /tmp/
Disallow: /~joe/



案例:運(yùn)行所有的搜索引擎抓取以htm為后綴的路徑。
User-agent: *
Allow: /*.htm$
比如:
User-agent: *
Disallow: /cgi-bin/*.htm$
這個(gè)目錄cgi-bin/abcde.html是允許所有的搜索引擎抓取的。



允許抓取gif格式的動(dòng)態(tài)圖片,不允許抓取jpg格式的圖片
User-agent: Baiduspider
Allow: /*.gif$
Disallow: /*.jpg$




路徑格式Disallow: /info-id-169.html
Disallow: /info-id-*.html  可以禁止上面的169.html
Disallow: /info-id-*?*.html  不可以禁止,因?yàn)檫@是禁止抓取的路徑是帶有?.html的路徑。



如果禁止抓取我們的域名:
Disallow: /  后面不要帶任何東西,因?yàn)?就是所有的。



Disallow: /*?* 禁止抓取所有的動(dòng)態(tài)參數(shù),就是動(dòng)態(tài)路徑。
Disallow: /*#more-*  禁止抓取所有的more標(biāo)簽。



蜘蛛的產(chǎn)品名稱:

產(chǎn)品名稱
對(duì)應(yīng)user-agent
無線搜索
Baiduspider
圖片搜索
Baiduspider-image
視頻搜索
Baiduspider-video
新聞搜索
Baiduspider-news
百度搜藏
Baiduspider-favo
百度聯(lián)盟
Baiduspider-cpro


Baiduspider常見問題解答:http://www.baidu.com/search/spider.html