網(wǎng)站優(yōu)化、整站排名、微信營銷

什么是網(wǎng)站robots.txt？我們應(yīng)該怎么做好robots文件？

2024/1/9 17:15:27 來源：網(wǎng)站優(yōu)化

{literal}{/literal}

對于網(wǎng)站文件除了一般的網(wǎng)頁內(nèi)容之外，還有sitemap和robots文件。這兩個文件比較特殊，上次我們已經(jīng)介紹了sitemap的的相關(guān)內(nèi)容，這次我們一起來看一下什么是網(wǎng)站robots.txt?我們應(yīng)該怎么做好robots文件?

網(wǎng)站robots.txt

一、什么是網(wǎng)站robots.txt?

robots.txt是一個純文本文件，是爬蟲抓取網(wǎng)站的時候要查看的第一個文件，一般位于網(wǎng)站的根目錄下。robots.txt文件定義了爬蟲在爬取該網(wǎng)站時存在的限制，哪些部分爬蟲可以爬取，哪些不可以爬取(防君子不防小人)，也限制了某些搜索引擎爬蟲的爬取。

二、什么時候使用robots.txt文件?

1、屏蔽網(wǎng)站重復(fù)頁

有些網(wǎng)站為了方便用戶瀏覽而對一個內(nèi)容提供多種瀏覽版本，但是蜘蛛分不清哪個是主，哪個是次，因此需要屏蔽網(wǎng)站重復(fù)頁。

2、保護(hù)網(wǎng)站安全

一些低級黑客就是通過搜索默認(rèn)后臺登陸，以達(dá)到入侵網(wǎng)站的目標(biāo)。

User-agent： *

Disallow： /admin/ 《禁止蜘蛛抓取admin目錄下所有文件》

3、防止盜鏈

一般盜鏈也就幾個人，可是一旦被搜索引擎“盜鏈”那你100M寬帶也吃不消，如果你做的不是圖片網(wǎng)站，又不想被搜索引擎“盜鏈”你的網(wǎng)站圖片。

User-agent： *

Disallow： .jpg$

4、提交網(wǎng)站地圖

現(xiàn)在做優(yōu)化的都知道做網(wǎng)站地圖了，可是卻沒幾個會提交的，絕大多數(shù)人是干脆在網(wǎng)頁上加個鏈接，其實robots是支持這個功能的。

Sitemap：http://域名/sitemap.xml

5、禁止某二級域名的抓取

一些網(wǎng)站會對VIP會員提供一些特殊服務(wù)，卻又不想這個服務(wù)被搜索引擎檢索到。

User-agent： *

Disallow： /

網(wǎng)站robots.txt

三、怎么對網(wǎng)站的robots.txt進(jìn)行設(shè)置?

robots.txt的幾個關(guān)鍵語法：

1、User-agent: 描述搜索引擎spider的名字。在“robots.txt“文件中，如果有多條 User-agent記錄，說明有多個robot會受到該協(xié)議的約束。所以，“robots.txt”文件中至少要有一條User- agent記錄。如果該項的值設(shè)為*(通配符)，則該協(xié)議對任何搜索引擎機(jī)器人均有效。在“robots.txt”文件中，“User-agent：*”這樣的記錄只能有一條。

2、Disallow: 要攔截的網(wǎng)址,不允許機(jī)器人訪問。

3、Allow: 允許訪問的網(wǎng)址

4、”*” : 通配符—匹配0或多個任意字符。

5、”$” : 匹配行結(jié)束符。

6、”#” : 注釋—說明性的文字,不寫也可。

7、Googlebot: 谷歌搜索機(jī)器人(也叫搜索蜘蛛)。

8、Baiduspider: 百度搜索機(jī)器人(也叫搜索蜘蛛)。

9、目錄、網(wǎng)址的寫法:都以以正斜線 (/) 開頭。

四、一些robots.txt的具體用法!

1、允許所有的robot訪問

User-agent: *

Disallow:

或者

User-agent: *

Allow: /

或者建一個空文件”robots.txt”即可。

2、僅禁止某個機(jī)器人訪問您的網(wǎng)站，如Baiduspider。

User-agent: Baiduspider

Disallow: /

3、僅允許某個機(jī)器人訪問您的網(wǎng)站，如Baiduspider。

User-agent: Baiduspider

Disallow:

User-agent: *

Disallow: /

4、禁止訪問特定目錄

User-agent: *

Disallow: /admin/

Disallow: /css/

Disallow:

5、要攔截對所有包含問號 (?) 的網(wǎng)址的訪問(具體地說，這種網(wǎng)址以您的域名開頭、后接任意字符串，然后接問號，而后又接任意字符串)，請使用以下內(nèi)容：

User-agent: *

Disallow: /*?

網(wǎng)站robots.txt

要指定與某個網(wǎng)址的結(jié)尾字符相匹配，請使用 $。例如，要攔截以 .xls 結(jié)尾的所有網(wǎng)址，請使用以下內(nèi)容：

User-agent: *

Disallow: /*.xls$

您可將此模式匹配與 Allow 指令配合使用。例如，如果 ? 代表一個會話 ID，那么您可能希望排除包含 ? 的所有網(wǎng)址，以確保 Googlebot 不會抓取重復(fù)網(wǎng)頁。但是以 ? 結(jié)尾的網(wǎng)址可能是您希望包含在內(nèi)的網(wǎng)頁的版本。在此情況下，您可以對您的 robots.txt 文件進(jìn)行如下設(shè)置：

User-agent: *

Allow: /*?$

Disallow: /*?

Disallow: /*? 指令會阻止包含 ? 的所有網(wǎng)址(具體地說，它將攔截所有以您的域名開頭、后接任意字符串，然后接問號，而后又接任意字符串的網(wǎng)址)。

Allow: /*?$ 指令將允許以 ? 結(jié)尾的任何網(wǎng)址(具體地說，它將允許所有以您的域名開頭、后接任意字符串，然后接 ?，? 之后不接任何字符的網(wǎng)址)。

當(dāng)然我們可以根據(jù)知名網(wǎng)站的robots.txt文件來修改而成，也可以使用愛站等工具按照自己的要求生成robots.txt文件。文件上傳后要驗證robots是否生效，在百度站長Robots里面優(yōu)化檢測更新，這樣就可以讓它生效了!

上一篇文章：揭秘網(wǎng)站優(yōu)化人工操作手法！你懂了嗎？

下一篇文章：哪些錯誤的網(wǎng)站優(yōu)化操作,會讓您做的關(guān)鍵詞始終無法出頭

国产www亚洲а∨天堂一区_中国国产精品一区二区三区_www99热精品视频_丰满少妇被猛烈进入av久久

首頁

網(wǎng)站優(yōu)化

網(wǎng)站建設(shè)

APP開發(fā)

微信開發(fā)

客戶案例

SEO技術(shù)

關(guān)于我們

SEO優(yōu)化

網(wǎng)站制作

APP開發(fā)

微信開發(fā)

關(guān)于我們

什么是網(wǎng)站robots.txt？我們應(yīng)該怎么做好robots文件？

一、什么是網(wǎng)站robots.txt?

二、什么時候使用robots.txt文件?

三、怎么對網(wǎng)站的robots.txt進(jìn)行設(shè)置?

四、一些robots.txt的具體用法!

什么是網(wǎng)站robots.txt？我們應(yīng)該怎么做好robots文件？

一、什么是網(wǎng)站robots.txt?

二、什么時候使用robots.txt文件?

三、怎么對網(wǎng)站的robots.txt進(jìn)行設(shè)置?

四、一些robots.txt的具體用法!

什么是網(wǎng)站robots.txt？我們應(yīng)該怎么做好robots文件？

二、什么時候使用robots.txt文件?

三、怎么對網(wǎng)站的robots.txt進(jìn)行設(shè)置?

四、一些robots.txt的具體用法!