怎么设置robots.txt禁止百度抓取网站特定目录

发布时间： 2015-09-24浏览：7183 次

　　搜索引擎抓取网站信息，主要通过搜索引擎蜘蛛来抓取，这里就以百度为例，就深圳网站建设和大家讲讲怎么设置robots.txt禁止或只允许搜索引擎抓取特定目录。

百度蜘蛛

　　百度抓取内容的时候，首先会访问你网站根目录下的一个文本文件robots.txt，百度机器人通过robots.txt里的说明，来理解该网站是否可以全部抓取，或只允许部分抓取。

　　注意：网站的robots.txt文件一定要存放在网站的根目录。

　　robots.txt文件举例说明

　　禁止所有搜索引擎访问网站的任何内容

　　User-agent: *

　　Disallow: /

　　禁止所有搜索引擎抓取某些特定目录

　　User-agent: *

　　Disallow: /目录名1/

　　Disallow: /目录名2/

　　Disallow: /目录名3/

　　允许访问特定目录中的部分url

　　User-agent: *

　　Allow: /158

　　Allow: /joke

　　禁止访问网站中所有的动态页面

　　User-agent: *

　　Disallow: /*?*

　　仅允许百度抓取网页和gif格式图片，不允许抓取其他格式图片

　　User-agent: Baiduspider

　　Allow: /*.gif$

　　Disallow: /*.jpg$

　　Disallow: /*.jpeg$

　　Disallow: /*.png$

　　Disallow: /*.bmp$

　　1、屏蔽404页面

　　Disallow: /404.html

　　2、屏蔽死链

　　原来在目录为/158下的所有链接，因为目录地址的改变，现在都变成死链接了，那么我们可以用robots.txt把他屏蔽掉。

　　Disallow： /158/

　　3、屏蔽动态的相似页面

　　假设以下这两个链接，内容其实差不多。

　　/XXX?123

　　/123.html

　　我们要屏掉/XXX?123 页面，代码如下：

　　Disallow： /XXX?

　　4、告诉搜索引擎你的sitemap.xml地址

　　具体代码如下：

　　Sitemap：你的sitemap地址

　　以上就是“设置robots.txt”的相关介绍，希望对大家有帮助，如果还有问题，可电话0755-82925166咨询，或者咨询在线客服。