常见问题

怎么设置robots.txt禁止百度抓取网站特定目录

发布时间: 2015-09-24浏览:6539 次

  搜索引擎抓取网站信息,主要通过搜索引擎蜘蛛来抓取,这里就以百度为例,就深圳网站建设和大家讲讲怎么设置robots.txt禁止或只允许搜索引擎抓取特定目录。

  百度抓取内容的时候,首先会访问你网站根目录下的一个文本文件robots.txt,百度机器人通过robots.txt里的说明,来理解该网站是否可以全部抓取,或只允许部分抓取。

  注意:网站的robots.txt文件一定要存放在网站的根目录。

  robots.txt文件举例说明

  禁止所有搜索引擎访问网站的任何内容

  User-agent: *

  Disallow: /

  禁止所有搜索引擎抓取某些特定目录

  User-agent: *

  Disallow: /目录名1/

  Disallow: /目录名2/

  Disallow: /目录名3/

  允许访问特定目录中的部分url

  User-agent: *

  Allow: /158

  Allow: /joke

  禁止访问网站中所有的动态页面

  User-agent: *

  Disallow: /*?*

  仅允许百度抓取网页和gif格式图片,不允许抓取其他格式图片

  User-agent: Baiduspider

  Allow: /*.gif$

  Disallow: /*.jpg$

  Disallow: /*.jpeg$

  Disallow: /*.png$

  Disallow: /*.bmp$

  1、屏蔽404页面

  Disallow: /404.html

  2、屏蔽死链

  原来在目录为/158下的所有链接,因为目录地址的改变,现在都变成死链接了,那么我们可以用robots.txt把他屏蔽掉。

  Disallow: /158/

  3、屏蔽动态的相似页面

  假设以下这两个链接,内容其实差不多。

  /XXX?123

  /123.html

  我们要屏掉/XXX?123 页面,代码如下:

  Disallow: /XXX?

  4、告诉搜索引擎你的sitemap.xml地址

  具体代码如下:

  Sitemap: 你的sitemap地址

  以上就是“设置robots.txt”的相关介绍,希望对大家有帮助,如果还有问题,可电话0755-82925166咨询,或者咨询在线客服。