教学之友,学习之友。

站长教学网

当前位置: 站长教学网 > 数据库 > 搜索引擎 >

使用Robots文件限制搜索引擎蜘蛛抓取频率和时间

时间:2013-08-02 14:06来源:未知 作者:ken 点击:

国内的搜索引擎蜘蛛
 百度蜘蛛:baiduspider

搜狗蜘蛛:sogou spider

有道蜘蛛:YodaoBot和OutfoxBot

搜搜蜘蛛: Sosospider

国外的搜索引擎蜘蛛
google蜘蛛: googlebot

yahoo蜘蛛:Yahoo! Slurp

alexa蜘蛛:ia_archiver

bing蜘蛛(MSN):msnbot

bing蜘蛛(MSN):msnbot

robots.txt内容格式非常简单,用文本文件的每一行代表一个约定。


• User-Agent: 适用下列规则的漫游器

• Allow: 充许被抓取的网页

• Disallow: 要拦截的网页

Robots.txt的两个常用符号

“*”: 匹配0或多个任意字符(也有所有的意思)

“$”:匹配行结束符。

禁止某一蜘蛛抓取:
User-agent: 蜘蛛名(上面介绍得有)

Disallow: /

只充许某一蜘蛛抓取:
User-agent: 蜘蛛名(上面介绍得有)

Disallow:

User-agent: *

Disallow: /

robots.txt扩展协议

robots协议中除allow,disallow外,其扩展协议中还有Request-rate,Crawl-delay,Visit-time等,可以通过率这些协议来限制蜘蛛访问的频率,访问的时间等。

一、Crawl-delay 这个协议可以指定蜘蛛两次抓取时间的间隔值。
 语法:Crawl-delay:XX
 "XX",是指两间抓取的间隔时间,单位为秒。如果蜘蛛的抓取频率太高可以指定这个值,来减轻服务器的负担。

 二、Visit-time 指定蜘蛛的访问时间。
 语法:Visit-time:0930-1630
开头的文本行指定每天允许网络蜘蛛采集的时间段,格式为mmss-mmss,例如0930-1630

三、Request-rate 指定采集的频率
 语法:Request-rate:1/5 0600-0845
指定同一个网络蜘蛛每多少秒采集一次网页和采集时间段,例如1/5 0600-0845。

 四、禁止指定类型后缀的文件抓取

Disallow: .jpg$ 禁止抓取的格式
Disallow: .jpeg$
 Disallow: .gif$
 Disallow: .png$
 Disallow: .bmp$
 Disallow: .jpg$ 禁止抓取的格式
Disallow: .jpeg$
 Disallow: .gif$
 Disallow: .png$
 Disallow: .bmp$

另外,在网页中增加名字为“robots”的meta标签,也可以让某些网络蜘蛛不采集这一页。不过,这也只是某些网络蜘蛛认同,不是大家都认同的标准。示例如下。


==============================================================

实例

例1.禁止所有搜索引擎访问网站的任何部分
User-agent: *
 Disallow: /

例2.允许所有的robot访问 (或者也可以建一个空文件 "/robots.txt")
 User-agent: *
 Allow: /
另一种写法是
User-agent: *
 Disallow:

例3. 仅禁止Baiduspider访问您的网站
User-agent: Baiduspider
 Disallow: /

例4. 仅允许Baiduspider访问您的网站
User-agent: Baiduspider
 Allow: /

例5. 禁止spider访问特定目录 站长教学网 eduyo.com
 在这个例子中,该网站有三个目录对搜索引擎的访问做了限制,即robot不会访问这三个目录。需要注意的是对每一个目录必须分开声明,而不能写成 "Disallow: /cgi-bin/ /tmp/"。
User-agent: *
 Disallow: /cgi-bin/
 Disallow: /tmp/
 Disallow: /~joe/

例6. 允许访问特定目录中的部分url
 User-agent: *
 Allow: /cgi-bin/see
 Allow: /tmp/hi
 Allow: /~joe/look

例7. 使用"*"限制访问url
禁止访问/cgi-bin/目录下的所有以".htm"为后缀的URL(包含子目录)。
User-agent: *
 Disallow: /cgi-bin/*.htm

例8. 使用"$"限制访问url
仅允许访问以".htm"为后缀的URL。
User-agent: *
 Allow:/ .htm$

例9. 禁止访问网站中所有的动态页面
User-agent: *
 Disallow: /*?*

例10. 禁止Baiduspider抓取网站上所有图片
 仅允许抓取网页,禁止抓取任何图片。
User-agent: Baiduspider
 Disallow: /.jpg$
 Disallow: / .jpeg$
 Disallow:/ .gif$
 Disallow:/ .png$
 Disallow: /.bmp$

例11. 仅允许Baiduspider抓取网页和。gif格式图片
 允许抓取网页和gif格式图片,不允许抓取其他格式图片
User-agent: Baiduspider
 Allow: .gif$
 Disallow: /.jpg$
 Disallow:/ .jpeg$
 Disallow:/ .png$
 Disallow: /.bmp$

例12. 仅禁止Baiduspider抓取。jpg格式图片
User-agent: /Baiduspider
 Disallow:/ .jpg$
 

(责任编辑:ken)
TAG标签: 搜索引擎 蜘蛛
顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------
发表评论
请自觉遵守互联网相关的政策法规,严禁发布色情、暴力、反动的言论。
评价:
表情:
注册登录:不允许匿名留言,登录后留言无需输入验证码。
栏目列表
最新内容