18038435860

robots.txt写法详解

时间:2018-09-14 20:20:08 点击:1315 来源:易速网络

robots.txt对于任何一个做网站的人应该都不陌生,它只是一个纯文本文件,但是却可以限制搜索引擎蜘蛛对网站的爬行,下面具体介绍一下robots.txt。

robots.txt简介

robots.txt位于网站的根目录下,当spider访问一个网站(例:http://www.yiisu.com)时候,首先会检查该网站中是否存在http://www.yiisu/robots.txt这个文件,如果存在就会遵循robots.txt的规则去爬行网站。

robots.txt写法

注:robots.txt区分大小写,如php.html和PHP.html会被识别为不同的文件,书写robots.txt时所有字符均为英文半角。

1、例子

User-agent: Baiduspider

Disallow: /

这是拒绝百度蜘蛛访问的写法。

2、User-agent

User-agent表示搜索引擎robot的名字,书写robots.txt必须有User-agent

User-agent:*

表示所有的robot

User-agent:Baiduapider

表示百度spider

3、Disallow

Disallow表示不允许访问

Disallow:

不允许访问为空,表示允许访问任何目录

Disallow: /

表示不允许访问任何目录,注:在/前有一个空格

4、Allow

Allow表示允许访问,意思和用法与Disallow相反,在此不再过多叙述。

具体用法举例

1、允许所有蜘蛛访问所有目录

User-Agent: *

Allow: /

2、禁止所有蜘蛛访问

User-Agent: *

Disallow: /

3、允许所有蜘蛛访问某个目录

User-Agent: *

Allow: /php/

4、禁止蜘蛛访问某几个目录

User-Agent: *

Disallow: /php/

Disallow: /java/

5、禁止蜘蛛访问动态页面

User-Agent: *

Disallow: /*?*