设置robots.txt文件来管理搜索引擎收录

robots.txt 是一个搜索引擎跟我们约定俗成的文件,通过这个文件我们来告诉搜索引擎,我们允许还是拒绝收录,允许哪些搜索引擎,拒绝哪些搜索引擎,允许搜索哪些内容,而又拒绝哪些内容被搜索引擎捕获。
robots.txt是一个简单的txt文本文件,内容也很简单,甚至可以为空。而且这个文件不是必须的。
如果你让站点被所有搜索引擎收录,那么直接不需要这个文件或者创建这个文件,内容为空就可以了。
robots.txt必须放在网站的根目录下,并且文件名为小写的“robots.txt”。
robots.txt里一般情况下只写两个函数 User-agent 和 Disallow,前一个用来定义搜索引擎的种类,后一个用来设置允许收录的内容。
需要注意的是,如果robots.txt内容不为空的话,则必须至少需要一个Disallow函数。
如果允许所有搜索引擎就这样写:

User-agent: * 星号表示允许所有搜索引擎

如果允许搜索引擎搜索全部内容就这样写:

Disallow: 没错,留空就行了。
如果全部不允许的话,添加个“/”就行了,写成: Disallow: /

例子:允许所有搜索引擎收录所有内容,可以这样写

User-agent: *
Disallow:

如果需要详细定义目录下不被允许的文件,就这样定义:

Disallow: /index.php 表示不允许抓取 http://www.example.com/index.php 这个页面。
Disallow: /index.php? 表示不允许抓取 http://www.example.com/index.php?search=xxxxxx 类似这样的动态页面。
Disallow: /index/ 表示不允许抓取index整个目录下所有内容,例如: http://www.example.com/index/index.php
Disallow: /*.jpg$ 表示不允许抓取所有jpg格式的图片文件。

如果需要详细定义搜索引擎的种类,就这样定义:

User-agent: Googlebot 配合Disallow或者Allow来定义此谷歌搜索引擎被允许或者不允许。

各搜索引擎的名称:

谷歌:Googlebot
百度:Baiduspider
雅虎:Yahoo!slurp
搜搜:Sosospider
有道:YoudaoBot

需要特别注意的是定义里使用的是英文冒号,大小写字母也不通用。