robots – 迁延蹉跎

robots.txt 是一个搜索引擎跟我们约定俗成的文件，通过这个文件我们来告诉搜索引擎，我们允许还是拒绝收录，允许哪些搜索引擎，拒绝哪些搜索引擎，允许搜索哪些内容，而又拒绝哪些内容被搜索引擎捕获。
robots.txt是一个简单的txt文本文件，内容也很简单，甚至可以为空。而且这个文件不是必须的。
如果你让站点被所有搜索引擎收录，那么直接不需要这个文件或者创建这个文件，内容为空就可以了。
robots.txt必须放在网站的根目录下，并且文件名为小写的“robots.txt”。
robots.txt里一般情况下只写两个函数 User-agent 和 Disallow，前一个用来定义搜索引擎的种类，后一个用来设置允许收录的内容。
需要注意的是，如果robots.txt内容不为空的话，则必须至少需要一个Disallow函数。
如果允许所有搜索引擎就这样写:

User-agent: * 星号表示允许所有搜索引擎

如果允许搜索引擎搜索全部内容就这样写：

Disallow: 没错，留空就行了。
如果全部不允许的话，添加个“/”就行了，写成： Disallow: /

例子：允许所有搜索引擎收录所有内容，可以这样写

User-agent: *
Disallow:

如果需要详细定义目录下不被允许的文件，就这样定义：

Disallow: /index.php 表示不允许抓取 http://www.example.com/index.php 这个页面。
Disallow: /index.php? 表示不允许抓取 http://www.example.com/index.php?search=xxxxxx 类似这样的动态页面。
Disallow: /index/ 表示不允许抓取index整个目录下所有内容，例如: http://www.example.com/index/index.php
Disallow: /*.jpg$ 表示不允许抓取所有jpg格式的图片文件。

如果需要详细定义搜索引擎的种类，就这样定义：

User-agent: Googlebot 配合Disallow或者Allow来定义此谷歌搜索引擎被允许或者不允许。

各搜索引擎的名称：

谷歌：Googlebot
百度：Baiduspider
雅虎：Yahoo!slurp
搜搜：Sosospider
有道：YoudaoBot

需要特别注意的是定义里使用的是英文冒号，大小写字母也不通用。