Z | 迁延蹉跎 来日无多

迁延蹉跎 来日无多
  1. 首页
  2. 分享
  3. 正文

设置robots.txt文件来管理搜索引擎收录

2014年10月14日 866点热度 0人点赞 0条评论

robots.txt 是一个搜索引擎跟我们约定俗成的文件,通过这个文件我们来告诉搜索引擎,我们允许还是拒绝收录,允许哪些搜索引擎,拒绝哪些搜索引擎,允许搜索哪些内容,而又拒绝哪些内容被搜索引擎捕获。
robots.txt是一个简单的txt文本文件,内容也很简单,甚至可以为空。而且这个文件不是必须的。
如果你让站点被所有搜索引擎收录,那么直接不需要这个文件或者创建这个文件,内容为空就可以了。
robots.txt必须放在网站的根目录下,并且文件名为小写的“robots.txt”。
robots.txt里一般情况下只写两个函数 User-agent 和 Disallow,前一个用来定义搜索引擎的种类,后一个用来设置允许收录的内容。
需要注意的是,如果robots.txt内容不为空的话,则必须至少需要一个Disallow函数。
如果允许所有搜索引擎就这样写:

User-agent: * 星号表示允许所有搜索引擎

如果允许搜索引擎搜索全部内容就这样写:

Disallow: 没错,留空就行了。
如果全部不允许的话,添加个“/”就行了,写成: Disallow: /

例子:允许所有搜索引擎收录所有内容,可以这样写

User-agent: *
Disallow:

如果需要详细定义目录下不被允许的文件,就这样定义:

Disallow: /index.php 表示不允许抓取 http://www.example.com/index.php 这个页面。
Disallow: /index.php? 表示不允许抓取 http://www.example.com/index.php?search=xxxxxx 类似这样的动态页面。
Disallow: /index/ 表示不允许抓取index整个目录下所有内容,例如: http://www.example.com/index/index.php
Disallow: /*.jpg$ 表示不允许抓取所有jpg格式的图片文件。

如果需要详细定义搜索引擎的种类,就这样定义:

User-agent: Googlebot 配合Disallow或者Allow来定义此谷歌搜索引擎被允许或者不允许。

各搜索引擎的名称:

谷歌:Googlebot
百度:Baiduspider
雅虎:Yahoo!slurp
搜搜:Sosospider
有道:YoudaoBot

需要特别注意的是定义里使用的是英文冒号,大小写字母也不通用。

标签: robots 搜索
最后更新:2021年9月5日

Z

这个人很懒,什么都没留下

点赞
< 上一篇
下一篇 >

文章评论

razz evil exclaim smile redface biggrin eek confused idea lol mad twisted rolleyes wink cool arrow neutral cry mrgreen drooling persevering
取消回复

Z

这个人很懒,什么都没留下

最新 热点 随机
最新 热点 随机
终端体验提升:zsh-syntax-highlighting高亮zsh可用命令 终端体验提升:Zsh+Oh-my-zsh Debian10安装Shadowsocks-libev Navicat数据库管理软件 LNMP开启Mysql远程访问 批量替换wordpress文章内容
Debian中打开exim4邮件功能 扩展主题的functions.php功能 LNMP开启Mysql远程访问 使用wp_enqueue_script() 函数加载JS和css 不用插件实现代码语法高亮 修改wordpress可能的安全隐患
标签聚合
vps wordpress tips shadowsocks debian 外链 chrome linux wordpress

COPYRIGHT © 2021 zhuzhilei.com. ALL RIGHTS RESERVED.

Theme Kratos Made By Seaton Jiang