Typecho网站配置robots.txt文件


什么是Robots协议?

robots是网站跟爬虫间的协议,用简单直接的txt格式文本方式告诉对应的爬虫被允许的权限,也就是说robots.txt是搜索引擎中访问网站的时候要查看的第一个文件。当一个搜索蜘蛛访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果存在,搜索机器人就会按照该文件中的内容来确定访问的范围;如果该文件不存在,所有的搜索蜘蛛将能够访问网站上所有没有被口令保护的页面。

robots.txt基本语法

  1. User-agent:描述搜索引擎robot的名字
    即 : 你可以指定该规则只对baidu 或者google 或者其它指定搜索引擎有效 可用通配符 *表示全部
  2. Disallow: 描述不希望被访问的一组URL
    即:设定禁止访问的部分,可以用完整url,也可以用相对路径,可以是单个目文件,也可以是整个文件夹,也可以用通配符限定指定类型
  3. Allow: 描述希望被访问的一组URL
    即:设定允许访问的部分,不过因为默认是全部允许的,这个语法通常是配合disallow使用的,用它来完成 如“除了xxx.html该目录下全部不能访问”这样的设定。 要注意的是allow和disallow的顺序是有讲究的,搜索引擎会以它先看到的规则为判断标准。
  4. Sitemap:指示蜘蛛去爬取网站的sitemap文件
  5. 通配符:"$" 匹配行结束符;"*" 匹配0或多个任意字符

注意:robots.txt必须放置在一个站点的根目录下,而且文件名必须全部小写。

如何查看自己的网站是否配置了robots.txt?

  1. 访问http(s)://你的域名/robots.txt即可
  2. 通过百度站长平台查看

如何编写一个保护网站隐私的robots.txt文件?

具备以下要求即可:

  1. 要求所有搜索引擎遵循我的这个协议
  2. 禁止蜘蛛抓取我的后台地址和Typecho的安装路径
  3. 指引蜘蛛去抓取我的Sitemap

不清楚(懒得写)的朋友们可以参考以下规则

首先新建一个文本文档并重命名为robots.txt。
typecho默认是没有robots.txt文件的,需要我们自行创建,且文件名要小写。Sitemap要替换为你的网站的Sitemap所在路径。

User-agent: *
Allow: /*.html$
Allow: /usr
Allow: /*.png$
Allow: /*.jpg$
Allow: /*.jepg$
Allow: /*.gif$
Allow: /*.bmp$
Disallow: /admin/
Disallow: /install/
Disallow: /var/
Disallow: /config.inc.php
Disallow: /install.php
Sitemap: http(s)://你的域名/sitemap.xml

这样既可以保护我们网站的隐私安全,又可以正确的引导搜索引擎爬取我们网站的内容,提高收录的概率。

声明:极客角度|版权所有,违者必究|如未注明,均为原创|本网站采用BY-NC-SA协议进行授权

转载:转载请注明原文链接 - Typecho网站配置robots.txt文件


拒绝拖延,勇于表达!