什么是Robots协议?
robots是网站跟爬虫间的协议,用简单直接的txt格式文本方式告诉对应的爬虫被允许的权限,也就是说robots.txt是搜索引擎中访问网站的时候要查看的第一个文件。当一个搜索蜘蛛访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果存在,搜索机器人就会按照该文件中的内容来确定访问的范围;如果该文件不存在,所有的搜索蜘蛛将能够访问网站上所有没有被口令保护的页面。
robots.txt基本语法
- User-agent:描述搜索引擎robot的名字
即 : 你可以指定该规则只对baidu 或者google 或者其它指定搜索引擎有效 可用通配符 *表示全部 - Disallow: 描述不希望被访问的一组URL
即:设定禁止访问的部分,可以用完整url,也可以用相对路径,可以是单个目文件,也可以是整个文件夹,也可以用通配符限定指定类型 - Allow: 描述希望被访问的一组URL
即:设定允许访问的部分,不过因为默认是全部允许的,这个语法通常是配合disallow使用的,用它来完成 如“除了xxx.html该目录下全部不能访问”这样的设定。 要注意的是allow和disallow的顺序是有讲究的,搜索引擎会以它先看到的规则为判断标准。 - Sitemap:指示蜘蛛去爬取网站的sitemap文件
- 通配符:"$" 匹配行结束符;"*" 匹配0或多个任意字符
注意:robots.txt必须放置在一个站点的根目录下,而且文件名必须全部小写。
如何查看自己的网站是否配置了robots.txt?
- 访问http(s)://你的域名/robots.txt即可
- 通过百度站长平台查看
如何编写一个保护网站隐私的robots.txt文件?
具备以下要求即可:
- 要求所有搜索引擎遵循我的这个协议
- 禁止蜘蛛抓取我的后台地址和Typecho的安装路径
- 指引蜘蛛去抓取我的Sitemap
不清楚(懒得写)的朋友们可以参考以下规则
首先新建一个文本文档并重命名为robots.txt。
typecho默认是没有robots.txt文件的,需要我们自行创建,且文件名要小写。Sitemap要替换为你的网站的Sitemap所在路径。
User-agent: *
Allow: /*.html$
Allow: /usr
Allow: /*.png$
Allow: /*.jpg$
Allow: /*.jepg$
Allow: /*.gif$
Allow: /*.bmp$
Disallow: /admin/
Disallow: /install/
Disallow: /var/
Disallow: /config.inc.php
Disallow: /install.php
Sitemap: http(s)://你的域名/sitemap.xml
这样既可以保护我们网站的隐私安全,又可以正确的引导搜索引擎爬取我们网站的内容,提高收录的概率。
Comments | NOTHING