robots协议之语法篇

2016-09-17 01:37 阅读 472 views 次 评论 2 条

协议就是直接与某生命体相互约束热达成的最直接利益关系。而网站虽说不是生命体,但是也是最直接的与蜘蛛达成了协议,撇清彼此之间的关系。
而当我们网站中那些没有价值或者不想让蜘蛛知道的数据都可以直接使用robots来约束。那么该协议具有那些语法呢?可以查看一下这张图
详细介绍了什么是robots协议、robot是协议语法、在使用时该注意什么

具体还是以上图为重,一下只是一下部分:

1、User-agent: 定义搜索引擎类型

2、Disallow:告诉蜘蛛不要抓取某些文件或目录

3、Allow:告诉搜索引擎蜘蛛哪些文件是可以抓取的

具体详细:

User-agent:*定义的是所有的搜索引擎

Disallow: /wp-admin/ 禁止抓取网站

wp-admin这个目录 Disallow: /readme.html /禁止抓取这readme.html文件夹

Disallow: /*&* 禁止抓取动态链接中有&这个符号的链接

Disallow: /*%*  禁止抓取动态链接中有%这个符号的链接

Disallow: /tag=* //禁止抓取动态链接中有tag=*这个符号中的链接

Disallow: /?feed //禁止抓取有?feed有这个符号的链接

Disallow: /?=* 禁止抓取有?=这个符号的链接 Sitemap: http://www.xiaofaseo.com/sitemap_baidu.xml //定义搜索搜索引擎网站地图的位置,这里没有写用户的网站地图,就不过多的重复了 区

Disallow:/xiaofa 和Disallow:/xiaofa/这样有什么区别:

Disallow:/hao 禁止文件比如:禁止蜘蛛抓取你网站的hao.html ,haoren.html,或者是hao/index.html Disallow:/hao/ 禁止的目录:搜索引擎可以访问hao.html,haoren.html,但是不能访问hao/index.html这个文件夹里面的所有内容。

注意:

注意符号细节的使用:/、:、大小写、空格等。比如:下面的例子表示所有搜索引擎不能抓取该网站;

User-agent: *

Disallow: /

推荐:打通robots 协议的任督二脉

 

版权声明:本文著作权归原作者所有,欢迎分享本文,谢谢支持!
转载请注明:robots协议之语法篇 | 小发SEO
分类:SEO实操 标签: