• 祝贺祖国70周年节日快乐

robots.txt协议文件怎么写利于搜索引擎优化?

SEO教程 小铭呐 11个月前 (05-05) 147次浏览 已收录 0个评论

 

一、网站robots是什么

  网站robots是指robots协议,也成为爬虫协议、机器人协议,全称是“网络爬虫排除标准”,告诉搜索引擎那些页面可以抓取,哪些不可以抓取。其含义就是针对搜索引擎所定位的标准。

在网站优化的过程中,网站有一些内容是我们不希望蜘蛛抓取的,如果没有规范,搜索引擎蜘蛛就会随便抓取,就可能会抓取到一些我们不想让它抓取到的内容,或者是抓取到了大量的垃圾页面,为避免这种情况,这个时候就会涉及到robots协议

robots.txt协议文件怎么写利于搜索引擎优化?

二、什么是robots协议?

1、搜索引擎和我们网站的一个协议。我不想让你来抓取我网站的某个页面,只要定义了,蜘蛛就不会来抓取。用来防止搜索引擎抓取我们不想抓取的,告诉蜘蛛程序在服务器上什么文件可以被抓取,什么文件可以不被抓取。

2、一个单方面的协议,也是百度第一个来我们网站抓取的文件。

3、上线前就要写好,后续再进行增加。

4、robots文件名和.txt格式是固定的,即:robots.txt

5、robots.txt仅对你的网站不希望被搜索引擎收录的内容。

搜索引擎应该遵循的robots协议,但是,却不想法律一样具有强性, 所以这就导致有些搜索引擎可能会不遵循网站的robots协议,其结果就是不想被抓取的页面也被抓取收录,比如:网站后台登录页面等。

 

三、robots语法

语法要符合:

(1)顶格写,第一个字母必须是一个大写的。

(2)后面紧跟着英文状态下的冒号。

(3)冒号后面再跟着一个在英文状态下的空格。

(4)蜘蛛名的第一个字母也要是大写。

 

四、robots写法

(1)禁止所有的搜索引擎访问网站的所有内容。

User-agent: *

Disallow: /

*代表所有搜索引擎,/代表所有路径。

新站上线的时候还有很多东西没有准备好,这个时候很多人就会选择禁止所有的搜索引擎访问网站的所有内容,这种做法是不对的,这里就涉及到一个搜索引擎原理,蜘蛛有记忆库,蜘蛛就会对你产生不好的影响,后面就算来了也不太愿意收录了。 在测试阶段可以在本地搭建或是临时域名。一定要上线的话,先开放首页,不要全站屏蔽,起码让蜘蛛有东西可抓。

(2)禁止百度搜索引擎访问网站的所有内容。

User-agent: Baiduspider

Disallow: /

(3)允许所有搜索引擎访问所有内容。

User-agent: *

Allow: /

(4)允许所有搜索引擎抓取动态页面内容。

User-agent: *

Allow: /*?*

(5)不允许所有搜索引擎抓取动态页面内容。

User-agent: *

Disallow: /*?*

 

五、上传文件

1、robots写好之后,将其命名为:robots.txt

2、将robots.txt文件上传到根目录。

 

六、注意点

1、如果你希望搜索引擎能抓取网站上所有的内容,就不需要写robots协议。

2、写好robots文件,要把文件上传到网站的根目录。

3、生效时间:短的几天,长则半个月一个月的都有,根据蜘蛛抓取的情况决定。

4、robots文件一定要根据自己的网站来写。

5、搜索引擎是否遵守由搜索引决定。由搜索引擎本身决定,一般来说会遵守,但有些不会遵守。比如说淘宝和天猫就被抓了一个首页,到底遵守不遵守还是有搜索引擎决定。

6、新站建议不要整站屏蔽。

7、对与不对,可以检测自己是否正确屏蔽生效。-+


小铭SEO , 版权所有丨如未注明 , 均为原创丨本网站采用BY-NC-SA协议进行授权
转载请注明原文链接:robots.txt协议文件怎么写利于搜索引擎优化?
喜欢 (0)
小铭呐
关于作者:
发表我的评论
取消评论
表情 贴图 加粗 删除线 居中 斜体 签到

Hi,您需要填写昵称和邮箱!

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址