关注云服务器
相关知识分享

网站根目录的Robots.txt是什么,有什么用

robots.txt,是一个专门给搜索引擎机器人看的指令文本。

用对了,可以保证搜索引擎正确抓取或者索引你的网站。

如果用错了,那么对SEO排名和流量会造成不好的影响,那么怎样设置robots.txt文件才算正确的呢?今天云测速就跟大家分享一点心得:

一、robots.txt是什么?

百度的解释是:
robots协议也叫robots.txt(统一小写)是一种存放于网站根目录下的ASCII编码的文本文件,它通常告诉网络搜索引擎的漫游器(又称网络蜘蛛),此网站中的哪些内容是不应被搜索引擎的漫游器获取的,哪些是可以被漫游器获取的。因为一些系统中的URL是大小写敏感的,所以robots.txt的文件名应统一为小写。robots.txt应放置于网站的根目录下。如果想单独定义搜索引擎的漫游器访问子目录时的行为,那么可以将自定的设置合并到根目录下的robots.txt,或者使用robots元数据(Metadata,又称元数据)。

robots协议并不是一个规范,而只是约定俗成的,所以并不能保证网站的隐私。

如果你的网站是cloud-ping.com,那么robots.txt的查看地址就是cloud-ping.com/robots.txt

robots.txt里头包含了一组专门给搜索引擎看的指令。

当搜索引擎或者蜘蛛爬你的网站的时候,首先会看你的robots.txt文件里头的内容,然后根据robots.txt里头的指令进行网站抓取与索引,进而决定收录哪些页面,不收录哪些页面。

二、robots.txt对SEO的影响

上面已经说过了,robots.txt主要就两个功能,允许和阻止搜索引擎抓取你的网站内容,如果没有这个文件的话,搜索引擎会抓取你网站所有内容,包括后台等。

下图是elliance关于robots.txt工作原理的说明:

1993年,互联网才起步没多久,能被发现的网站少之又少,Matthew Gray编写了一个蜘蛛爬虫程序World Wide Web Wanderer,目的是发现收集新网站做网站目录。

但后面搞爬虫的人不仅是收集网站目录这么简单,还会抓取下载大量网站数据。

同年7月,Aliweb创始人Martijn Koster的网站数据被恶意抓取,于是他提出了robots协议。

目的是告诉蜘蛛爬虫,哪些网页可以爬行,哪些网页不可以爬行,特别是那些不想被人看到的网站数据页面。经过一系列的讨论,robots.txt正式走上历史舞台。

从SEO的角度来看,新站的页面比较少,做不做robots.txt都没有关系,但是页面越来越多的时候,robots.txt对SEO的作用就非常重要了,主要有以下几个方面:

  • 优化搜索引擎机器人的爬行抓取
  • 阻止恶意抓取,优化服务器资源
  • 减少重复内容出现在搜索结果中
  • 隐藏页面链接出现在搜索结果中

三、怎样的robots.txt才是符合规范的

robots.txt是没有默认格式的,写法包括User-agent,Disallow,Allow和Crawl-delay。

  • User-agent: 后面填你要针对的搜索引擎,*代表全部搜索引擎
  • Disallow: 后面填你要禁止抓取的网站内容和文件夹,/做前缀
  • Allow: 后面填你允许抓取的网站内容,文件夹和链接,/做前缀
  • Crawl-delay: 后面填数字,意思是抓取延迟,小网站不建议使用

我们来举个例子,如果你要禁止google抓取你网站的某个目录,写法如下:

User-agent:googlebot

Disallow:/category/

如果你要禁止所有搜索引擎抓取wordpress后台目录,写法如下:

User-agent:*

Disallow:/wp-admin/

如果你只允许所有搜索引擎抓取你wordpress网站的图片,写法如下:

User-agent:Googlebot-Image

Allow:/wp-content/uploads/

具体规则可以参照google的robots.txt官方文档:

是不是看上去很复杂?头都晕了,但是如果你用的是wordpress,那么就简单许多,对于wordpress网站最佳的robots.txt写法如下:

User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Sitemap: https://www.yourdomain.com/sitemap.xml

或者是下面这个样子。

User-agent: *
Allow: /
Sitemap: https://www.yourdomain.com/sitemap.xml

以上两个的区别就是是否禁止抓取/wp-admin/

关于/wp-admin/,2012年WordPress增加了一个新标记@header( 'X-Robots-Tag: noindex' ),效果和用robots.txt禁止抓取/wp-admin/一样,如果还是不放心的话,可以加上。

至于其它不想被搜索引擎抓取的网站内容和链接,根据自己网站的需求来做就行了。

可以使用robots.txt禁止抓取,也可以使用Meta Robots做Noindex。我个人的看法是wp程序自带链接用Meta Robots,需要隐藏的网站内容页面用robots.txt。

总结

robots.txt里面的指令越少约好,避免让搜索引擎抓取出现一些问题。需要注意的是robots.txt里头的文件是区分大小写的哦~

赞(0) 打赏
未经允许不得转载:云测速 » 网站根目录的Robots.txt是什么,有什么用

觉得文章有用就打赏一下文章作者吧~

微信扫一扫打赏