网站根目录的Robots.txt是什么，有什么用-云测速

robots.txt,是一个专门给搜索引擎机器人看的指令文本。

用对了，可以保证搜索引擎正确抓取或者索引你的网站。

如果用错了，那么对SEO排名和流量会造成不好的影响，那么怎样设置robots.txt文件才算正确的呢？今天云测速就跟大家分享一点心得：

一、robots.txt是什么？

百度的解释是：
robots协议也叫robots.txt（统一小写）是一种存放于网站根目录下的ASCII编码的文本文件，它通常告诉网络搜索引擎的漫游器（又称网络蜘蛛），此网站中的哪些内容是不应被搜索引擎的漫游器获取的，哪些是可以被漫游器获取的。因为一些系统中的URL是大小写敏感的，所以robots.txt的文件名应统一为小写。robots.txt应放置于网站的根目录下。如果想单独定义搜索引擎的漫游器访问子目录时的行为，那么可以将自定的设置合并到根目录下的robots.txt，或者使用robots元数据（Metadata，又称元数据）。

robots协议并不是一个规范，而只是约定俗成的，所以并不能保证网站的隐私。

如果你的网站是cloud-ping.com,那么robots.txt的查看地址就是cloud-ping.com/robots.txt

robots.txt里头包含了一组专门给搜索引擎看的指令。

当搜索引擎或者蜘蛛爬你的网站的时候，首先会看你的robots.txt文件里头的内容，然后根据robots.txt里头的指令进行网站抓取与索引，进而决定收录哪些页面，不收录哪些页面。

二、robots.txt对SEO的影响

上面已经说过了，robots.txt主要就两个功能，允许和阻止搜索引擎抓取你的网站内容，如果没有这个文件的话，搜索引擎会抓取你网站所有内容，包括后台等。

下图是elliance关于robots.txt工作原理的说明：

1993年，互联网才起步没多久，能被发现的网站少之又少，Matthew Gray编写了一个蜘蛛爬虫程序World Wide Web Wanderer，目的是发现收集新网站做网站目录。

但后面搞爬虫的人不仅是收集网站目录这么简单，还会抓取下载大量网站数据。

同年7月，Aliweb创始人Martijn Koster的网站数据被恶意抓取，于是他提出了robots协议。

目的是告诉蜘蛛爬虫，哪些网页可以爬行，哪些网页不可以爬行，特别是那些不想被人看到的网站数据页面。经过一系列的讨论，robots.txt正式走上历史舞台。

从SEO的角度来看，新站的页面比较少，做不做robots.txt都没有关系，但是页面越来越多的时候，robots.txt对SEO的作用就非常重要了，主要有以下几个方面：

优化搜索引擎机器人的爬行抓取
阻止恶意抓取，优化服务器资源
减少重复内容出现在搜索结果中
隐藏页面链接出现在搜索结果中

三、怎样的robots.txt才是符合规范的

robots.txt是没有默认格式的，写法包括User-agent，Disallow，Allow和Crawl-delay。

User-agent: 后面填你要针对的搜索引擎，*代表全部搜索引擎
Disallow: 后面填你要禁止抓取的网站内容和文件夹，/做前缀
Allow: 后面填你允许抓取的网站内容，文件夹和链接，/做前缀
Crawl-delay: 后面填数字，意思是抓取延迟，小网站不建议使用

我们来举个例子，如果你要禁止google抓取你网站的某个目录，写法如下：

User-agent:googlebot

Disallow:/category/

如果你要禁止所有搜索引擎抓取wordpress后台目录，写法如下：

User-agent:*

Disallow:/wp-admin/

如果你只允许所有搜索引擎抓取你wordpress网站的图片，写法如下：

User-agent:Googlebot-Image

Allow:/wp-content/uploads/

具体规则可以参照google的robots.txt官方文档：

是不是看上去很复杂？头都晕了，但是如果你用的是wordpress，那么就简单许多，对于wordpress网站最佳的robots.txt写法如下：

User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Sitemap: https://www.yourdomain.com/sitemap.xml

或者是下面这个样子。

User-agent: *
Allow: /
Sitemap: https://www.yourdomain.com/sitemap.xml

以上两个的区别就是是否禁止抓取/wp-admin/

关于/wp-admin/，2012年WordPress增加了一个新标记@header( 'X-Robots-Tag: noindex' )，效果和用robots.txt禁止抓取/wp-admin/一样，如果还是不放心的话，可以加上。

至于其它不想被搜索引擎抓取的网站内容和链接，根据自己网站的需求来做就行了。

可以使用robots.txt禁止抓取，也可以使用Meta Robots做Noindex。我个人的看法是wp程序自带链接用Meta Robots，需要隐藏的网站内容页面用robots.txt。

总结

robots.txt里面的指令越少约好，避免让搜索引擎抓取出现一些问题。需要注意的是robots.txt里头的文件是区分大小写的哦~

网站根目录的Robots.txt是什么，有什么用

一、robots.txt是什么？

二、robots.txt对SEO的影响

三、怎样的robots.txt才是符合规范的

总结

相关推荐

热门文章

热门标签

服务器问题可以添加云测速微信

微信扫一扫