robots.txt是一个用以告知搜索引擎蜘蛛不要抓取网站某些页面或者内容的文件,绝大多数主流的搜索引擎,包括百度、Google、Bing和Yahoo都可以识别并且尊重robots.txt的请求。hostease美国Linux主机商分享robots.txt的作用以及为什么说它很重要
大多数网站都不需要robots.txt文件,因为Google通常都可以自动找到并且索引网站上的重要页面,他会自动不索引不重要的页面或其他页面的重复版本。由此可知,我们需要使用到robots.txt文件的主要原因大致有如下的几种情况:
1.阻止非公共页面
我们的网站上难免有暂时不想被编入索引的页面,例如正在编辑中的页面或者登录页面,这些页面有存在的必要,但是没有被索引的必要。在这种情况下,我们可以使用 robots.txt 阻止这些页面被搜索引擎爬虫和机器人抓取。
2.最大化抓取预算
如果你很难将所有页面编入索引,可能会遇到抓取预算问题。通过使用 robots.txt 屏蔽不重要的网页,Googlebot 可以将更多的抓取预算花在真正重要的网页上。推荐阅读:《学习SEO需要掌握哪些技巧知识》
3.防止资源索引
使用元指令可以像 robots.txt 一样防止页面被索引。但是,元指令不适用于多媒体资源,例如 PDF 和图像。这种情况就需要robots.txt来发挥作用了。
我们可以在Google Search Console中查看已编入索引的页面数:
如果该数字与你要编入索引的页数相匹配,则无需费心使用 robots.txt 文件。
但是如果该数字高于预期(并且有不应编入索引的已编入索引的 URL),那么是时候为你的网站创建一个 robots.txt 文件了。
创建一个robots.txt 文件
robots.txt是一个文本文件,我们可以直接使用Windows的记事本来创建。不过不管我们用何种方式来创建,格式都是相同的。举个例子:
User-agent: X
Disallow: Y
User-agent指你正在交谈的特地机器人,Disallow后面是你想要阻止的页面或者内容。推荐阅读:《六个2019年最常见的旅游搜索引擎优化错误》
例如:
User-agent: googlebot
Disallow: /images
这个例子目的是告诉Google的机器人不要索引网站上的图片文件。
我们还可以使用星号 (*) 与在网站上停留的所有机器人交谈。
例如:
User-agent: *
Disallow: /images
意为告诉所有机器人不要爬取网站上的图片文件。
这只是robots.txt 文件的众多用法之一,我们可以使用不通的规则来阻止或者允许机器人抓取网站的不同内容:
有了robots.txt 文件,下一步就是让它来生效,从技术上讲,robots.txt 文件可以放在站点的任何目录下,但为了增加robots.txt 文件被找到的几率,我建议将其放置在网站的根目录下。
检查错误
正确设置 robots.txt 文件非常重要,一个错误可能会导致整个网站可能会被取消索引。Google有一个机器人测试工具,可以来帮我们检测:
它会向我们展示robots.txt 文件以及它发现的任何错误和警告:
注意:robots.txt是区分大小写的,确保文件名是小写。推荐相关阅读:《新站不收录的主要原因有哪些》