当前位置:首页 > 经验交流 > 北京SEO之站内robots.txt文件
Aug16th

北京SEO之站内robots.txt文件

阿呆 经验交流 0 Comments 人阅读了此文 我来说两句!

  前期阿呆给大家说了很多SEO的知识,当大家了解了什么是內链什么是外链什么是网站权重之后,阿呆在这里再来给大家说说关于站点内的一个文件——robots.txt

  robots.txt文件是针对于爬虫创建的,当爬虫来到站点之后首先会去查看robots.txt文件,该文件的作用是告诉爬虫本站内哪些目录是可以访问,哪些目录是不允许访问的,简单的说该文件就相当于直接对爬虫起作用的访问控制列表。

  为什么阿呆要介绍这个文件,原因是因为有效的运用robots.txt文件对于网站优化是有很大的好处的,比如说有些站长没有采用robots.txt文件,导致的直接后果可能是网站的后台某些页面被爬虫抓去,这将是作为站长的我们不希望看见的;也有种情况就是文章发布出来了,结构爬虫收录的是一些评论页面,导致用户搜索时虽然显示的是本站信息,但是点击链接过来之后显示的实际上是文章评论页面。如果说我们在架设站点之前就已经很好的规划出哪些目录是不允许爬虫抓取或者访问的,我们将不会面临上面的困扰。

  关于robots.txt文件需要注意的:

  1、robots.txt必须放置在一个站点的根目录下;
  2、文件名必须全部小写;

  关于robots.txt大家的误区:

  1、站点的全部内容都允许被爬虫访问,那么是不是不必设置robots.txt文件?
  答案是否定的,原因是因为爬虫到我们这来了之后,访问的第一个文件就是robots.txt文件,我们知道爬虫如果访问了一个不存在的页面是会返回一个404错误消息的,这个时候由于爬虫没有找到robots.txt文件,爬虫同样会返回一个404错误消息,因此即使你允许爬虫访问所有该站的所有目录,阿呆也建议各位站长添加上robots.txt文件。

  2、按照上面的说法我在站点根目录下放置了一个robots.txt文件,并且全部允许,是不是能够提供我的网站收录情况呢?
  答案同样是否定的,因为站点内除了页面,也存在一些样式表(CSS)或者一些脚本调用文件(JS),这些文件即使被爬虫抓取到,对于网站收录是没有任何增加的,而且这样对爬虫也是不友好的。

  3、爬虫来我这抓取页面太消耗我的服务器资源,我能不能在robots.txt文件中禁止爬虫访问所有目录呢?
  当然可以,但是记住,搜索引擎更新排名的依据就是来至于爬虫的返回结果,如果站点本身就拒绝了爬虫的访问,试问一下,你的站点还会被收录吗?

  通过上面的介绍,阿呆相信大家对于robots.txt文件也有一定的了解了,关于如何去写robots.txt文件,网上很多地方都有介绍,大家不妨去搜索下吧!

文章作者:北京SEO— 阿呆
本文地址:http://www.365lab.com.cn/SEO/site_seo_robots.html
版权所有 © 转载时必须以链接形式注明作者和原始出处!

to "北京SEO之站内robots.txt文件"

此楼已盖到第0层了,目前尚未封顶!

(友情提示:本博支持Ctrl+Enter提交评论)