主页 > SEO知识 > SEO基础 >

robots.txt怎么写robots.txt文件有什么用

2018-07-24 13:00 阅读:72 来源:智宇SEO自媒体

  robots.txt是什么意思?

  百度百科的解释:

  robots.txt一般是指robots.txt协议。Robots协议(也称为搜索引擎蜘蛛协议)的全称是“网络爬虫排除标准”(Robots Exclusion Protocol),网站通过Robots协议告诉搜索引擎蜘蛛哪些页面可以抓取,哪些页面不能抓取。

  智宇认为:

  robots.txt是一个robots为名字.txt为后缀的一个文本文件。在文件里,你可以写一些允许百度等搜索引擎蜘蛛抓取收录的页面,而有些页面你不想让百度等搜索引擎抓取和收录,也可以用robots语法禁止掉。之前马云将淘宝全站禁止百度抓取的事件曾经轰动一时。但随着时间的推移,淘宝已经将很多页面允许让百度搜索蜘蛛抓取了。
 

  robots.txt语法:

  1.基本语法:

  User-agent 定义协议的搜索引擎。

  Disallow 不允许抓取

  Allow 允许抓取

  * 通配符,代表所有

  $ 结束符

  2.详情讲解:

  User-agent: * 所有的搜索引擎都要遵守

  PS:1.英文的首字母一定要大写。下同。2.问号一定是英文状态下的。下同。3.问号之后一定要有一个空格。下同。

  User-agent: Baiduspider 针对百度的协议

  Disallow: / 屏蔽全站

  Disallow: /can/ 屏蔽can文件下的所有文件

  Allow: /can/123 屏蔽can文件下的所有文件,但是允许收录123

  Disallow: /*.jpg$ 屏蔽所有的图片文件。

  PS:使用通配符,一定要有结束符。不然可能导致正常的路径被屏蔽。
 

  网站为什么要使用robots.txt

  1.统一路径

  在我们的网站中,指向页面的路径一定是有且只有一个。一旦多途径指向一个页面,会导致百度不知道收录那个页面。所以我们只要屏蔽了一个,让百度收录我们想让收录的。

  2.搜索路径

  如果我们网站中有搜索框,那么我们就要把搜索结果页面给屏蔽掉。目的就是为了防止有人使用这个搜索框捣乱。

  3.标签路径

  如果我们网站有标签页面,这个标签页面就是中文的链接,中文链接百度不认识,所以要屏蔽。

  4.js文件

  对于js文件或者其他无意义的文件,我们都可以屏蔽掉。
 

  robots.txt怎么写?

  1. 熟手自己动手写,按上面的介绍的robots语法来。

  2. 新手可以利用robots.txt生成工具,一键生成,非常简单。

  http://tool.chinaz.com/robots/
       robots.txt怎么写robots.txt文件有什么用

  robots.txt怎么检测是否成功?

  可以用百度搜索资源平台的站长工具来测试。

  站长工具->网站支持->Robots
robots.txt怎么写robots.txt文件有什么用
robots.txt怎么写robots.txt文件有什么用

  设置了robots.txt文件百度一定会遵守吗?

  当百度等搜索引擎来到我们网站的时候,会先看一看有没有这个文件,在进行下一步的抓取。但是需要注意的是,这个协议只是我们单方面的,搜索引擎遵守与否,我们管不了。但是正常情况下搜索引擎会遵守这个协议。
 

  Robots.txt生效时间是几天?

  百度内容人员曾经说过:

  不同的站点略有不同,但通常在几天内陆续生效。 其实我们可以假想下robots生效的过程:

  1. 蜘蛛发现robots文件修改并将信息传回

  2.分析修改前后的robots文件

  3.删除不允许被收录的索引数据 这个过程中肯能还会存在其他的一些步骤,然而由于每个网站蜘蛛爬的频率和网站的权重不同(网站的重要性)而导致蜘蛛发现robots更改的时间延时或者被处理的优先性不同,最终导致的结果就是robots的生效时间不同。 通过以上分析我们可以得出robots的生效时间并不是一定的。
 

  网站哪些文件是要被robots.txt屏蔽的?

  下面举例列出来:

  1、模板文件(/template/)可以屏蔽;

  2、这个文件/uploads/一般放的是图片,可以屏蔽;

  3、/data/系统数据文件,可以屏蔽;

  5、/bin/系统文件可以屏蔽;

  6、/install/安装文件可以屏蔽;

  7、/member/有会员的可以屏蔽;

  8、/logreport/有统计报告的可以屏蔽;

  9、/bjk/有加密的文件,可以屏蔽;

  10、/js/,/css/可以屏蔽,留着是为了让蜘蛛更好地了解网站结构,资源少的情况下,可以屏蔽。

  11、网站地图,sitemap要记得放进去,不要屏蔽,让蜘蛛第一时间去看你的网站地图,更快了解网站链接结构!
 

  注意事项:

  1.基础语法中PS的点。

  2.生效时间

  robots是我们和搜索引擎之间的一个单方面的协议,不是我们今天写上,明天百度就会遵守。想让百度遵守是需要一个过程的,一般情况下是两个月。但是也不排除当天写,当天生效。所以在更改robots的时候,一定要小心小心再小心。一旦你的robots错了,对整个网站的影响是巨大的。

  3.不要随便的屏蔽整站

  4.为了网站安全,不要将后台文件路径写在robots.txt文件中。比如dede做的网站,一般后台地址是dede这路径,但千万不要将路径写在robots.txt中,以免被黑客攻击。上面说到的/data /bin /install 也不要写在robots.txt文件中。