资讯动态,技术知识

淄博网站优化介绍如何屏蔽蜘蛛爬取网站?

2019-04-16 | 阅读:

  淄博网站优化介绍如何屏蔽蜘蛛爬取网站?

  robots协议文件屏蔽百度蜘蛛抓取

  robots协议是放在网站根目录下的协议文件,可以通过网址+robots.txt访问,当百度蜘蛛抓取我们的网站时,它会先访问这个文件。因为它告诉蜘蛛哪些能抓,哪些不能。

  robots协议文件的设置比较简单,可以通过User-Agent、Disallow、Allow这三个参数进行设置。

  User-Agent:对不同搜索引擎的声明;

  Disallow:不允许抓取的目录或页面;

  Allow:被允许抓取的目录或页面通常可以省略或不写,因为如果你不写任何不能抓取的东西,它就可以被抓取。

  通过403状态码,限制内容输出,屏蔽蜘蛛抓取。

  403状态代码是http协议中的网页返回状态代码。当搜索引擎遇到403状态代码时,它知道这些页面受权限限制。我无法访问它。例如,如果您需要登录才能查看内容,搜索引擎本身将无法登录。如果您返回403,他也知道这是权限设置页面,无法读取内容。当然,它不会被包括在内。

  返回403状态代码时,应该有一个类似于404页面的页面。提示用户或蜘蛛执行他们想要访问的内容。两者都是不可或缺的。您只有提示页面,状态代码返回200,这是百度蜘蛛的大量重复页面。有403个状态代码但返回不同的内容。这也不是很友好。

  最后,对于机器人协议,我想补充一点:“现在,搜索引擎将通过网页的布局和布局来识别网页的用户友好性。如果阻止css文件和js文件相关到布局,然后搜索引擎我不知道你的网页布局是好是坏。因此不建议阻止这些内容来自蜘蛛。