塞玛特提供有关如何应对机器人,蜘蛛和爬虫的提示

.htaccess文件除了创建搜索引擎友好的URL外,还使网站管理员可以阻止特定的漫游器访问其网站。阻止这些机械手的一种方法是通过robots.txt文件。但是, Semalt客户成功经理Ross Barber指出,他已经看到一些爬虫程序忽略了此请求。最好的方法之一是使用.htaccess文件阻止它们索引您的内容。

这些机器人是什么?

它们是搜索引擎用来从Internet删除新内容以建立索引的一种软件。

他们执行以下任务:

  • 访问您链接到的网页
  • 检查您的HTML代码是否有错误
  • 他们保存您链接到的网页,并查看链接到您内容的网页
  • 他们索引您的内容

但是,某些漫游器是恶意软件,会在您的站点上搜索通常用于向您发送不需要的消息或垃圾邮件的电子邮件地址和表单。其他人甚至在代码中寻找安全漏洞。

阻止网络爬网程序需要什么?

使用.htaccess文件之前,您需要检查以下事项:

1.您的站点必须在Apache服务器上运行。如今,即使那些网络托管公司的工作做得还不错,您也可以访问所需的文件。

2.您应该有权访问自己的网站原始服务器日志,以便可以找到哪些bot正在访问您的网页。

请注意,除非您阻止所有有害的bot,即使您认为有帮助的机器人,也无法阻止所有有害的bot。每天都有新的机器人出现,而旧的机器人则被修改。最有效的方法是保护您的代码,并使僵尸程序很难向您发送垃圾邮件。

识别机器人

可以通过IP地址或从其在HTTP标头中发送的“用户代理字符串”来识别Bot。例如,谷歌使用“ Googlebot”。

如果您已经拥有要使用.htaccess保留的机器人名称,则可能需要包含302个机器人的列表。

另一种方法是从服务器下载所有日志文件,然后使用文本编辑器打开它们。它们在服务器上的位置可能会根据服务器的配置而改变。如果找不到它们,请向您的网络主机寻求帮助。

如果您知道访问了哪个页面或访问了什么时间,那么使用不需要的漫游器会更容易。您可以使用这些参数搜索日志文件。

一次,您已经指出了需要阻止的机器人。您可以将它们包含在.htaccess文件中。请注意,阻止bot并不能阻止它。它可能会返回一个新的IP或名称。

如何阻止他们

下载.htaccess文件的副本。如果需要,请进行备份。

方法1:通过IP阻止

此代码段使用IP地址197.0.0.1阻止了漫游器

拒绝订单,允许

从197.0.0.1拒绝

第一行表示服务器将阻止所有与您指定的模式匹配的请求,并允许所有其他请求。

第二行告诉服务器发出403:禁止页面

方法2:被用户代理阻止

最简单的方法是使用Apache的重写引擎

RewriteEngine开

RewriteCond%{HTTP_USER_AGENT} BotUserAgent

RewriteRule。 -[F,L]

第一行确保已启用重写模块。第二行是规则适用的条件。第4行中的“ F”告诉服务器返回403:“禁止”,而“ L”表示这是最后一条规则。

然后,您将.htaccess文件上传到您的服务器并覆盖现有文件。随着时间的流逝,您将需要更新机器人的IP。如果发生错误,只需上传您所做的备份。