除了搜索引擎机器人之外还有许多有用的机器人,并且有越来越多的搜索引擎。在任何情况下,您要阻止的机器人可能使用了不正确的用户代理字符串并忽略了您的robots.txt文件,那么您将如何阻止它们?一旦检测到它们就可以阻止某些IP层,但对于其他层则很难。
用户代理字符串与爬网率无关。数百万浏览器用户都使用相同的用户代理字符串。网站根据您的IP地址限制访问。如果您想更快地抓取他们的网站,您将需要更多代理,但实际上,您不应该这样做 - 您的抓取工具应该是礼貌的,并且应该慢慢地抓取每个单独的网站,同时在许多其他网站上取得进展。
Crawler应该是每个域的礼貌。单个IP可以服务于许多不同的服务器,但对于来回传递数据包的路由器来说,这并不是一件容易的事。每个服务器都可能会限制您维护多个连接的能力以及可以消耗的带宽。还有一个由多个网站提供服务的IP地址场景(例如循环DNS或更聪明的东西):有时像这样的网站上的带宽和连接限制将发生在路由器级别,所以再一次,每个域名礼貌。