那么,让我试着在这里提供一些想法。
您应该使用以下技术组合:
机器人将保持腿部爬行器;
在客户端使用一些Javascript验证来保留大多数爬虫(这些很少能够运行Javascript);
在服务器端,使用a
用户代理服务
识别和过滤用户代理;
跟踪IP地址,以便您可以对“已知违规者”进行一次性禁令;
</醇>
要在#2上进一步扩展,您的目标网页可以使用JavaScript删除具有“已知”值的Cookie,该值可以映射回发起方。一个示例是获取用户代理和IP地址并计算哈希。这仍然可以伪造,但大多数违法者只会决定忽略您的网站,而不是努力绕过您的保护措施。
希望这可以帮助。