如何保护/监控您的网站不被恶意用户抓取

作者: 青年@
发布时间: 2025-03-17 01:29:09 (1月前)
转自：

            情况：

包含受用户名/密码保护的内容的网站（因为他们可以是试用/测试用户，所以不受控制）
正常搜索

发动机
</跨度>
由于用户名/密码限制网站，无法得到它

政策
</跨度>
是不允许爬行/抓取）

我可以想到一些选择：

设置一些流量监控解决方案，以限制给定用户/ IP的请求数量。
与第一个相关

8 条回复

0#
回复此人
别闹 | 2019-08-31 10-32

选项3的问题在于，一旦刮刀计算出正在发生的事情，自动注销将是微不足道的。

编辑
1#
回复此人
哈哈 | 2019-08-31 10-32

简短的回答：它不能可靠地完成。

您可以通过简单地阻止在某个时间范围内导致一定数量命中的IP地址（一些Web服务器支持开箱即用，其他需要一些模块，或者您可以通过解析日志文件来完成它，例如使用iptables）。），但你需要注意不要阻止主要的搜索引擎爬虫和大型ISP的代理。

编辑
2#
回复此人
一腔诗意喂了狗 | 2019-08-31 10-32

取决于我们所讨论的恶意用户类型。

如果他们知道如何使用wget，他们可能会设置Tor并每次获得新IP，慢慢复制你拥有的所有内容。我不认为你可以在不给你的（支付？）用户带来不便的情况下阻止这种情况。

它与游戏，音乐，视频上的DRM相同。如果最终用户应该看到某些内容，则无法保护它。

编辑
3#
回复此人
一腔诗意 | 2019-08-31 10-32

Apache有一些带IP限制的模块AFAIK，对于我自己的大量Java / JSP应用程序，我有很多数字内容，我自己编写了servlet过滤器来做同样的事情（并限制来自一个IP块的同时连接等）。

我同意上面的评论，它最好是微妙的，以便恶意用户无法判断他们是否/何时绊倒你的警报，因此不知道采取规避行动。在我的情况下，我的服务器似乎变得缓慢，片状和不可靠（所以那时没有变化）…

RGDS

达蒙

编辑
4#
回复此人
清月 | 2019-08-31 10-32
@frankodwyer：
- 只有受信任的用户代理才能工作，尤其要考虑由addons或.net版本修改的IE用户代理字符串。会有太多的可能性，它可以伪造。
- 第3点的变化，通知管理员可能会有效，但如果管理员没有不断监控日志，则意味着无法确定延迟。
@Greg Hewgill：
- 自动注销还会禁用用户帐户。至少必须创建一个新帐户，留下更多的路径，如电子邮件地址和其他信息。
随机更改3的logout / disable-url会很有趣，但不知道我将如何实现它:)
编辑
5#
回复此人
易米烊光 | 2019-08-31 10-32

我不建议自动锁定，不是因为它们必然是邪恶的，而是因为它们向恶意用户提供他们绊倒传感器的即时反馈，让他们知道不要对他们签署的下一个帐户做同样的事情起来。

并且用户代理阻止可能不会非常有用，因为显然用户代理很容易伪造。

关于你可以做的最好的事情是监控，但是如果你发现恶意行为，你还是要问你要做什么。只要您有不受控制的访问权限，您锁定的任何人都可以在不同的身份下再次注册。我不知道你需要什么样的信息才能获得一个帐户，但只是一个名字和电子邮件地址，对任何人来说都不会是一个障碍。

这是典型的DRM问题 - 如果有人能看到这些信息，那么任何人都可以用它做任何他们想做的事情。你可以让它变得困难，但最终如果某人真的有决心，你就无法阻止它们，并且你冒着干扰合法用户和伤害你的业务的风险。

编辑
6#
回复此人
无语 | 2019-08-31 10-32

http://recaptcha.net

每次有人登录或注册时。也许你可以每隔十次显示验证码。

编辑

登录后才能参与评论