看一下 魏旭 等(2010) 有关挖掘Google生产控制台日志的经验 以及他们引用的工作。总之,他们:
你可能做不到1.但也许你可以提取编写自己的“解析器”的变量。
还有一个 DARPA挑战 发现这种数据的攻击,但这已经快15年了。
有一些工具,如 Splunk的 ,除了一个漂亮的界面,他们提供的不仅仅是简单的搜索和过滤。更新:有一个异常检测插件 prelert 。
我不知道更多。如果您发现其他任何事情,请告诉我。
那么我会做什么:
从日志中提取功能/变量
您可能无法访问生成消息的源代码,但我认为大部分日志可以被少量模式覆盖(例如,所有防火墙日志都具有相同的模式)。您可以编写正则表达式解析器从这些日志中提取功能(例如,在某些时间拒绝连接)。
尝试异常检测(PCA,或者只是偏离它们的平均值)并对它们进行预测。