由于您的任务相当简单,并且正如您所说,您是ML的新手,我建议您使用weka,因为它易于使用且拥有庞大的用户社区。
否则,这里有一些Java中的通用机器学习框架,您可以查看:
资源: 非常棒的机器学习
你有一个非常小的文本数据集,你可以使用任何库 - 它并不重要。更高级的选项需要更多的数据而不是有意义,所以这不是一个值得考虑的问题。处理文本分类问题的简单方法是使用a 一袋字 模型和线性分类器。 Weka和MALLET都支持这一点。
就我个人而言,我发现Weka是一个痛苦而MALLET记录不佳/过时,所以我使用 JSAT 。有一个关于垃圾邮件分类的例子 这里 。
(偏见警告,我是JSAT的作者)。