100%的精度是不可能的,所以有些不对劲。所有相似性指标都可以与布尔数据一起使用。请记住,空间具有非常高的维度。
您的示例数据只有两个项目(BTW ID应为0,基于旧的hadoop版本的Mahout)。因此,所示的数据集不会给出有效的精度分数。
我用大型E-Com数据集完成了这项工作,而Log-likelihood在布尔数据上的表现远远超过其他指标。
BTW Mahout已从Hadoop转向Spark,我们唯一的指标是LLR。这里实现了一个完整的Universal推荐器,它带有基于Mahout-Samsara的事件存储和预测服务器: http://templates.prediction.io/PredictionIO/template-scala-parallel-universal-recommendation 幻灯片在这里描述: http://www.slideshare.net/pferrel/unified-recommender-39986309