你为什么不 的 为Apache Hadoop / Mahout做出贡献 强> 通过帮助他们实施其他算法?
https://cwiki.apache.org/confluence/display/MAHOUT/Algorithms
有许多算法标记为“开放”。据我了解,他们可以帮助实施这些?此列表中甚至缺少数百种算法。
无论如何,既然你想用Hadoop做点什么,为什么不呢 的 问他们需要什么 强> 而不是在一些随机的网站上询问?
看到 http://www.quora.com/Machine-Learning/What-are-some-good-class-projects-for-machine-learning-using-MapReduce
和一些好的玩具项目开始: http://www.quora.com/Programming-Challenges-1/What-are-some-good-toy-problems-in-data-science
试着想一个在Hadoop上实现分层聚合聚类的有效方法是一个很好的项目。它不仅涉及算法方面,还涉及与hadoop核心框架相关的优化。
你没有写任何关于你的兴趣的文章。 我知道图挖掘中的算法已经在hadoop框架上实现了。这个软件 http://www.cs.cmu.edu/~pegasus/ 和论文:“PEGASUS:Peta-Scale图形挖掘系统 - 实施和观察”可以为您提供起点。
此外,此链接讨论与您的问题类似的内容: http://atbrox.com/2010/02/08/parallel-machine-learning-for-hadoopmapreduce-a-python-example/ 但它是在python中。 而且,Andrew Ng撰写了一篇非常好的论文“用于多核机器学习的Map-Reduce”。
有一个关于类似主题“大规模机器学习:并行性和大规模数据集”的NIPS 2009研讨会。您可以浏览一些论文并获得一个想法。
编辑:还有Apache Mahout http://mahout.apache.org/ - >“我们用于群集,分类和基于批处理的协同过滤的核心算法是在Apache Hadoop上使用map / reduce范例实现的”