Mahout介绍
What is Mahout, why need it?
Mahout 是机器学习和数据挖掘的一个分布式框架,区别于其他的开源数据挖掘软件,它是基于hadoop之上的; 所以Mahout的优势就是hadoop的优势。官网http://mahout.apache.org/ 上说的Scalable就是指hadoop的可扩展性。
Mahout用map-reduce实现了部分数据挖掘算法,解决了并行挖掘的问题。这里说的“解决”是一个初步的概念,很多算法由于各种原因是无法用map-reduce并行实现的。
Supported Algorithms?
?
?
也可以在MAHOUT_HOME/src/conf/driver.classes.props文件中查看各个算法的入口,如果要添加新的算法,也可以在这个文件中注册。

?
算法的执行:
例如执行贝叶斯分类 (训练过程)
MAHOUT_HOME/bin目录下 执行./mahout trainclassifier -h 查看参数
?

?