本文主要是介绍mahout之聚类实现,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
人们常数"物以类聚,人以群分",聚类就是将一个给定的文档集中相似项目分成不同簇的过程。
聚类设计的过程:
(1)一个聚类算法( k-means、模糊k-means、canopy等)
(2)相似性和不相似性的概念
a.欧式距离
b.平方欧式距离
c. 曼哈顿距离
d.余弦距离测度
e.谷本距离测度
f. 加权距离测度(TF-IDF 词项频率-逆文档频率)
(3)终
这篇关于mahout之聚类实现的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!