hadoop平台用python语言实现K-means算法。

icalus_xu 2014-05-11 09:37:19

K-means算法要迭代，直到新的中心点和之前的中心点之间的欧几里德距离小于指定的阈值。那么，这个迭代的过程，在python语言里如何实现？

...全文

634 4 打赏收藏转发到动态举报

写回复

4 条回复

切换为时间正序

请发表友善的回复…

发表回复

宅教授 2015-03-27

打赏
举报

回复

引用 2 楼 sunalive 的回复:

楼主能不能简要的介绍下Hadoop下Kmeans有什么特殊的地方？

一般，在hadoop上读取数据集一遍即可，但是k-means需要多次读取数据集。

sunalive 2015-03-15

打赏
举报

回复

楼主能不能简要的介绍下Hadoop下Kmeans有什么特殊的地方？

herofour444 2014-06-04

打赏
举报

回复

mathout中有已经集成好的kmean

实时大数据分析k-means算法 报告，源码+数据集对超市购物记录集basket_row.csv数据集中的商品名称进行聚类，实现同一类商品，不同规格汇聚成一个大类的要求。

大数据期末课设~基于spark的气象数据处理与分析完整版Word 可以拿来直接交作业

大数据管理系统项目当前项目是在管理科学与技术系（AUEB）的Chatziantoniou教授的“大数据管理系统”课程的背景下实施的。该项目的目的是使学生熟悉大数据管理系统，例如Hadoop，Redis，MongoDB和Neo4j。第一次分配-k-means算法在Hadoop上的实现第二项任务-Redis项目：关系数据库和键值系统第三项任务-mongoDB项目：关系数据库和面向文档的数据库推介会报告第四项任务-Azure流分析项目：按需实时分析作业说明 Jupyter笔记本推介会报告

一、MapReduce实现K-Means算法的基本流程 1、Map每读取一条数据就与所有选定的中心做对比，求出该条记录对应的中心，然后以中心的ID为Key，该条数据为value将数据输出。 2，利用reduce的归并功能将相同的Key归并到一起（因为map把中心的ID作为key，所以在reduce端时数据已经按照各自的中心分好了组，这是MapReduce框架自动完成的），集中与该Key对应的数

在Hadoop分布式环境下实现K-Means聚类算法的伪代码如下：输入：参数0--存储样本数据的文本文件inputfile；参数1--存储样本数据的SequenceFile文件inputPath；参数2--存储质心数据的SequenceFile文件centerPath；参数3--存储聚类结果文件(SequenceFile文件)所处的路

Hadoop生态社区

20,808

社区成员

4,690

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章