mahout聚类结果可视化

千岛酱 2013-05-11 12:33:54

不知道有没有人熟悉hadoop上的数据挖掘框架mahout的？
想请教一下如何把聚类结果绘制成二维散点图？

...全文

427 3 打赏收藏转发到动态举报

写回复

3 条回复

切换为时间正序

请发表友善的回复…

发表回复

撸大湿 2013-05-11

打赏
举报

回复

引用 1 楼 xiezijiang111 的回复:

忘了说，每个数据的向量维度大概是几百，是不是要先降维才可视化呢？mahout里面怎么实现数据降维呢？

我没有做过MAHOUT降维，给你个连接，可能对你有帮助聚类之MinHash

撸大湿 2013-05-11

打赏
举报

回复

引用楼主 xiezijiang111 的回复:

不知道有没有人熟悉hadoop上的数据挖掘框架mahout的？想请教一下如何把聚类结果绘制成二维散点图？

散点图和mahout没有太大的关系。 mahout只负责聚类的输入-处理-输出图的生成需要CLIENT端展现

千岛酱 2013-05-11

打赏
举报

回复

忘了说，每个数据的向量维度大概是几百，是不是要先降维才可视化呢？mahout里面怎么实现数据降维呢？

大数据分析及处理方法全文共3页，当前为第1页。大数据分析及处理方法全文共3页，当前为第1页。大数据分析及处理方法大数据分析及处理方法全文共3页，当前为第1页。大数据分析及处理方法全文共3页，当前为第1页。大数据的处理周涛博士说：大数据处理数据时代理念的三大转变：要全体不要抽样，要效率不要肯定精确，要相关不要因果。具体的大数据处理方法其实有许多，但是依据长时间的实践，笔者总结了一个基本的大数据处理流程，并且这个流程应当能够对大家理顺大数据的处理有所关心。整个处理流程可以概括为四步，分别是采集、导入和预处理、统计和分析，以及挖掘。采集大数据的采集是指利用多个数据库来接收发自客户端(Web、App或者传感器形式等)的数据，并且用户可以通过这些数据库来进行简洁的查询和处理工作。比方，电商会使用传统的关系型数据库MySQL和Oracle等来存储每一笔事务数据，除此之外，Redis和MongoDB这样的NoSQL数据库也常用于数据的采集在大数据的采集过程中，其主要特点和挑战是并发数高，因为同时有可能会有成千上万的用户来进行访问和操作，比方火车票售票网站和淘宝，它们并发的访问量在峰值时到达上百万，所以需要在采集端部署大量数据库才能支撑。并且如何在这些数据库之间进行负载均衡和分片确实是需要深入的思索和设计。导入/预处理虽然采集端本身会有许多数据库，但是假如要对这些海量数据进行有效的分析，还是应当将这些来自前端的数据导入到一个集中的大型分布式数据库，或者分布式存储集群，并且可以在导入基础上做一些简洁的清洗和预处理工作。也有一些用户会在导入时使用来自Twitter的Storm来对数据进行流式计算，来满足部分业务的实时计算需求。大数据分析及处理方法全文共3页，当前为第2页。大数据分析及处理方法全文共3页，当前为第2页。导入与预处理过程的特点和挑战主要是导入的数据量大，每秒钟的导入量常常会到达百兆，甚至千兆级别。统计/分析统计与分析主要利用分布式数据库，或者分布式计算集群来对存储于其内的海量数据进行一般的分析和分类汇总等，以满足大多数常见的分析需求，在这方面，一些实时性需求会用到EMC 的GreenPlum、Oracle的Exadata，以及基于MySQL的列式存储Infobright等，而一些批处理，或者基于半结构化数据的需求可以使用Hadoop。统计与分析这部分的主要特点和挑战是分析涉及的数据量大，其对系统资源，特殊是I/O会有极大的占用。挖掘与前面统计和分析过程不同的是，数据挖掘一般没有什么预先设定好的主题，主要是在现有数据上面进行基于各种算法的计算，从而起到预报(Predict)的效果，从而实现一些高级别数据分析的需求。比较典型算法有用于聚类的K-Means、用于统计学习的SVM和用于分类的Naive Bayes，主要使用的工具有Hadoop的Mahout等。该过程的特点和挑战主要是用于挖掘的算法很冗杂，并且计算涉及的`数据量和计算量都很大，还有，常用数据挖掘算法都以单线程为主。大数据分析的五个基本方面 1. Analytic Visualizations(可视化分析) 不管是对数据分析专家还是一般用户，数据可视化是数据分析工具最基本的要求。可视化可以直观的展示数据，让数据自己说话，让观众听到结果。 2. Data Mining Algorithms(数据挖掘算法) 可视化是给人看的，数据挖掘就是给机器看的。集群、分割、孤立点分析还有其他的算法让我们深入数据内部，挖掘价值。这些算法不仅要处理大数据的量，也要处理大数据的速度。大数据分析及处理方法全文共3页，当前为第3页。大数据分析及处理方法全文共3页，当前为第3页。 3. Predictive Analytic Capabilities(预报性分析能力) 数据挖掘可以让分析员更好的理解数据，而预报性分析可以让分析员依据可视化分析和数据挖掘的结果做出一些预报性的推断。 4. Semantic Engines(语义引擎) 我们知道由于非结构化数据的多样性带来了数据分析的新的挑战，我们需要一系列的工具去解析，提取，分析数据。语义引擎需要被设计成能够从"文档"中智能提取信息。 5. Data Quality and Master Data Management(数据质量和数据管理) 数据质量和数据管理是一些管理方面的最正确实践。通过标准化的流程和工具对数据进行处理可以保证一个预先定义好的高质量的分析结果。假如大数据真的是下一个重要的技术革新的话，我们最好把精力关注在大数据能给我们带来的好处，而不仅仅是挑战。大数据分析及处理方法全文共3页，当前为第2页。大数据分析及处理方法全文共3页，当前为第2页。大数据分析及处理方法全文共3页，当前为第3页。大数据分析

1、在mahout中，org.apache.mahout.utils.clustering.ClusterDumper类可以将聚类结果输出，如果是打印在控制台，则可以使用： ClusterDumper clusterdumper=new ClusterDumper(sequentialfile,clusterpoints); clusterdumper.printClusters

[size=x-large]介绍：[/size] Mahout 提供了可视化样本聚类的事例，根据以下聚类算法： * Canopy Clustering * Dirichlet * Kmeans * FuzzyKMeans * MeanShift [size=x-large]预先准备[/size] 为了可视化聚类，你需要执行mahout-e...

第一部分：学习Mahout必须要知道的资料查找技能：学会查官方帮助文档：解压用于安装文件（mahout-distribution-0.6.tar.gz），找到如下位置，我将该文件解压到win7的G盘mahout文件夹下，路径如下所示： G:\mahout\mahout-distribution-0.6\docs 学会查源代码的注释文档：方案一：用ma...

这里介绍 Kmeans 聚类算法，K-Means 聚类算法在之前就介绍过，只不过哪个时候用的是 mahout 算法的原理和过程不再介绍了，在 NLP 专栏可以找到，不再累述，主要是这里增加了一个聚类结果可视化工具 TSNE,它的定位是高维数据的可视化，TSNE 提供了一种有效的数据降维方式，让我们可以在 2 维或者 3 维的空间对高维数据展示聚类结果。数据consumption_data.x...

Hadoop生态社区

20,808

社区成员

4,690

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章