社区
Spark
帖子详情
Apache Mahout和Apache Spark's MLib的不同之处是什么?
ElastiCache
2014-07-28 11:33:41
考虑到一个MySQL数据库有1000万产品的电子商务网站。 我试图建立一个分类模块来进行产品分类,使用Apache Sqoop把MySQL数据导入到Hadoop。使用Mahout作为一个机器学习框架,并使用该框架中的分类算法,Spark中提供了MLlib,在这里有两个问题:
1. 这两种框架有什么不同?
2. 主要的优势、缺点以及每个的局限性
...全文
393
1
打赏
收藏
Apache Mahout和Apache Spark's MLib的不同之处是什么?
考虑到一个MySQL数据库有1000万产品的电子商务网站。 我试图建立一个分类模块来进行产品分类,使用Apache Sqoop把MySQL数据导入到Hadoop。使用Mahout作为一个机器学习框架,并使用该框架中的分类算法,Spark中提供了MLlib,在这里有两个问题: 1.这两种框架有什么不同? 2.主要的优势、缺点以及每个的局限性
复制链接
扫一扫
分享
转发到动态
举报
AI
作业
写回复
配置赞助广告
用AI写文章
1 条
回复
切换为时间正序
请发表友善的回复…
发表回复
打赏红包
yiming_21
2014-07-29
打赏
举报
回复
它们主要的区别将来自底层的框架。若Mahout主要是Hadoop MapReduce框架,而MLib则是Spark。更具体的说就是它们工作负载的差异。如果将你的ML算法映射到单一的MR时,它们主要的区别是启动所耗费的时间,Hadoop MR需要耗费几十秒,而Spark仅仅只需要1秒钟。 倘若将你的算法映射到大量的任务的时候则会有很大的不同,在这种情况下,倘若对于每次迭代具有相同的差异,请看下面的例子 假设需要100次迭代,每次需要CPU运行5秒: Spark:总共需要花费100*5+100*1=600秒 Hadoop:总共需要花费100*5+100*30=3500秒 在同一时间的Hadoop MR是更加成熟的框架,其次是Spark。如果你有大量的数据需要处理,那么稳定则是最重要的,这里可以考虑Mahout作为替代的选择。
Hadoop技术选型分析报告V4.0.pdf
本文包含整个Hadoop生态所涉及的所有开源组件及原生
Apache
Hadoop产品与Cloudera发行的Hadoop产品、国产华为Hadoop、大快搜索Hadoop等综合分析架构及原理等。
既生
Mahout
,何生
Spark
MLlib ?
Apache
Mahout
与
Spark
MLlib均是
Apache
下的项目,都是机器学习算法库,并且现在
mahout
已经不再接受MapReduce的作业了,也向
Spark
转移。那两者有什么关系呢?我们在应用过程中该作何取舍?既然已经有了
Mahout
,为什么还会再有MLlib的盛行呢?虽然在后续资料搜集解决疑惑的过程中,
Mahout
和MLlib并非“瑜”和“亮”的关系,但是小编在最初还是忍不住冒出“
数据挖掘与机器学习的联系与区别、挖掘工具
Mahout
、
Spark
MLlib讲解,
Mahout
和MLlib支持的机器学习算法列举
一. 数据挖掘与机器学习 二. 数据挖掘工具
Mahout
讲解 三.
Mahout
在各平台所支持的机器学习算法 四. 数据挖掘工具MLlib讲解 五. MLlib 所支持的机器学习算法 一. 数据挖掘与机器学习 数据挖掘是识别出海量数据中有效的、新颖的、潜在有用的、最终可理解的模式的非平凡过程,简单来说就是从海量数据中找出有用的知识。机器学习起初的研究动机是为了让计算机系统具有人的学习能力,以便实现人工智能。机器学习利用经验来改善计算机系统自身的性能,由于“经验”在计算机系统中是以..
基于
Mahout
、
Spark
Mlib
实现的推荐系统——算法讲解
一、推荐算法 推荐算法组成 推荐算法应用 社交推荐 电影推荐 1.1 线性代数里的矩阵分解: 1)ALS(Alternating Least Square交替最小二乘法) 2)三角分解 3) SVD(奇异值)分解 4)QR分解 5)Jordan分解 6)满秩分解
Mahout
和
spark
MLlib里面,就是特指使用 ALS 的一种推荐算法。 1.2 构造一个完整的推...
Java应用|使用
Apache
Spark
MLlib构建机器学习模型
Apache
Spark
MLlib(Machine Learning library)是一个开源机器学习框架,建立在
Apache
Spark
之上,支持分布式计算和大规模数据处理。它提供了许多经典机器学习算法和工具,如分类、回归、聚类、协同过滤、特征提取和数据预处理等。
Spark
MLlib使用基于DataFrame的API,提供了一个易于使用的高级API,使得用户能够快速构建、训练和调整机器学习模型,而无需担心底层分布式计算的复杂性。
Spark
1,270
社区成员
1,170
社区内容
发帖
与我相关
我的任务
Spark
Spark由Scala写成,是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行计算框架,Spark基于MapReduce算法实现的分布式计算。
复制链接
扫一扫
分享
社区描述
Spark由Scala写成,是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行计算框架,Spark基于MapReduce算法实现的分布式计算。
社区管理员
加入社区
获取链接或二维码
近7日
近30日
至今
加载中
查看更多榜单
社区公告
暂无公告
试试用AI创作助手写篇文章吧
+ 用AI写文章