社区
Power Linux
帖子详情
spark用于机器学习进行数据建模,用python写可以完成吗?
科科科ke
2016-06-12 05:01:04
spark在用于机器学习进行数据建模时,用python写可以完成吗?写起来容易吗?求解啊
...全文
979
3
打赏
收藏
spark用于机器学习进行数据建模,用python写可以完成吗?
spark在用于机器学习进行数据建模时,用python写可以完成吗?写起来容易吗?求解啊
复制链接
扫一扫
分享
转发到动态
举报
写回复
配置赞助广告
用AI写文章
3 条
回复
切换为时间正序
请发表友善的回复…
发表回复
打赏红包
dingybin
2016-06-14
打赏
举报
回复
可以参考一下链接: Spark编程指南——Python版 http://www.csdn.net/article/2015-04-24/2824552
dingybin
2016-06-14
打赏
举报
回复
spark在用于机器学习进行数据建模时,可以用python。 不论是Hadoop还是spark都有python的高级接口。 Python在机器学习方面的的package有scikit-learn, libsvm;scikit learn不仅文档清晰,而且常用的算法均有实现。 python的优势不在于运行效率,而在于开发效率和高可维护性。需要针对特定的问题挑选合适的工具, 如果是数据载入和分发,用python是很高效的;如果是求一些常用的统计量和求一些基本算法的结果,python也有现成的高效的库;如果是纯粹自己写的算法,没有任何其他可借鉴的,什么库也用不上,用纯python写是自讨苦吃。
alinly
2016-06-13
打赏
举报
回复
看spark官方文档, 有python,scala,java的接口.
Spark
2.x +
Python
大数据
机器学习
实战课程
分享课程——
Spark
2.x +
Python
大数据
机器学习
实战课程,完整版视频课程下载。 本课程系统讲解如何在
Spark
2.0上高效运用
Python
来处理数据并建立
机器学习
模型,帮助读者开发并部署高效可拓展的实时
Spark
解决方案。 本课程从浅显易懂的“大数据和
机器学习
”原理说明入手,讲述大数据和
机器学习
的基本概念,如分析、分类、训练、建模、预测、推荐引擎、二元分类、多元分类、回归分析和Pipeline等;为降低学习大数据技术的门槛,提供了丰富的案例实践操作和范例程序编码,展示了如何在单机Windows系统上建立
Spark
2.x +
Python
开发环境; 适合于学习大数据基础知识的初学者,更适合正在使用
机器学习
想结合大数据技术的人员;
Python
机器学习
金融风控信用评分卡模型源码+数据,信用评分卡模型-逻辑回归模型
Python
机器学习
金融风控信用评分卡模型源码+数据,信用评分卡模型-逻辑回归模型 完整代码包 data:数据文件 code:代码文件 notebook:基于notebook的实现
基于
spark
的
机器学习
项目实战
根据图识,项目将分为三个部分。整个项目基本思路是如何通过爬虫爬取大量数据放到Hbase,然后通过ETL工具初步转化筛选将数据存到mongodb,抽取mongodb的数据
进行
清洗处理算出模型放到hdfs。后续进来数据通过模型运算出数据的类型。项目系统主要包括前端+后端+
机器学习
,前端采用React Native,Native,后端采用Dubbo+Spring+java,
机器学习
采用
Spark
进行
实现,本项目
机器学习
-
spark
代码运行在mesos上。本课程我们只针对以上图示的浅蓝色部分内容(即与
机器学习
相关的内容),通过用真实的智能客户项目系统作为案例(案例附带源码,可以直接做二次开发),主要根据项目实例穿讲
机器学习
以及相关知识,包括有:数据提取,数据清洗以及分词,数据特征值提取、
机器学习
模型计算、数据分类等等,
进行
详细讲解。本课程所需掌握的技术:java、scala、IK、Hdfs、
Spark
ml、
Spark
Streaming、
Spark
SQL、Kafka、Zookeeper、Mongodb、Spring-Data-Mongodb,由于每个技术需要掌握的程度不一样,对于我们用到的一些开源技术,课程中将会是简单介绍如何使用,不会着重讲解。课程重点讲解
spark
ml、
spark
Streaming,以及如何使用这些技术
进行
项目的实战,贯穿项目系统并且最后串联所有技术。
spark
基于2.0.1版本讲解
python
风控业务1
数据分析和预测模型:
Python
拥有丰富的数据科学库(如NumPy、Pandas和SciPy),可
用于
数据清洗、特征工程、统计分析和建模。通过使用这些库,风控团队可以对大规模数据集
进行
分析,发现潜在的风险因素,并构建预测模型来评估风险水平。
机器学习
和人工智能:
Python
提供了多个强大的
机器学习
框架(如Scikit-learn、TensorFlow和PyTorch),使风控团队能够构建和训练各种
机器学习
模型,例如决策树、随机森林、神经网络等,以更好地识别和管理风险。 数据可视化:
Python
的Matplotlib和Seaborn库可以
用于
创建丰富而具有可视化效果的图表和图形,帮助风险团队更好地理解数据,并将复杂的分析结果以可视化的方式呈现给相关利益相关者。 大数据处理:
Python
的分布式计算框架(如Apache
Spark
和Dask)可以与风险团队的大规模数据集集成,以实现快速且高效的数据处理、分析和建模。 自动化和工作流程:
Python
的脚本编
写
能力使风险团队能够自动执行常见任务,例如数据清洗、模型训练和报告生成。此外,
Python
的工作流程管理工具(如Airflow)可
spark
:Apache
Spark
-
用于
大规模数据处理的统一分析引擎
Apache
Spark
Spark
是
用于
大规模数据处理的统一分析引擎。 它提供了Scala,Java,
Python
和R中的高级API,以及优化的引擎,该引擎支持
用于
数据分析的通用计算图。 它还支持丰富的高级工具集,包括
用于
SQL和DataFrames的
Spark
SQL,
用于
机器学习
的MLlib,
用于
图形处理的GraphX和
用于
流处理的结构化流。 在线文件 您可以在找到最新的
Spark
文档,包括编程指南。 该自述文件仅包含基本的安装说明。 建筑火花
Spark
是使用构建的。 要构建
Spark
及其示例程序,请运行: ./build/mvn -DskipTests clean package
Power Linux
742
社区成员
901
社区内容
发帖
与我相关
我的任务
Power Linux
该论坛主要探讨Linux系统在IBM Power平台的安装、部署、应用开发等话题,并为网友们提供自由交流的平台。
复制链接
扫一扫
分享
社区描述
该论坛主要探讨Linux系统在IBM Power平台的安装、部署、应用开发等话题,并为网友们提供自由交流的平台。
社区管理员
加入社区
获取链接或二维码
近7日
近30日
至今
加载中
查看更多榜单
社区公告
暂无公告
试试用AI创作助手写篇文章吧
+ 用AI写文章