大数据挖掘系列课：Spark Mllib 机器学习实战

CSDN学习官方账号

博客专家认证

2018-04-17 02:11:42

本课程以理论+实践相结合的形式授课，学完后您将掌握：
1. 熟悉大数据挖掘与机器学习基本流程
2. 掌握Spark 基础与核心概念
3. 了解推荐系统原理
4. 了解Spark MLlib类库
5. 掌握Spark 推荐系统实现原理与方法
6. 掌握使用Spark Mllib进行大数据挖掘算法开发

如果说云计算还有些忽悠概念之嫌，而以Spark为基础的大数据则显得更为脚踏实地一些。在互联网思维、互联网经济、移动互联、电子商务等新兴产业纷纷走上历史舞台的大背景下，越来越多的数据使得单纯扩展服务器硬盘容量、提升磁盘阵列性能等传统的存储数据的方式越来越不适应企业的实际需求，以Spark架构为代表的分布式计算平台也必然成为时代的新宠，大数据时代来临了，大数据分析行业也应运而生。

从所周知，大数据已经不简简单单是数据大的事实了，而最重要的现实是对大数据进行分析，只有通过分析才能获取很多智能的，深入的，有价值的信息。那么越来越多的应用涉及到大数据，而这些大数据的属性，包括数量，速度，多样性等等都是呈现了大数据不断增长的复杂性，所以大数据的分析方法在大数据领域就显得尤为重要，可以说是决定最终信息是否有价值的决定性因素。本次课程将带大家，深入学习如何使用Spark MLlib进行机器学习项目开发。

01 Spark Mllib 机器学习实践课程第一节：机器学习与数据挖掘原理入门
02 Spark Mllib 机器学习实践课程第二节：Spark MLlib 深入浅出
03 Spark Mllib 机器学习实践课程第三节：Spark Mllib推荐系统实践
钱兴会
楚门智能数据学院创始人
Cloudera认证管理员及讲师
原阿里巴巴资深数据平台研发工程师，算法研发工程师
原联想集团电商数据平台资深架构师
8年大数据平台研发经验，咨询经验。为多家企业提供大数据咨询业务。涉及电信，银行，电力等多个行业。搭建大数据集群超过2000+节点
擅长Spark平台研发与优化，实时计算应用平台架构设计与研发。搭建过超200节点的Spark集群。

1. 熟悉大数据挖掘与机器学习基本流程
2. 掌握Spark 基础与核心概念
3. 了解推荐系统原理
4. 了解Spark MLlib类库
5. 掌握Spark 推荐系统实现原理与方法
6. 掌握使用Spark Mllib进行大数据挖掘算法开发

相关链接：https://edu.csdn.net/huiyiCourse/series_detail/93?utm_source=edu_bbs_autocreate

...全文

2532 回复打赏收藏转发到动态举报

写回复

回复

切换为时间正序

请发表友善的回复…

发表回复

全栈数据之门 , 任柳江 pdf 高清带目录扫描版

《全栈数据之门》以数据分析领域最热的Python语言为主要线索，介绍了数据分析库numpy、Pandas与机器学习库scikit-learn，使用了可视化环境Orange 3来理解算法的一些细节。对于机器学习，既有常用算法kNN与Kmeans的应用，决策树与随机森林的实战，还涉及常用特征工程与深度学习中的自动编程器。在大数据Hadoop与Hive环境的基础之上，使用Spark的ML/MLlib库集成了前面的各部分内容，让分布式机器学习更容易。大量的工具与技能实战的介绍将各部分融合成一个全栈的数据科学内容。, 《全栈数据之门》不是从入门到精通地介绍某一种技术，可以把《全栈数据之门》当成一本技术文集，内容定位于数据科学的全栈基础入门，全部内容来自当前业界最实用的技能，有非常基础的，也有比较深入的，有些甚至需要深入领悟才能理解。, 《全栈数据之门》适用于任何想在数据领域有所作为的人，包括学生、爱好者、在职人员与科研工作者。无论想从事数据分析、数据工程、数据挖掘或者机器学习，或许都能在书中找到一些之前没

⼤数据⼯程师学习计划申明：本⽂旨在为普通程序员（Java程序员最佳）提供⼀个⼊门级别的⼤数据技术学习路径，不适⽤于⼤数据⼯程师的进阶学习，也不适⽤于零编程基础的同学。前⾔⼀、背景介绍本⼈⽬前是⼀名⼤数据⼯程师，项⽬数据50T，⽇均数据增长20G左右，个⼈是从Java后端开发，经过3个⽉的业余⾃学成功转型⼤数据⼯程师。⼆、⼤数据介绍⼤数据本质也是数据，但是⼜有了新的特征，包括数据来源⼴、数据格式多样化（结构化数据、⾮结构化数据、Excel⽂件、⽂本⽂件等）、数据量⼤（最少也是TB级别的、甚⾄可能是PB级别）、数据增长速度快等。如果你对⼤数据开发感兴趣，想系统学习⼤数据的话，可以加⼊⼤数据技术学习交流扣群：数字4583+数字45782，私信管理员即可免费领取开发⼯具以及⼊门学习资料针对以上主要的4个特征我们需要考虑以下问题：数据来源⼴，该如何采集汇总？对应出现了Sqoop，Cammel，Datax等⼯具。数据采集之后，该如何存储？对应出现了GFS，HDFS，TFS等分布式⽂件存储系统。由于数据增长速度快，数据存储就必须可以⽔平扩展。数据存储之后，该如何通过运算快速转化成⼀致的格式，该如何快速运算出⾃⼰想要的结果？对应的MapReduce这样的分布式运算框架解决了这个问题；但是写MapReduce需要Java代码量很⼤，所以出现了Hive，Pig等将SQL转化成MapReduce的解析引擎；普通的MapReduce处理数据只能⼀批⼀批地处理，时间延迟太长，为了实现每输⼊⼀条数据就能得到结果，于是出现了Storm/JStorm这样的低时延的流式计算框架；但是如果同时需要批处理和流处理，按照如上就得搭两个集群，Hadoop集群（包括HDFS+MapReduce+Yarn）和Storm集群，不易于管理，所以出现了Spark这样的⼀站式的计算框架，既可以进⾏批处理，⼜可以进⾏流处理（实质上是微批处理）。⽽后Lambda架构，Kappa架构的出现，⼜提供了⼀种业务处理的通⽤架构。为了提⾼⼯作效率，加快运速度，出现了⼀些辅助⼯具： Ozzie，azkaban：定时任务调度的⼯具。 Hue，Zepplin：图形化任务执⾏管理，结果查看⼯具。 Scala语⾔：编写Spark程序的最佳语⾔，当然也可以选择⽤Python。 Python语⾔：编写⼀些脚本时会⽤到。 Allluxio，Kylin等：通过对存储的数据进⾏预处理，加快运算速度的⼯具。以上⼤致就把整个⼤数据⽣态⾥⾯⽤到的⼯具所解决的问题列举了⼀遍，知道了他们为什么⽽出现或者说出现是为了解决什么问题，进⾏学习的时候就有的放⽮了。正⽂⼀、⼤数据相关⼯作介绍⼤数据⽅向的⼯作⽬前主要分为三个主要⽅向：⼤数据⼯程师数据分析师⼤数据科学家其他（数据挖掘等）⼆、⼤数据⼯程师的技能要求附上⼤数据⼯程师技能图：必须掌握的技能11条 Java⾼级(虚拟机、并发) Linux 基本操作 Hadoop（HDFS+MapReduce+Yarn ） HBase（JavaAPI操作+Phoenix ） Hive(Hql基本操作和原理理解） Kafka Storm/JStorm Scala Python Spark (Core+sparksql+Spark streaming ）辅助⼩⼯具(Sqoop/Flume/Oozie/Hue等) ⾼阶技能6条 机器学习算法以及mahout库加MLlib R语⾔ Lambda 架构 Kappa架构 Kylin Alluxio 三、学习路径假设每天可以抽出3个⼩时的有效学习时间，加上周末每天保证10个⼩时的有效学习时间； 3个⽉会有（213+4210）3=423⼩时的学习时间。第⼀阶段（基础阶段） 1）Linux学习（跟鸟哥学就ok了）-----20⼩时 Linux操作系统介绍与安装。 Linux常⽤命令。 Linux常⽤软件安装。 Linux⽹络。防⽕墙。 Shell编程等。 2）Java ⾼级学习（《深⼊理解Java虚拟机》、《Java⾼并发实战》）---30⼩时掌握多线程。掌握并发包下的队列。了解JMS。掌握JVM技术。掌握反射和动态代理。 3）Zookeeper学习 Zookeeper分布式协调服务介绍。 Zookeeper集群的安装部署。 Zookeeper数据结构、命令。 Zookeeper的原理以及选举机制。第⼆阶段（攻坚阶段） 4）Hadoop （《Hadoop 权威指南》）---80⼩时 HDFS HDFS的概念和特性。 HDFS的shell操作。 HDFS的⼯作机制。 HDFS的Java应⽤开发。 MapReduce 运⾏WordCount⽰例程序。了解MapReduce内部

====================================== ============================ 8.1.1 什么是机器学习 机器学习可以看做是一门人工智能的科学，该领域的主要研究对象是人工智能。机器学习利用数据或以往的经验，以此优化计算机程序的性能标准。 机器学习强调三个关键词：算法、经验、性能从最小二乘法说起 ......

【大数据技术】Spark MLlib机器学习协同过滤电影推荐实战（附源码和数据集）

相关截图：资料简介：本书以Spark 1.4.1版本源码为切入点，全面并且深入地解析Spark MLlib模块，着力于探索分布式机器学习的底层实现。本书循序渐进，首先解析MLlib的底层实现基础：数据操作及矩阵向量计算操作，该部分是MLlib实现的基础；其次再对各个机器学习算法的理论知识进行讲解，并且解析机器学习算法如何在MLlib中实现分布式计算；然后对MLlib源码进行详细的讲解；最后进行M...

下载资源悬赏专区

12,876

社区成员

12,426,556

社区内容

发帖

与我相关

我的任务

其他技术论坛（原bbs）

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章