社区
侯勇蛟的课程社区_NO_1
Cloudera实战入门
帖子详情
20.spark升级1.0版本为2.0版本
bj278595437
2023-01-12 15:00:06
课时名称
课时知识点
20.spark升级1.0版本为2.0版本
升级很多人可能会遇到问题,这里交给大家如何升级
...全文
133
回复
打赏
收藏
20.spark升级1.0版本为2.0版本
课时名称课时知识点20.spark升级1.0版本为2.0版本升级很多人可能会遇到问题,这里交给大家如何升级
复制链接
扫一扫
分享
转发到动态
举报
写回复
配置赞助广告
用AI写文章
回复
切换为时间正序
请发表友善的回复…
发表回复
打赏红包
Spark
2.0
.2
Spark
2.2 中文文档 本资源为网页,不是PDF
本资源为网页,不是PDF Apache
Spark
2.0
.2 中文文档
Spark
概述 编程指南 快速入门
Spark
编程指南 概述
Spark
依赖
Spark
的初始化 Shell 的使用 弹性分布式数据集(RDDS) 并行集合 外部数据集 RDD 操作 RDD 持久化 共享变量 Broadcast Variables (广播变量) Accumulators (累加器) 部署应用到集群中 使用 Java / Scala 运行
spark
Jobs 单元测试
Spark
1.0
版本
前的应用程序迁移 下一步
Spark
Streaming
Spark
Streaming 概述 一个简单的示例 基本概念 依赖 初始化 StreamingContext Discretized Streams(DStreams)(离散化流) Input DStreams 和 Receivers DStreams 上的 Transformations(转换) DStreams 上的输出操作 DataFrame 和 SQL 操作 MLlib 操作 缓存 / 持久化 CheckPointing 累加器和广播变量 应用程序部署 监控应用程序 性能 降低批处理的时间 设置合理的批处理间隔 内存 容错语义 迁移指南(从 0.9.1 或者更低
版本
至 1.x
版本
) 快速跳转 Kafka 集成指南 DataFrames,Datasets 和 SQL
Spark
SQL 概述 SQL Datasets 和 DataFrames
Spark
SQL 入门指南 起始点 :
Spark
Session 创建 DataFrame 无类型 Dataset 操作(aka DataFrame 操作) 以编程的方式运行 SQL 查询 创建 Dataset RDD 的互操作性 数据源 通用的 Load/Save 函数 Parquet文件 JSON Datasets Hive 表 JDBC 连接其它数据库 故障排除 性能调优 缓存数据到内存 其它配置选项 分布式 SQL引擎 运行 Thrift JDBC/ODBC 运行
Spark
SQL CLI 迁移指南 从
Spark
SQL 1.6
升级
到
2.0
从
Spark
SQL 1.5
升级
到 1.6 从
Spark
SQL 1.4
升级
到 1.5 从
Spark
SQL 1.3
升级
到 1.4 从
Spark
SQL
1.0
~1.2
升级
到 1.3 兼容 Apache Hive 参考 数据类型 NaN 语义 Structured Streaming MLlib(机器学习) 机器学习库(MLlib)指南 ML Pipelines(ML管道) Extracting, transforming and selecting features(特征的提取,转换和选择) Classification and regression(分类和回归) Clustering(聚类) Collaborative Filtering(协同过滤) ML Tuning: model selection and hyperparameter tuning(ML调优:模型选择和超参数调整) Advanced topics(高级主题) MLlib:基于RDD的API Data Types - RDD-based API(数据类型) Basic Statistics - RDD-based API(基本统计) Classification and Regression - RDD-based API(分类和回归) Collaborative Filtering - RDD-based API(协同过滤) Clustering - RDD-based API(聚类 - 基于RDD的API) Dimensionality Reduction - RDD-based API(降维) Feature Extraction and Transformation - RDD-based API(特征的提取和转换) Frequent Pattern Mining - RDD-based API(频繁模式挖掘) Evaluation metrics - RDD-based API(评估指标) PMML model export - RDD-based API(PMML模型导出) Optimization - RDD-based API(最) GraphX(图形处理)
Spark
R 部署 集群模式概述 提交应用
Spark
Standalone 模式
Spark
on Mesos
Spark
on YARN
Spark
on YARN 上运行 准备
Spark
on YARN 配置 调试应用
Spark
属性 重要提示 在一个安全的集群中运行 用 Apache Oozie 来运行应用程序 Kerberos 故障排查
Spark
配置
Spark
监控 指南 作业调度
Spark
安全 硬件配置 构建
Spark
gradle-
1.0
-milestone-3-bin.zip
gradle
2.0
以下与以上
版本
在配置语法上有较大的差异,对于有些源码,比如S4,需要以低
版本
的gradle进行构建
云计算第三版精品课程配套PPT课件含习题(30页)第5章 Hadoop
2.0
主流开源云架构(四).rar
云计算第三版精品课程配套PPT课件含习题(30页)第5章 Hadoop
2.0
主流开源云架构(四).rar
MaxCompute架构
升级
及开放性解读.pdf
MaxCompute架构
升级
及开放性解读.pdf
侯勇蛟的课程社区_NO_1
1
社区成员
44
社区内容
发帖
与我相关
我的任务
侯勇蛟的课程社区_NO_1
复制链接
扫一扫
分享
社区管理员
加入社区
获取链接或二维码
近7日
近30日
至今
加载中
查看更多榜单
社区公告
暂无公告
试试用AI创作助手写篇文章吧
+ 用AI写文章