有没有人spark on yarn 模式，开发spark streaming

老山楂 2018-10-25 10:18:22

有人遇到过container be kill 吗？查看内存，显示堆外内存一直在增长。

...全文

172 1 打赏收藏转发到动态举报

写回复

1 条回复

切换为时间正序

请发表友善的回复…

发表回复

老山楂 2018-10-25

打赏
举报

回复

网上查的解决方式是，关闭yarn 的虚拟内存检查和物理内存检查。这个的原理是，堆外内存到达最大值会执行gc ，但是为什么会一直增长呢

一、问题在YARN上停止Spark Streaming的方式比较粗暴“yarn application -kill [applicationId]”。命令执行后，YARN在分配给Streaming App的container上执行“kill -15”命令结束进程，不会考虑Streaming App的执行情况。虽然spark-yarn的ApplicationMaster在启动时加入了sh

第1章 Spark概述 1.1 什么是Spark 1、定义 Spark是-种基于内存的快速、通用、可扩展的大数据分析引擎。 2、历史 2009年诞生于加州大学伯克利分校AMPLab，项目采用Scala编写。 2010年开源， 2013年6月成为Apache孵化项目 2014年2月成为Apache顶级项目。 1.2 Spark内置模块 Spark Core：实现了Spark的基本功能，包含任务调...

对于长时间运行的Spark Streaming作业，一旦提交到YARN群集便需要永久运行，直到有意停止。任何中断都会引起严重的处理延迟，并可能导致数据丢失或重复。YARN和Apache Spark都不是为了执行长时间运行的服务而设计的。但是，它们已经成功地满足了近实时数据处理作业的常驻需求。成功并不一定意味着没有技术挑战。这篇博客总结了在安全的YARN集群上，运行一个关键任务且长时间的S...

环境 hadoop 2.2.0 + Scala 2.10.3 + Spark 0.9 + Idea 13 单机伪分布式的Yarn Idea SBT插件使用：建立SBT项目，然后在Setting中设置SBT autoimport 和 auto 创建目录结构 build.sbt name := "WordCount" version := "1.0" scalaVersion :

standalone模式配置spark 安装spark，并不需要安装scala 。 spark使用的是netty。 6066是restful接口端口；7077是m-w通信端口；8088是webui端口。启动spark集群启动时会在本地启动master，然后通过读取slaves配置文件ssh到其他节点启动slave。访问master:8080 yarn和spark的standalone模式对比 yarn的资源隔离做得更优秀。spark streaming推荐跑在yarn

1,274

社区成员

1,171

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章