社区
Spark
帖子详情
spark streaming 输出采用gzip压缩,导致direct memory 内存泄漏
qq_19917081
2017-03-06 02:11:04
spark streaming 对接kafka ,然后自定义输出,保存到hdfs,按文件内容,一小时为一批文件,实现文件追加,采用gzip压缩输出文件,但是运行起来后,发现executor 过几个小时就被yarn kill掉,然后启动新的,追踪发线是因为压缩导致的direct memory 内存泄漏,因为压缩使用java的NIO,会使用direct memory,求解决方法!!
...全文
335
回复
打赏
收藏
spark streaming 输出采用gzip压缩,导致direct memory 内存泄漏
spark streaming 对接kafka ,然后自定义输出,保存到hdfs,按文件内容,一小时为一批文件,实现文件追加,采用gzip压缩输出文件,但是运行起来后,发现executor 过几个小时就被yarn kill掉,然后启动新的,追踪发线是因为压缩导致的direct memory 内存泄漏,因为压缩使用java的NIO,会使用direct memory,求解决方法!!
复制链接
扫一扫
分享
转发到动态
举报
写回复
配置赞助广告
用AI写文章
回复
切换为时间正序
请发表友善的回复…
发表回复
打赏红包
第一章:
Spark
Streaming
实时计算
1.
Spark
Streaming
:大数据实时计算介绍2.
Spark
Streaming
:DStream基本工作原理3.
Spark
Streaming
:
Streaming
Context详解技能点4.
Spark
Streaming
:输入DStream和Receiver详解5.
Spark
Streaming
:DStream的transformation操作概览
hbase、hadoop、
spark
Streaming
、
spark
Core,
spark
Shuffle的调优
Hbase的优化 服务端优化: hbase.regionserver.handler.count:rpc请求的线程数量,默认值是10,生产环境建议使用100,特别大的时候scan/put几M的数据,会占用过多的内存,有可能
导致
频繁的GC,甚至oom。 hbase.regionserver.hlog.splitlog.writer.threads:默认值是3,建议设为10,日志切割...
大数据简单面试题
面试题 1、HashMap 和 Hashtable 区别 HashMap和Hashtable的存储和遍历都是无序的! 继承的类不同:HashMap继承的是AbstractMap类;Hashtable 继承
Di
ctionary类。但是都实现了Map接口。 线程安全问题:hashmap是非线程安全的,底层是一个Entry数组,put进来的数据,会计算其hash值,然后放到对应的bucket上去,当发生hash冲突的时候,hashmap是
采用
链表的方式来解决的,在对应的数组位置存放链表的头结点,对链表而言,新加
数据分析大数据面试题大杂烩02
Map端会处理输入数据并产生中间结果,这个中间结果会写到本地磁盘,每个Map的
输出
会先写到内存缓冲区中,当写入的数据达到设定的阈值时,系统将会启动一个线程将缓冲区的数据写到磁盘,这个过程叫做spill(spill写入之前,会先进行二次排序,首先根据数据所属的partition进行排序,然后每个partition中的数据再按key来排序 . partition的目是将记录划分到不同的Reducer上去,以期望能够达到负载均衡,以后的Reducer就会根据partition来读取自己对应的数据 . 接着运行co
Hive优化
发
Spark
1,258
社区成员
1,168
社区内容
发帖
与我相关
我的任务
Spark
Spark由Scala写成,是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行计算框架,Spark基于MapReduce算法实现的分布式计算。
复制链接
扫一扫
分享
社区描述
Spark由Scala写成,是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行计算框架,Spark基于MapReduce算法实现的分布式计算。
社区管理员
加入社区
获取链接或二维码
近7日
近30日
至今
加载中
查看更多榜单
社区公告
暂无公告
试试用AI创作助手写篇文章吧
+ 用AI写文章