spark streaming 输出采用gzip压缩，导致direct memory 内存泄漏

qq_19917081 2017-03-06 02:11:04

spark streaming 对接kafka ，然后自定义输出，保存到hdfs，按文件内容，一小时为一批文件，实现文件追加，采用gzip压缩输出文件，但是运行起来后，发现executor 过几个小时就被yarn kill掉，然后启动新的，追踪发线是因为压缩导致的direct memory 内存泄漏，因为压缩使用java的NIO，会使用direct memory，求解决方法！！

...全文

335 回复打赏收藏转发到动态举报

写回复

回复

切换为时间正序

请发表友善的回复…

发表回复

1.Spark Streaming：大数据实时计算介绍2.Spark Streaming：DStream基本工作原理3.Spark Streaming：StreamingContext详解技能点4.Spark Streaming：输入DStream和Receiver详解5.Spark Streaming：DStream的transformation操作概览

Hbase的优化服务端优化： hbase.regionserver.handler.count：rpc请求的线程数量，默认值是10，生产环境建议使用100，特别大的时候scan/put几M的数据，会占用过多的内存，有可能导致频繁的GC，甚至oom。 hbase.regionserver.hlog.splitlog.writer.threads：默认值是3，建议设为10，日志切割...

面试题 1、HashMap 和 Hashtable 区别 HashMap和Hashtable的存储和遍历都是无序的！继承的类不同：HashMap继承的是AbstractMap类；Hashtable 继承Dictionary类。但是都实现了Map接口。线程安全问题：hashmap是非线程安全的，底层是一个Entry数组，put进来的数据，会计算其hash值，然后放到对应的bucket上去，当发生hash冲突的时候，hashmap是采用链表的方式来解决的，在对应的数组位置存放链表的头结点，对链表而言，新加

Map端会处理输入数据并产生中间结果,这个中间结果会写到本地磁盘,每个Map的输出会先写到内存缓冲区中,当写入的数据达到设定的阈值时,系统将会启动一个线程将缓冲区的数据写到磁盘,这个过程叫做spill(spill写入之前,会先进行二次排序,首先根据数据所属的partition进行排序,然后每个partition中的数据再按key来排序 . partition的目是将记录划分到不同的Reducer上去,以期望能够达到负载均衡,以后的Reducer就会根据partition来读取自己对应的数据 . 接着运行co

1,258

社区成员

1,168

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章