spark outof memory:GC limit错误如何处理?
一头大菜鸟 2014-10-21 04:29:29 小弟最近刚开始学习spark现在用spark streaming实现userbased的推荐系统
那么问题来了:
我是直接让系统在maptopair的时候把整个训练集load进来。训练集的格式如下:
userid,itemid,rating
userid,itemid,rating
....
这样使用String.split数组去解析的时候总是报out od memory,GC limit错误,可能是读取的速度太快了,GC不能很快的回收,因为我一个数组就代表着一行,而且一行的量并不大,计算的时候小于回收的时间。。
我试着换了64G的内存仍是是这个问题。。
现在不知道如何解决比较好?用spark的序列化机制可以解决这个问题吗?最好别修改训练集的格式。。。
望各位大虾给点提示。。
谢谢