spark在处理文件的时候遇到gc的问题
一头大菜鸟 2014-11-17 10:47:41 本人刚开始接触spark的内容。最近做了一个userbased recommdation在处理100M+的文件的时候总是会卡主。需要一行一行的读取操作、我是放到一个ArrayBuffer[String]里面的。。。害怕hashmap占的内存太大所以没敢用。。。
然后又使用spark streaming流操作的时候发现是GC LIMIT的问题。
请问各位前辈 遇到这个问题应该如何解决?后来发现用30M左右的文件就开始出现GC的问题了。。。嗷呜。。。