spark在处理文件的时候遇到gc的问题

一头大菜鸟 2014-11-17 10:47:41

本人刚开始接触spark的内容。最近做了一个userbased recommdation在处理100M+的文件的时候总是会卡主。需要一行一行的读取操作、我是放到一个ArrayBuffer[String]里面的。。。害怕hashmap占的内存太大所以没敢用。。。
然后又使用spark streaming流操作的时候发现是GC LIMIT的问题。
请问各位前辈遇到这个问题应该如何解决？后来发现用30M左右的文件就开始出现GC的问题了。。。嗷呜。。。

...全文

412 5 打赏收藏转发到动态举报

写回复

用AI写文章

5 条回复

切换为时间正序

请发表友善的回复…

发表回复

人生偌只如初见 2014-11-19

打赏
举报

可以如下试试： SPARK_JAVA_OPTS+=" -Dspark.local.dir=/tmp/spark -verbose:gc -XX:+PrintGCDetails -XX:+PrintGCDateStamps -Xloggc:/home/hadoop/software/spark/logs -XX:+UseParallelGC -XX:+UseParallelOldGC -XX:+DisableExplicitGC -Xms1024m -Xmx2048m -XX:MaxPermSize=256m " export SPARK_JAVA_OPTS spark 1.0开始应该是设置 SPARK_DAEMON_JAVA_OPTS 这个值也可以试试在应用程序中添加： sparkConf.setExecutorEnv("SPARK_JAVA_OPTS"," -verbose:gc -XX:+PrintGCDetails -XX:+PrintGCTimeStamps")

一头大菜鸟 2014-11-19

打赏
举报

现在不用spark streaming改成用spark写的程序之后运行的时候就一直卡主了，但是也不会给om的提示。 14/11/19 10:41:03 INFO BlockManagerInfo: Registering block manager gd103:55890 with 1178.1 MB RAM 14/11/19 10:41:03 INFO BlockManagerInfo: Registering block manager gd106:54518 with 1178.1 MB RAM 能知道其中的代码是否在运行吗？还是系统运行的主要时间都放在内存回收的方面了？怕每次实验都要等好久都不出结果。。

一头大菜鸟 2014-11-18

打赏
举报

好的麻烦了我试试

人生偌只如初见 2014-11-18

打赏
举报

可以试试Spark的Kryo序列化方式。也可以在spark-env.sh文件中的SPARK_JAVA_OPTS参数上添加 -verbose:gc -XX:+PrintGCDetails -XX:+PrintGCTimeStamps ，看下GC的详细信息。也可以试试调整下 spark.storage.memoryFraction这个参数。

一头大菜鸟 2014-11-18

打赏
举报

SPARK_JAVA_OPTS="${JAVA_OPTS} -verbose:gc -Xloggc:~/data/gc.log -XX:+PrintGCDetails -XX:+PrintGCDateStamps" 请问在spark-env.sh中添加的内容是这样的吗？我在worker节点的log中没有找到相应的GC内容/