spark反序列化有时时间过长

星逍遥 2016-09-30 10:28:44

在spark集群中，服务器的配置是有差异的，其中配置稍差的服务器有时执行任务时反序列化时间会达到2分钟，使用的序列化方式是org.apache.spark.serializer.KryoSerializer，请问这是什么原因呢？

服务器配置：32core/126G
运行方式：在yarn上运行
资源使用：不到五分之一

...全文

905 6 打赏收藏转发到动态举报

写回复

6 条回复

切换为时间正序

请发表友善的回复…

发表回复

java8964 2016-11-02

打赏
举报

回复

It may not necessary be data skew. The OP already mentioned that the data volume for this task is not much different with other tasks. But OP is not clear if there is always ONE task per executor is much slower than the rest tasks due to the task deserializing much longer. If this IS the case, that is most likely because of the time taken to ship the jars from the driver to the executors. You should only pay this cost once per spark context (assuming you are not adding more jars later on). When you submit your spark jobs, how large is your jar file? A hundred Ks is much difference as hundred Ms.

火阳邪神 2016-11-01

打赏
举报

回复

同意楼上意见，应该是数据倾斜了，可以增加分区数量，或者自定义分区方式来解决一下

LinkSe7en 2016-10-02

打赏
举报

回复

引用 3 楼 u012591139 的回复:

首先多谢楼上的答复。我面临的问题是已经使用Kryo，并且也把一些类进行了注册。然而大约在200次执行完的stag中总会有一个或两个stage 的反序列化时间会到2分钟以上（正常是4秒左右的处理时间），而且处理的数据并不多。

那目测就是数据倾斜了，较大的分区数据被分配到较差的节点上。解决数据倾斜有很多办法，要视乎数据本身去处理。本质都是让每个分区尽可能分到相似数量的记录。

星逍遥 2016-09-30

打赏
举报

回复

星逍遥 2016-09-30

打赏
举报

回复

首先多谢楼上的答复。我面临的问题是已经使用Kryo，并且也把一些类进行了注册。然而大约在200次执行完的stag中总会有一个或两个stage 的反序列化时间会到2分钟以上（正常是4秒左右的处理时间），而且处理的数据并不多。

LinkSe7en 2016-09-30

打赏
举报

回复

刚刚看到一篇文章，可能对你有帮助这里

由于Spark基于内存计算的特性，集群的任何资源都可以成为Spark程序的瓶颈:CPU，网络带宽，或者内存。通常，如果内存容得下数据，瓶颈会是网络带宽。不过有时你同样需要做些优化，例如将RDD以序列化到磁盘，来降低内存占用。本教程通过源码引导读者深入理解Spark的集群部署的内部机制、Spark内部调度的机制、Executor的内部机制、Shuffle的内部机制，进而讲述Tungsten的内部机制，让学员知其然知其所以然。教程的后部分，是任何Spark应用者都很好关注的Spark性能调优的内容。

序列化和反序列化是编程中非常重要的概念，用于在程序运行过程中将对象转换为字节序列，以便于在网络、文件等媒介中进行传输或存储，并在需要的时候将其转化回原始对象。在分布式计算框架中，序列化和反序列化是实现数据传输的必要手段。序列化：将Java对象转换成字节序列的过程称为序列化。序列化后的字节序列可以被写入到磁盘，或者通过网络传输到远程节点。反序列化：反序列化是指将序列化后的字节序列还原成原始Java对象的过程。在 Spark 应用程序中，也需要将数据进行序列化和反序列化操作。

一.背景线上项目运行时间比之前增加了10倍二.分析通过sparkHistory 观察到个别task执行较慢引起的,怀疑一下原因 1.数据倾斜,通过观察input size排除 2.上游数据问题,经沟通排除 3.磁盘问题，检查后排除 4.反序列化问题(项目正常运行了很久了都没问题，日志也没有错误) 三.原因 val visitRDD: RDD[String] = sc.se...

序列化 (Serialization)将对象的状态信息转换为可以存储或传输的形式的过程。在序列化期间，对象将其当前状态写入到临时或持久性存储区。以后，可以通过从存储区中读取或反序列化对象的状态，重新创建该对象。 反序列化失败原因:(目前只遇到过两种) 没有添加 serialVersionUID 可能会导致反序列化失败生成默认的serialVersionUID --> [Ad

本文主要探讨了Apache Spark在大数据处理中遇到的序列化问题及其对系统性能和稳定性的影响。文章详细解析了Spark任务执行过程中涉及的序列化场景，对比了不同的序列化框架，并通过实例分析了Task not serializable等常见序列化异常。此外，文中还提供了Spark序列化问题的排查方法、自定义序列化接口实现及配置优化策略，进一步提出了包括选择高效序列化库、控制序列化数据大小、合理设计数据结构在内的性能优化实践建议。最后，总结了Spark序列化问题的关键解决点，展望了未来可能的改进方向，并为开

1,261

社区成员

1,169

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章