sparkstreamming 与kafka的整合数据丢失问题

dbc847023239 2015-12-18 01:03:43

我在kafka 和sparkstreamming的整合开发中，使用KafkaUtils.createDirectStream（）去处理数据。当kafka的数据来源是单线程进入数据时，spark能正常处理，不会发生数据的遗失。但当kafka的数据来源是多线程的情况下就会发生数据的遗失（当然这种情况是在kafka那边的数据的接入速度很快，kafka中会有数据堆积的情况下发生）。
HashSet<String> topicsSet = new HashSet<String>();
//topicsSet.add("test");
topicsSet.add("testtopic");
topicsSet.add("crawler_comments");
同时，当处理多个话题时也会发生类似情况。请问这是为什么？

...全文

2445 7 打赏收藏转发到动态举报

写回复

用AI写文章

7 条回复

切换为时间正序

请发表友善的回复…

发表回复

乔丹搞IT 2016-09-14

打赏
举报

我现在有个这样的问题， spark是1.6.1的版本我使用的是KafkaUtils.createDirectStream与kafka创建连接的即DirectAPI的方式接收数据使用checkpoint方式应该不会丢失数据，但是如果spark在处理的时候出错了，spark还继续执行的话，数据就相当于丢失了。或者spark保存处理好的数据目标如果不可用的话，spark同样会丢掉这个数据，继续执行这个spark的异常能捕获吗？

shantian8 2016-05-17

打赏
举报

整合kakfa和sparkstreaming 过程中报scalac编译错误，请问需要那些jar包。请大神指点？

赵4老师 2016-02-23

打赏
举报

其实任何Stream系统，都存在“饿死”和“撑死”的可能性。

muzilan 2016-02-23

打赏
举报

引用 1 楼 dbc847023239 的回复:

先顶一个走起。

要是已经解决了，给大家分享下哦

引用 2 楼 qq_18298671 的回复:

兄弟，我也碰到这样的问题，你后来解决了吗？

原来使用spark1.1.0版本中的createStream函数，但是在数据处理速度跟不上数据消费速度且job异常退出的情况下，可能造成大量的数据丢失。 spark后续版本对这一情况有了很大的改进，为了满足能够提供更好的容错性保证和更加可靠的语义保证的需求，Spark 1.2中引入了WAL，他保证从任何可靠的数据源（比如提供事务的数据源：Flume, Kafka和Kinesis）接收到的数据在失败中都不会被丢失；如果数据源不可靠(不提供事务),比如从sockets接收数据，WAL也可以尽量减少数据的丢失。然而对于那些可以从任意位置读取数据的数据源(比如Kafka)，我们可以实现功能更强的容错，因为Spark Streaming对这些数据源有更强的控制能力。 Spark 1.3引入了 Direct API概念，这个可以在不使用WAL的情况下实现仅处理一次的语义(exactly-once semantics)。1.3版本可以直接通过低阶API从kafka的topic消费消息，并且不再向zookeeper中更新consumer offsets，使得基于zookeeper的consumer offsets的监控工具都会失效。