sparkstreamming 与kafka的整合数据丢失问题

dbc847023239 2015-12-18 01:03:43
我在kafka 和sparkstreamming的整合开发中,使用KafkaUtils.createDirectStream()去处理数据。当kafka的数据来源是单线程进入数据时,spark能正常处理,不会发生数据的遗失。但当kafka的数据来源是多线程的情况下就会发生数据的遗失(当然这种情况是在kafka那边的数据的接入速度很快,kafka中会有数据堆积的情况下发生)。
HashSet<String> topicsSet = new HashSet<String>();
//topicsSet.add("test");
topicsSet.add("testtopic");
topicsSet.add("crawler_comments");
同时,当处理多个话题时也会发生类似情况。请问这是为什么?
...全文
2445 7 打赏 收藏 转发到动态 举报
AI 作业
写回复
用AI写文章
7 条回复
切换为时间正序
请发表友善的回复…
发表回复
乔丹搞IT 2016-09-14
  • 打赏
  • 举报
回复
我现在有个这样的问题, spark是1.6.1的版本 我使用的是KafkaUtils.createDirectStream与kafka创建连接的 即DirectAPI的方式 接收数据使用checkpoint方式应该不会丢失数据,但是如果spark在处理的时候出错了,spark还继续执行的话,数据就相当于丢失了。 或者spark保存处理好的数据目标如果不可用的话 ,spark同样会丢掉这个数据,继续执行 这个spark的异常能捕获吗?
shantian8 2016-05-17
  • 打赏
  • 举报
回复
整合kakfa和sparkstreaming 过程中 报scalac编译错误,请问需要那些jar包。请大神指点?
赵4老师 2016-02-23
  • 打赏
  • 举报
回复
其实任何Stream系统,都存在“饿死”和“撑死”的可能性。
muzilan 2016-02-23
  • 打赏
  • 举报
回复
引用 1 楼 dbc847023239 的回复:
先顶一个走起。
要是已经解决了,给大家分享下哦
引用 2 楼 qq_18298671 的回复:
兄弟,我也碰到这样的问题,你后来解决了吗?
原来使用spark1.1.0版本中的createStream函数,但是在数据处理速度跟不上数据消费速度且job异常退出的情况下,可能造成大量的数据丢失。 spark后续版本对这一情况有了很大的改进,为了满足能够提供更好的容错性保证和更加可靠的语义保证的需求,Spark 1.2中引入了WAL,他保证从任何可靠的数据源(比如提供事务的数据源:Flume, Kafka和Kinesis)接收到的数据在失败中都不会被丢失;如果数据源不可靠(不提供事务),比如从sockets接收数据,WAL也可以尽量减少数据的丢失。然而对于那些可以从任意位置读取数据的数据源(比如Kafka),我们可以实现功能更强的容错,因为Spark Streaming对这些数据源有更强的控制能力。 Spark 1.3引入了 Direct API概念,这个可以在不使用WAL的情况下实现仅处理一次的语义(exactly-once semantics)。1.3版本可以直接通过低阶API从kafka的topic消费消息,并且不再向zookeeper中更新consumer offsets,使得基于zookeeper的consumer offsets的监控工具都会失效。
qq_18298671 2016-02-23
  • 打赏
  • 举报
回复
兄弟,我也碰到这样的问题,你后来解决了吗?
dbc847023239 2015-12-18
  • 打赏
  • 举报
回复
先顶一个走起。

450

社区成员

发帖
与我相关
我的任务
社区描述
云计算开发
社区管理员
  • 云计算
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧