关于kafka,spark streaming的困惑

yingping1898 2016-06-01 10:59:55

首先，六一快乐！

有几个关于kafka，spark streaming的问题。
1：好像没有从offset处读起，它只从streaming启动之时读起。
2：异常消息处理机制。像storm，从kafka读取的消息处理可以有ack() 各fail()两种处理方法，streaming里是怎样处理的？

...全文

386 2 打赏收藏转发到动态举报

写回复

2 条回复

切换为时间正序

请发表友善的回复…

发表回复

xiao_jun_0820 2016-06-29

打赏
举报

回复

首次启动时从最新的offset开始读取的，因为zk上并没有对应的consumer group的offset纪录，停掉再启动就从上次的offset开始消费了。spark streaming是一批一批处理消息的，storm是一条一条处理消息的。

本课程以爱奇艺视频实时数据产生和流向的各个环节出发，通过集成主流的分布式日志收集框架Flume、分布式消息队列Kafka、分布式列式数据库HBase、及当前最火爆的Spark Streaming打造实时流处理项目实战，一套代码让你...

困惑1：Spark Streaming微批次，Flink真正流处理系统差别在哪里？是因为消费Kafka数据的逻辑不同吗？（本文以Kafka为数据源举例） Spark Streaming微批次很容易理解，一次处理一个微批次的数据。而Flink代表的真正...

我们常常能看到这样的架构——以 Kafka、Storm 为代表的流计算框架用于实时计算，而 Spark 或 MapReduce 则负责每天、每小时的数据批处理。在 ETL 等场合，这样的设计常常导致同样的计算逻辑被实现两次，耗费人力不...

从今天起，我们踏上了新的Spark学习旅途。我们的目标是要像Spark官方机构那样有能力去定制Spark。...Spark的子框架已有若干，为何选择Spark Streaming？让我们细细道来。 Spark最开始只有Spark Cor

原文地址：一文读懂 Spark 和 Spark Streaming 目录 MapReduce 的问题所在 Spark 与 RDD 模型流计算框架：Spark Streaming 流计算与 SQL：Spark Structured Streaming 系统架构总结前言 Apache Spark ...

1,258

社区成员

1,168

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章