我用的是python！在sparkstreaming中，使用kafka的directstream，如何自己实现将offset更新到zookeeper？

jinzitian 2016-11-01 11:22:13

在sparkstreaming中，使用kafka的directstream接口获取数据时，不会将offset更新到zookeeper，这样会导致job重启后只能从最新的offset读取，从而造成数据丢失，为了避免这个情况，官网提示说可以自己实现将offset手动更新到zookeeper，我使用的是python，但是spark的python接口中并无java和scala中的kafkacluster这个类，不知道自己手动该如何实现，网上有很多scala和java实现这个操作的代码，求高手给一个python版本的，在线等，跪求！！！！小弟编程能力有限，跪求高手耐心解答，抱拳。

...全文

724 1 打赏收藏转发到动态举报

写回复

1 条回复

切换为时间正序

请发表友善的回复…

发表回复

jinzitian 2016-11-01

打赏
举报

回复

自己顶一下，求大神

Receiver方式基于kafka的高级消费者API实现（高级优点：高级API写起来简单；不需要去自行去管理offset，系统通过zookeeper...Receiver从kafka接收数据，存储在Executor中，Spark Streaming 定时生成任务来处理数据。

公司原来开发使用的是Kafka0.8版本的，虽然很好用，但是看了一下kafka官网的0.10版本更新了好多的特性，功能变得更强了。以后考虑换成0.10版本的，因此特意研究了一下两个版本的区别和使用方法。先贴出两个版本的...

Kafka配合Spark Streaming是大数据领域常见的黄金搭档之一，主要是用于数据实时入库或分析。为了应对可能出现的引起Streaming程序崩溃的异常情况，我们一般都需要手动管理好Kafka的offset，而不是让它自动提交，即...

SparkStreaming接收Kafka数据的两种方式一、SparkStreaming + Kafka Receiver模式二、SparkStreaming + Kafka Direct模式三、Direct模式与Receiver模式比较四、SparkStreaming+Kafka维护消费者offset 一、Spark...

这里主要对如何配置SparkStreaming程序接受kafka的数据进行介绍。目前有两种方式：较老的方式是通过使用Receivers和Kafka的高阶API，新的方式（从spark1.3版本开始）不在使用Receivers。这是两种不同的编程模型、有...

1,261

社区成员

1,169

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章