sparkstreamming 与kafka的整合数据丢失问题
我在kafka 和sparkstreamming的整合开发中,使用KafkaUtils.createDirectStream()去处理数据。当kafka的数据来源是单线程进入数据时,spark能正常处理,不会发生数据的遗失。但当kafka的数据来源是多线程的情况下就会发生数据的遗失(当然这种情况是在kafka那边的数据的接入速度很快,kafka中会有数据堆积的情况下发生)。
HashSet<String> topicsSet = new HashSet<String>();
//topicsSet.add("test");
topicsSet.add("testtopic");
topicsSet.add("crawler_comments");
同时,当处理多个话题时也会发生类似情况。请问这是为什么?