spark的流处理

yhblog 2019-01-08 04:08:52

spark小白一只，在学习spark过程中了解到，从spark是一个可批处理和流处理的大数据应用框架，对比了flink框架后从网上了解到，spark是伪流处理的框架，相比flink而言，spark只是对数据集进行了小部分的批处理包装，想当于spark处理的是一段时间内的数据，而不是真正意义上的实时处理，处理的相应时间虽然在秒级范围，但对于flink而言稍有差距（借于网上评论）。

问题1：spark和flink未来发展趋势是并存还是取代？

问题2：spark2.0版本以后实现了真正意义上的流处理了吗？

...全文

136 1 打赏收藏转发到动态举报

写回复

1 条回复

切换为时间正序

请发表友善的回复…

发表回复

LinkSe7en 2019-01-09

打赏
举报

回复

1、各有优势。spark在离线领域仍是无可争议的王者，并且社区在努力把spark打造成大数据处理生态系统。flink专注流式处理，在原生语义上实现了很多spark原生没有实现的流处理范式。建议两者都学，以适应不同场景下的选型。 2、2.4+实现了类似flink的连续流处理。

Learning Spark英文版，整理版，纠正其中的错误。只有前五章

该文档来自于英特尔大数据首席架构师戴金权，在2014中国大数据技术大会大数据技术分论坛的演讲“基于Spark软件栈的下一代大数据分析”。

该文档来自CCTC 2016中国云计算技术大会。腾讯高级软件工程师林立伟发表的题为“Spark Streaming在腾讯广点通的应用”的主题演讲，欢迎下载！

Spark-Stream 之 Structured Streaming初见在前面的章节中，我们学习了如何使用结构化API来处理数据规模巨大的有界数据。但是，数据经常连续到达并且需要实时处理。在本章中，我们将讨论如何将相同的结构化API来处理数据流。 1、Apache Spark流处理引擎的演变流处理被定义为连续处理无穷无尽的数据流。随着大数据时代的到来，流处理系统已从单节点处理引擎过渡到多节点分布式处理引擎。传统的分布式流处理是用一个一次一记录的处理模型来实现的，如下图所示。处理管道由节

Spark流处理日志加SSM前端展示

695

社区成员

253,704

社区内容

发帖

与我相关

我的任务

其他技术论坛（原bbs）

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章