项目案例分享3--以流处理的方式实现复杂业务逻辑的增量计算

登峰大数据 2023-01-13 03:18:35

课时名称	课时知识点
项目案例分享3--以流处理的方式实现复杂业务逻辑的增量计算	在SDC中以流处理的方式实现增量计算，处理复杂的业务逻辑

...全文

413 回复打赏收藏转发到动态举报

写回复

回复

切换为时间正序

请发表友善的回复…

发表回复

批计算（Batch Processing）是一种对大量静态数据进行一次性处理的计算模式。它通常在预定的时间点或根据事件触发执行，对历史数据进行全面的分析和计算。流计算（Stream Processing）是一种对持续生成的实时数据流进行逐条处理的计算模式。与批计算不同，流计算强调对数据的低延迟处理和即时响应。增量计算（Incremental Computation）是一种优化计算过程的方法，通过仅计算自上一次计算以来发生变化的数据，减少重复计算，提高计算效率。特别适用于对动态变化的数据集进行频繁更新的场景。

Apache Flink是一个开源的流处理框架，应用于分布式、高性能、高可用的数据流应用程序。可以处理有限数据流和无限数据，即能够处理有边界和无边界的数据流。无边界的数据流就是真正意义上的流数据，所以Flink是支持流计算的。有边界的数据流就是批数据，所以也支持批处理的。不过Flink在流处理上的应用比在批处理上的应用更加广泛，统一批处理和流处理也是Flink目标之一。Flink可以部署在各种集群环境，可以对各种大小规模的数据进行快速计算。............

我曾任职于华为 2012 实验室高斯部门，负责实时分析型内存数据库 RTANA、华为公有云 RDS 服务的研发工作。目前，我专注于移动反欺诈解决方案的研发。针对公司业务需求，我开发了一个实时流计算系统，并在此基础上完成了风控系统的研发。最终，这个系统被一个独角兽收购。最近这两年，越来越多的业务和数据分析对实时性提出更高的要求，与之对应解决实时计算问题的流计算框架，也开始流行起来。因为工作原因，常有人问我有关实时流计算系统的问题。整体观察下来我发现：很多时候，他们并非不知道这些框架，也并非不熟悉这些框架的

自 Google Dataflow 模型被提出以来，流批一体就成为分布式计算引擎最为主流的发展趋势。流批一体意味着计算引擎同时具备流计算的低延迟和批计算的高吞吐高稳定性，提供统一编程接...

Apache Storm 是一个流处理引擎，它可以持续处理不断到来的数据流（streams）。Storm 允许用户构建拓扑（Topology）来定义数据流的路径以及处理的逻辑。在这种拓扑中，数据从源（Spout）开始流入，通过一系列的处理节点（Bolt）进行转换或处理，最终得到输出结果。Storm 的架构基于并行执行的理念，支持高吞吐量和低延迟的数据处理。分布式数据流处理：Storm 可以在分布式环境下处理大量数据，支持大规模的集群部署。容错和高可用性。

李登峰的课程社区_NO_1

1

社区成员

90

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章