Storm中，消息可靠性的讨论

西红小柿 2017-01-08 03:07:36

在storm中，消息可靠性问题
1，如果在消息源头spout中，emit的时候，不加messageId，然后在bolt中发生了处理失败问题，人为的调用fail方法，此时storm会重发该条消息吗？
2，如果在消息源头spout中，emit的时候加messageId，然后在bolt中发生率处理失败问题，人为调用fail方法，此时会直接调用spout里面的fail方法，然后根据方法里面的逻辑开始执行，那么依然是要从spout的开始执行，知道错误发生的地方吗？元组树结构是起什么作用的？

...全文

284 2 打赏收藏转发到动态举报

写回复

2 条回复

切换为时间正序

请发表友善的回复…

发表回复

西红小柿 2017-01-08

打赏
举报

回复

（1）在系统自己抛出异常后，会自动回调spout的fail方法，具体执行什么逻辑，需要自己实现；（2）在代码里面为避免异常的发生，可以自己手动调用fail方法，避免了等待超时，可以迅速重新处理；

西红小柿 2017-01-08

打赏
举报

回复

急求答案

Twitter将Storm正式开源了，这是一个分布式的、容错的实时计算系统，它被托管在GitHub上，遵循 Eclipse Public License 1.0。Storm是由BackType开发的实时处理系统，BackType现在已在Twitter麾下。GitHub上的最新版本是Storm 0.8.0，基本是用Clojure写的。 Storm为分布式实时计算提供了一组通用原语，可被用于“流处理”之中，实时处理消息并更新数据库。这是管理队列及工作者集群的另一种方式。 Storm也可被用于“连续计算”（continuous computation），对数据流做连续查询，在计算时就将结果以流的形式输出给用户。它还可被用于“分布式RPC”，以并行的方式运行昂贵的运算。 Storm的主工程师Nathan Marz表示： Storm可以方便地在一个计算机集群中编写与扩展复杂的实时计算，Storm之于实时处理，就好比Hadoop之于批处理。Storm保证每个消息都会得到处理，而且它很快——在一个小集群中，每秒可以处理数以百万计的消息。更棒的是你可以使用任意编程语言来做开发。 Storm的主要特点如下：简单的编程模型。类似于MapReduce降低了并行批处理复杂性，Storm降低了进行实时处理的复杂性。可以使用各种编程语言。你可以在Storm之上使用各种编程语言。默认支持Clojure、Java、Ruby和Python。要增加对其他语言的支持，只需实现一个简单的Storm通信协议即可。容错性。Storm会管理工作进程和节点的故障。水平扩展。计算是在多个线程、进程和服务器之间并行进行的。可靠的消息处理。Storm保证每个消息至少能得到一次完整处理。任务失败时，它会负责从消息源重试消息。快速。系统的设计保证了消息能得到快速的处理，使用ØMQ作为其底层消息队列。本地模式。Storm有一个“本地模式”，可以在处理过程中完全模拟Storm集群。这让你可以快速进行开发和单元测试。 Storm集群由一个主节点和多个工作节点组成。主节点运行了一个名为“Nimbus”的守护进程，用于分配代码、布置任务及故障检测。每个工作节点都运行了一个名为“Supervisor”的守护进程，用于监听工作，开始并终止工作进程。Nimbus和Supervisor都能快速失败，而且是无状态的，这样一来它们就变得十分健壮，两者的协调工作是由ApacheZooKeeper来完成的。 Storm的术语包括Stream、Spout、Bolt、Task、Worker、Stream Grouping和Topology。Stream是被处理的数据。Sprout是数据源。Bolt处理数据。Task是运行于Spout或Bolt中的线程。Worker是运行这些线程的进程。Stream Grouping规定了Bolt接收什么东西作为输入数据。数据可以随机分配（术语为Shuffle），或者根据字段值分配（术语为Fields），或者广播（术语为All），或者总是发给一个Task（术语为Global），也可以不关心该数据（术语为None），或者由自定义逻辑来决定（术语为 Direct）。Topology是由Stream Grouping连接起来的Spout和Bolt节点网络。在Storm Concepts页面里对这些术语有更详细的描述。可以和Storm相提并论的系统有Esper、Streambase、HStreaming和Yahoo S4。其中和Storm最接近的就是S4。两者最大的区别在于Storm会保证消息得到处理。这些系统中有的拥有内建数据存储层，这是Storm所没有的，如果需要持久化，可以使用一个类似于Cassandra或Riak这样的外部数据库。入门的最佳途径是阅读GitHub上的官方《Storm Tutorial》。其中讨论了多种Storm概念和抽象，提供了范例代码以便你可以运行一个Storm Topology。开发过程中，可以用本地模式来运行Storm，这样就能在本地开发，在进程中测试Topology。一切就绪后，以远程模式运行 Storm，提交用于在集群中运行的Topology。要运行Storm集群，你需要Apache Zookeeper、ØMQ、JZMQ、Java 6和Python 2.6.6。ZooKeeper用于管理集群中的不同组件，ØMQ是内部消息系统，JZMQ是ØMQ的Java Binding。有个名为storm-deploy的子项目，可以在AWS上一键部署Storm集群。关于详细的步骤，可以阅读Storm Wiki上的《Setting up a Storm cluster》。

2019独角兽企业重金招聘Python工程师标准>>> ...

Storm最初由Nathan Marz和BackType的团队创建。BackType是一家社交分析公司。后来，Storm被收购，并通过Twitter开源。在短时间内，Apache Storm成为分布式实时处理系统的标准，允许您处理大量的数据，类似于Hadoop。Apache Storm是用Java和Clojure写的。它仍然是实时分析的领导者。本教程将探讨Apache Storm的原理，分布式消息传递，安装，创建Storm拓扑并将其部署到Storm集群，Trident的工作流程，实时应用程序，并通过与Kafka、Hbase等进行技术的集成，让你快速掌握和理解Storm的精髓。

Storm可以保证从Spout发出的每个消息都能被完全处理。Storm的可靠性机制是完全分布式的(distributed)，可伸缩的(scalable)，容错的(fault-tolerant)。本文介绍了Storm如何保证可靠性以及作为Storm使用者，我们需要怎么做，才能充分利用Storm的可靠性。理解一些实现细节，也能够帮助我们领悟Storm的设计理念。

一、Storm概述 Storm是一个开源的分布式实时计算系统，可以简单、可靠的处理大量的数据流。 Storm有很多使用场景：如实时分析，在线机器学习，持续计算，分布式RPC，ETL等等。 Storm支持水平扩展，具有高容错性，保证每个消息都会得到处理，而且处理速度很快(在一个小集群中，每个结点每秒可以处理数以百万计的消息)。 Storm的部署和运维都很便捷，而且更为重要的是可以使用任意编程语言来开...

1,261

社区成员

1,169

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章