可以让一个mapreduce程序一直开着处理定时产生的数据吗

turbosl 2017-04-06 10:31:51

本人小白一个，这几天在做一个东西，就是每10秒创建4个xml文件然后开启mapreduce程序进行解析并处理数据，我想问可以让这个mapreduce程序一直开着，每十秒处理一次新产生的xml文件吗？或者有没有类似的解决方案，求各位大神帮忙。

...全文

520 2 打赏收藏转发到动态举报

写回复

2 条回复

切换为时间正序

请发表友善的回复…

发表回复

大数据中的大叔 2017-06-05

打赏
举报

回复

楼主你好，我最近也在自学hadoop，hadoop擅长的是离线处理数据，并不适用10s级别的任务，而且启动相应的节点任务都需要一定的时间，如果真的要达到10s级别的计算，需要用到实时处理storm或者批量处理spark

tchqiq 2017-04-07

打赏
举报

回复

这么短间隔,mr根本处理不过来啊,mr启动一下就要好长时间,它并不像sparkstream,strom是流式的,是实时的.你可以尝试以上两个工具来搞

提供了一种简便的并行程序设计方法，用Map和Reduce两个函数编程实现基本的并行计算任务，提供了抽象的操作和并行编程接口，以简单方便地完成大规模数据的编程和计算处理 Raft 是一种为了管理复制日志的一致性算法。...

1 概述 1.1 定义 Mapreduce 是一个分布式运算程序的编程框架，是用户开发“基于 hadoop 的数据分析应用”的核心框架。 Mapreduce 核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序，并发运行在一个 hadoop 集群上。 1.2 优缺点 1.2.1 优点 MapReduce 易于编程。它简单的实现一些接口，就可以完成一个分布式程序，这个分布式程序可以分布到大量廉价的 PC 机器上运行。也就是说你写一个分布式程序，跟写一个简单的串行程序是一模一样的。

hadoop是一个分布式的基础架构，利用分布式实现高效的计算与储存，最核心的设计在于HDFS与MapReduce，HDFS提供了大量数据的存储，mapReduce提供了大量数据计算的实现，通过Java项目实现hadoop job处理海量数据解决复杂的需求。一、基本环境及相关软件的配置详细配置说明：基本环境配置及权限申请二、hadoop项目开发流程 hadoop主要的

1. MapReduce MapReduce是Google提出的一个软件架构，是一种处理海量数据的并行编程模式，用于大规模数据集（通常大于1TB）的并行计算。 Map（映射）、Reduce（化简）的概念和主要思想，都是从函数式编程语言和矢量编程语言借鉴来的。正是由于MapReduce有函数式和矢量编程语言的共性，使得这种编程模式特别适合非结构化和结构化的海量数据的搜索、挖掘、分析与机器智能学习等。与传统的分布式程序设计相比，MapReduce封装了并行处理、容错处理、本地化设计、负载均衡等...

一、分析MapReduce执行过程 MapReduce运行的时候，会通过Mapper运行的任务读取HDFS中的数据文件，然后调用自己的方法，处理数据，最后输出。Reducer任务会接收Mapper任务输出的数据，作为自己的输入数据，调用自己的方法，最后输出到HDFS的文件中。整个流程如图：二、Mapper任务的执行过程详解每个Mapper任务是一个java进程，它会读...

Hadoop生态社区

20,808

社区成员

4,690

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章