社区
Hadoop生态社区
帖子详情
可以让一个mapreduce程序一直开着处理定时产生的数据吗
turbosl
2017-04-06 10:31:51
本人小白一个,这几天在做一个东西,就是每10秒创建4个xml文件然后开启mapreduce程序进行解析并处理数据,我想问可以让这个mapreduce程序一直开着,每十秒处理一次新产生的xml文件吗?或者有没有类似的解决方案,求各位大神帮忙。
...全文
520
2
打赏
收藏
可以让一个mapreduce程序一直开着处理定时产生的数据吗
本人小白一个,这几天在做一个东西,就是每10秒创建4个xml文件然后开启mapreduce程序进行解析并处理数据,我想问可以让这个mapreduce程序一直开着,每十秒处理一次新产生的xml文件吗?或者有没有类似的解决方案,求各位大神帮忙。
复制链接
扫一扫
分享
转发到动态
举报
写回复
配置赞助广告
用AI写文章
2 条
回复
切换为时间正序
请发表友善的回复…
发表回复
打赏红包
大数据中的大叔
2017-06-05
打赏
举报
回复
楼主你好,我最近也在自学hadoop,hadoop擅长的是离线处理数据,并不适用10s级别的任务,而且启动相应的节点任务都需要一定的时间,如果真的要达到10s级别的计算,需要用到实时处理storm或者批量处理spark
tchqiq
2017-04-07
打赏
举报
回复
这么短间隔,mr根本处理不过来啊,mr启动一下就要好长时间,它并不像sparkstream,strom是流式的,是实时的.你可以尝试以上两个工具来搞
go分布式
mapreduce
与raft算法与分布式
数据
库
提供了一种简便的并行
程序
设计方法,用Map和Reduce两个函数编程实现基本的并行计算任务,提供了抽象的操作和并行编程接口,以简单方便地完成大规模
数据
的编程和计算
处理
Raft 是一种为了管理复制日志的一致性算法。...
hadoop学习五-
MapReduce
1 概述 1.1 定义
Mapreduce
是
一个
分布式运算
程序
的编程框架,是用户开发“基于 hadoop 的
数据
分析应用”的核心框架。
Mapreduce
核心功能是将用户编写的业务逻辑代码和自带默认组件整合成
一个
完整的分布式运算
程序
,并发运行在
一个
hadoop 集群上。 1.2 优缺点 1.2.1 优点
MapReduce
易于编程。它简单的实现一些接口,就可以完成
一个
分布式
程序
,这个分布式
程序
可以分布到大量廉价的 PC 机器上运行。也就是说你写
一个
分布式
程序
,跟写
一个
简单的串行
程序
是一模一样的。
使用Hadoop的
MapReduce
与HDFS
处理
数据
hadoop是
一个
分布式的基础架构,利用分布式实现高效的计算与储存,最核心的设计在于HDFS与
MapReduce
,HDFS提供了大量
数据
的存储,
mapReduce
提供了大量
数据
计算的实现,通过Java项目实现hadoop job
处理
海量
数据
解决复杂的需求。 一、基本环境及相关软件的配置 详细配置说明:基本环境配置及权限申请 二、hadoop项目开发流程 hadoop主要的
云计算——Google云计算原理与应用(分布式
数据
处理
MapReduce
)
1.
MapReduce
MapReduce
是Google提出的
一个
软件架构,是一种
处理
海量
数据
的并行编程模式,用于大规模
数据
集(通常大于1TB)的并行计算。 Map(映射)、Reduce(化简)的概念和主要思想,都是从函数式编程语言和矢量编程语言借鉴来的。正是由于
MapReduce
有函数式和矢量编程语言的共性,使得这种编程模式特别适合非结构化和结构化的海量
数据
的搜索、挖掘、分析与机器智能学习等。 与传统的分布式
程序
设计相比,
MapReduce
封装了并行
处理
、容错
处理
、本地化设计、负载均衡等...
Mapreduce
执行过程详解
一、分析
MapReduce
执行过程
MapReduce
运行的时候,会通过Mapper运行的任务读取HDFS中的
数据
文件,然后调用自己的方法,
处理
数据
,最后输出。Reducer任务会接收Mapper任务输出的
数据
,作为自己的输入
数据
,调用自己的方法,最后输出到HDFS的文件中。整个流程如图: 二、Mapper任务的执行过程详解 每个Mapper任务是
一个
java进程,它会读...
Hadoop生态社区
20,808
社区成员
4,690
社区内容
发帖
与我相关
我的任务
Hadoop生态社区
Hadoop生态大数据交流社区,致力于有Hadoop,hive,Spark,Hbase,Flink,ClickHouse,Kafka,数据仓库,大数据集群运维技术分享和交流等。致力于收集优质的博客
复制链接
扫一扫
分享
社区描述
Hadoop生态大数据交流社区,致力于有Hadoop,hive,Spark,Hbase,Flink,ClickHouse,Kafka,数据仓库,大数据集群运维技术分享和交流等。致力于收集优质的博客
社区管理员
加入社区
获取链接或二维码
近7日
近30日
至今
加载中
查看更多榜单
社区公告
暂无公告
试试用AI创作助手写篇文章吧
+ 用AI写文章