社区
Hadoop生态社区
帖子详情
Hadoop可否作为服务进行实时处理
Jack_Chai
领域专家: 后端开发技术领域
2012-03-16 11:20:05
可能我的问题比较out。可以说我对hadoop也是一知半解。只知道hadoop是针对大数据量进行分布式处理的框架。
但是现在有个疑问:
hadoop很多都用在日志处理上。但是日志是动态不停的生成的。作为map-reduce应用,hadoop是否可以实现日志的实时分析处理?还是说只能处理内容不会再改变的日志(例如昨天的,上个月的等等)?希望大牛们给予解答。如果我的描述还不是很清楚的话,也希望大牛们提出来,我会再补充。
...全文
504
6
打赏
收藏
Hadoop可否作为服务进行实时处理
可能我的问题比较out。可以说我对hadoop也是一知半解。只知道hadoop是针对大数据量进行分布式处理的框架。 但是现在有个疑问: hadoop很多都用在日志处理上。但是日志是动态不停的生成的。作为map-reduce应用,hadoop是否可以实现日志的实时分析处理?还是说只能处理内容不会再改变的日志(例如昨天的,上个月的等等)?希望大牛们给予解答。如果我的描述还不是很清楚的话,也希望大牛们提出来,我会再补充。
复制链接
扫一扫
分享
转发到动态
举报
写回复
配置赞助广告
用AI写文章
6 条
回复
切换为时间正序
请发表友善的回复…
发表回复
打赏红包
春风剑客
2012-03-19
打赏
举报
回复
Hadoop做不了实时处理,反应时间太慢,如果拿来做应用程序的系统就死定了。
Jack_Chai
2012-03-19
打赏
举报
回复
感谢“maxim_sin”的回答。确实作为大吞吐量的计算框架,如果要求实时性还是很难的。你说的这点我也比较赞同“有时一个job可能会运行几个小时”。毕竟启动了任务之后,自己的工作还可能做不完呢,怎么有时间去处理实时得来的数据?有人可能说:“你可以在项目一开始的时候就引入Hadoop啊。这样就可以实时了”。但是别忘了,还有数据量的限制呢。假如你的Hadoop群集只有几台机器,而数据又太多,导致不能实时处理完毕,数据就会积压,越积越多,最终永远也干不完。为了避免这种问题,就干脆让它处理有限量的数据。其他网友视回答情况也给了分数,结贴。
SVKING
2012-03-18
打赏
举报
回复
每次启动hadoop,hadoop会结合日志文件对数据进行更新,可能还会结合secondarynamenode。而每次的操作并不是马上对数据进行更新的。好像是这样的,我在书上看到的,具体的记不太清楚了。书也不在我这了,不好意思。。。这个回答仅供参考
Michael_Xin_CV
2012-03-18
打赏
举报
回复
楼主的问题很好 切中Hadoop的要害 hadoop是针对
批处理
作业的 特点是数据吞吐量大 但是一旦一个job启动就不能再进行更改 有时一个job可能会运行几个小时。
你说的问题其实是实时MapReduce问题,这个是目前hadoop研究的重点之一 楼主可以参考twitter的Storm框架 专门针对实时性大数据流
写字不容易 求给分~
huoqie115
2012-03-17
打赏
举报
回复
我感觉不可以,从一开始Hadoop就不是在强调反应时间,他强调的是高吞吐量。
liutengfeigo
2012-03-16
打赏
举报
回复
不知道.路过.学习.
在
Hadoop
中如何实现数据的
实时处理
?
传统
Hadoop
MapReduce适合批处理,为实现
实时处理
,可采用Apache Storm、Flink、Kafka、Samza、Spark Streaming等技术和工具。介绍了各工具特点及适用场景,还提及组合使用方法、框架选择依据,并给出实施建议,以满足实时应用需求。
简述大数据
实时处理
框架
本文详细介绍了大数据
实时处理
的重要性和应用场景,包括实时计算、实时落地和实时展示。重点探讨了flume、kafka和spark在数据
实时处理
架构中的角色和作用。通过示例展示了如何搭建和配置数据
实时处理
环境,从而实现数据的高效流转和处理。
全面解析流式大数据
实时处理
技术、平台及应用
本文全面解析了流式大数据
实时处理
技术,包括
Hadoop
、Spark Streaming、Storm、Flink等主流处理系统。针对实时大数据的需求,文章介绍了流立方技术在低延迟、高实时性、长周期历史数据处理等方面的优势,以及其在金融风控、互联网机器防御、智慧交通等领域的应用。此外,文章讨论了流式大数据处理技术面临的挑战,如复杂指标增量计算、分布式内存并行计算等,并阐述了流立方平台如何解决这些问题,提高处理性能。
hadoop
服务
器基础环境搭建之
Hadoop
服务
器配置教程
本文详细介绍了如何配置
Hadoop
服务
器基础环境,包括虚拟机分布式安装、物理集群安装、权限修改、SSH免密登录的设置、MySQL双机热备份安装以及时间
服务
器搭建等关键步骤,为后续的
Hadoop
安装打下基础。
海量日志
实时处理
框架设计与实践——这才是真正的大数据
实时处理
框架
本文深入探讨了大数据
实时处理
框架的重要性,介绍了
Hadoop
、Flink、Storm、Samza和Spark Streaming等主流框架。重点讨论了
实时处理
框架的实时性、准确性、可靠性和容错能力,并概述了海量日志
实时处理
的关键流程,包括数据收集、清洗、预处理、聚合、存储和计算。
实时处理
框架设计遵循可用性、可扩展性、性能优化、可靠性和容错能力原则,广泛应用于用户点击日志统计、
服务
器日志分析等领域。
Hadoop生态社区
20,844
社区成员
4,695
社区内容
发帖
与我相关
我的任务
Hadoop生态社区
Hadoop生态大数据交流社区,致力于有Hadoop,hive,Spark,Hbase,Flink,ClickHouse,Kafka,数据仓库,大数据集群运维技术分享和交流等。致力于收集优质的博客
复制链接
扫一扫
分享
社区描述
Hadoop生态大数据交流社区,致力于有Hadoop,hive,Spark,Hbase,Flink,ClickHouse,Kafka,数据仓库,大数据集群运维技术分享和交流等。致力于收集优质的博客
社区管理员
加入社区
获取链接或二维码
近7日
近30日
至今
加载中
查看更多榜单
社区公告
暂无公告
试试用AI创作助手写篇文章吧
+ 用AI写文章