Hadoop可否作为服务进行实时处理

Jack_Chai
博客专家认证
2012-03-16 11:20:05
可能我的问题比较out。可以说我对hadoop也是一知半解。只知道hadoop是针对大数据量进行分布式处理的框架。
但是现在有个疑问:

hadoop很多都用在日志处理上。但是日志是动态不停的生成的。作为map-reduce应用,hadoop是否可以实现日志的实时分析处理?还是说只能处理内容不会再改变的日志(例如昨天的,上个月的等等)?希望大牛们给予解答。如果我的描述还不是很清楚的话,也希望大牛们提出来,我会再补充。
...全文
445 6 打赏 收藏 转发到动态 举报
AI 作业
写回复
用AI写文章
6 条回复
切换为时间正序
请发表友善的回复…
发表回复
春风剑客 2012-03-19
  • 打赏
  • 举报
回复
Hadoop做不了实时处理,反应时间太慢,如果拿来做应用程序的系统就死定了。
Jack_Chai 2012-03-19
  • 打赏
  • 举报
回复
感谢“maxim_sin”的回答。确实作为大吞吐量的计算框架,如果要求实时性还是很难的。你说的这点我也比较赞同“有时一个job可能会运行几个小时”。毕竟启动了任务之后,自己的工作还可能做不完呢,怎么有时间去处理实时得来的数据?有人可能说:“你可以在项目一开始的时候就引入Hadoop啊。这样就可以实时了”。但是别忘了,还有数据量的限制呢。假如你的Hadoop群集只有几台机器,而数据又太多,导致不能实时处理完毕,数据就会积压,越积越多,最终永远也干不完。为了避免这种问题,就干脆让它处理有限量的数据。其他网友视回答情况也给了分数,结贴。
SVKING 2012-03-18
  • 打赏
  • 举报
回复
每次启动hadoop,hadoop会结合日志文件对数据进行更新,可能还会结合secondarynamenode。而每次的操作并不是马上对数据进行更新的。好像是这样的,我在书上看到的,具体的记不太清楚了。书也不在我这了,不好意思。。。这个回答仅供参考
Michael_Xin_CV 2012-03-18
  • 打赏
  • 举报
回复
楼主的问题很好 切中Hadoop的要害 hadoop是针对批处理作业的 特点是数据吞吐量大 但是一旦一个job启动就不能再进行更改 有时一个job可能会运行几个小时。
你说的问题其实是实时MapReduce问题,这个是目前hadoop研究的重点之一 楼主可以参考twitter的Storm框架 专门针对实时性大数据流
写字不容易 求给分~
huoqie115 2012-03-17
  • 打赏
  • 举报
回复
我感觉不可以,从一开始Hadoop就不是在强调反应时间,他强调的是高吞吐量。
liutengfeigo 2012-03-16
  • 打赏
  • 举报
回复
不知道.路过.学习.

20,848

社区成员

发帖
与我相关
我的任务
社区描述
Hadoop生态大数据交流社区,致力于有Hadoop,hive,Spark,Hbase,Flink,ClickHouse,Kafka,数据仓库,大数据集群运维技术分享和交流等。致力于收集优质的博客
社区管理员
  • 分布式计算/Hadoop社区
  • 涤生大数据
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧