Hadoop可否作为服务进行实时处理

领域专家: 后端开发技术领域

2012-03-16 11:20:05

可能我的问题比较out。可以说我对hadoop也是一知半解。只知道hadoop是针对大数据量进行分布式处理的框架。
但是现在有个疑问：

hadoop很多都用在日志处理上。但是日志是动态不停的生成的。作为map-reduce应用，hadoop是否可以实现日志的实时分析处理？还是说只能处理内容不会再改变的日志（例如昨天的，上个月的等等）？希望大牛们给予解答。如果我的描述还不是很清楚的话，也希望大牛们提出来，我会再补充。

...全文

504 6 打赏收藏转发到动态举报

写回复

用AI写文章

6 条回复

切换为时间正序

请发表友善的回复…

发表回复

春风剑客 2012-03-19

打赏
举报

Hadoop做不了实时处理，反应时间太慢，如果拿来做应用程序的系统就死定了。

Jack_Chai 2012-03-19

打赏
举报

感谢“maxim_sin”的回答。确实作为大吞吐量的计算框架，如果要求实时性还是很难的。你说的这点我也比较赞同“有时一个job可能会运行几个小时”。毕竟启动了任务之后，自己的工作还可能做不完呢，怎么有时间去处理实时得来的数据？有人可能说：“你可以在项目一开始的时候就引入Hadoop啊。这样就可以实时了”。但是别忘了，还有数据量的限制呢。假如你的Hadoop群集只有几台机器，而数据又太多，导致不能实时处理完毕，数据就会积压，越积越多，最终永远也干不完。为了避免这种问题，就干脆让它处理有限量的数据。其他网友视回答情况也给了分数，结贴。

SVKING 2012-03-18

打赏
举报

每次启动hadoop，hadoop会结合日志文件对数据进行更新，可能还会结合secondarynamenode。而每次的操作并不是马上对数据进行更新的。好像是这样的，我在书上看到的，具体的记不太清楚了。书也不在我这了，不好意思。。。这个回答仅供参考

Michael_Xin_CV 2012-03-18

打赏
举报

楼主的问题很好切中Hadoop的要害 hadoop是针对批处理作业的特点是数据吞吐量大但是一旦一个job启动就不能再进行更改有时一个job可能会运行几个小时。
你说的问题其实是实时MapReduce问题，这个是目前hadoop研究的重点之一楼主可以参考twitter的Storm框架专门针对实时性大数据流
写字不容易求给分~