社区
Hadoop生态社区
帖子详情
Hadoop可否作为服务进行实时处理
Jack_Chai
领域专家: 后端开发技术领域
2012-03-16 11:20:05
可能我的问题比较out。可以说我对hadoop也是一知半解。只知道hadoop是针对大数据量进行分布式处理的框架。
但是现在有个疑问:
hadoop很多都用在日志处理上。但是日志是动态不停的生成的。作为map-reduce应用,hadoop是否可以实现日志的实时分析处理?还是说只能处理内容不会再改变的日志(例如昨天的,上个月的等等)?希望大牛们给予解答。如果我的描述还不是很清楚的话,也希望大牛们提出来,我会再补充。
...全文
484
6
打赏
收藏
Hadoop可否作为服务进行实时处理
可能我的问题比较out。可以说我对hadoop也是一知半解。只知道hadoop是针对大数据量进行分布式处理的框架。 但是现在有个疑问: hadoop很多都用在日志处理上。但是日志是动态不停的生成的。作为map-reduce应用,hadoop是否可以实现日志的实时分析处理?还是说只能处理内容不会再改变的日志(例如昨天的,上个月的等等)?希望大牛们给予解答。如果我的描述还不是很清楚的话,也希望大牛们提出来,我会再补充。
复制链接
扫一扫
分享
转发到动态
举报
写回复
配置赞助广告
用AI写文章
6 条
回复
切换为时间正序
请发表友善的回复…
发表回复
打赏红包
春风剑客
2012-03-19
打赏
举报
回复
Hadoop做不了实时处理,反应时间太慢,如果拿来做应用程序的系统就死定了。
Jack_Chai
2012-03-19
打赏
举报
回复
感谢“maxim_sin”的回答。确实作为大吞吐量的计算框架,如果要求实时性还是很难的。你说的这点我也比较赞同“有时一个job可能会运行几个小时”。毕竟启动了任务之后,自己的工作还可能做不完呢,怎么有时间去处理实时得来的数据?有人可能说:“你可以在项目一开始的时候就引入Hadoop啊。这样就可以实时了”。但是别忘了,还有数据量的限制呢。假如你的Hadoop群集只有几台机器,而数据又太多,导致不能实时处理完毕,数据就会积压,越积越多,最终永远也干不完。为了避免这种问题,就干脆让它处理有限量的数据。其他网友视回答情况也给了分数,结贴。
SVKING
2012-03-18
打赏
举报
回复
每次启动hadoop,hadoop会结合日志文件对数据进行更新,可能还会结合secondarynamenode。而每次的操作并不是马上对数据进行更新的。好像是这样的,我在书上看到的,具体的记不太清楚了。书也不在我这了,不好意思。。。这个回答仅供参考
Michael_Xin_CV
2012-03-18
打赏
举报
回复
楼主的问题很好 切中Hadoop的要害 hadoop是针对
批处理
作业的 特点是数据吞吐量大 但是一旦一个job启动就不能再进行更改 有时一个job可能会运行几个小时。
你说的问题其实是实时MapReduce问题,这个是目前hadoop研究的重点之一 楼主可以参考twitter的Storm框架 专门针对实时性大数据流
写字不容易 求给分~
huoqie115
2012-03-17
打赏
举报
回复
我感觉不可以,从一开始Hadoop就不是在强调反应时间,他强调的是高吞吐量。
liutengfeigo
2012-03-16
打赏
举报
回复
不知道.路过.学习.
基于
hadoop
平台hive数据库处理电影数据(8965字数32页).doc
【标题】:“基于
Hadoop
平台Hive数据库处理电影数据”的文档详细介绍了如何在
Hadoop
分布式环境中利用Hive
进行
大规模电影数据的分析。该系统的主要目标是建立一个分布式
Hadoop
集群,并在此基础上对电影数据
进行
深入...
Hadoop
的辉煌还能延续多久?
对于未来,
Hadoop
可能需要
进行
更为深刻的变革,例如将HDFS和Zookeeper与MapReduce解耦,以适应新的计算模型,比如流处理和实时分析,从而提升竞争力。 面对谷歌的技术进步,
Hadoop
的挑战在于如何在保持其分布式处理...
hadoop
-2.7.2.rar
4. **启动
Hadoop
服务
**:依次启动DataNode、NameNode、Secondary NameNode和ResourceManager等
服务
。 5. **测试
Hadoop
**:使用`
hadoop
fs -ls`命令检查
Hadoop
是否正常运行,能否访问HDFS。 为了实现更好的集群管理...
hadoop
-3.2.0部署及相关工具
在大数据处理领域,
Hadoop
是一个不可或缺的开源框架,它提供了分布式存储和计算的能力。
Hadoop
3.2.0是其一个重要的版本,带来了许多性能优化和新特性。本篇文章将详细阐述如何部署
Hadoop
3.2.0,并探讨与之相关的...
Linux_RedHat、CentOS上搭建
Hadoop
集群
1. **单机模式**:这是最基础的模式,
Hadoop
作为一个独立的Java进程运行,便于开发者
进行
调试和测试。 2. **伪分布式模式**:在单节点上模拟分布式环境,每个
Hadoop
守护进程(如NameNode、DataNode、TaskTracker等...
Hadoop生态社区
20,845
社区成员
4,695
社区内容
发帖
与我相关
我的任务
Hadoop生态社区
Hadoop生态大数据交流社区,致力于有Hadoop,hive,Spark,Hbase,Flink,ClickHouse,Kafka,数据仓库,大数据集群运维技术分享和交流等。致力于收集优质的博客
复制链接
扫一扫
分享
社区描述
Hadoop生态大数据交流社区,致力于有Hadoop,hive,Spark,Hbase,Flink,ClickHouse,Kafka,数据仓库,大数据集群运维技术分享和交流等。致力于收集优质的博客
社区管理员
加入社区
获取链接或二维码
近7日
近30日
至今
加载中
查看更多榜单
社区公告
暂无公告
试试用AI创作助手写篇文章吧
+ 用AI写文章