Hadoop适合实时查询么?

zengjd 2013-04-02 11:19:23
Hadoop适合实时查询么?

因为现在的业务系统基于SQL Server,
业务系统主要是查询操作,定时向SQL server执行批处理插入。

随着SQL server数据的不断增大,系统运行速度越来越慢。
我想建立一个Hadoop集群,利用SQLOOD把数据导入Hbase中,
业务系统基于Hbase查询。

但是听说Hadoop不适合实时查询,我这种想法还行得通么?
...全文
7410 47 打赏 收藏 转发到动态 举报
写回复
用AI写文章
47 条回复
切换为时间正序
请发表友善的回复…
发表回复
qq_33186489 2015-11-29
  • 打赏
  • 举报
回复
引用 23 楼 tntzbzc 的回复:
[quote=引用 20 楼 huaqin 的回复:] 看来撸大湿对Hbase的使用很有经验,请问下撸大湿在实际的企业应用中,使用Hbase来处理怎么样的业务场景了?整个集群环境的配置情况如何?处理多大的数据量?
我的HADOOP业务主要分3块 分布式存储:HDFS 数据仓库与数据挖掘:Hive+MapReduce+MySQL 公司官网的用户数据实时查询和内网的LOG数据查询:Hbase+MySQL Hadoop集群有84台+26台,分布在4个IDC,每个IDC都有独立的NN、JT和HM 其中两个IDC,分别是42台集群,另外两个IDC加一起26台。 机器都比较差: NN、JT和HM的主控机是INTER XEON 16核,24GB内存,1.2TB硬盘 节点机一部分和主控一样是INTER 2U的机器,另一部分是刀片,AMD 8核,16GB内存,2TB硬盘 每天录入数据4TB到8TB的数据,处理后,大概是15TB左右。最后再砍掉12TB的垃圾数据,最后保留2-4TB。 持久的数据每周清理一次,打包压缩到SEQFILE里。 整个集群总共HDFS中有20万个小文件(2MB以下),和2万个普通文件,800多个大文件(100GB以上) HBASE最大一张表接近千亿行数据。其他表几万到几十亿行不等。 硬盘不够了,就加机器,反正过时刀片机也不贵,一个笼子也就15万的成本。[/quote] 处理十多T数据任务计算时间是多久
so_fast 2014-12-24
  • 打赏
  • 举报
回复
学习了,留个记号以后 问题向位讨教了
agai 2014-12-15
  • 打赏
  • 举报
回复
先做个标记再说
cainiao_w 2014-09-18
  • 打赏
  • 举报
回复
同求方案!mark
星星y 2014-08-25
  • 打赏
  • 举报
回复
我想着也碰到了和楼主类似的问题,公司原来用的是SqlServer来处理保存终端上保存的数据。现在每秒钟处理2M数据,准备采用分布式数据库,听我老大说用hadoop+mangodb,哎都没做过这方面,不知道从何入手!
actt001 2014-08-07
  • 打赏
  • 举报
回复
看了这个帖子真是获益匪浅,撸大湿 的方案给了我很多思路啊,赞一个
yebai 2014-06-12
  • 打赏
  • 举报
回复
大师,学习了。
zengjd 2014-01-27
  • 打赏
  • 举报
回复
引用 37 楼 lixucpf 的回复:
看到这个帖子受益匪浅,我也遇到了楼主同样的问题,不知道楼主找到解决方案没有,希望看到回复,谢谢!
我没找到解决方案,项目终止了。 还在学习中。 有解决方案希望共享。
撸大湿 2014-01-03
  • 打赏
  • 举报
回复
引用 38 楼 xuchuandi 的回复:
不知道你们做过测试没有。我测试的结果是有MS级别反应,但也有分钟级别反应。 我不知道实时查询是在什么范围之内。但是作为一个WEB应用。查询超过10秒我是不能容忍的。 我使用hbase。集群机器有4台。不知道是不是机器太少的原因。
分钟级别?没有二级索引扫全表嘛?
xuchuandi 2013-12-25
  • 打赏
  • 举报
回复
不知道你们做过测试没有。我测试的结果是有MS级别反应,但也有分钟级别反应。 我不知道实时查询是在什么范围之内。但是作为一个WEB应用。查询超过10秒我是不能容忍的。 我使用hbase。集群机器有4台。不知道是不是机器太少的原因。
_大漠孤烟_ 2013-10-17
  • 打赏
  • 举报
回复
看到这个帖子受益匪浅,我也遇到了楼主同样的问题,不知道楼主找到解决方案没有,希望看到回复,谢谢!
holdup20080808 2013-04-08
  • 打赏
  • 举报
回复
引用 34 楼 tntzbzc 的回复:
引用 33 楼 huaqin 的回复:你们是针对每个要查询的条件创建一张表吗,以其KEY作为查询条件?涉及到JOIN操作你们是放到一个表里对KEY进行多属性组合冗余存储,还是多表各表各查各的,然后查出来后在内存里进行关联合并?…… 都用ROWKEY作为查询条件,不是KEY。两者差别很大。 HBASE设计出来的表都有冗余,这和RDBMS的三范式设计理论有很大区别。 J……
对,我说的KEY就是你说的ROWKEY,JOIN的两个表第一次筛选出来的数据量都很大,比如已经超出内存大小,你们是怎么处理的呢?是再创建一张表合并这两个表的ROWKEY冗余存储吗?你们对这些表的查询大概响应时间是多少范围内呢?
sunwei0325 2013-04-07
  • 打赏
  • 举报
回复
引用 23 楼 tntzbzc 的回复:
引用 20 楼 huaqin 的回复:看来撸大湿对Hbase的使用很有经验,请问下撸大湿在实际的企业应用中,使用Hbase来处理怎么样的业务场景了?整个集群环境的配置情况如何?处理多大的数据量? 我的HADOOP业务主要分3块 分布式存储:HDFS 数据仓库与数据挖掘:Hive+MapReduce+MySQL 公司官网的用户数据实时查询和内网的LOG数据查询:……
有这样资源真好,我就5台机器,最好的4核8G内存
holdup20080808 2013-04-07
  • 打赏
  • 举报
回复
引用 23 楼 tntzbzc 的回复:
引用 20 楼 huaqin 的回复:看来撸大湿对Hbase的使用很有经验,请问下撸大湿在实际的企业应用中,使用Hbase来处理怎么样的业务场景了?整个集群环境的配置情况如何?处理多大的数据量? 我的HADOOP业务主要分3块 分布式存储:HDFS 数据仓库与数据挖掘:Hive+MapReduce+MySQL 公司官网的用户数据实时查询和内网的LOG数据查询:……
一天产生8T的数据!可以说是下什么公司官网吗?当前我们给某电信运营商处理一个省一天的数据的数据也才大概2T.请问用户数据实时查询是查询什么样的内容?内网的LOG数据查询又是查询什么样的内容,查询的输入输出分别是什么呢?请教下
holdup20080808 2013-04-07
  • 打赏
  • 举报
回复
引用 22 楼 zengjd 的回复:
这位兄弟也是,多多指教!
指教谈不上,大家一起交流,毕竟我也没在实际生产环境上真正部署使用过HBASE,只是做过简单实验,中国移动的真正生产环境里我仅用过HADOOP的M/R的计算模型,合不合适使用HBASE跟你的应用业务场景关系比较大,不同的业务场景可能的性能优化点很不相同,毕竟HBASE定位是NOSQL,不像传统关系数据库,如果是处理复杂的业务你需要做很多事情,建议自己安装一套HBASE根据自己的业务场景做一次调研,这样才有效降低项目风险。网上多看看,如HBASE的KEY-VALUE操作性能测试http://tech.it168.com/a2011/0711/1216/000001216244_all.shtml
撸大湿 2013-04-07
  • 打赏
  • 举报
回复
引用 20 楼 huaqin 的回复:
看来撸大湿对Hbase的使用很有经验,请问下撸大湿在实际的企业应用中,使用Hbase来处理怎么样的业务场景了?整个集群环境的配置情况如何?处理多大的数据量?
我的HADOOP业务主要分3块 分布式存储:HDFS 数据仓库与数据挖掘:Hive+MapReduce+MySQL 公司官网的用户数据实时查询和内网的LOG数据查询:Hbase+MySQL Hadoop集群有84台+26台,分布在4个IDC,每个IDC都有独立的NN、JT和HM 其中两个IDC,分别是42台集群,另外两个IDC加一起26台。 机器都比较差: NN、JT和HM的主控机是INTER XEON 16核,24GB内存,1.2TB硬盘 节点机一部分和主控一样是INTER 2U的机器,另一部分是刀片,AMD 8核,16GB内存,2TB硬盘 每天录入数据4TB到8TB的数据,处理后,大概是15TB左右。最后再砍掉12TB的垃圾数据,最后保留2-4TB。 持久的数据每周清理一次,打包压缩到SEQFILE里。 整个集群总共HDFS中有20万个小文件(2MB以下),和2万个普通文件,800多个大文件(100GB以上) HBASE最大一张表接近千亿行数据。其他表几万到几十亿行不等。 硬盘不够了,就加机器,反正过时刀片机也不贵,一个笼子也就15万的成本。
zengjd 2013-04-07
  • 打赏
  • 举报
回复
引用 20 楼 huaqin 的回复:
LZ,你的问题很有探讨的价值,所以我们讨论的比较激烈~~~ 可以做得,放心吧。 如果遇到问题,可以发帖子问,也可以发站内信讨论,祝你成功。 看来撸大湿对Hbase的使用很有经验,请问下撸大湿在实际的企业应用中,使用Hbase来处理怎么样的业务场景了?整个集群环境的配置情况如何?处理多大的数据量?
这位兄弟也是,多多指教!
zengjd 2013-04-07
  • 打赏
  • 举报
回复
引用 19 楼 tntzbzc 的回复:
引用 18 楼 zengjd 的回复:你们怎么讨论到HBase了呢? 我的问题是:我有海量的数据,还想在上面做实时查询,这个问题怎么解决。 我的想法是把数据导入到Hbase中,通过Hadoop做分布式集群处理,从而实现实时查询。 重点是海量的数据和实时查询怎么解决。Hadoop+Hbase合适么? LZ,你的问题很有探讨的价值,所以我们讨论的比较激烈~……
我在这方面的知识量仅限于知道Hadoop,Hbase这些名词和一些科普级别的原理知识。 现在还处于方案调查阶段。 希望能得到你们的帮助。
holdup20080808 2013-04-07
  • 打赏
  • 举报
回复
LZ,你的问题很有探讨的价值,所以我们讨论的比较激烈~~~ 可以做得,放心吧。 如果遇到问题,可以发帖子问,也可以发站内信讨论,祝你成功。 [/quote] 看来撸大湿对Hbase的使用很有经验,请问下撸大湿在实际的企业应用中,使用Hbase来处理怎么样的业务场景了?整个集群环境的配置情况如何?处理多大的数据量?
撸大湿 2013-04-07
  • 打赏
  • 举报
回复
引用 18 楼 zengjd 的回复:
你们怎么讨论到HBase了呢? 我的问题是:我有海量的数据,还想在上面做实时查询,这个问题怎么解决。 我的想法是把数据导入到Hbase中,通过Hadoop做分布式集群处理,从而实现实时查询。 重点是海量的数据和实时查询怎么解决。Hadoop+Hbase合适么?
LZ,你的问题很有探讨的价值,所以我们讨论的比较激烈~~~ 可以做得,放心吧。 如果遇到问题,可以发帖子问,也可以发站内信讨论,祝你成功。
加载更多回复(26)

20,808

社区成员

发帖
与我相关
我的任务
社区描述
Hadoop生态大数据交流社区,致力于有Hadoop,hive,Spark,Hbase,Flink,ClickHouse,Kafka,数据仓库,大数据集群运维技术分享和交流等。致力于收集优质的博客
社区管理员
  • 分布式计算/Hadoop社区
  • 涤生大数据
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧