Hadoop适合实时查询么？

zengjd 2013-04-02 11:19:23

Hadoop适合实时查询么？

因为现在的业务系统基于SQL Server，
业务系统主要是查询操作，定时向SQL server执行批处理插入。

随着SQL server数据的不断增大，系统运行速度越来越慢。
我想建立一个Hadoop集群，利用SQLOOD把数据导入Hbase中，
业务系统基于Hbase查询。

但是听说Hadoop不适合实时查询，我这种想法还行得通么？

...全文

7410 47 打赏收藏转发到动态举报

写回复

用AI写文章

47 条回复

切换为时间正序

请发表友善的回复…

发表回复

qq_33186489 2015-11-29

打赏
举报

引用 23 楼 tntzbzc 的回复:

[quote=引用 20 楼 huaqin 的回复:] 看来撸大湿对Hbase的使用很有经验，请问下撸大湿在实际的企业应用中，使用Hbase来处理怎么样的业务场景了？整个集群环境的配置情况如何？处理多大的数据量？

我的HADOOP业务主要分3块分布式存储：HDFS 数据仓库与数据挖掘：Hive+MapReduce+MySQL 公司官网的用户数据实时查询和内网的LOG数据查询:Hbase+MySQL Hadoop集群有84台+26台，分布在4个IDC，每个IDC都有独立的NN、JT和HM 其中两个IDC，分别是42台集群，另外两个IDC加一起26台。机器都比较差： NN、JT和HM的主控机是INTER XEON 16核，24GB内存，1.2TB硬盘节点机一部分和主控一样是INTER 2U的机器，另一部分是刀片，AMD 8核，16GB内存，2TB硬盘每天录入数据4TB到8TB的数据，处理后，大概是15TB左右。最后再砍掉12TB的垃圾数据，最后保留2-4TB。持久的数据每周清理一次，打包压缩到SEQFILE里。整个集群总共HDFS中有20万个小文件（2MB以下），和2万个普通文件，800多个大文件（100GB以上） HBASE最大一张表接近千亿行数据。其他表几万到几十亿行不等。硬盘不够了，就加机器，反正过时刀片机也不贵，一个笼子也就15万的成本。[/quote] 处理十多T数据任务计算时间是多久

so_fast 2014-12-24

打赏
举报

学习了，留个记号以后问题向位讨教了

agai 2014-12-15

打赏
举报

先做个标记再说

cainiao_w 2014-09-18

打赏
举报

同求方案！mark

星星y 2014-08-25

打赏
举报

我想着也碰到了和楼主类似的问题，公司原来用的是SqlServer来处理保存终端上保存的数据。现在每秒钟处理2M数据，准备采用分布式数据库，听我老大说用hadoop+mangodb，哎都没做过这方面，不知道从何入手！

actt001 2014-08-07

打赏
举报

看了这个帖子真是获益匪浅，撸大湿的方案给了我很多思路啊，赞一个

yebai 2014-06-12

打赏
举报

大师，学习了。

zengjd 2014-01-27

打赏
举报

引用 37 楼 lixucpf 的回复:

看到这个帖子受益匪浅，我也遇到了楼主同样的问题，不知道楼主找到解决方案没有，希望看到回复，谢谢！

我没找到解决方案，项目终止了。还在学习中。有解决方案希望共享。

撸大湿 2014-01-03

打赏
举报

引用 38 楼 xuchuandi 的回复:

不知道你们做过测试没有。我测试的结果是有MS级别反应，但也有分钟级别反应。我不知道实时查询是在什么范围之内。但是作为一个WEB应用。查询超过10秒我是不能容忍的。我使用hbase。集群机器有4台。不知道是不是机器太少的原因。

分钟级别？没有二级索引扫全表嘛？

xuchuandi 2013-12-25

打赏
举报

不知道你们做过测试没有。我测试的结果是有MS级别反应，但也有分钟级别反应。我不知道实时查询是在什么范围之内。但是作为一个WEB应用。查询超过10秒我是不能容忍的。我使用hbase。集群机器有4台。不知道是不是机器太少的原因。

_大漠孤烟_ 2013-10-17

打赏
举报

看到这个帖子受益匪浅，我也遇到了楼主同样的问题，不知道楼主找到解决方案没有，希望看到回复，谢谢！

holdup20080808 2013-04-08

打赏
举报

引用 34 楼 tntzbzc 的回复:

引用 33 楼 huaqin 的回复:你们是针对每个要查询的条件创建一张表吗，以其KEY作为查询条件？涉及到JOIN操作你们是放到一个表里对KEY进行多属性组合冗余存储，还是多表各表各查各的，然后查出来后在内存里进行关联合并？…… 都用ROWKEY作为查询条件，不是KEY。两者差别很大。 HBASE设计出来的表都有冗余，这和RDBMS的三范式设计理论有很大区别。 J……

对，我说的KEY就是你说的ROWKEY，JOIN的两个表第一次筛选出来的数据量都很大，比如已经超出内存大小，你们是怎么处理的呢？是再创建一张表合并这两个表的ROWKEY冗余存储吗？你们对这些表的查询大概响应时间是多少范围内呢？

sunwei0325 2013-04-07

打赏
举报

引用 23 楼 tntzbzc 的回复:

引用 20 楼 huaqin 的回复:看来撸大湿对Hbase的使用很有经验，请问下撸大湿在实际的企业应用中，使用Hbase来处理怎么样的业务场景了？整个集群环境的配置情况如何？处理多大的数据量？我的HADOOP业务主要分3块分布式存储：HDFS 数据仓库与数据挖掘：Hive+MapReduce+MySQL 公司官网的用户数据实时查询和内网的LOG数据查询:……

有这样资源真好，我就5台机器，最好的4核8G内存

holdup20080808 2013-04-07

打赏
举报

引用 23 楼 tntzbzc 的回复:

引用 20 楼 huaqin 的回复:看来撸大湿对Hbase的使用很有经验，请问下撸大湿在实际的企业应用中，使用Hbase来处理怎么样的业务场景了？整个集群环境的配置情况如何？处理多大的数据量？我的HADOOP业务主要分3块分布式存储：HDFS 数据仓库与数据挖掘：Hive+MapReduce+MySQL 公司官网的用户数据实时查询和内网的LOG数据查询:……

一天产生8T的数据!可以说是下什么公司官网吗？当前我们给某电信运营商处理一个省一天的数据的数据也才大概2T.请问用户数据实时查询是查询什么样的内容？内网的LOG数据查询又是查询什么样的内容，查询的输入输出分别是什么呢？请教下

holdup20080808 2013-04-07

打赏
举报

引用 22 楼 zengjd 的回复:

这位兄弟也是，多多指教！

指教谈不上，大家一起交流，毕竟我也没在实际生产环境上真正部署使用过HBASE，只是做过简单实验，中国移动的真正生产环境里我仅用过HADOOP的M/R的计算模型，合不合适使用HBASE跟你的应用业务场景关系比较大，不同的业务场景可能的性能优化点很不相同，毕竟HBASE定位是NOSQL，不像传统关系数据库，如果是处理复杂的业务你需要做很多事情，建议自己安装一套HBASE根据自己的业务场景做一次调研，这样才有效降低项目风险。网上多看看，如HBASE的KEY-VALUE操作性能测试http://tech.it168.com/a2011/0711/1216/000001216244_all.shtml

撸大湿 2013-04-07

打赏
举报

引用 20 楼 huaqin 的回复:

看来撸大湿对Hbase的使用很有经验，请问下撸大湿在实际的企业应用中，使用Hbase来处理怎么样的业务场景了？整个集群环境的配置情况如何？处理多大的数据量？

zengjd 2013-04-07

打赏
举报

引用 20 楼 huaqin 的回复:

LZ，你的问题很有探讨的价值，所以我们讨论的比较激烈~~~ 可以做得，放心吧。如果遇到问题，可以发帖子问，也可以发站内信讨论，祝你成功。看来撸大湿对Hbase的使用很有经验，请问下撸大湿在实际的企业应用中，使用Hbase来处理怎么样的业务场景了？整个集群环境的配置情况如何？处理多大的数据量？

这位兄弟也是，多多指教！

zengjd 2013-04-07

打赏
举报

引用 19 楼 tntzbzc 的回复:

引用 18 楼 zengjd 的回复:你们怎么讨论到HBase了呢？我的问题是：我有海量的数据，还想在上面做实时查询，这个问题怎么解决。我的想法是把数据导入到Hbase中，通过Hadoop做分布式集群处理，从而实现实时查询。重点是海量的数据和实时查询怎么解决。Hadoop+Hbase合适么？ LZ，你的问题很有探讨的价值，所以我们讨论的比较激烈~……

我在这方面的知识量仅限于知道Hadoop，Hbase这些名词和一些科普级别的原理知识。现在还处于方案调查阶段。希望能得到你们的帮助。

holdup20080808 2013-04-07

打赏
举报

LZ，你的问题很有探讨的价值，所以我们讨论的比较激烈~~~ 可以做得，放心吧。如果遇到问题，可以发帖子问，也可以发站内信讨论，祝你成功。 [/quote] 看来撸大湿对Hbase的使用很有经验，请问下撸大湿在实际的企业应用中，使用Hbase来处理怎么样的业务场景了？整个集群环境的配置情况如何？处理多大的数据量？

撸大湿 2013-04-07