hbase行统计有什么比较快的方法

langke93 2011-11-07 11:10:37

用她里面org.apache.hadoop.hbase.mapreduce.RowCounter太慢了
shell里面的count怎么就那么快
ruby看不来，有没有知道她是怎么实现的

...全文

633 6 打赏收藏转发到动态举报

写回复

用AI写文章

6 条回复

切换为时间正序

请发表友善的回复…

发表回复

langke93 2011-12-26

打赏
举报

问题是程序运行比命令慢

一无所有自知之明 2011-12-22

打赏
举报

命令行运行，是单线程
程序运行，是mapreduce任务，所以快。
之前我搞错了

lxs_huntingjob 2011-12-21

打赏
举报

[Quote=引用 3 楼 langke93 的回复:]

有没有懂得人来讨论下
[/Quote]
不知道LZ的问题有没有解决，如果你用程序来运行 RowCounter 是很快的，如果你用命令行的话就很慢

langke93 2011-11-08

打赏
举报

有没有懂得人来讨论下

langke93 2011-11-07

打赏
举报

但是为什么shell里调用明显比直接调用rowcounter快得多

一无所有自知之明 2011-11-07

打赏
举报

shell里的count调用的就是那个rowcounter
hbase是按列存储的，行统计本来就慢的

本文介绍了四种在HBase中统计表行数的不同方法及其效率对比：hbase-shell的count命令、scan方式设置过滤器循环计数、利用hbase.RowCounter包执行MR任务及使用HBase协处理器Coprocessor。

本文介绍了在HBase中使用count命令进行数据行数统计的方法，包括设置统计间隔和缓存大小来提高效率。同时，文章还探讨了通过Hive关联表及MapReduce方式统计HBase表行数的替代方案。

本文介绍了Hive和Hbase两种基于Hadoop的技术，Hive是类SQL引擎，适合统计查询；Hbase是NoSQL的Key/Value数据库，适合实时查询。还阐述了Hbase的rowKey设计原则、scan和get功能及异同、scan对象方法使用，最后介绍了Column - Store在查询引擎层的优化手段。

本文探讨了在HBase中统计表行数的四种不同方法，包括hbase-shell的count命令、scan方式设置过滤器循环计数、利用RowCounter包执行MR任务及使用HBase协处理器Coprocessor，对比了各种方法的执行效率。

本文介绍了统计HBase表行数的三种方法：1) 使用HBase shell的count命令，但效率较低；2) 调用MapReduce的RowCounter类，效率较高；3) 通过Hive与HBase的集成，使用SQL进行统计。详细步骤包括执行命令、查看输出信息等。

Hadoop生态社区

20,844

社区成员

4,695

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章