hbase那种表设计方式比较好

狂热的土豆 2015-08-04 09:07:20

hbase做查询，需要按照多个维度进行查询，因为hbase只有rowkey索引，不走rowkey都是全表扫描，为了保证查询速度，是将这些维度拼接作为rowkey还是分多个列族比较好？

...全文

380 4 打赏收藏转发到动态举报

写回复

4 条回复

切换为时间正序

请发表友善的回复…

发表回复

sunandmoxi 2015-09-09

打赏
举报

回复

建立二级索引是最好的办法，可以采用协处理器或者Solr都可以

andyan_2008 2015-08-08

打赏
举报

回复

多列族对于查询没有帮助，可以建立二级索引，或者像楼上说的部分索引保存在其他数据库

atjl 2015-08-06

打赏
举报

回复

建议先按维度分类，时间类的可以用timestamp，主键类的放rowkey，其他条件查询在有rowkey的情况下可以查询出来再过滤，没rowkey条件的在关系数据库里存条件到rowkey的映射，查出rowkey再查hbase

夜无边CN 2015-08-05

打赏
举报

回复

首先多个列簇肯定是不好的。如果你的“多个维度”如果拼接作为rowkey可以解决问题，可以拼接。还有可以用solr就更灵活了，但也要多维护一个组件。

本文聚焦大数据处理中HBase的表设计，介绍了RowKey、列族、Region等核心概念及其关系。详细阐述了表设计最佳实践，包括RowKey设计原则、列族划分技巧、Region预分区方法等。还结合用户行为日志表案例，展示了从需求分析到代码实现的全过程，以及不同场景下的表设计调整策略。

本文探讨了HBase与RDBMS的区别，强调了HBase在数据类型、操作、存储、维护和可伸缩性上的特点。介绍了HBase检索时间复杂度，以及HBase模式设计的原则和优化，包括列簇、行健、版本数量等方面的考虑。通过一个客户案例展示了如何设计HBase表，包括高表和宽表设计，以及如何根据业务需求进行优化。

本文深入剖析HBase与MapReduce的整合及HBase表设计。介绍了二者整合的设计思想、流程、源码、调试优化及扩展方案，还阐述了HBase表设计的原则、结构、高深知识及设计模式。通过口诀、流程图和最佳实践，帮助开发者掌握相关技能。

本文详细介绍了HBase的原理及其实现细节，包括HBase集群架构、HA配置、数据模型等，并探讨了读写流程、表组成等内容。此外，还讨论了如何优化表设计和RowKey设计以提高查询效率。

本文详细介绍了HBase表设计的核心原则，包括RowKey设计、列族优化、预分区策略及热点问题解决方案，并系统阐述了从RegionServer、表结构到客户端的多层次性能调优方法，涵盖压缩、TTL、Compaction、JVM参数等关键配置，适用于大数据场景下的高效存储与访问。

Hadoop生态社区

20,843

社区成员

4,695

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章