Hbase的rowkey设计

Container123 2020-05-14 02:59:12

spark streaming实时往hbase插入数据，1分钟增长一波。
然后利用spark 进行查询处理，每半小时开启一次，每次都要查询最近30分钟所有数据。
rowkey内除了时间戳外还有其他维度值。
现在是按照时间戳在rowkey第一位进行设计的，但是容易出现热点问题。
请问怎么设计更加的合理呢？

...全文

79 4 打赏收藏转发到动态举报

写回复

4 条回复

切换为时间正序

请发表友善的回复…

发表回复

Container123 2020-05-14

打赏
举报

回复

引用 3 楼 Grain_Rain_tx的回复:

不会扫描全表，hbase的每个HFile都维护了行键起始和结束，只有满足条件的才会去里面找对应的数据，并且只有满足行键匹配的那个数据块才会被解压。肯定比不加前缀扫描的行键数量要多，但是数据量不是十分庞大的情况下影响不大。

好的，多谢！！！！

谷雨_tx 2020-05-14

打赏
举报

回复

不会扫描全表，hbase的每个HFile都维护了行键起始和结束，只有满足条件的才会去里面找对应的数据，并且只有满足行键匹配的那个数据块才会被解压。肯定比不加前缀扫描的行键数量要多，但是数据量不是十分庞大的情况下影响不大。

Container123 2020-05-14

打赏
举报

回复

多谢，想再请教一下，这种匹配会不会造成全表扫描呢？

谷雨_tx 2020-05-14

打赏
举报

回复

可以在rowkey上面添加固定长度的前缀，以随机序列的形式存在。查的时候用正则匹配，过滤掉前缀的干扰，取相应时间范围内的值即可

hbase的Rowkey设计⽅案 1.1 hbase的概述的概述 HBase由于其存储和读写的⾼性能，在OLAP即时分析中越来越发挥重要的作⽤。作为Nosql数据库的⼀员，HBase查询只能通过其 Rowkey来查询(Rowkey⽤来表⽰唯⼀⼀⾏记录)，Rowkey设计的优劣直接影响读写性能。由于HBase是通过Rowkey查询的，⼀般Rowkey上都会存⼀些⽐较关键的检索信息，我们需要提前想好数据具体需要如何查询，根据查询⽅式进⾏数据存储格式的设计，要避免做全表扫描，因为效率特别低。此外易观⽅⾈也使⽤HBase做⽤户画像的标签存储⽅案，存储每个app的⽤户的⼈⼝学属性和商业属性等标签信息。 HBase中设计有MemStore和BlockCache，分别对应列族/Store级别的写⼊缓存，和RegionServer级别的读取缓存。如果RowKey过长，缓存中存储数据的密度就会降低，影响数据落地或查询效率。 1.2 hbase的设计原则以及解决⽅法的设计原则以及解决⽅法 1.3 预分区预分区 1.3.1 什么是预分区什么是预分区 HBase表在刚刚被创建时，只有1个分区（

阿里云吴阳平(明惠) 阿里云HBase业务架构师主要章节：

Spark存储数据到HBase实现RowKey完全散列-多进程多线程间Random完全随机，完美解决热点问题

该文档是介绍hbase的rowkey设计与hbase的协处理器运用，与大家分享！

HBase-RowKey与索引设计(高清) HBase-RowKey与索引设计(高清)HBase-RowKey与索引设计(高清)

Hadoop生态社区

20,808

社区成员

4,690

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章