Hbase能做到随机读取部分数据么？

whos2002110 2014-06-30 03:32:43

由于数据量太大，我只需要部分数据作为样本进行一个简单的统计，能不能随机查询一部分数据呢？比如随机查询1/10的数据，
或者随机取1W条数据

...全文

428 2 打赏收藏转发到动态举报

写回复

2 条回复

切换为时间正序

请发表友善的回复…

发表回复

whos2002110 2014-07-02

打赏
举报

回复

引用 1 楼 herofour444 的回复:

hbase提供随机读，随机写。但是没有条件的读真不知道，不能自己构造些条件吗

嗯，我看到有个RandomRowFilter，这个基本可以满足我的需求了

herofour444 2014-07-02

打赏
举报

回复

hbase提供随机读，随机写。但是没有条件的读真不知道，不能自己构造些条件吗

有时需要从Hbase中一次读取大量的数据，同时对实时性有较高的要求。可以从两方面进行考虑： 1、hbase提供的get方法提供了批量获取数据方法，通过组装一个list gets即可实现； 2、Java多线程的Future方法实现了如何从多线程中获取返回数据。以上两种方法结合后，获取数据将会更加的高效。阅读到一篇文章，对这两个方法的结合使用给出了实例，并有详细的性能分析。特意转载过来，供

最近在学习大数据相关的知识，学到了HBase，对其中的随机实时读写不是很明白，从网上翻了翻文章，有两篇不错的，粘贴过来分享给大家。第二篇文章在这： https://blog.csdn.net/weixin_42771366/article/details/120396428https://blog.csdn.net/weixin_42771366/article/details/120396428 第一篇原文地址： Apache HBase I/O - HFile - Cloudera...

Hbase为什么支持随机读写基于HDFS，HDFS只支持追加写，不支持随机写！随机读写：本质上还是追加写，基于版本号，实现随机写 append + 版本控制 update + delete : 随机写 insert : 追加写默认只返回时间戳最大的数据！ key value timestamp r1:cf1:name 20 16011 r1:cf1:name 30 16014 r1:cf1:name Delete 16015 ...

HBase中单表的数据量通常可以达到TB级或PB级，但大多数情况下数据读取可以做到毫秒级。HBase是如何做到的哪？要想实现表中数据的快速访问，通用的做法是数据保持有序并尽可能的将数据保存在内存里。HBase也是这样实现的。对于海量级的数据，首先要解决存储的问题。数据存储上，HBase将表切分成小一点的数据单位region，托管到RegionServer上，和以前关系数据库...

为什么Hbase能实现快速的查询你的快速是指什么？是根据亿级的记录中快速查询，还是说以实时的方式查询数据。 A：如果快速查询（从磁盘读数据），hbase是根据rowkey查询的，只要能快速的定位rowkey, 就能实现快速的查询，主要是以下因素： 1、hbase是可划分成多个region，你可以简单的理解为关系型数据库的多个分区。 2、键是排好序了的 3、按列存储的首先，能快速找到行所在的region(分区)，假设表有10亿条记录，占空间1TB, 分列成了500个region, 1个regio

Hadoop生态社区

20,847

社区成员

4,695

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章