Hbase scan 速度如何提升

myc_315191545 2018-07-05 07:04:14

现有一list，里面放的是20位的string ，要求查询rowkey是以list中的id为前缀的所有数据。
我的代码如下

Table table = hbaseConnection.getTable(TableName.valueOf(BigDataConstant.HBASE_YHPH_TABLE_NAME));
Scan scan = new Scan();
ResultScanner resultScanner;
String column;
String columnChild;
String columnValue;
String value;

List<Filter> filterlist = new ArrayList<>();
for (String id : idList) {
filterlist.add(new PrefixFilter(id.getBytes()));
}
Filter filter = new FilterList(FilterList.Operator.MUST_PASS_ALL, filterlist);
// 模糊匹配 rowkey
scan.setFilter(filter);
scan.setCaching(500);
// scan.addFamily(HbaseColumnEnum.EMR_DATA.getName().getBytes());
// scan.addFamily(HbaseColumnEnum.LAB_REPORT.getName().getBytes());
scan.addColumn("a".getBytes(),"aa".getBytes());
scan.addColumn("b".getBytes(),"bb".getBytes());
scan.setBatch(2);
scan.setCacheBlocks(false);
LOGGER.debug("Start:[getScanner] ");
resultScanner = table.getScanner(scan);
LOGGER.debug("End:[getScanner] ");

LOGGER.debug("Start:[cycle resultScanner] ");

for (Result rs = resultScanner.next(); rs != null; rs=resultScanner.next()) {
for (Cell cell : rs.listCells()) {
//...
}
}

// Result[] rsList = resultScanner.next(1000);
// for (Result rs:rsList)
// {
// //...
// }

resultScanner.close();
table.close();
LOGGER.debug("End:[cycle resultScanner]");

现在查询耗时差不多要10-15秒
查询出来的结构大概在500条，数据库里数据》2000w
1、这要如何优化？
2、PrefixFilter做的是全盘扫描吗？

...全文

1070 3 打赏收藏转发到动态举报

写回复

3 条回复

切换为时间正序

请发表友善的回复…

发表回复

DarxWu 2018-08-28

打赏
举报

回复

过滤器不会加快多少速度，只是减少了网络传输

pucheung 2018-08-23

打赏
举报

回复

scan.setBatch(2); 不清楚你的每一行有多少列，目前看来batch值偏小，导致多次rpc

kxiaozhuk 2018-07-06

打赏
举报

回复

最好用startRow 和StopRow来scan

4. **扫描操作**：使用`scan`命令可以获取表中的一系列行，支持过滤器进行条件筛选。 5. **删除数据**：`delete`命令用于删除单个单元格或一组版本的数据。 6. **合并与分裂Region**：管理员可以手动或自动调整...

多线程技术是Java程序性能优化的关键手段之一，当处理大数据量时，如HBase这样的系统尤其需要多线程来提升数据读写速度。本篇文章将深入探讨如何在HBase操作中有效地利用多线程。一、HBase简介 HBase是一种列式...

8. **性能优化**: 可以通过调整HBase客户端配置来优化性能，比如设置连接池大小，或者使用预分区策略来提高写入速度。总的来说，`spring-boot-starter-hbase`为Spring Boot应用提供了简洁、高效的HBase访问方式。...

2. **Multi-Get与Scan优化**：此版本提升了多行获取（Multi-Get）和扫描（Scan）操作的性能，这对于大数据分析和实时查询场景尤为重要。 3. **Zookeeper依赖降低**：HBase 2.2.3减少了对Zookeeper的依赖，降低了...

此外，HBase还提供了批量操作的工具，如HBase的`BulkLoad`功能，它可以将预先格式化的数据文件直接加载到HFile中，进一步提升写入速度。这个过程通常包括数据预处理、生成SequenceFile、上传到HDFS以及执行`...

Hadoop生态社区

20,845

社区成员

4,695

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章