咨询hbase二级索引方案，团队在solrcloud和ES之间争论不休

mooscow 2017-08-29 03:57:17

我们团队在给Hbase构建二级索引方案时，候选方案有基于ES和基于solrcloud。
两个搜索引擎都很优秀，在社区都有大量的拥趸，在选型时有几个考虑点：
1、在做日志管理和分析时，搭建了一套ELK环境；
2、ES有更多的生产使用和优化经验；
3、CDH hadoop集成了cloudsearch（solrcloud+hbase indexer）；
4、基于cloudsearch快速建立hbase到solrcloud的映射关系。
请有相关经验的高手们帮忙分析评估两个索引方案，如果有其他更好的索引方案请不吝赐教。

...全文

1009 2 打赏收藏转发到动态举报

写回复

2 条回复

切换为时间正序

请发表友善的回复…

发表回复

shiter 2017-09-03

打赏
举报

回复

是不是es更快一点? 我也不是很清楚，我们有个项目用的es。可能是公司熟悉es 的人多

tom_fans 2017-09-02

打赏
举报

回复

如果使用CDH， solr肯定更加方便，hbaseindex直接就能同步HBASE-SOLR，很显然这是CDH提供的便利。但是的确很多公司使用的是ES，实际上CDH hbaseindex是分析HBASE日志然后写入到SOLR，写入ES，那么需要你自己搞定，比如写入到HBASE，然后再写入ES，写二次，很显然这实际会有问题，不是一个原子型插入，如果插入HBASE城堡但是ES失败，那么就不能搜索到数据，所以通常会先插入ES，再插入HBASE，如果ES成功，HBASE失败，没有关系，最多是HBASE没有数据，通过定期脚本清理的方式可以解决ES垃圾数据的问题。如果仅仅是做二级索引，我更倾向SOLR，毕竟CDH提供给你了，你自己再去做一次有必要吗？目前二级索引没有太多的方案，我这里有部分数据没有同步到SOLR, 于是是写二次HBASE，这个方案不如SOLR好，毕竟如果多个列要索引的话，那就要写多次HBASE，实在是。。。。。

1.HBase基础概念与数据模型 2.HBase的系统架构 3.HBase的安装与配置 4.HBase Shell 5.HBase的Java编程接口 6.HBase协处理器原理 7.HBase 二级索引 8.HBase Bulkload等高级特性 9.HBase与Hive协同工作 10.HBase Phoenix操作 11.HBase表结构设计案例

HBase不支持多条件查询，不提供二级索引，难以满足用户对检索功能多样性和高效率两方面的需求。由索引模块的需求分析可知，本文解决通过，提出数据与索引的分离，利用HBase数据库的存储模式灵活多变，容纳海量数据等特点，结合ES的快速建立索引和提供多样化的查询接口等优势，构建基于ES的HBase二级索引方案。从HBase二级索引现状可知，目前主要解决思路分为两种：第一种是开发人员手动创建和维护索引表，...

HBase的查询都是通过RowKey(要把多条件组合查询的字段都拼接在RowKey中显然不太可能)，或者全表扫描再结合过滤器筛选出目标数据(太低效)，所以通过设计HBase的二级索引来解决这个问题。多个查询条件构成了多维度的组合查询，需要根据不同组合查询出符合条件的数据。例如: 按照电影维度查询数据适合,但是按照uid就不适合 , 使用二级索引分两步查询实现高效获取数据,因为两次都是通过ROWKEY查询的数据创建代码实现思路在插入数据的时候 , 如果遇到uid属性...

一、说明 1、由于数据量巨大的时候，单纯的Hbase查询就会变得比较慢。如果让Hbase查询再快一些，就要为其创建二级索引。为Hbase创建二级索引一般有两种思路，一个思路是使用phoenix为Hbase创建二级索引，另一个思路是使用es为Hbase创建二级索引。 2、使用phoenix为Hbase创建二级索引的思路是可行，但是当查询条件变得很多时就变的很不灵活。比如我有二十个查询条件随机组合查询，每次查询都会有一到二十中条件一起用，这样的话每一种情况都要用phoenix创建索引是比较繁琐的，还容易漏掉

点击上方蓝色字体，选择“设为星标”回复”面试“获取更多惊喜什么是二级索引Coprocessor协处理器类型Coprocessor方案(Phoenix等）Phoenix二级索引特点非Copr...

Hadoop生态社区

20,808

社区成员

4,690

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章