咨询hbase二级索引方案,团队在solrcloud和ES之间争论不休

mooscow 2017-08-29 03:57:17
我们团队在给Hbase构建二级索引方案时,候选方案有基于ES和基于solrcloud。
两个搜索引擎都很优秀,在社区都有大量的拥趸,在选型时有几个考虑点:
1、在做日志管理和分析时,搭建了一套ELK环境;
2、ES有更多的生产使用和优化经验;
3、CDH hadoop集成了cloudsearch(solrcloud+hbase indexer);
4、基于cloudsearch快速建立hbase到solrcloud的映射关系。
请有相关经验的高手们帮忙分析评估两个索引方案,如果有其他更好的索引方案请不吝赐教。
...全文
1009 2 打赏 收藏 转发到动态 举报
写回复
用AI写文章
2 条回复
切换为时间正序
请发表友善的回复…
发表回复
shiter 2017-09-03
  • 打赏
  • 举报
回复
是不是es更快一点? 我也不是很清楚 ,我们有个项目用的es。可能是公司熟悉es 的人多
tom_fans 2017-09-02
  • 打赏
  • 举报
回复
如果使用CDH, solr肯定更加方便,hbaseindex直接就能同步HBASE-SOLR,很显然这是CDH提供的便利。 但是的确很多公司使用的是ES, 实际上CDH hbaseindex是分析HBASE日志然后写入到SOLR,写入ES,那么需要你自己搞定,比如写入到HBASE,然后再写入ES,写二次, 很显然这实际会有问题,不是一个原子型插入,如果插入HBASE城堡但是ES失败,那么就不能搜索到数据, 所以通常会先插入ES,再插入HBASE,如果ES成功,HBASE失败,没有关系,最多是HBASE没有数据,通过定期脚本清理的方式可以解决ES垃圾数据的问题。 如果仅仅是做二级索引,我更倾向SOLR,毕竟CDH提供给你了,你自己再去做一次有必要吗? 目前二级索引没有太多的方案,我这里有部分数据没有同步到SOLR, 于是是写二次HBASE,这个方案不如SOLR好,毕竟如果多个列要索引的话,那就要写多次HBASE,实在是。。。。。

20,808

社区成员

发帖
与我相关
我的任务
社区描述
Hadoop生态大数据交流社区,致力于有Hadoop,hive,Spark,Hbase,Flink,ClickHouse,Kafka,数据仓库,大数据集群运维技术分享和交流等。致力于收集优质的博客
社区管理员
  • 分布式计算/Hadoop社区
  • 涤生大数据
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧