社区
Hadoop生态社区
帖子详情
Lily Hbase Indexer 结合 solr实现Hbase的二级索引
矛始
2015-12-17 03:44:59
环境:CDH5.4
描述:使用CDH 的 key-value store index 服务实现 Hbase的二级索引,当在hbase put 数据后 索引数据没有立即保存到solr里,而当solr服务重启后,之前在hbase添加的数据的索引数据才保存到solr里,有没有大神指导一下。。
...全文
511
2
打赏
收藏
Lily Hbase Indexer 结合 solr实现Hbase的二级索引
环境:CDH5.4 描述:使用CDH 的 key-value store index 服务实现 Hbase的二级索引,当在hbase put 数据后 索引数据没有立即保存到solr里,而当solr服务重启后,之前在hbase添加的数据的索引数据才保存到solr里,有没有大神指导一下。。
复制链接
扫一扫
分享
转发到动态
举报
写回复
配置赞助广告
用AI写文章
2 条
回复
切换为时间正序
请发表友善的回复…
发表回复
打赏红包
矛始
2017-06-02
打赏
举报
回复
已解决,是因为Hbase Indexer内存给得太少导致经常自动退出
mooscow
2017-05-24
打赏
举报
回复
这么就都没人回答, 1、打开你的 solrhome/cores/conf/solrconfig.xml ,根据实际目录输入。 2、 <autoCommit> <maxTime>${solr.autoCommit.maxTime:15000}</maxTime> <openSearcher>false</openSearcher> </autoCommit> <autoSoftCommit> <maxTime>${solr.autoSoftCommit.maxTime:5000}</maxTime> </autoSoftCommit>
Hbase
二级
索引
方案
概述 在
Hbase
中,表的 RowKey 按照字典排序, Region 按照 RowKey 设置 split point 进行 shard, 通过这种方式
实现
的全局、分布式
索引
. 成为了其成功的最大的砝码。 然而单一的通过 RowKey 检索数据的方式,不再满足更多的需求,查询成为
Hbase
的瓶颈,人 们更加希望像 Sql 一样快速检索数据,可是,
Hbase
之前定位的是大表的存储,要进行这样 的查询,往往是要通过类似 Hive、Pig 等系统进行全表的 MapReduce 计算,这种方式既浪费 了机器的计算资源,又因高延迟使得应用黯然失色。于是,针对
HBase
Secondary
Ind
exing 的方案出现了。
Solr
Solr
是一个独立的企业级搜索应用服务器,是 Apache Lucene 项目的开源企业搜索平台, 其主要功能包括全文检索、命中标示、分面搜索、动态聚类、数据库集成,以及富文本(如 Word、PDF)的处理。
Solr
是高度可扩展的,并提供了分布式搜索和
索引
复制。
Solr
4 还增 加了 NoSQL 支持,以及基于 Zookeeper 的分布式扩展功能
Solr
Cloud。
Solr
Cloud 的说明可 以参看:
Solr
Cloud 分布式部署。它的主要特性包括:高效、灵活的缓存功能,垂直搜索功 能,
Solr
是一个高性能,采用 Java5 开发,基于 Lucene 的全文搜索服务器。同时对其进行 了扩展,提供了比 Lucene 更为丰富的查询语言,同时
实现
了可配置、可扩展并对查询性能 进行了优化,并且提供了一个完善的功能管理界面,是一款非常优秀的全文搜
索引
擎。
Solr
可以高亮显示搜索结果,通过
索引
复制来提高可用,性,提供一套强大 Data Schema 来定义字段,类型和设置文本分析,提供基于 Web 的管理界面等。 Key-Value Store
Ind
exe
r 这个组件非常关键,是
Hbase
到
Solr
生成
索引
的中间工具。 在 CDH5.3.2 中的 Key-Value
Ind
exe
r 使用的是
Lily
HBase
NRT
Ind
exe
r 服务.
Lily
HBase
Ind
exe
r 是一款灵活的、可扩展的、高容错的、事务性的,并且近实时的处理
HBase
列
索引
数据的分布式服务软件。它是 NGDATA 公司开发的
Lily
系统的一部分,已开放 源代码。
Lily
HBase
Ind
exe
r 使用
Solr
Cloud 来存储
HBase
的
索引
数据,当
HBase
执行写 入、更新或删除操作时,
Ind
exe
r 通过
HBase
的 replication 功能来把这些操作抽象成一系 列的 Event 事件,并用来保证写入
Solr
中的
HBase
索引
数据的一致性。并且
Ind
exe
r 支持 用户自定义的抽取,转换规则来
索引
HBase
列数据。
Solr
搜索结果会包含用户自定义的 columnfamily:qualifier 字段结果,这样应用程序就可以直接访问
HBase
的列数据。而且
Ind
exe
r
索引
和搜索不会影响
HBase
运行的稳定性和
HBase
数据写入的吞吐量,因为
索引
和 搜索过程是完全分开并且异步的。
Lily
HBase
Ind
exe
r 在 CDH5 中运行必须依赖
HBase
、
Solr
Cloud 和 Zookeeper 服务。
hbase
-
ind
exe
r
hbase
-
ind
exe
r, 便于通过
solr
将
hbase
中的数据变动建立
索引
Hbase
同步数据到
Solr
的方案
hbase
ind
exe
r是负责将
hbase
的数据自动同步到
solr
中建立
索引
,不需要写代码将
hbase
的数据同步到
solr
中创建
索引
。尽少开发工作,和减少在在并发环境下手工创建
索引
可能带来性能问题。
基于CDH的
Solr
+
Hbase
+KV构建
二级
索引
1.安装
solr
在CDH主界面,选择“添加服务” 选择“
solr
”,之后点击“继续” 2.安装Key-Value Store
Ind
exe
r 与上面操作雷同 3.构建
二级
索引
3.1创建测试表 3.1.1创建测试表(phoenix) drop table “ZJS_ORDER”.”ALADIN_WAYBILLSTATUS”; CREATE TABLE “ZJS_ORDER”.”ALADIN_WAYBILLSTATUS” ( ydh varchar NOT NULL PRIMARY KEY, khbh varchar, khdh varchar, kdsj varc
用
Lily
Hbase
ind
exe
r 工具包同步
Hbase
的
索引
到
solr
出错
用
Lily
Hbase
ind
exe
r 工具包同步
Hbase
的
索引
到
solr
出错 错误堆栈 2019-05-21 06:52:07,181 ERROR [IPC Server handler 8 on 42709] org.apache.hadoop.mapred.TaskAttemptListenerImpl: Task: attempt_1555666124724_2625_m_000005_...
Hadoop生态社区
20,807
社区成员
4,690
社区内容
发帖
与我相关
我的任务
Hadoop生态社区
Hadoop生态大数据交流社区,致力于有Hadoop,hive,Spark,Hbase,Flink,ClickHouse,Kafka,数据仓库,大数据集群运维技术分享和交流等。致力于收集优质的博客
复制链接
扫一扫
分享
社区描述
Hadoop生态大数据交流社区,致力于有Hadoop,hive,Spark,Hbase,Flink,ClickHouse,Kafka,数据仓库,大数据集群运维技术分享和交流等。致力于收集优质的博客
社区管理员
加入社区
获取链接或二维码
近7日
近30日
至今
加载中
查看更多榜单
社区公告
暂无公告
试试用AI创作助手写篇文章吧
+ 用AI写文章