关于HBase存储格式的问题

wangzhen199009 2014-12-11 08:53:27
HBse数据都以StoreFile形式存储,每个StoreFile的datablock用于存储键值。现在毕业论文有一个需求,就是要添加一些索引(位图索引)在数据块当中,通过位图索引的方法,进行HFile当中数据的进行快速查找。。。。
当然这些都是构想,本人水平非常有限,想问下如果想在HBase原有代码的基础上通过修改源代码的方式,来实现HFile文件格式的重新定义和数据读取的问题。需要怎么做呢 ?或者需要学点哪些知识呢?
...全文
525 5 打赏 收藏 转发到动态 举报
写回复
用AI写文章
5 条回复
切换为时间正序
请发表友善的回复…
发表回复
wangzhen199009 2015-01-07
  • 打赏
  • 举报
回复
引用 4 楼 Lucifer2603 的回复:
我不知道楼主的意思是在一个块里建index 还是全局index。 全局index需要在每次生成HFile和HFile合并的时候刷新。 单个块的index,只需要在HFile生成时建立就行了,生存期和HFile一样。
全局建立索引,索引肯定会太大,一个节点难以存储吧。只能在每块简历索引吧。但是这个HFile格式能重新定义吗?知道怎么重新弄定义不?
a-Loser 2015-01-07
  • 打赏
  • 举报
回复
我不知道楼主的意思是在一个块里建index 还是全局index。 全局index需要在每次生成HFile和HFile合并的时候刷新。 单个块的index,只需要在HFile生成时建立就行了,生存期和HFile一样。
mopishv0 2014-12-18
  • 打赏
  • 举报
回复
布龙过滤器本身storefile内部就有,而且hfilev2后,storefile内部已经有针对rowkey的两级索引了,因为storefile内部rowkey有序,所以索引并不占太多存储。 如果是针对其他列值进行索引,那索引规模必然很大,因为是无序的,所以最好不要在storefile内部搞非rowkey索引,加重compact和seek负担。
hapyangel 2014-12-12
  • 打赏
  • 举报
回复
本人水平非常有限
wangzhen199009 2014-12-12
  • 打赏
  • 举报
回复
引用 1 楼 hapyangel 的回复:
本人水平非常有限
别闹

932

社区成员

发帖
与我相关
我的任务
社区描述
云计算 云存储相关讨论
社区管理员
  • 云存储
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧