lucene索引文件存储在hadoop hdfs文件系统的疑问

wslovenide 2015-01-12 11:33:29
由于公司业务的需要,需要对大量(上亿)的数据进行分词并生成索引文件,目前用了4台solr集群来提供查询服务,听说性能还很不错,但是考虑到数据量还会不断增加,每天都会有40G的数据需要加入索引,索引文件的不断扩增最终还是会成为系统的瓶颈,现在考虑使用hadoop的dhfs文件系统来存储索引文件,但是在网上查了不少资料,有不少网友说hadoop的hdfs文件系统不支持随机写(lucene的索引[size=16px]是随机读写的),解决方案是先把索引写在本地或内存,再把本地或内存中的索引写在hdfs系统中, 查询索引的时候也是先从hdfs读取索引先写入内存,在从内存中进行查询...

疑问:数据量太大40G,写入到内存肯定不现实, 先写入本地再同步到hdfs,那查询的时候先从hdfs把索引写到本地磁盘,这个效率肯定也是不高的,跪求大神对这样的需求有什么好的解决方案.[/size]
...全文
1925 6 打赏 收藏 转发到动态 举报
写回复
用AI写文章
6 条回复
切换为时间正序
请发表友善的回复…
发表回复
_Dylan_ 2017-06-02
  • 打赏
  • 举报
回复
同样的问题不知道则呢解决,只是准备先把索引写到hdfs,然后再拉取到磁盘。但是直接写hdfs比直接写磁盘少了segment文件,不知道怎么回事。
weiwei1261559539 2017-04-24
  • 打赏
  • 举报
回复
Solr可以直接访问hdfs的文件吗?
wslovenide 2015-01-15
  • 打赏
  • 举报
回复
非常感谢提供了一个解决方案,具体实现还有待慢慢研究,有了方向就好了,thx
mryuqinghua 2015-01-12
  • 打赏
  • 举报
回复
另外有接触过ElasticSearch, 这个的分布式集群不像Hadoop那么麻烦, 他也是基于Lucene的第三方开源解决方案,可以尝试一下,另外之前说的MR生成Lucene如有需要可以联系我(2012年写的)。
mryuqinghua 2015-01-12
  • 打赏
  • 举报
回复
以前曾经写过这一块的代码, 是通过mapreduce生成Lucene文件, 然后使用solr进行展现的, solr可以使用hdfs作为存储。
YOLO高分设计资源源码,详情请查看资源内容中使用说明 YOLO高分设计资源源码,详情请查看资源内容中使用说明 YOLO高分设计资源源码,详情请查看资源内容中使用说明 YOLO高分设计资源源码,详情请查看资源内容中使用说明YOLO高分设计资源源码,详情请查看资源内容中使用说明YOLO高分设计资源源码,详情请查看资源内容中使用说明YOLO高分设计资源源码,详情请查看资源内容中使用说明YOLO高分设计资源源码,详情请查看资源内容中使用说明YOLO高分设计资源源码,详情请查看资源内容中使用说明YOLO高分设计资源源码,详情请查看资源内容中使用说明YOLO高分设计资源源码,详情请查看资源内容中使用说明YOLO高分设计资源源码,详情请查看资源内容中使用说明YOLO高分设计资源源码,详情请查看资源内容中使用说明YOLO高分设计资源源码,详情请查看资源内容中使用说明YOLO高分设计资源源码,详情请查看资源内容中使用说明YOLO高分设计资源源码,详情请查看资源内容中使用说明YOLO高分设计资源源码,详情请查看资源内容中使用说明YOLO高分设计资源源码,详情请查看资源内容中使用说明YOLO高分设计资源源码,详情请查看资源内容中使用说明YOLO高分设计资源源码,详情请查看资源内容中使用说明YOLO高分设计资源源码,详情请查看资源内容中使用说明YOLO高分设计资源源码,详情请查看资源内容中使用说明YOLO高分设计资源源码,详情请查看资源内容中使用说明YOLO高分设计资源源码,详情请查看资源内容中使用说明YOLO高分设计资源源码,详情请查看资源内容中使用说明YOLO高分设计资源源码,详情请查看资源内容中使用说明

932

社区成员

发帖
与我相关
我的任务
社区描述
云计算 云存储相关讨论
社区管理员
  • 云存储
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧