社区
Java SE
帖子详情
现在有个lucene 索引程序,在长期运行后效率降低.
AIHUA
2008-06-03 09:03:09
各位达人好!
现在有个lucene 索引程序,在长期运行后效率降低.
目前需要索引的数据量是1T,文件基本都是小文件,个数超过1700w.
服务器配置 cpu 8个,内存8ge,硬盘>10t
已经做过一些优化,效率仍然不满意.
想请教一下这个情况的分析思路以及需要做哪些基本测试
或者说可以通过哪些手段进行性能盘查.....
请大家敞开思路 多提建议
...全文
86
3
打赏
收藏
现在有个lucene 索引程序,在长期运行后效率降低.
各位达人好! 现在有个lucene 索引程序,在长期运行后效率降低. 目前需要索引的数据量是1T,文件基本都是小文件,个数超过1700w. 服务器配置 cpu 8个,内存8ge,硬盘>10t 已经做过一些优化,效率仍然不满意. 想请教一下这个情况的分析思路以及需要做哪些基本测试 或者说可以通过哪些手段进行性能盘查..... 请大家敞开思路 多提建议
复制链接
扫一扫
分享
转发到动态
举报
AI
作业
写回复
配置赞助广告
用AI写文章
3 条
回复
切换为时间正序
请发表友善的回复…
发表回复
打赏红包
maquan
2008-06-03
打赏
举报
回复
“把索引文件拆成多个”的理由有两个:
1. 好像检索速度跟索引文件的尺寸不是线性关系,索引文件越大,检索效率越低;
2. 如果硬盘是分卷的,可以把拆开的文件分散到不同的卷上,提高 IO 效率。
“多线程”的理由当然就是发挥 8CPU 的优势。
maquan
2008-06-03
打赏
举报
回复
把索引文件适当拆分成多个,多线程分别检索,最后再合并结果。
zhaoyongling721
2008-06-03
打赏
举报
回复
lucene 好像可以设置大小 和 优化
看看《Lucene in Action》里面有详细介绍
lucene
4. **
降低
运营成本**:相比于购买第三方搜索服务,基于
Lucene
自建搜
索引
擎可以显著
降低
长期
运营成本,同时增强企业对搜索服务的控制力和安全性。 ### 实现过程 实现基于
Lucene
的搜
索引
擎主要包括以下步骤: 1. **...
.NET全文搜
索引
擎 HubbleDotNet使用手册
这一机制可以显著减少对外部资源的访问频率,进而
降低
延迟、提高
效率
。缓存层包括: - **一级缓存**:主要用于存储最近频繁访问的数据,如查询结果等。 - **二级缓存**:容量较大,用于存放不太频繁但仍然重要的数据...
201809网络爬虫系统-项目建设方案
- **数据分析模块**:对清洗后的数据进行深度分析,提取有价值的信息。 - **数据存储模块**:将处理后的数据存储至数据库中,便于后续检索与分析。 #### 3. 详细建设方案 ##### 3.1 一站式大数据采集、存储、清洗...
网络爬虫系统项目建设方案.docx
- **集成
Lucene
**:Nutch基于
Lucene
,这意味着它可以提供强大的文本搜索和
索引
能力,从而为用户提供更加准确的搜索结果。 **2.2 数据架构** - **数据采集**:通过爬虫
程序
从互联网上抓取数据,支持多种数据格式和...
Lucene
InAction(第2版)学习笔记——第二章 构建
索引
文档是
Lucene
索引
和搜索的原子单位。 文档为包含一个或多个域的容器,而域则依次包含“真正的”被搜索内容。 每个域都有一个标识名称,该名称为一个文本值或二进制值。 将一个文档加入到
索引
中时,可以...
Java SE
62,635
社区成员
307,269
社区内容
发帖
与我相关
我的任务
Java SE
Java 2 Standard Edition
复制链接
扫一扫
分享
社区描述
Java 2 Standard Edition
社区管理员
加入社区
获取链接或二维码
近7日
近30日
至今
加载中
查看更多榜单
社区公告
暂无公告
试试用AI创作助手写篇文章吧
+ 用AI写文章