lucene.net 建立索引时候从文档中提取内容效率的算法问题

mugenmn 2010-01-29 07:11:47

如题：
string Path=@"c:\1.docx";
var content=Parse.parse(Path)
//若文档内容超过20M 解析速度变得很慢，
跪求达人们的解决办法。。。。。有无效率高点的文档读取数据，
解决则立即给分

...全文

189 10 打赏收藏转发到动态举报

写回复

用AI写文章

10 条回复

切换为时间正序

请发表友善的回复…

发表回复

ljsheng 2010-01-30

打赏
举报

学习

woodyy 2010-01-30

打赏
举报

一，我建议你把索引分文件来放，分开种类，想办法分开。如果不能分开。

二，我不明白为什么你的索引文件是docx文件，一般情况下是_4.cfs、segments.gen、segments_f这样格式的文件。

三，我也刚接触lucene.net，创建索引时要根据分词来创建的，你是怎么创建的呢？
然后才能根据分词来快速查询。

四， Lucene.Net.Search.IndexSearcher searcher = new Lucene.Net.Search.IndexSearcher(“那3个文件的文件夹路径”);我是这么取索引文件的，估计大家都是这么取的，不知道为什么你是那么取。

五，QueryParser qp1 = new QueryParser("content", 你的分词组件);
Query q1 = qp1.Parse(“一句话被分词后的语句，这里不是索引文件的路径”);

六，细节讨论你email我：woodynet@qq.com，或者email我给你介绍个lucene群。

garcon1986 2010-01-30

打赏
举报

学习

重返春季 2010-01-30

打赏
举报

up!!

zhouzangood 2010-01-29

打赏
举报

悔说话的哑巴 2010-01-29

打赏
举报

路过帮顶

wosizy 2010-01-29

打赏
举报

[Quote=引用 3 楼 wosizy 的回复:]
LZ 去看看
http://topic.csdn.net/t/20060710/16/4871307.html#
[/Quote].....
这个错了是VB 的

下面这个是C# 的讲的很详细希望对lZ 有帮助
http://developer.51cto.com/art/200908/143627.htm

wosizy 2010-01-29