lucene.net 建立索引时候从文档中提取内容效率的算法问题

mugenmn 2010-01-29 07:11:47
如题:
string Path=@"c:\1.docx";
var content=Parse.parse(Path)
//若文档内容超过20M 解析速度变得很慢,
跪求达人们的解决办法。。。。。有无效率高点的文档读取数据,
解决则立即给分
...全文
189 10 打赏 收藏 转发到动态 举报
写回复
用AI写文章
10 条回复
切换为时间正序
请发表友善的回复…
发表回复
ljsheng 2010-01-30
  • 打赏
  • 举报
回复
学习
woodyy 2010-01-30
  • 打赏
  • 举报
回复
一,我建议你把索引分文件来放,分开种类,想办法分开。如果不能分开。

二,我不明白为什么你的索引文件是docx文件,一般情况下是_4.cfs、segments.gen、segments_f这样格式的文件。

三,我也刚接触lucene.net,创建索引时要根据分词来创建的,你是怎么创建的呢?
然后才能根据分词来快速查询。

四, Lucene.Net.Search.IndexSearcher searcher = new Lucene.Net.Search.IndexSearcher(“那3个文件的文件夹路径”);我是这么取索引文件的,估计大家都是这么取的,不知道为什么你是那么取。

五,QueryParser qp1 = new QueryParser("content", 你的分词组件);
Query q1 = qp1.Parse(“一句话被分词后的语句,这里不是索引文件的路径”);

六,细节讨论你email我:woodynet@qq.com,或者email我给你介绍个lucene群。
garcon1986 2010-01-30
  • 打赏
  • 举报
回复
学习
重返春季 2010-01-30
  • 打赏
  • 举报
回复
up!!
zhouzangood 2010-01-29
  • 打赏
  • 举报
回复
up
悔说话的哑巴 2010-01-29
  • 打赏
  • 举报
回复
路过帮顶
wosizy 2010-01-29
  • 打赏
  • 举报
回复
[Quote=引用 3 楼 wosizy 的回复:]
LZ 去看看
http://topic.csdn.net/t/20060710/16/4871307.html#
[/Quote].....
这个错了 是VB 的

下面这个是C# 的 讲的很详细 希望对lZ 有帮助
http://developer.51cto.com/art/200908/143627.htm
wosizy 2010-01-29
  • 打赏
  • 举报
回复
LZ 去看看
http://topic.csdn.net/t/20060710/16/4871307.html#
polarissky 2010-01-29
  • 打赏
  • 举报
回复
关注一下,等待高人。好像维也纳这个比较强,坐等VMM
lovexilove 2010-01-29
  • 打赏
  • 举报
回复
up

62,265

社区成员

发帖
与我相关
我的任务
社区描述
.NET技术交流专区
javascript云原生 企业社区
社区管理员
  • ASP.NET
  • .Net开发者社区
  • R小R
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告

.NET 社区是一个围绕开源 .NET 的开放、热情、创新、包容的技术社区。社区致力于为广大 .NET 爱好者提供一个良好的知识共享、协同互助的 .NET 技术交流环境。我们尊重不同意见,支持健康理性的辩论和互动,反对歧视和攻击。

希望和大家一起共同营造一个活跃、友好的社区氛围。

试试用AI创作助手写篇文章吧