lucene.net的应用,怎么样实现中文的全文检索,也就是怎么处理所有的文本格式,对中文等进行分词索引?

huguyue6670 2008-05-01 10:28:40
lucene.net的应用,怎么样实现中文的全文检索,也就是怎么处理所有的文本格式,对中文等进行分词索引?

...全文
249 8 打赏 收藏 转发到动态 举报
写回复
用AI写文章
8 条回复
切换为时间正序
请发表友善的回复…
发表回复
xinqq163 2011-03-27
  • 打赏
  • 举报
回复
正想弄这个功能 ,还不会
lwtbysj 2009-03-16
  • 打赏
  • 举报
回复
对这方面不是很懂UP下!
Yeeler 2008-05-05
  • 打赏
  • 举报
回复
楼主问的问题非常宽泛,实在是难回答。
分词,尤其是中文分词,难度大,新词召回率低,不像英文,每个单词直接都有空格,动词变化都有规律可循。目前中文分词,互联网上开源的也只有中科院的分词,但存在bug。
lucene已经发布2.30版本了,lucene.net作者已经暂停维护,目前版本还是2.0,目前网上有大量的资料,《开发自己的搜索引擎lucene 2.0 + heeritrix》不错,可以读读,读完你就不会上来问这样的问题了。
songyangaaron 2008-05-05
  • 打赏
  • 举报
回复
文本格式Lucene都可以处理啊,中科院的分词效果还可以,不过学习版的DLL调用时容易出错。

[Quote=引用 2 楼 huguyue6670 的回复:]
楼上的你的文本格式处理怎么做的,像word、pdf、html等等?中科院的分词效果怎么样,能不能给点你们用的分词。
[/Quote]
美丽海洋 2008-05-04
  • 打赏
  • 举报
回复
我们的分词有自己的代码,采用的是基于统计和词典相结合的方式完成的,多文本处理用的是ifilter
huguyue6670 2008-05-04
  • 打赏
  • 举报
回复
楼上的你的文本格式处理怎么做的,像word、pdf、html等等?中科院的分词效果怎么样,能不能给点你们用的分词。
songyangaaron 2008-05-04
  • 打赏
  • 举报
回复
用过Java版的Lucene,首先解决中文分词的问题,Lucene提供的中文分词弱了些,可以考虑中科院中文分词组件。google ICTCLAS 即可。

然后是建立索引,处理用户请求什么的,就比较简单了。

110,537

社区成员

发帖
与我相关
我的任务
社区描述
.NET技术 C#
社区管理员
  • C#
  • Web++
  • by_封爱
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告

让您成为最强悍的C#开发者

试试用AI创作助手写篇文章吧