请教各位大哥lucene的问题,顶者有分!

loverisyour 2004-06-28 10:57:27
各位大老,我现在想做一个全文检索的DEMO,是基于lucene的,现在实现了对
html,txt和htm的中英文检索,但我想扩充到可以对word,pdf,等各类文件的检索
请问该怎么做啊!给个技术网址也可以啊!谢谢拉!
兄弟们,帮忙顶一下啊!
...全文
245 29 打赏 收藏 转发到动态 举报
写回复
用AI写文章
29 条回复
切换为时间正序
请发表友善的回复…
发表回复
zhanqishao 2004-08-27
  • 打赏
  • 举报
回复
本人用 lucene 1.4 建立全文检索,但发现对中文内容的WORD文档效果很差。几乎就检索不到。但对文本格式的中文内容的文件如.txt .jsp却很好。多英文内容的WORD文档也一样很好。请问各位,怎样才能对中文内容的WORD文档建立全文检索??
我的操作步骤如下:
1.设置classpath中包含lucene-1.4-final.jar和lucene-demos-1.4-final.jar包。
2、在命令行下建立lucene的索引文件。
java org.apache.lucene.demo.IndexFiles filePath
---------------------------------------------------------------------
注:1、lucene将该filePath目录下的所有文件作为数据源来建立索引文件
2、demo中是在当前目录下建一个index目录来存放索引文件
3、查询
java org.apache.lucene.demo.SearchFiles
Query:搜索的关键字

YuLimin 2004-07-03
  • 打赏
  • 举报
回复
PDF用PJX:http://sourceforge.net/projects/pjx/
PJX is a general purpose PDF programming library for Java

Word用PIO:http://jakarta.apache.org/poi/
Jakarta POI - Java API To Access Microsoft Format Files

试试看吧

iText不知道行不行
loverisyour 2004-07-03
  • 打赏
  • 举报
回复
up
tsansn 2004-07-02
  • 打赏
  • 举报
回复
up
loverisyour 2004-07-02
  • 打赏
  • 举报
回复
自己顶~呵呵
loverisyour 2004-06-30
  • 打赏
  • 举报
回复
哪位高手指点一下撒!
tsansn 2004-06-30
  • 打赏
  • 举报
回复
关注,这也是我想解决的问题!
flywind63 2004-06-30
  • 打赏
  • 举报
回复
up!
raymond323 2004-06-30
  • 打赏
  • 举报
回复
up
panzhiwei 2004-06-30
  • 打赏
  • 举报
回复
up
loverisyour 2004-06-30
  • 打赏
  • 举报
回复
up
loverisyour 2004-06-29
  • 打赏
  • 举报
回复
公司叫我写了一篇文档,就把最后实现部分写上来吧
1.2.1 建立环境
下载lucene:http://jakarta.apache.org/Lucene/
现在有1.2和1.3以及1.4版本。1.2不支持中文,需修改里面的Analyzer才能支持。用lucene-1.3-final只要一点小修改就可以支持中文,很方便。
下载lucene-1.3-final解压后有两个包 lucene-1.3-final.jar、lucene-demos-1.3-final.jar、以及luceneweb.war用于web上的应用。
将luceneweb.war拷贝到tomcat的webApps目录下,重起tomcat,自动生成luceneweb目录。删除luceneweb.war。
配置系统环境,在classpath里面配置lucene-1.3-final.jar、lucene-demos-1.3-final.jar的目录。
1.2.2 配置
1.2.2.1 建立索引
以我的工作目录为例:E:\luceneweb
手工在luceneweb下面建立目录luceneindex(存放索引文件),demo(用来测试的文件)。
转到cmd工作模式下:e:\luceneweb
打入命令:java org.apache.lucene.demo.IndexHTML –create –index ./luceneindex ./demo
OK!就会将demo目录下的文件建立索引,并将索引文件存到luceneindex目录下面。
1.2.2.2 在web中配置索引文件的目录
在luceneweb目录中找到一个jsp文件configuration.jsp,打开编辑,将其中的第6行改为如下形式:
String indexLocation = "e:\\luceneweb\\luceneindex";你修改成你自己的索引文件目录。
1.2.2.3 修改result.jsp,以便能够支持中文检索
在luceneweb目录中找到一个jsp文件result.jsp,
打开编辑,将其中的第67行
Analyzer analyzer = new StopAnalyzer();
修改成如下:
Analyzer analyzer = new StandardAnalyzer();
如果不修改这一句只能检索到英文内容,修改后就完全可以检索中文了。
还需导入
org.apache.lucene.analysis.standard.StandardAnalyzer
注意不要把standard包全部引入,会有意想不到的错误,我就被它郁闷了很久,还没有找出原因。
org.apache.lucene.analysis.standard.*不要这样导入,以前经理就跟我讲过,哎。
1.2.3 运行
OK,在tomcat发布你的目录,就可以运行拉

要看更详细的可以去车东的网站看,我就是去那里看的,也可以去http://jakarta.apache.org/lucene/docs/index.html,我英文不好,看起来好吃力~哎
我的DEMO是参考lucene-1.4-rc3-src里面的DEMO实现的。
HawaiiLeo 2004-06-29
  • 打赏
  • 举报
回复
PJX 的资料去google搜索一下吧。

帮你顶顶
eclipse0016 2004-06-29
  • 打赏
  • 举报
回复
顶。

介绍一下你html,txt和htm的检索是怎么实现得吧。
lqtflwg718 2004-06-29
  • 打赏
  • 举报
回复
up
loverisyour 2004-06-29
  • 打赏
  • 举报
回复
还是不会,郁闷ing
keke1 2004-06-29
  • 打赏
  • 举报
回复
up
loverisyour 2004-06-29
  • 打赏
  • 举报
回复
没人来了啊!!嗷嗷~~
smallcosmos 2004-06-29
  • 打赏
  • 举报
回复
d
nwpulipeng 2004-06-28
  • 打赏
  • 举报
回复
怎么办?帮你顶吧
加载更多回复(9)

62,614

社区成员

发帖
与我相关
我的任务
社区描述
Java 2 Standard Edition
社区管理员
  • Java SE
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧