社区
Java SE
帖子详情
请教各位大哥lucene的问题,顶者有分!
loverisyour
2004-06-28 10:57:27
各位大老,我现在想做一个全文检索的DEMO,是基于lucene的,现在实现了对
html,txt和htm的中英文检索,但我想扩充到可以对word,pdf,等各类文件的检索
请问该怎么做啊!给个技术网址也可以啊!谢谢拉!
兄弟们,帮忙顶一下啊!
...全文
245
29
打赏
收藏
请教各位大哥lucene的问题,顶者有分!
各位大老,我现在想做一个全文检索的DEMO,是基于lucene的,现在实现了对 html,txt和htm的中英文检索,但我想扩充到可以对word,pdf,等各类文件的检索 请问该怎么做啊!给个技术网址也可以啊!谢谢拉! 兄弟们,帮忙顶一下啊!
复制链接
扫一扫
分享
转发到动态
举报
写回复
配置赞助广告
用AI写文章
29 条
回复
切换为时间正序
请发表友善的回复…
发表回复
打赏红包
zhanqishao
2004-08-27
打赏
举报
回复
本人用 lucene 1.4 建立全文检索,但发现对中文内容的WORD文档效果很差。几乎就检索不到。但对文本格式的中文内容的文件如.txt .jsp却很好。多英文内容的WORD文档也一样很好。请问各位,怎样才能对中文内容的WORD文档建立全文检索??
我的操作步骤如下:
1.设置classpath中包含lucene-1.4-final.jar和lucene-demos-1.4-final.jar包。
2、在命令行下建立lucene的索引文件。
java org.apache.lucene.demo.IndexFiles filePath
---------------------------------------------------------------------
注:1、lucene将该filePath目录下的所有文件作为数据源来建立索引文件
2、demo中是在当前目录下建一个index目录来存放索引文件
3、查询
java org.apache.lucene.demo.SearchFiles
Query:搜索的关键字
YuLimin
2004-07-03
打赏
举报
回复
PDF用PJX:http://sourceforge.net/projects/pjx/
PJX is a general purpose PDF programming library for Java
Word用PIO:http://jakarta.apache.org/poi/
Jakarta POI - Java API To Access Microsoft Format Files
试试看吧
iText不知道行不行
loverisyour
2004-07-03
打赏
举报
回复
up
tsansn
2004-07-02
打赏
举报
回复
up
loverisyour
2004-07-02
打赏
举报
回复
自己顶~呵呵
loverisyour
2004-06-30
打赏
举报
回复
哪位高手指点一下撒!
tsansn
2004-06-30
打赏
举报
回复
关注,这也是我想解决的问题!
flywind63
2004-06-30
打赏
举报
回复
up!
raymond323
2004-06-30
打赏
举报
回复
up
panzhiwei
2004-06-30
打赏
举报
回复
up
loverisyour
2004-06-30
打赏
举报
回复
up
loverisyour
2004-06-29
打赏
举报
回复
公司叫我写了一篇文档,就把最后实现部分写上来吧
1.2.1 建立环境
下载lucene:http://jakarta.apache.org/Lucene/
现在有1.2和1.3以及1.4版本。1.2不支持中文,需修改里面的Analyzer才能支持。用lucene-1.3-final只要一点小修改就可以支持中文,很方便。
下载lucene-1.3-final解压后有两个包 lucene-1.3-final.jar、lucene-demos-1.3-final.jar、以及luceneweb.war用于web上的应用。
将luceneweb.war拷贝到tomcat的webApps目录下,重起tomcat,自动生成luceneweb目录。删除luceneweb.war。
配置系统环境,在classpath里面配置lucene-1.3-final.jar、lucene-demos-1.3-final.jar的目录。
1.2.2 配置
1.2.2.1 建立索引
以我的工作目录为例:E:\luceneweb
手工在luceneweb下面建立目录luceneindex(存放索引文件),demo(用来测试的文件)。
转到cmd工作模式下:e:\luceneweb
打入命令:java org.apache.lucene.demo.IndexHTML –create –index ./luceneindex ./demo
OK!就会将demo目录下的文件建立索引,并将索引文件存到luceneindex目录下面。
1.2.2.2 在web中配置索引文件的目录
在luceneweb目录中找到一个jsp文件configuration.jsp,打开编辑,将其中的第6行改为如下形式:
String indexLocation = "e:\\luceneweb\\luceneindex";你修改成你自己的索引文件目录。
1.2.2.3 修改result.jsp,以便能够支持中文检索
在luceneweb目录中找到一个jsp文件result.jsp,
打开编辑,将其中的第67行
Analyzer analyzer = new StopAnalyzer();
修改成如下:
Analyzer analyzer = new StandardAnalyzer();
如果不修改这一句只能检索到英文内容,修改后就完全可以检索中文了。
还需导入
org.apache.lucene.analysis.standard.StandardAnalyzer
注意不要把standard包全部引入,会有意想不到的错误,我就被它郁闷了很久,还没有找出原因。
org.apache.lucene.analysis.standard.*不要这样导入,以前经理就跟我讲过,哎。
1.2.3 运行
OK,在tomcat发布你的目录,就可以运行拉
要看更详细的可以去车东的网站看,我就是去那里看的,也可以去http://jakarta.apache.org/lucene/docs/index.html,我英文不好,看起来好吃力~哎
我的DEMO是参考lucene-1.4-rc3-src里面的DEMO实现的。
HawaiiLeo
2004-06-29
打赏
举报
回复
PJX 的资料去google搜索一下吧。
帮你顶顶
eclipse0016
2004-06-29
打赏
举报
回复
顶。
介绍一下你html,txt和htm的检索是怎么实现得吧。
lqtflwg718
2004-06-29
打赏
举报
回复
up
loverisyour
2004-06-29
打赏
举报
回复
还是不会,郁闷ing
keke1
2004-06-29
打赏
举报
回复
up
loverisyour
2004-06-29
打赏
举报
回复
没人来了啊!!嗷嗷~~
smallcosmos
2004-06-29
打赏
举报
回复
d
nwpulipeng
2004-06-28
打赏
举报
回复
怎么办?帮你顶吧
加载更多回复(9)
lucene
-4.6.0全套jar包
Lucene
索引工具全套jar包,版本4.6.0
lucene
3.5全文检索案例
lucene
+demo
lucene
3.5全文检索案例
lucene
+demo
IKAnalyzer分词需要的所有jar
IKAnalyzer2012_u6.jar
lucene
-analyzers-common-4.3.0.jar
lucene
-core-4.3.0.jar
lucene
-queryparser-4.3.0.jar (都是官方下载的 2013/6/5)
Lucene
快速入门第二讲——首次使用
Lucene
,开不开心!
全文检索技术学习(二)——配置
Lucene
的开发环境
Lucene
下载
Lucene
是开发全文检索功能的工具包,可从官方网站http://
lucene
.apache.org/ 下载,这里我下载的是
Lucene
4.10.3,所以后续有关
Lucene
的讲解都是基于这个版本...
Lucene
底层原理和优化经验分享(2)-
Lucene
优化经验总结
Lucene
优化也一样,找到性能瓶颈,找对解决方法,才能事半功倍,本文将从三方面阐述我们的
Lucene
优化经验: 1. 找准方向 ->
Lucene
性能瓶颈分析。 2. 找对方法 ->
Lucene
代码架构分析。 3. 方法落地 -> ...
Java SE
62,614
社区成员
307,326
社区内容
发帖
与我相关
我的任务
Java SE
Java 2 Standard Edition
复制链接
扫一扫
分享
社区描述
Java 2 Standard Edition
社区管理员
加入社区
获取链接或二维码
近7日
近30日
至今
加载中
查看更多榜单
社区公告
暂无公告
试试用AI创作助手写篇文章吧
+ 用AI写文章