Lucene3.0 创建索引及多目录搜索

leadergg 2010-03-30 02:40:31
最近项目中用到了Lucene3.0,如下:
创建索引:


public void index() throws CorruptIndexException,
LockObtainFailedException, IOException {
// 索引目录
File indexDir = new File("D:/workspace/code/java/TestLucene3/index/txt/test/");
// 注意:这里建立索引用的分词方法,在搜索时分词也应该采用同样的分词方法。不然搜索数据可能会不正确
// 使用Lucene自带分词器
Analyzer luceneAnalyzer = new StandardAnalyzer(Version.LUCENE_CURRENT);
// 第一个参数是存放索引文件位置, 第二个参数是使用的分词方法, 第三个:true,建立全新的索引,false,建立增量索引。
// IndexWriter indexWriter = new IndexWriter(indexDir, luceneAnalyzer, true);

// 第一个参数是存放索引目录有FSDirectory(存储到磁盘上)和RAMDirectory(存储到内存中), 第二个参数是使用的分词器, 第三个:true,建立全新的索引,false,建立增量索引,第四个是建立的索引的最大长度。
IndexWriter indexWriter = new IndexWriter(FSDirectory.open(indexDir),
luceneAnalyzer, true, IndexWriter.MaxFieldLength.LIMITED);
// 索引合并因子
// SetMergeFactor(合并因子)
// SetMergeFactor是控制segment合并频率的,其决定了一个索引块中包括多少个文档,当硬盘上的索引块达到多少时,
// 将它们合并成一个较大的索引块。当MergeFactor值较大时,生成索引的速度较快。MergeFactor的默认值是10,建议在建立索引前将其设置的大一些。
indexWriter.setMergeFactor(100);
// SetMaxBufferedDocs(最大缓存文档数)
// SetMaxBufferedDocs是控制写入一个新的segment前内存中保存的document的数目,
// 设置较大的数目可以加快建索引速度,默认为10。
indexWriter.setMaxBufferedDocs(100);

// SetMaxMergeDocs(最大合并文档数)
// SetMaxMergeDocs是控制一个segment中可以保存的最大document数目,值较小有利于追加索引的速度,默认Integer.MAX_VALUE,无需修改。
// 在创建大量数据的索引时,我们会发现索引过程的瓶颈在于大量的磁盘操作,如果内存足够大的话,
// 我们应当尽量使用内存,而非硬盘。可以通过SetMaxBufferedDocs来调整,增大Lucene使用内存的次数。
indexWriter.setMaxMergeDocs(1000);

// SetUseCompoundFile这个方法可以使Lucene在创建索引库时,会合并多个 Segments 文件到一个.cfs中。
// 此方式有助于减少索引文件数量,对于将来搜索的效率有较大影响。
// 压缩存储(True则为复合索引格式)
indexWriter.setUseCompoundFile(true);

long startTime = new Date().getTime();

String temp = "";
// 增加索引字段
//
// 在Field中有三个内部类:Field.Index,Field.Store,Field.termVector,而构造函数也用到了它们。
// 参数说明:
// Field.Store:
// Field.Store.NO:表示该Field不需要存储。
// Field.Store.Yes:表示该Field需要存储。
// Field.Store.COMPRESS:表示使用压缩方式来存储。
// Field.Index:
// Field.Index.NO:表示该Field不需要索引。
// Field.Index.TOKENIZED:表示该Field先被分词再索引。
// Field.Index.UN_TOKENIZED:表示不对该Field进行分词,但要对其索引。
// Field.Index.NO_NORMS:表示该Field进行索引,但是要对它用Analyzer,同时禁止它参加评分,主要是为了减少内在的消耗。
// TermVector这个参数也不常用,它有五个选项。
// Field.TermVector.NO表示不索引Token的位置属性;
// Field.TermVector.WITH_OFFSETS表示额外索引Token的结束点;
// Field.TermVector.WITH_POSITIONS表示额外索引Token的当前位置;
// Field.TermVector.WITH_POSITIONS_OFFSETS表示额外索引Token的当前和结束位置;
// Field.TermVector.YES则表示存储向量。

// 增加文档 Field相当于增加数据库字段一样检索,获取都需要的内容,直接放index中,不过这样会增大index,保存文件的txt内容
/**
* Field.Store 表示“是否存储”,即该Field内的信息是否要被原封不动的保存在索引中。
* Field.Index 表示“是否索引”,即在这个Field中的数据是否在将来检索时需要被用户检索到,一个“不索引”的Field通常仅是提供辅助信息储存的功能。
* Field.TermVector 表示“是否切词”,即在这个Field中的数据是否需要被切词。
*/
Field fieldPath = new Field("path", "", Field.Store.YES, Field.Index.NO);
Field fieldBody = new Field("content", temp, Field.Store.YES, Field.Index.ANALYZED, Field.TermVector.WITH_POSITIONS_OFFSETS);
Field fieldId = new Field("id", "", Field.Store.YES, Field.Index.NOT_ANALYZED, Field.TermVector.WITH_POSITIONS_OFFSETS);

Document document = new Document();
// 做测试,循环100000遍建索引。也可以读取文件内容建索引
for (int i=0; i<100000; i++) {
document = new Document();
temp = "王熙凤历幻返金陵 甄应嘉蒙恩还玉阙";

fieldPath.setValue("D:\\workspace\\code\\java\\TestLucene3\\txt\\" + i + ".txt");
fieldBody.setValue(temp);
fieldId.setValue(String.valueOf(i));

document.add(fieldPath);
document.add(fieldBody);
document.add(fieldId);
indexWriter.addDocument(document);
i++;
}
//optimize()方法是对索引进行优化
indexWriter.optimize();
indexWriter.close();

// 若需要从索引中删除某一个或者某一类文档,IndexReader提供了两种方法:
// reader.DeleteDocument(int docNum)
// reader.DeleteDocuments(Term term)
// 前者是根据文档的编号来删除该文档,docNum是该文档进入索引时Lucene的编号,是按照顺序编的;后者是删除满足某一个条件的多个文档。
// 在执行了DeleteDocument或者DeleteDocuments方法后,系统会生成一个*.del的文件,该文件中记录了删除的文档,但并未从物理上删除这些文档。此时,这些文档是受保护的,当使用Document
// doc = reader.Document(i)来访问这些受保护的文档时,Lucene会报“Attempt to access a
// deleted document”异常。如果一次需要删除多个文档时,可以用两种方法来解决:
// 1. 删除一个文档后,用IndexWriter的Optimize方法来优化索引,这样我们就可以继续删除另一个文档。
// 2. 先扫描整个索引文件,记录下需要删除的文档在索引中的编号。然后,一次性调用DeleteDocument删除这些文档,再调用IndexWriter的Optimize方法来优化索引。

long endTime = new Date().getTime();
System.out.println("\n这花费了" + (endTime - startTime) + " 毫秒增加到索引!");
}



查询:


/**
* 查询
*
* @param String word 关键词
* @param String filedName 域字段
* @param String indexDir 索引位置
* @throws CorruptIndexException
* @throws IOException
* @throws ParseException
* @auther <a href="mailto:gaoxuguo@feinno.com">Gao XuGuo</a> Nov 30, 2009
* 2:56:42 PM
*/
public List<Map<String, String>> search(String indexDir)
throws CorruptIndexException, IOException, ParseException {
File file = new File(indexDir);
IndexSearcher is = new IndexSearcher(FSDirectory.open(file), true);
String field = "content";

BooleanQuery bq = new BooleanQuery();

QueryParser parser = new QueryParser(Version.LUCENE_CURRENT, field,
new StandardAnalyzer(Version.LUCENE_CURRENT));
Query query = parser.parse("content:王熙凤");

Query q = new TermQuery(new Term("id","100"));
bq.add(q,Occur.SHOULD);
bq.add(query,Occur.SHOULD);
// 100表示取前100条数据
TopScoreDocCollector collector = TopScoreDocCollector.create(100, true);

long start = new Date().getTime();// start time

/**
* Lucene内置了三个Filter子类:
* 1)DateFilter使搜索只限于指定的日期域的值在某一时间范围内的文档空间里
* 2)QueryFilter把查询结果做为另一个新查询可搜索的文档空间
* 3)CachingWrappperFilter是其他过滤器的装饰器,将结果缓存起来以便再次使用,从而提高性能。
*
*/
String[] dirs = {indexDir};
MultiSearcher ms = this.getMultiSearcher(dirs);
ms.search(bq, collector);

// is.search(bq, collector);
ScoreDoc[] docs = collector.topDocs().scoreDocs;

Document doc;
for (ScoreDoc sd : docs) {
doc = is.doc(sd.doc);
// 取得doc里面的Field并从doc里面读取值
for (Fieldable fa : doc.getFields()) {
System.out.print(fa.name() + "=" + doc.get(fa.name()) + " ");
}
System.out.println();
}
long end = new Date().getTime();
if(is != null) is.close();

System.out.println("找到 " + collector.getTotalHits()
+ " 条数据,花费时间 " + (end - start)
+ " 秒");
return null;
}
...全文
2842 23 打赏 收藏 转发到动态 举报
写回复
用AI写文章
23 条回复
切换为时间正序
请发表友善的回复…
发表回复
cp19861214xy 2012-01-04
  • 打赏
  • 举报
回复
多目录索引,请问怎样更新,因为每个IndexWriter对应一个目录,更新的时候很难确定,需要更新的索引在哪个目录
xuanguoliang 2011-11-18
  • 打赏
  • 举报
回复
你确定你没搞错?? indexWriter.optimize();方法是用来优化单个索引用的吧。 一个索引可以存入到
多个目录里面??? 你那个多目录索引不是将一个索引建到多个目录,而是把数据切分到N个目录建立N个索引的吧。合并排序怎么实现的?? MultiSearcher的合并排序???


[Quote=引用 9 楼 leadergg 的回复:]哦

引用 5 楼 laizhenyuan 的回复:
使用多目录索引搜索,关键要设计一个好的散列算法,使不同的document大致平均地散列到各个索引目录。
indexWriter.optimize();调用这个方法,会将已经索引的全部document合并重新写入一遍。如果只是进行一次批量索引,问题不大。但是如果是频繁地进行增量索引,就需要注意调用方法的时机了。


多目录索引,是针对大数量……
[/Quote]
j200681106 2011-10-08
  • 打赏
  • 举报
回复
很不错,我最近也在用lucene3.0,多指教啊
梦无痕123 2011-07-15
  • 打赏
  • 举报
回复
lucene 貌似不能边搜索,边索引吧
tuoqiu 2011-06-02
  • 打赏
  • 举报
回复
LZ知不知道怎么实现一边创建索引一边进行搜索啊?不会实现啊
sb1318 2011-03-04
  • 打赏
  • 举报
回复
太感谢了!我们也正遇到lucene问题,对我们非常有帮助!
fsjian88 2010-12-28
  • 打赏
  • 举报
回复
楼主好人啊,能讲下多目录索引吗 是不是把索引建在多个目录下,这样做每次查询还需要遍历所有的目录下的索引吗
laorer 2010-08-17
  • 打赏
  • 举报
回复
嗯, 多目录索引,性能是关键,
niguang09 2010-07-13
  • 打赏
  • 举报
回复
好人呢。。好人呢。。好人呢。。好人呢。。感动死我了。好人呢。。
wxd137720 2010-06-20
  • 打赏
  • 举报
回复
不错,学习。。。。
liupeng6899319 2010-04-01
  • 打赏
  • 举报
回复
lucene 怎么实现分布式啊,如果不能很好的应用分布式的话,它永远不能应用大型和超大型的开发的。看了一下slor也没实现啊
leadergg 2010-04-01
  • 打赏
  • 举报
回复
leadergg 2010-04-01
  • 打赏
  • 举报
回复
这个我正已经老另外发了一篇帖子:
http://topic.csdn.net/u/20100401/17/2456d450-d5bb-407d-bf92-203075ada8bc.html?seed=1736293753&r=64364852#r_64364852
里面有我们设计的总体图
lijiwei0306 2010-04-01
  • 打赏
  • 举报
回复
[Quote=引用 8 楼 leadergg 的回复:]
引用 7 楼 liupeng6899319 的回复:
lucene 怎么实现分布式啊,如果不能很好的应用分布式的话,它永远不能应用大型和超大型的开发的。看了一下slor也没实现啊


我们暂时没有用分布式,但是考虑到了,就是吧索引这层用hessian发布,远程调用就是。这样可以实现分布式。目前已经实现。
[/Quote]


能讲详细点吗?我现在正在用索引这块东东
leadergg 2010-04-01
  • 打赏
  • 举报
回复
[Quote=引用 5 楼 laizhenyuan 的回复:]
使用多目录索引搜索,关键要设计一个好的散列算法,使不同的document大致平均地散列到各个索引目录。
indexWriter.optimize();调用这个方法,会将已经索引的全部document合并重新写入一遍。如果只是进行一次批量索引,问题不大。但是如果是频繁地进行增量索引,就需要注意调用方法的时机了。
[/Quote]

多目录索引,是针对大数量级的数据。如上百万级的数据。这样查询及建索引在一个索引文件效率都不高。
我们目前的实现是根据类别分目录建立索引。这样就实现了“分流”

增量索引的话,建议不要太频繁的,但是还是要看数据的更新频率。如果要做到实时更新索引,就要和应用程序结合在一起,在增加或修改数据的时候在索引里面增加或修改对对应的索引。
leadergg 2010-04-01
  • 打赏
  • 举报
回复
[Quote=引用 7 楼 liupeng6899319 的回复:]
lucene 怎么实现分布式啊,如果不能很好的应用分布式的话,它永远不能应用大型和超大型的开发的。看了一下slor也没实现啊
[/Quote]

我们暂时没有用分布式,但是考虑到了,就是吧索引这层用hessian发布,远程调用就是。这样可以实现分布式。目前已经实现。
laizhenyuan 2010-03-31
  • 打赏
  • 举报
回复
使用多目录索引搜索,关键要设计一个好的散列算法,使不同的document大致平均地散列到各个索引目录。
indexWriter.optimize();调用这个方法,会将已经索引的全部document合并重新写入一遍。如果只是进行一次批量索引,问题不大。但是如果是频繁地进行增量索引,就需要注意调用方法的时机了。
NewBoss 2010-03-31
  • 打赏
  • 举报
回复
技术创造生产力~ 支持一下
leadergg 2010-03-31
  • 打赏
  • 举报
回复
遇到什么问题呢?可以互相交流下。我也才接触Lucene不久的
Java2King 2010-03-31
  • 打赏
  • 举报
回复
注释写的真详细~~楼主是个细心的人
加载更多回复(2)

2,760

社区成员

发帖
与我相关
我的任务
社区描述
搜索引擎的服务器通过网络搜索软件或网络登录等方式,将Internet上大量网站的页面信息收集到本地,经过加工处理建立信息数据库和索引数据库。
社区管理员
  • 搜索引擎技术社区
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧