lucene索引搜索

iphone 2011-08-15 03:29:42

是这样的，我要索引数据库的数据，,xml文件中的。我想利用lucene对所有XML文件进行全文搜索，比如一个学生库，输入学生ID后，能够找出所有与这个姓名相关的所有信息，查询结果能像数据库中查询到的记录一样。

初识lucene，看过网上很多相关介绍与使用，到现在还不清楚lucene能否满足我这样的需求，发送到望各位网上朋友指点一二！谢谢了。

...全文

69 4 打赏收藏转发到动态举报

写回复

用AI写文章

4 条回复

切换为时间正序

请发表友善的回复…

发表回复

xifanmax 2011-08-16

打赏
举报

这个读取文件夹内txt文件建立索引的示例：

//定义存放索引的目录 。

	     File   indexDir = new File("D:\\luceneIndex"); 

	     //测试用法的一种，对目录中的txt文件的内容进行索引，供查询。 

	     File   dataDir  = new File("D:\\luceneData");

	     

	     //确定分词的实现方法。这是Lucene自带的分词器

	     //Analyzer writerAnalyzer = new SimpleAnalyzer(Version.LUCENE_33);

	     //庖丁解牛  建立中文分词解析

	     Analyzer writerAnalyzer = new PaodingAnalyzer();

	     //

	     IndexWriterConfig indexWriterConfig = new IndexWriterConfig(Version.LUCENE_33, writerAnalyzer);

	     //设定是对索引增量，还是新建索引。

	     indexWriterConfig.setOpenMode(OpenMode.CREATE);

	     //索引写入流

	     IndexWriter indexWriter = new IndexWriter(FSDirectory.open(indexDir),indexWriterConfig);

	     

	     File[] dataFiles  = dataDir.listFiles(); 

	     long startTime = new Date().getTime(); 

	     for(int i = 0; i < dataFiles.length; i++){ 

	          if(dataFiles[i].isFile() && dataFiles[i].getName().endsWith(".txt")){

	               System.out.println("Indexing file " + dataFiles[i].getCanonicalPath()); 

	               Document document = new Document(); 

	               FileInputStream fileInputStream = new FileInputStream(dataFiles[i]);

	               InputStreamReader reader =   new   InputStreamReader(fileInputStream,"GBK");

	               

	               document.add(new Field("path",dataFiles[i].getCanonicalPath(),Field.Store.YES,Field.Index.ANALYZED));

	               document.add(new Field("filename",dataFiles[i].getName(),Field.Store.YES,Field.Index.ANALYZED,TermVector.WITH_POSITIONS_OFFSETS));

	               document.add(new Field("contents",reader,TermVector.WITH_POSITIONS_OFFSETS));

	               indexWriter.addDocument(document); 

	          } 

	     }

	     //对IndexWriter进行优化

	     indexWriter.optimize(); 

	     indexWriter.close();

搜索的代码



public static String IndexPath = "D:\\luceneIndex";

String queryStr = "中国中央电视台";

	

		//读取索引

		File indexDir = new File(IndexPath);

		FSDirectory directory = FSDirectory.open(indexDir);

		IndexSearcher searcher = new IndexSearcher(directory);

		if (!indexDir.exists()) {

			System.out.println("The Lucene index is not exist");

			return;

		}

		//创建查询解析器

		QueryParser queryParser = new QueryParser(Version.LUCENE_33,

				"contents", new PaodingAnalyzer());

		//创建查询对象

		Query query = queryParser.parse(queryStr);

		

//		Term term = new Term("contents", queryStr.toLowerCase());

//		TermQuery query = new TermQuery(term);

		

		TopDocs topDocs = searcher.search(query, 10);

		ScoreDoc[] scoreDocs = topDocs.scoreDocs;

		for (int i = 0; i < scoreDocs.length; i++) {

			IndexReader indexReader = IndexReader.open(directory);

			Document document = searcher.doc(scoreDocs[i].doc);

			System.out.println("Name: " + document.get("filename"));

			System.out.println("FilePath: " + document.get("path"));

			//高亮处理

            String text = ContentReader.readText(document.get("path"));

           

			TermPositionVector tpv = (TermPositionVector) indexReader.getTermFreqVector(



					scoreDocs[i].doc, "contents");



			TokenStream ts = TokenSources.getTokenStream(tpv);



			Formatter formatter = new Formatter() {



				@Override

			    public String highlightTerm(String srcText, TokenGroup g) {



			        if (g.getTotalScore() <= 0) {



			            return srcText;



			        }



			        return "<b>" + srcText + "</b>";



				}



			};



			Highlighter highlighter = new Highlighter(formatter, new QueryScorer(



			        query));



			String result = highlighter.getBestFragments(ts, text, 5, "…");



			System.out.println("result:\n\t" + result);



			indexReader.close();

		}

	}