lucene term只能是字符串类型？

全能码农-ss 2014-04-08 10:46:12

lucene 索引更新时:



Term term = new Term("C_SID","1131323");

writer.updateDocument(term,doc);

这样更新索引不起作用。不知道是因为term类型不对，还是因为lucene的缓存。急盼高手解答。

这个索引在建立的时候，这个ID的field不是字符串型，是数字类型。



NumericField field1=new NumericField("C_SID",Field.Store.YES,true).setLongValue(sid);

是这么干的。

...全文

82 1 打赏收藏转发到动态举报

写回复

用AI写文章

1 条回复

切换为时间正序

请发表友善的回复…

发表回复

全能码农-ss 2014-04-08

打赏
举报

人工置顶 + 6字补丁

浅谈网络搜索引擎的实现知识管理系统网络搜索模块开发实践交流功能需求可自定义要搜索的网站列表（以下简称目标列表）可对目标列表网站的网页内容进行检索可对目标列表网站的网页内容进行自动分类处理可自定义更新周期及一些相关性能参数系统主要功能模块网络蜘蛛采集、解析并保存目标列表网站的内容（网页）全文索引/检索为目标列表网站内容建立索引提供内容的全文检索自动分类对目标列表网站内容进行分类基本流程网络蜘蛛功能概要目标文档地址队列 w/r 目标文档（网页）获取目标文档保存文档解析并得到新的目标文档地址队列和文档正文内容网络蜘蛛当前版本的实现多线程 Apache HttpClient Hsql HTML Parser 全文索引/搜索什么是全文索引？为了快速搜索大量的文本文件为一本书建立关键词的索引“书签” 什么是全文搜索？在索引中查找关键字的过程，找到关键字在哪些地方出现全文索引/搜索 Lucene简介高性能、可扩展的信息检索工具库为应用程序添加索引/搜索功能一个典型的应用：全文索引/搜索全文索引/搜索 Lucene索引过程的核心类 IndexWriter ：提供对索引的写入操作 Directory：描述了索引存放的位置 Analyzer：对文本进行分析，提取词汇（token），剔除无用的信息 Document：虚拟的文档 Field：每个Document包含一个或多个不同命名的Field，每个Field对应一段数据，这些数据在搜索过程中可能会被查询或在索引中被检索全文索引/搜索 Lucene索引代码示例： Directory dir = FSDirectory.getDirectory(indexDir); Analyzer anlyzer = new SimpleAnalyzer(); IndexWriter writer = new IndexWriter(dir, analyzer, true); Document doc = new Document(); doc.add(Field.Keyword(“id”, “1000”); doc.add(Field.UnIndexed(“name”, “Yao Ming”); doc.add(Field.UnStored(“intro”, “Yao Ming is a player of Houseton Rockets.”); writer.addDocument(doc); writer.close(); 全文索引/搜索 Lucene搜索过程的核心类 IndexSearcher：用于搜索IndexWriter创建的索引 Term：用于搜索的一个基本单元包括了一对字符串元素，与Field相对应 Query ：抽象的查询类 TermQuery：最基本的查询类型，用来匹配特定Field中包含特定值的文档 Hits：存放有序搜索结果指针的简单容器全文索引/搜索 Lucene搜索代码示例： IndexSearcher searcher = new IndexSearcher(directory); Term t = new Term(“intro”, “Yao”); Query query = new TermQuery(t); Hits hits = searcher.search(query); assertEquals(“JUnit test”, 1, hits.length()); Lucene的线程安全性不允许使用多个IndexWriter或IndexReader实例同时对一个索引进行修改 IndexWriter和IndexReader是线程安全的，可以被多线程共享全文索引/搜索中文分词器最大匹配法（机械分词）：按照一定的策略将待分析的汉字串与一个“充分大的”机器词典中的词条进行配，若在词典中找到某个字符串，则匹配成功。二元分词一元分词自动分类向量距离分类算法根据算术平均，为每类文本集生成一个代表该类的特征向量提取待分类文本的特征向量计算该向量与每类特征向量之间的相似度判定文本属于与文本距离最近相似度最大的类别自动分类相似度计算公式：系统基础类图 Road map 自动分类学习中文分词算法改进支持多种格式的文档（doc, pdf…）海量网站搜索的支持（分布式处理）系统框架的优化和迭代改进

查询demo Path path = Paths.get(util.Directory.GetAppPath("indexDir")); IndexReader reader = DirectoryReader.open(FSDirectory.open(path)); //获取IndexSearcher对象 IndexSearcher indexSearcher = new ...

Lucene是apache软件基金会4 jakarta项目组的一个子项目，是一个开放源代码的全文检索引擎工具包，但它不是一个完整的全文检索引擎，而是一个全文检索引擎的架构，提供了完整的查询引擎和索引引擎，部分文本分析引擎（英文与德文两种西方语言）。Lucene的目的是为软件开发人员提供一个简单易用的工具包，以方便的在目标系统中实现全文检索的功能，或者是以此为基础建立起完整的全文检索引擎。Lucene是一套用于全文检索和搜寻的开源程式库，由Apache软件基金会支持和提供。Lucene提供了一个简单却强大的应用程式接口，能够做全文索引和搜寻。在Java开发环境里Lucene是一个成熟的免费开源工具。就其本身而言，Lucene是当前以及最近几年最受欢迎的免费Java信息检索程序库。人们经常提到信息检索程序库，虽然与搜索引擎有关，但不应该将信息检索程序库与搜索引擎相混淆

有限自动机算法(FST,Finite State Transducer):通过输入有序字符串构建最小有向无环图。通过共享前缀来节省空间，内存存放前缀索引，磁盘存放后缀词块 1、紧凑的结构，通过对词典中单词前缀和后缀的重复利用，压缩了存储空间。 2、O(len(str))的查询时间复杂度。 lucene使用fst, 最主要的是解决了模糊搜索的问题注:该过程是执行flush动作...

文章目录1. lucene的数据类型VInt详解ZInt 详解2. lucene的基本结构1. doc number2. 段(segment) 的信息3. 文件信息3. 文件详细信息1.segment_N ##总览这里主要想要介绍一下lucene的存储层面的东西，lucene的设计本来就很精巧，所以想了解需要花一些心思的。 1.lucene的数据类型 2.lucene包含了哪些信息 3.拥有哪些文件 1. lucene的数据类型 Byte：是最基本的类型，长8位(bit)。 Int32：由4个Byte

Java EE

67,515

社区成员

225,878

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章