Lucene中文分词组件 JE-Analysis 1.4.0下载

1努力加油1 2019-03-05 06:07:51

该组件免费安装使用传播，无限制商业应用，但暂不开源，也不提供任何保证

分词效率：第一次分词需要1－2秒（读取词典），之后速度基本与Lucene自带分词持平

运行环境： Lucene 1.9+

内存消耗： 30M+

1.4.0 —— 2006-08-21

增加词典的动态扩展能力

1.3.3 —— 2006-07-23

修正无法多次增加词典的问题

1.3.2 —— 2006-07-03

修正细粒度分词错误的问题

1.3.1 —— 2006-06-23

修正在某些情况下分词遗漏的问题

1.3 —— 2006-06-
相关下载链接：//download.csdn.net/download/chenxhcc/159383?utm_source=bbsseo

...全文

14 回复打赏收藏转发到动态举报

写回复

回复

切换为时间正序

请发表友善的回复…

发表回复

发布于：http://www.jesoft.cn/posts/list/5.page 1.5.1 —— 2006-01-22 修正细粒度分词错误的问题 1.5.0 —— 2007-01-18 全面支持Lucene 2.0 增强了词典维护的API 增加了商品编码的匹配增加了Mail地址的匹配实现了词尾消歧算法第二层的过滤整理优化了词库 1.4.0 —— 2006-08-21 增加词典的动态扩展能力 1.3.3 —— 2006-07-23 修正无法多次增加词典的问题 1.3.2 —— 2006-07-03 修正细粒度分词错误的问题 1.3.1 —— 2006-06-23 修正在某些情况下分词遗漏的问题 1.3 —— 2006-06-22 实现了词尾消歧算法第一层的过滤增加日期时间的匹配 1.2.2 —— 2006-06-13 完善了中英文噪声词典 1.2.1 —— 2006-06-10 修正中文数字成语无法识别的问题 1.2 —— 2006-06-08 增加中文数字的匹配（如：二零零六）数量词采用“n”作为数字通配符优化词典结构以便修改调整 1.1 —— 2006-06-06 增加扩展词典的静态读取方法 1.0.1 —— 2006-06-02 修正无法识别生僻字的问题 1.0 —— 2006-05-29 支持英文、数字、中文（简体）混合分词常用的数量和人名的匹配超过22万词的词库整理实现正向最大匹配算法支持分词粒度控制 //采用正向最大匹配的中文分词算法，相当于分词粒度等于0 MMAnalyzer analyzer = new MMAnalyzer(); //参数为分词粒度：当字数等于或超过该参数，且能成词，该词就被切分出来 MMAnalyzer analyzer = new MMAnalyzer(2); //字符串切分，常用于客户的关键字输入 analyzer.segment(text, separator); 词典维护API（静态方法）： //增加一个新词典，采用每行一个词的读取方式（注意：多线程状态下此时的分词效果将不可预料） MMAnalyzer.addDictionary(reader); //增加一个新词 MMAnalyzer.addWord(newWord); //删除词库中的全部词语（注意：非常危险的操作，在没有加载新的词库前所有的分词都将失效） MMAnalyzer.clear(); //词库中是否包含该词 MMAnalyzer.contains(String word); //从词库中移除该词 MMAnalyzer.removeWord(String word); //当前词库中包含的词语总数 MMAnalyzer.size();

该组件免费安装使用传播，无限制商业应用，但暂不开源，也不提供任何保证分词效率：第一次分词需要1－2秒（读取词典），之后速度基本与Lucene自带分词持平运行环境： Lucene 1.9+ 内存消耗： 30M+ 1.4.0 —— 2006-08-21 增加词典的动态扩展能力 1.3.3 —— 2006-07-23 修正无法多次增加词典的问题 1.3.2 —— 2006-07-03 修正细粒度分词错误的问题 1.3.1 —— 2006-06-23 修正在某些情况下分词遗漏的问题 1.3 —— 2006-06-22 实现了词尾消歧算法中第一层的过滤增加日期时间的匹配 1.2.2 —— 2006-06-13 完善了中英文噪声词典 1.2.1 —— 2006-06-10 修正中文数字成语无法识别的问题 1.2 —— 2006-06-08 增加中文数字的匹配（如：二零零六）数量词采用“n”作为数字通配符优化词典结构以便修改调整 1.1 —— 2006-06-06 增加扩展词典的静态读取方法 1.0.1 —— 2006-06-02 修正无法识别生僻字的问题 1.0 —— 2006-05-29 支持英文、数字、中文（简体）混合分词常用的数量和人名的匹配超过22万词的词库整理实现正向最大匹配算法 //采用正向最大匹配的中文分词算法，相当于分词粒度等于0 MMAnalyzer analyzer = new MMAnalyzer(); //参数为分词粒度：当字数等于或超过该参数，且能成词，该词就被切分出来 MMAnalyzer analyzer = new MMAnalyzer(2); //增加一个新词典，采用每行一个词的读取方式 MMAnalyzer.addDictionary(reader); //增加一个新词 MMAnalyzer.addWord(newWord); package demo.analysis; import java.io.IOException; import jeasy.analysis.MMAnalyzer; public class Segment { public static void main(String[] args) { String text = "据路透社报道，印度尼西亚社会事务部一官员星期二(29日)表示，" + "日惹市附近当地时间27日晨5时53分发生的里氏6.2级地震已经造成至少5427人死亡，" + "20000余人受伤，近20万人无家可归。"; MMAnalyzer analyzer = new MMAnalyzer(); try { System.out.println(analyzer.segment(text, " | ")); } catch (IOException e) { e.printStackTrace(); } } } 生成效果：据 | 路透社 | 报道 | 印度尼西亚 | 社会 | 事务 | 部 | 官员 | 星期二 | 29日 | 表示 | 日惹 | 市 | 附近 | 当地时间 | 27日 | 晨 | 5时 | 53分 | 发生 | 里氏 | 6.2级 | 地震 | 已经 | 造成 | 至少 | 5427人 | 死亡 | 20000 | 余人 | 受伤 | 近 | 20万人 | 无家可归 | package demo.analysis; import jeasy.analysis.MMAnalyzer; import org.apache.lucene.analysis.Analyzer; import org.apache.lucene.document.Document; import org.apache.lucene.document.Field; import org.apache.lucene.index.IndexWriter; import org.apache.lucene.queryParser.QueryParser; import org.apache.lucene.search.Hits; import org.apache.lucene.search.IndexSearcher; import org.apache.lucene.search.Query; import org.apache.lucene.store.Directory; import org.apache.lucene.store.RAMDirectory; public class Segment { public static void main(String[] args) { String fieldName = "text"; String text = "据路透社报道，印度尼西亚社会事务部一官员星期二(29日)表示，" + "日惹市附近当地时间27日晨5时53分发生的里氏6.2级地震已经造成至少5427人死亡，" + "20000余人受伤，近20万人无家可归。"; //检索内容 //采用正向最大匹配的中文分词算法 Analyzer analyzer = new MMAnalyzer(); Directory directory = new RAMDirectory(); //Directory directory = FSDirectory.getDirectory("/tmp/testindex", true); try { IndexWriter iwriter = new IndexWriter(directory, analyzer, true); iwriter.setMaxFieldLength(25000); Document doc = new Document(); doc.add(new Field(fieldName, text, Field.Store.YES, Field.Index.TOKENIZED)); iwriter.addDocument(doc); iwriter.close(); IndexSearcher isearcher = new IndexSearcher(directory); QueryParser parser = new QueryParser(fieldName, analyzer); Query query = parser.parse("印度尼西亚 6.2级地震");//检索词 Hits hits = isearcher.search(query); System.out.println("命中：" + hits.length()); for (int i = 0; i < hits.length(); i++) { Document hitDoc = hits.doc(i); System.out.println("内容：" + hitDoc.get(fieldName)); } isearcher.close(); directory.close(); } catch (Exception e) { e.printStackTrace(); } } } 生成效果：命中：1 内容：据路透社报道，印度尼西亚社会事务部一官员星期二(29日)表示，日惹市附近当地时间27日晨5时53分发生的里氏6.2级地震已经造成至少5427人死亡，20000余人受伤，近20万人无家可归。 package demo.analysis; import jeasy.analysis.MMAnalyzer; import org.apache.lucene.analysis.Analyzer; import org.apache.lucene.analysis.TokenStream; import org.apache.lucene.document.Document; import org.apache.lucene.document.Field; import org.apache.lucene.index.IndexReader; import org.apache.lucene.index.IndexWriter; import org.apache.lucene.index.TermPositionVector; import org.apache.lucene.queryParser.QueryParser; import org.apache.lucene.search.Hits; import org.apache.lucene.search.IndexSearcher; import org.apache.lucene.search.Query; import org.apache.lucene.search.highlight.Highlighter; import org.apache.lucene.search.highlight.QueryScorer; import org.apache.lucene.search.highlight.TokenSources; import org.apache.lucene.store.Directory; import org.apache.lucene.store.RAMDirectory; public class Segment { public static void main(String[] args) { String fieldName = "text"; String text = "据路透社报道，印度尼西亚社会事务部一官员星期二(29日)表示，" + "日惹市附近当地时间27日晨5时53分发生的里氏6.2级地震已经造成至少5427人死亡，" + "20000余人受伤，近20万人无家可归。"; //检索内容 //采用正向最大匹配的中文分词算法 Analyzer analyzer = new MMAnalyzer(); Directory directory = new RAMDirectory(); //Directory directory = FSDirectory.getDirectory("/tmp/testindex", true); try { IndexWriter iwriter = new IndexWriter(directory, analyzer, true); iwriter.setMaxFieldLength(25000); Document doc = new Document(); doc.add(new Field(fieldName, text, Field.Store.YES, Field.Index.TOKENIZED, Field.TermVector.WITH_POSITIONS_OFFSETS)); iwriter.addDocument(doc); iwriter.close(); IndexSearcher isearcher = new IndexSearcher(directory); QueryParser parser = new QueryParser(fieldName, analyzer); Query query = parser.parse("印度尼西亚 6.2级地震");//检索词 Hits hits = isearcher.search(query); System.out.println("命中：" + hits.length()); Highlighter highlighter = new Highlighter(new QueryScorer(query)); for (int i = 0; i < hits.length(); i++) { text = hits.doc(i).get(fieldName); TermPositionVector tpv = (TermPositionVector) IndexReader.open( directory).getTermFreqVector(hits.id(i), fieldName); TokenStream tokenStream = TokenSources.getTokenStream(tpv); String result = highlighter.getBestFragments(tokenStream, text, 3, "..."); System.out.println("内容：" + result); } isearcher.close(); directory.close(); } catch (Exception e) { e.printStackTrace(); } } } 生成效果：命中：1 内容：据路透社报道，印度尼西亚社会事务部一官员星期二(29日)表示，日惹市附近当地时间27日晨5时53分发生的里氏6.2级地震已经造成至少5427人死亡，20000余人受伤，近20万人无家可归

课程提供所有代码笔记素材以及答疑 1、Lucene框架的熟练应用实现类似百度、京东商城等应用的全文检索效果; 1、Solr简介 2、Solr下载安装以及目录结构介绍 3、Solr应用部署至Tomcat服务器 4、Solr后台管理界面介绍 5、通过managed-schema配置Field以及中文分词器 6、将数据库中的数据导入至Solr索引库 7、通过Solr后台管理界面对索引进行CRUD高亮过滤排序分页 8、通过Solrj实现索引的添加更新 9、通过Solrj实现索引的删除 10、索引的检索_过滤_高亮等操作 11、项目实战应用 12、Solr知识点总结 1、熟练掌握Lucene框架的使用，实现类似百度、京东商城等应用的全文检索效果; 2、ElasticSearch下载安装(window以及linux下安装) 3、集群环境搭建 4、客户端Kibana安装与使用 5、集群管理插件head安装使用 6、java api 操作 ES 7、电商项目实战应用等等 .....

一款功能强大的分词包，属于Lucene的jar包一类，在运用lucene开发搜索引擎时不可缺少工具包，添加简单，功能强大

文本分词时需要导入这些包，我是在做垃圾短信的检测时用到的，希望可以帮助有些人

下载资源悬赏专区

12,864

社区成员

12,415,764

社区内容

发帖

与我相关

我的任务

其他技术论坛（原bbs）

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章