支持lucene的词典机械中文分词下载

weixin_39821051 2020-02-29 06:30:17

采用反向机械分词算法。
对数字、英文进行特别的处理。
支持中英文数字混合词的处理。
分词速度快。
相关下载链接：//download.csdn.net/download/wolffool/1310278?utm_source=bbsseo

...全文

5 回复打赏收藏转发到动态举报

写回复

回复

切换为时间正序

请发表友善的回复…

发表回复

采用反向机械分词算法。对数字、英文进行特别的处理。支持中英文数字混合词的处理。分词速度快。

发布于：http://www.jesoft.cn/posts/list/5.page 1.5.1 —— 2006-01-22 修正细粒度分词错误的问题 1.5.0 —— 2007-01-18 全面支持Lucene 2.0 增强了词典维护的API 增加了商品编码的匹配增加了Mail地址的匹配实现了词尾消歧算法第二层的过滤整理优化了词库 1.4.0 —— 2006-08-21 增加词典的动态扩展能力 1.3.3 —— 2006-07-23 修正无法多次增加词典的问题 1.3.2 —— 2006-07-03 修正细粒度分词错误的问题 1.3.1 —— 2006-06-23 修正在某些情况下分词遗漏的问题 1.3 —— 2006-06-22 实现了词尾消歧算法第一层的过滤增加日期时间的匹配 1.2.2 —— 2006-06-13 完善了中英文噪声词典 1.2.1 —— 2006-06-10 修正中文数字成语无法识别的问题 1.2 —— 2006-06-08 增加中文数字的匹配（如：二零零六）数量词采用“n”作为数字通配符优化词典结构以便修改调整 1.1 —— 2006-06-06 增加扩展词典的静态读取方法 1.0.1 —— 2006-06-02 修正无法识别生僻字的问题 1.0 —— 2006-05-29 支持英文、数字、中文（简体）混合分词常用的数量和人名的匹配超过22万词的词库整理实现正向最大匹配算法支持分词粒度控制 //采用正向最大匹配的中文分词算法，相当于分词粒度等于0 MMAnalyzer analyzer = new MMAnalyzer(); //参数为分词粒度：当字数等于或超过该参数，且能成词，该词就被切分出来 MMAnalyzer analyzer = new MMAnalyzer(2); //字符串切分，常用于客户的关键字输入 analyzer.segment(text, separator); 词典维护API（静态方法）： //增加一个新词典，采用每行一个词的读取方式（注意：多线程状态下此时的分词效果将不可预料） MMAnalyzer.addDictionary(reader); //增加一个新词 MMAnalyzer.addWord(newWord); //删除词库中的全部词语（注意：非常危险的操作，在没有加载新的词库前所有的分词都将失效） MMAnalyzer.clear(); //词库中是否包含该词 MMAnalyzer.contains(String word); //从词库中移除该词 MMAnalyzer.removeWord(String word); //当前词库中包含的词语总数 MMAnalyzer.size();

Lucene是apache软件基金会4 jakarta项目组的一个子项目，是一个开放源代码的全文检索引擎工具包，但它不是一个完整的全文检索引擎，而是一个全文检索引擎的架构，提供了完整的查询引擎和索引引擎，部分文本分析引擎（英文与德文两种西方语言）。Lucene的目的是为软件开发人员提供一个简单易用的工具包，以方便的在目标系统中实现全文检索的功能，或者是以此为基础建立起完整的全文检索引擎。Lucene是一套用于全文检索和搜寻的开源程式库，由Apache软件基金会支持和提供。Lucene提供了一个简单却强大的应用程式接口，能够做全文索引和搜寻。在Java开发环境里Lucene是一个成熟的免费开源工具。就其本身而言，Lucene是当前以及最近几年最受欢迎的免费Java信息检索程序库。人们经常提到信息检索程序库，虽然与搜索引擎有关，但不应该将信息检索程序库与搜索引擎相混淆

基于词典的最大匹配的Lucene中文分词程序

IKAnalyzer 是一个开源的，基于java语言开发的轻量级的中文分词工具包,将一段文字进行IK分词处理一般经过：词典加载、预处理、分词器分词、歧义处理、善后结尾五个部分

下载资源悬赏专区

12,777

社区成员

12,304,571

社区内容

发帖

与我相关

我的任务

其他技术论坛（原bbs）

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章