社区
下载资源悬赏专区
帖子详情
支持lucene的词典机械中文分词下载
weixin_39821051
2020-02-29 06:30:17
采用反向机械分词算法。
对数字、英文进行特别的处理。
支持中英文数字混合词的处理。
分词速度快。
相关下载链接:
//download.csdn.net/download/wolffool/1310278?utm_source=bbsseo
...全文
5
回复
打赏
收藏
支持lucene的词典机械中文分词下载
采用反向机械分词算法。 对数字、英文进行特别的处理。 支持中英文数字混合词的处理。 分词速度快。 相关下载链接://download.csdn.net/download/wolffool/1310278?utm_source=bbsseo
复制链接
扫一扫
分享
转发到动态
举报
写回复
配置赞助广告
用AI写文章
回复
切换为时间正序
请发表友善的回复…
发表回复
打赏红包
支持
lucene
的
词典
机械
中文分词
采用反向
机械
分词算法。 对数字、英文进行特别的处理。
支持
中英文数字混合词的处理。 分词速度快。
Lucene
中文分词
组件 JE-Analysis 1.5.1
发布于:http://www.jesoft.cn/posts/list/5.page 1.5.1 —— 2006-01-22 修正细粒度分词错误的问题 1.5.0 —— 2007-01-18 全面
支持
Lucene
2.0 增强了
词典
维护的API 增加了商品编码的匹配 增加了Mail地址的匹配 实现了词尾消歧算法第二层的过滤 整理优化了词库 1.4.0 —— 2006-08-21 增加
词典
的动态扩展能力 1.3.3 —— 2006-07-23 修正无法多次增加
词典
的问题 1.3.2 —— 2006-07-03 修正细粒度分词错误的问题 1.3.1 —— 2006-06-23 修正在某些情况下分词遗漏的问题 1.3 —— 2006-06-22 实现了词尾消歧算法第一层的过滤 增加日期时间的匹配 1.2.2 —— 2006-06-13 完善了中英文噪声
词典
1.2.1 —— 2006-06-10 修正中文数字成语无法识别的问题 1.2 —— 2006-06-08 增加中文数字的匹配(如:二零零六) 数量词采用“n”作为数字通配符 优化
词典
结构以便修改调整 1.1 —— 2006-06-06 增加扩展
词典
的静态读取方法 1.0.1 —— 2006-06-02 修正无法识别生僻字的问题 1.0 —— 2006-05-29
支持
英文、数字、中文(简体)混合分词 常用的数量和人名的匹配 超过22万词的词库整理 实现正向最大匹配算法
支持
分词粒度控制 //采用正向最大匹配的
中文分词
算法,相当于分词粒度等于0 MMAnalyzer analyzer = new MMAnalyzer(); //参数为分词粒度:当字数等于或超过该参数,且能成词,该词就被切分出来 MMAnalyzer analyzer = new MMAnalyzer(2); //字符串切分,常用于客户的关键字输入 analyzer.segment(text, separator);
词典
维护API(静态方法): //增加一个新
词典
,采用每行一个词的读取方式(注意:多线程状态下此时的分词效果将不可预料) MMAnalyzer.addDictionary(reader); //增加一个新词 MMAnalyzer.addWord(newWord); //删除词库中的全部词语(注意:非常危险的操作,在没有加载新的词库前所有的分词都将失效) MMAnalyzer.clear(); //词库中是否包含该词 MMAnalyzer.contains(String word); //从词库中移除该词 MMAnalyzer.removeWord(String word); //当前词库中包含的词语总数 MMAnalyzer.size();
Lucene
实战讲解课程
Lucene
是apache软件基金会4 jakarta项目组的一个子项目,是一个开放源代码的全文检索引擎工具包,但它不是一个完整的全文检索引擎,而是一个全文检索引擎的架构,提供了完整的查询引擎和索引引擎,部分文本分析引擎(英文与德文两种西方语言)。
Lucene
的目的是为软件开发人员提供一个简单易用的工具包,以方便的在目标系统中实现全文检索的功能,或者是以此为基础建立起完整的全文检索引擎。
Lucene
是一套用于全文检索和搜寻的开源程式库,由Apache软件基金会
支持
和提供。
Lucene
提供了一个简单却强大的应用程式接口,能够做全文索引和搜寻。在Java开发环境里
Lucene
是一个成熟的免费开源工具。就其本身而言,
Lucene
是当前以及最近几年最受欢迎的免费Java信息检索程序库。人们经常提到信息检索程序库,虽然与搜索引擎有关,但不应该将信息检索程序库与搜索引擎相混淆
基于
词典
的最大匹配的
Lucene
中文分词
程序
基于
词典
的最大匹配的
Lucene
中文分词
程序
lucene
中文分词
工具包
IKAnalyzer 是一个开源的,基于java语言开发的轻量级的
中文分词
工具包,将一段文字进行IK分词处理一般经过:
词典
加载、预处理、分词器分词、歧义处理、善后结尾 五个部分
下载资源悬赏专区
12,777
社区成员
12,304,571
社区内容
发帖
与我相关
我的任务
下载资源悬赏专区
CSDN 下载资源悬赏专区
复制链接
扫一扫
分享
社区描述
CSDN 下载资源悬赏专区
其他
技术论坛(原bbs)
社区管理员
加入社区
获取链接或二维码
近7日
近30日
至今
加载中
查看更多榜单
社区公告
暂无公告
试试用AI创作助手写篇文章吧
+ 用AI写文章