社区
Java
帖子详情
lucene如何统计一个文件中出现次数最多的词语,统计各个分词的词频
catchers
2016-12-28 06:07:43
各位大神,如题,以前没接触过lucene,现在需要根据mmseg4j或者其他的分词结果,找到一个文件中出现次数最多的几个词语,最好附上代码说明,小弟感激不尽
...全文
363
1
打赏
收藏
lucene如何统计一个文件中出现次数最多的词语,统计各个分词的词频
各位大神,如题,以前没接触过lucene,现在需要根据mmseg4j或者其他的分词结果,找到一个文件中出现次数最多的几个词语,最好附上代码说明,小弟感激不尽
复制链接
扫一扫
分享
转发到动态
举报
写回复
配置赞助广告
用AI写文章
1 条
回复
切换为时间正序
请发表友善的回复…
发表回复
打赏红包
younglao
2016-12-28
打赏
举报
回复
创建索引时必须存储TermVector,然后使用reader.numDocs()获取所有的文档,TermFreqVector termFreq=reader.getTermFreqVector(docid,field)遍历文档,termFreq.getTerms()获取分词,termFreq.getTermFrequencies();获取词频
基于
lucene
的
词频
分析源代码
lucene
自带的
词频
分析功能,该源代码流程为:先从数据库
中
读取数据,写入TXT文本
中
,使用
lucene
进行索引,然后得出
词频
分析结果。
引入局部
统计
识别高频词汇的
Lucene
中
文
分词
程序STUSegmentConfig.rar
引入局部
统计
识别高频词汇的
Lucene
中
文
分词
程序STUSegmentConfig.rar
基于
lucene
的
分词
java代码,基于
Lucene
和mysql的简单的字符串匹配
分词
系统
java
lucene
实现
分词
和词干抽取
用java实现的,利用了
lucene
里面的standardAnalyzer分析器实现的
分词
,可以去停用词,再利用波特算法实现 词干提取 最后排序 和
词频
统计
输出
C# 盘古
分词
1、 修改字典格式,提高字典加载速度 2、 增加对英文专业名词的支持 如C++,C#等只要加入字典就可以被分出来 3、 增加
词频
判断功能,在无法取舍时根据
词频
取舍 4、 增加优先优先
词频
选项,通过这个选项动态决定
分词
粒度 需打开 FreqFirst 5、 增加
中
文人名前后缀
统计
和根据该
统计
定位人名的功能 6、 增加
中
文人名和未登录词
出现
频率
统计
功能 7、 增加自动更新字典功能,对超过阈值的人名和未登录词自动插入字典 需打开 AutoInsertUnknownWords 开关 并设置 UnknownWordsThreshold,(不推荐自动插入,推荐手工插入) 8、 增加定期保存字典和
统计
结果功能 需设置 AutoSaveInterval 9、 增加KTDictSeg.xml配置
文件
来配置
分词
参数 10、增加对
Lucene
.net 的支持,提供 KTDictSegAnalyzer 分析器给
Lucene
.net 11、增加字典管理功能,可以添加删除修改字典 12、字典管理
中
提供从未登录词
中
批量插入字典功能,可帮助使用者手工选择合适的未登录词插入字典(推荐) 13、提供
一个
新闻搜索的简单例子,采用
Lucene
.net+KTDictSegAnalyzer+KTDictSeg,项目名为Demo.KTDictSegAnalyzer 14、将所有ArrayList 改为List 其
中
src_V1.3.01是源码 rel_V1.3.01 包含所有的可执行
文件
,配置
文件
;Data目录下是词库,停用词表,以及我目前
统计
的人名前后缀词表;News 目录下是
Lucene
.net为 新闻搜索的例子建的索引。 News.zip 是上图
中
批量插入时要输入的XML
文件
,它包含3万条从新浪和
中
华网抓下来的过时的新闻,大约2000万字左右,可供各位朋友学习使用。 注意:如果要导入news.xml,这个
文件
必须要和Demo.KTDictSegAnalyzer.exe放在同
一个
目录下!
Java
50,528
社区成员
85,607
社区内容
发帖
与我相关
我的任务
Java
Java相关技术讨论
复制链接
扫一扫
分享
社区描述
Java相关技术讨论
java
spring boot
spring cloud
技术论坛(原bbs)
社区管理员
加入社区
获取链接或二维码
近7日
近30日
至今
加载中
查看更多榜单
社区公告
暂无公告
试试用AI创作助手写篇文章吧
+ 用AI写文章