社区
Java
帖子详情
lucene如何统计一个文件中出现次数最多的词语,统计各个分词的词频
catchers
2016-12-28 06:07:43
各位大神,如题,以前没接触过lucene,现在需要根据mmseg4j或者其他的分词结果,找到一个文件中出现次数最多的几个词语,最好附上代码说明,小弟感激不尽
...全文
361
1
打赏
收藏
lucene如何统计一个文件中出现次数最多的词语,统计各个分词的词频
各位大神,如题,以前没接触过lucene,现在需要根据mmseg4j或者其他的分词结果,找到一个文件中出现次数最多的几个词语,最好附上代码说明,小弟感激不尽
复制链接
扫一扫
分享
转发到动态
举报
写回复
配置赞助广告
用AI写文章
1 条
回复
切换为时间正序
请发表友善的回复…
发表回复
打赏红包
younglao
2016-12-28
打赏
举报
回复
创建索引时必须存储TermVector,然后使用reader.numDocs()获取所有的文档,TermFreqVector termFreq=reader.getTermFreqVector(docid,field)遍历文档,termFreq.getTerms()获取分词,termFreq.getTermFrequencies();获取词频
基于
lucene
的
词频
分析源代码
lucene
自带的
词频
分析功能,该源代码流程为:先从数据库
中
读取数据,写入TXT文本
中
,使用
lucene
进行索引,然后得出
词频
分析结果。
引入局部
统计
识别高频词汇的
Lucene
中
文
分词
程序STUSegmentConfig.rar
引入局部
统计
识别高频词汇的
Lucene
中
文
分词
程序STUSegmentConfig.rar
Lucene
实战讲解课程
Lucene
是apache软件基金会4 jakarta项目组的
一个
子项目,是
一个
开放源代码的全文检索引擎工具包,但它不是
一个
完整的全文检索引擎,而是
一个
全文检索引擎的架构,提供了完整的查询引擎和索引引擎,部分文本分析引擎(英文与德文两种西方语言)。
Lucene
的目的是为软件开发人员提供
一个
简单易用的工具包,以方便的在目标系统
中
实现全文检索的功能,或者是以此为基础建立起完整的全文检索引擎。
Lucene
是一套用于全文检索和搜寻的开源程式库,由Apache软件基金会支持和提供。
Lucene
提供了
一个
简单却强大的应用程式接口,能够做全文索引和搜寻。在Java开发环境里
Lucene
是
一个
成熟的免费开源工具。就其本身而言,
Lucene
是当前以及最近几年最受欢迎的免费Java信息检索程序库。人们经常提到信息检索程序库,虽然与搜索引擎有关,但不应该将信息检索程序库与搜索引擎相混淆
基于
lucene
的
分词
java代码,基于
Lucene
和mysql的简单的字符串匹配
分词
系统
java
lucene
实现
分词
和词干抽取
用java实现的,利用了
lucene
里面的standardAnalyzer分析器实现的
分词
,可以去停用词,再利用波特算法实现 词干提取 最后排序 和
词频
统计
输出
Java
50,523
社区成员
85,601
社区内容
发帖
与我相关
我的任务
Java
Java相关技术讨论
复制链接
扫一扫
分享
社区描述
Java相关技术讨论
java
spring boot
spring cloud
技术论坛(原bbs)
社区管理员
加入社区
获取链接或二维码
近7日
近30日
至今
加载中
查看更多榜单
社区公告
暂无公告
试试用AI创作助手写篇文章吧
+ 用AI写文章