lucene如何统计一个文件中出现次数最多的词语，统计各个分词的词频

catchers 2016-12-28 06:07:43

各位大神，如题，以前没接触过lucene，现在需要根据mmseg4j或者其他的分词结果，找到一个文件中出现次数最多的几个词语，最好附上代码说明，小弟感激不尽

...全文

361 1 打赏收藏转发到动态举报

写回复

用AI写文章

1 条回复

切换为时间正序

请发表友善的回复…

发表回复

younglao 2016-12-28

打赏
举报

创建索引时必须存储TermVector,然后使用reader.numDocs()获取所有的文档，TermFreqVector termFreq=reader.getTermFreqVector(docid,field)遍历文档，termFreq.getTerms()获取分词，termFreq.getTermFrequencies();获取词频

lucene自带的词频分析功能，该源代码流程为：先从数据库中读取数据，写入TXT文本中，使用lucene进行索引，然后得出词频分析结果。

引入局部统计识别高频词汇的Lucene中文分词程序STUSegmentConfig.rar

Lucene是apache软件基金会4 jakarta项目组的一个子项目，是一个开放源代码的全文检索引擎工具包，但它不是一个完整的全文检索引擎，而是一个全文检索引擎的架构，提供了完整的查询引擎和索引引擎，部分文本分析引擎（英文与德文两种西方语言）。Lucene的目的是为软件开发人员提供一个简单易用的工具包，以方便的在目标系统中实现全文检索的功能，或者是以此为基础建立起完整的全文检索引擎。Lucene是一套用于全文检索和搜寻的开源程式库，由Apache软件基金会支持和提供。Lucene提供了一个简单却强大的应用程式接口，能够做全文索引和搜寻。在Java开发环境里Lucene是一个成熟的免费开源工具。就其本身而言，Lucene是当前以及最近几年最受欢迎的免费Java信息检索程序库。人们经常提到信息检索程序库，虽然与搜索引擎有关，但不应该将信息检索程序库与搜索引擎相混淆

java代码，基于Lucene和mysql的简单的字符串匹配分词系统

用java实现的，利用了lucene里面的standardAnalyzer分析器实现的分词，可以去停用词，再利用波特算法实现词干提取最后排序和词频统计输出

Java

50,523

社区成员

85,601

社区内容

发帖

与我相关

我的任务

javaspring bootspring cloud 技术论坛（原bbs）

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章