lucene如何统计一个文件中出现次数最多的词语，统计各个分词的词频

catchers 2016-12-28 06:07:43

各位大神，如题，以前没接触过lucene，现在需要根据mmseg4j或者其他的分词结果，找到一个文件中出现次数最多的几个词语，最好附上代码说明，小弟感激不尽

...全文

363 1 打赏收藏转发到动态举报

写回复

用AI写文章

1 条回复

切换为时间正序

请发表友善的回复…

发表回复

younglao 2016-12-28

打赏
举报

创建索引时必须存储TermVector,然后使用reader.numDocs()获取所有的文档，TermFreqVector termFreq=reader.getTermFreqVector(docid,field)遍历文档，termFreq.getTerms()获取分词，termFreq.getTermFrequencies();获取词频

lucene自带的词频分析功能，该源代码流程为：先从数据库中读取数据，写入TXT文本中，使用lucene进行索引，然后得出词频分析结果。

引入局部统计识别高频词汇的Lucene中文分词程序STUSegmentConfig.rar

java代码，基于Lucene和mysql的简单的字符串匹配分词系统

用java实现的，利用了lucene里面的standardAnalyzer分析器实现的分词，可以去停用词，再利用波特算法实现词干提取最后排序和词频统计输出

1、修改字典格式，提高字典加载速度 2、增加对英文专业名词的支持如C++,C#等只要加入字典就可以被分出来 3、增加词频判断功能，在无法取舍时根据词频取舍 4、增加优先优先词频选项，通过这个选项动态决定分词粒度需打开 FreqFirst 5、增加中文人名前后缀统计和根据该统计定位人名的功能 6、增加中文人名和未登录词出现频率统计功能 7、增加自动更新字典功能，对超过阈值的人名和未登录词自动插入字典需打开 AutoInsertUnknownWords 开关并设置 UnknownWordsThreshold，(不推荐自动插入，推荐手工插入) 8、增加定期保存字典和统计结果功能需设置 AutoSaveInterval 9、增加KTDictSeg.xml配置文件来配置分词参数 10、增加对Lucene.net 的支持，提供 KTDictSegAnalyzer 分析器给Lucene.net 11、增加字典管理功能，可以添加删除修改字典 12、字典管理中提供从未登录词中批量插入字典功能，可帮助使用者手工选择合适的未登录词插入字典（推荐） 13、提供一个新闻搜索的简单例子，采用Lucene.net+KTDictSegAnalyzer+KTDictSeg,项目名为Demo.KTDictSegAnalyzer 14、将所有ArrayList 改为List 其中 src_V1.3.01是源码 rel_V1.3.01 包含所有的可执行文件，配置文件；Data目录下是词库，停用词表，以及我目前统计的人名前后缀词表；News 目录下是Lucene.net为新闻搜索的例子建的索引。 News.zip 是上图中批量插入时要输入的XML文件，它包含3万条从新浪和中华网抓下来的过时的新闻，大约2000万字左右，可供各位朋友学习使用。注意：如果要导入news.xml，这个文件必须要和Demo.KTDictSegAnalyzer.exe放在同一个目录下！

Java

50,528

社区成员

85,607

社区内容

发帖

与我相关

我的任务

javaspring bootspring cloud 技术论坛（原bbs）

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章