1000分求助分词和词频统计
要求:
处理一批英文文本文件,对每个文件进行分词和词频统计,去掉无检索意义的词,创建关键词索引,能够用关键词进行检索,检索结果按照关键词在文中出现的频率排序输出,允许用户在检索结果中选择浏览原文。
要求:
1、定义停用词表,用来过滤无检索意义的词,停用词表用哈希结构存储,哈希函数自定义。
2、关键词索引用二叉排序树表示,并在此基础上进行检索。
分词;词频统计
停用词表:哈希结构存储;哈希函数自定义
关键词索引:二叉排序树
关键词检索;结果按词频排序输出
在检索结果中浏览原文
停用词表
索引表:按字母顺序排列
关键词检索:
允许用户输入关键词
程序自动给出和检索词相关的文章列表
结果多于1时,按关键词频降序排列
浏览原文
输入检索结果中文章序号显示相应文章
点击检索结果显示相应文章
逻辑连接词
And;Or;Not
在关键词组合中自动识别逻辑连接词
可以实现指定数量的关键词逻辑组合
指定关键词的个数
允许用户选择逻辑组合关系
可以实现部分逻辑组合
如:仅实现and的关系
当然,也仅得部分加分
模糊查询
大小写敏感
单词复数
动词变型
通配符
“?”:代表一个字母,可出现在词中的任意位置
“ * ”:代表任意多字母,可出现在词中任意位置
可以实现部分功能
限制通配符个数
限制通配符位置
如谁可以做出来并提供给我源码1000分奉上