1000分求助分词和词频统计

fengyeng 2007-12-25 10:41:03
要求:
处理一批英文文本文件,对每个文件进行分词和词频统计,去掉无检索意义的词,创建关键词索引,能够用关键词进行检索,检索结果按照关键词在文中出现的频率排序输出,允许用户在检索结果中选择浏览原文。

要求:
1、定义停用词表,用来过滤无检索意义的词,停用词表用哈希结构存储,哈希函数自定义。
2、关键词索引用二叉排序树表示,并在此基础上进行检索。

分词;词频统计
停用词表:哈希结构存储;哈希函数自定义
关键词索引:二叉排序树
关键词检索;结果按词频排序输出
在检索结果中浏览原文

停用词表
索引表:按字母顺序排列
关键词检索:
允许用户输入关键词
程序自动给出和检索词相关的文章列表
结果多于1时,按关键词频降序排列
浏览原文
输入检索结果中文章序号显示相应文章
点击检索结果显示相应文章

逻辑连接词
And;Or;Not
在关键词组合中自动识别逻辑连接词
可以实现指定数量的关键词逻辑组合
指定关键词的个数
允许用户选择逻辑组合关系
可以实现部分逻辑组合
如:仅实现and的关系
当然,也仅得部分加分

模糊查询
大小写敏感
单词复数
动词变型
通配符
“?”:代表一个字母,可出现在词中的任意位置
“ * ”:代表任意多字母,可出现在词中任意位置
可以实现部分功能
限制通配符个数
限制通配符位置


如谁可以做出来并提供给我源码1000分奉上
...全文
279 9 打赏 收藏 转发到动态 举报
写回复
用AI写文章
9 条回复
切换为时间正序
请发表友善的回复…
发表回复
ssjjzz111111 2009-01-15
  • 打赏
  • 举报
回复
我推荐一个工具,你可以去下载试用一下,效果很不错
http://hi.baidu.com/whusoft
fengyeng 2008-01-02
  • 打赏
  • 举报
回复
shidanuo@163.com
qiuqiu173 2007-12-30
  • 打赏
  • 举报
回复
你的邮箱
qiuqiu173 2007-12-30
  • 打赏
  • 举报
回复
哈哈,我做的赫夫曼编码解码就有楼主你的大部分功能
wuyu637 2007-12-30
  • 打赏
  • 举报
回复
做搜索引擎的?


如果不是很在意性能的话,用脚本可以很快的实现你要的功能。
yuyunliuhen 2007-12-30
  • 打赏
  • 举报
回复
帮顶!^_^
FigoZhu 2007-12-30
  • 打赏
  • 举报
回复
帮顶,接分。
fengyeng 2007-12-25
  • 打赏
  • 举报
回复
effective_person
一切看你的了!

分其实不是问题,我是学dotnet的,希望以后我们可以交个朋友!
effective_person 2007-12-25
  • 打赏
  • 举报
回复
^_^
试试看看
==wo

33,311

社区成员

发帖
与我相关
我的任务
社区描述
C/C++ 新手乐园
社区管理员
  • 新手乐园社区
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧