散分!难题!中文分词检索系统!?75分给一个人!
最近系里在搞一个中文分词检索系统(相当于一个搜索系统),具体是这样的,给你一个大的语料库(譬如:人民日报1998年语料库),其中各个词语已经分好类了,且每个词语都有他的编号.我们这一组所要做的部分是名词检索.具体:把各种文章读进数据库,在读进去的时候必须要去除掉非名词部分,停用词部分,剩下的就是可能被检索的实用词,我们要做的就是把这些实用词分类,以达到高效检索的目的.
譬如:要求检索名词"农民"
回车以后
列出所有有关农民信息的文章且以农民这个名词在该篇文章里出现的词频来排序
其中还联系到名词与名词之间的相关性等问题,譬如:计算机与电脑表示的是一个意思,但是怎样把有相关意思的名词联系起来呢,着是个难题!用到的数据结构太多,如:单向连表,hash函数等,由于小弟第一次接触这个东东,没有这方面的经验,希望各位有这方面经历的兄弟姐妹们给点提示,万分谢谢!
用c++做,给了我们一份英文单词检索系统的原代码,用java写的做参考,但是英文单词和中文名词检索很多地方不同,思路也就不同了,况且以前没有接触过java,真是苦!
再次感谢!
有兴趣者,大家一起探讨!
e-mail:stonbing@163.net
qq:532432
突然发现还有话要说:我们要做的是从大的语料库里找出小的语料库里所涉及到的名词,作成自己的名词小词典(倒排索引序列),然后就可以直接通过小的名词词典来检索,找出相关的文章.缩小搜索的范围.
大名词词典与小名词词典的问题.