信息过滤系统的问题(急,高分求助)
robur 2005-11-04 06:12:43 声明:无论问题最后是否得到解决,本帖子肯定结贴给分!
只要参与讨论,我尽量都给分,但是灌水的除外。
如果得以完美解决,给关键人另开帖子给分!
我最近在做一套信息过滤的系统,就是为了判断一个文章的性质如何。已经基本完成了基于Bayes算法的文章性质判定、对同音异体字的检测处理和关键字过滤部分。
其实主要的判断依据是Bayes的结果,但是这样对Bayes过于依赖,而且准确性不高。用某个高手的话说,就是“幼稚Bayes”。
希望能跟大家讨论下相关的问题。
1、如何有效的绕开各种过滤系统;
2、有效的信息过滤算法;
3、信息过滤的发展方向。
另外,还想请教下,那些拆字的行为,我们如何处理?(如何识别这些拆开的文字)
比如:口斤 言兑 言仑 土云
不胜感激。。。