过滤字串的问题
素才 2008-10-17 09:16:50 我想过滤掉一个字串中所有的 数词/代词+量词+量词附属词 的结构 如"一串""一点整""二十个左右";
量词另外有一张表格quanlist.txt下面的例子中用到的是"个年米秒点";
量词左边要过滤掉的是Sl="0123456789一二三四五六七八九十零百千万亿每这那几";
量词右边要过滤掉的是量词的附属结构Sr="半整"或者"/+另一个量词"(如"米/秒后面的"/秒");
现在的问题是Sl中的字符可以连续出现 如"一百二十五个"
而我,在"这三年的研究结果说明,一百二十五个大人平均速度是10米/秒,而一个小孩的每秒的平均速度是三十米左右,这是在中午一点半的测试结果"这样一段话里面希望最后得到的是" 的研究结果说明,大人平均速度是 而 小孩的 的平均速度是 这是在中午 的测试结果",请问要如何写这个算法?过滤掉的部分一律用空格代替.
这其中涉及比较琐碎的各种情况的考虑,最好能提供代码或伪代码,我感觉文字表达会很复杂.
最好用CString类,我努力了一天,思路还是很乱.C++也行.
这是我毕设的一部分,我的毕业设计是文本关键词的抽取,中间涉及到比较多的字符串的处理--也有人建议我用正则表达式,如果您有好的意见或者从事相关的工作,欢迎交流和指教.我的QQ:605794686(注明csdn)