请朋友们讨论一种字符串模糊检索算法
各位朋友:
我申请了一项字符串模糊检索算法的专利,叫“位标记字符串检索技术”,我的方法是,对数据库字符串字段,另建一个长整数字段,称为“位值”。将字符串的基本字符分为31组,比如说“复旦大学”的复、旦、大、学四个字分别属于第2、9、15、23组,则将长整数的第2、9、15、23个bit置为“1”,而其余位为0,记为Wh,就是所谓的“位标记”。类似地,对所有记录的字符串进行标记,得到各字符串的“位值”,这有点类似建一个“另类索引”。如果用户模糊检索包含“复旦”两个字的记录,先求得它的位值Wi,是第2、9个bit为“1”,而其余位为0。如果对它们进行“位蕴含”运算则结果是所有位均为“1”即:1111,1111,1111,1111,1111,1111,1111,1111,
则这条记录可能含“复旦”,如果不满足这个条件,则不含“复旦”两字。然后在符合条件的记录中再用通常的字符串比较方法作二次检索,得到最终结果。就在微软Server 2000中测试表明,能将字符串模糊检索速度提高5-15倍,说保守点可以提高5-8倍。
我想请朋友们帮我分析一下这个专利:
1.这个方法是否是创新,是否听说过?
2.象google,百度等搜索数亿个网页非常快,他们的搜索引擎用的什么算法?是否是用的散列表这之类?他们的算法是否适合一般数据库应用?
3. 算法是否可以申请专利?这个专利是否值得申请国际专利?申请国际专利费用不少,所用要认真考虑,而且我本身缺乏资金,如出让申请权给他人,应开什么价?
4.如果我联系到资金,决定做一个针对特定用户的数据库软件,以国内程序员的开发水平,是否能完成这样的工作?
这个专利国家专利局已经公开我的原始文本,当然原始文件有很多不足,我已作了修改补充,提交上去。
请朋友们赐教,有助于我做决定。非常感谢!
联系方式: hztj2005@yahoo.com.cn 021-61444459