请朋友们讨论一种字符串模糊检索算法

staryun 2005-10-09 03:03:36

各位朋友：
我申请了一项字符串模糊检索算法的专利，叫“位标记字符串检索技术”，我的方法是，对数据库字符串字段，另建一个长整数字段，称为“位值”。将字符串的基本字符分为31组，比如说“复旦大学”的复、旦、大、学四个字分别属于第2、9、15、23组，则将长整数的第2、9、15、23个bit置为“1”，而其余位为0，记为Wh，就是所谓的“位标记”。类似地，对所有记录的字符串进行标记，得到各字符串的“位值”，这有点类似建一个“另类索引”。如果用户模糊检索包含“复旦”两个字的记录，先求得它的位值Wi，是第2、9个bit为“1”，而其余位为0。如果对它们进行“位蕴含”运算则结果是所有位均为“1”即：1111,1111,1111,1111,1111,1111,1111,1111，
则这条记录可能含“复旦”，如果不满足这个条件，则不含“复旦”两字。然后在符合条件的记录中再用通常的字符串比较方法作二次检索，得到最终结果。就在微软Server 2000中测试表明，能将字符串模糊检索速度提高5-15倍，说保守点可以提高5-8倍。
我想请朋友们帮我分析一下这个专利：
1.这个方法是否是创新，是否听说过？
2.象google，百度等搜索数亿个网页非常快，他们的搜索引擎用的什么算法？是否是用的散列表这之类？他们的算法是否适合一般数据库应用？
3. 算法是否可以申请专利？这个专利是否值得申请国际专利？申请国际专利费用不少，所用要认真考虑，而且我本身缺乏资金，如出让申请权给他人，应开什么价？
4.如果我联系到资金，决定做一个针对特定用户的数据库软件，以国内程序员的开发水平，是否能完成这样的工作？

这个专利国家专利局已经公开我的原始文本，当然原始文件有很多不足，我已作了修改补充，提交上去。
请朋友们赐教，有助于我做决定。非常感谢！

联系方式： hztj2005@yahoo.com.cn 021-61444459

...全文

217 3 打赏收藏转发到动态举报

写回复

3 条回复

切换为时间正序

请发表友善的回复…

发表回复

mhisky 2006-05-12

打赏
举报

回复

Mark

xdop 2005-11-07

打赏
举报

回复

你怎样在全球几十亿人里面找一个人？

Baku 2005-11-04

打赏
举报

回复

空间换时间？用的空间也够多的，想法挺好的，觉得。
好象google　“复　旦”　那么能找到复旦，复ＸＸ旦，复ＸＸＸＸ旦；好奇想知道你怎么解决这个的。
其实都是一样。。。好奇想知道google怎么找的那么快。。。。

字符串匹配算法，是在实际工程中经常遇到的问题，也是各大公司笔试面试的常考题目。此算法通常输入为原字符串（string）和子串（pattern），要求返回子串在原字符串中首次出现的位置。比如原字符串为“ABCDEFG”，子串为“DEF”，则算法返回3。常见的算法包括：BF（Brute Force，暴力检索）、RK（Robin-Karp，哈希检索）、KMP（教科书上最常见算法）、BM（Boyer Moore）、Sunday等。 1字符串匹配问题的形式定义文本（Text）是一个长度为 n ...

正则表达式编辑正则表达式，又称正规表示法、常规表示法（英语：Regular Expression，在代码中常简写为regex、regexp或RE），计算机科学的一个概念。正则表达式使用单个字符串来描述、匹配一系列符合某个句法规则的字符串。在很多文本编辑器里，正则表达式通常被用来检索、替换那些符合某个模式的文本。许多程序设计语言都支持利用正则表达式进行字符串操作。例如，在P

以下是频域表示中图像退化的数学模型：其中\（S\）是模糊（退化）图像的频谱，\（U\）是原始真实（未退化）图像的频谱，\（H\）是点扩散函数（PSF）的频率响应，\（N\）是加性噪声的频谱。圆形 PSF 很好地近似于失焦失真。这样的 PSF 仅由一个参数指定 - 半径 \（R\）。这项工作使用了圆形 PSF。圆点扩散功能维纳滤镜是一种恢复模糊图像的方法。假设 PSF 是一个实数和对称信号，原始真实图像的功率谱和噪声是未知的，那么简化的维纳公式为：其中\（SNR\）是信噪比。

参考百度词条http://baike.baidu.com/view/94238.htm 一、正则表达式简介　　在计算机科学中，是指一个用来描述或者匹配一系列符合某个句法规则的字符串的单个字符串。在很多文本编辑器或其他工具里，正则表达式通常被用来检索和/或替换那些符合某个模式的文本内容。许多程序设计语言都支持利用正则表达式进行字符串操作。例如，在Perl中就内建了一个功能强大的正则表达...

RAG，即检索增强生成（Retrieval-Augmented Generation），是目前大模型领域的一个热门方向。它将信息检索技术与生成式模型相结合，解决大模型在知识准确性、上下文理解以及对最新信息的利用等方面的难题。但是很多小伙伴可能对RAG有点误解，觉得我们只要将一些额外的知识通过 RAG 导入，模型就能完美的掌握并且回答这些知识相关的问题。但事实和想象还是有差距的，大家在实际尝试后可能会发现，RAG 的精准度似乎没有那么好。从RAG。

数据结构与算法

33,028

社区成员

35,337

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章