急问:两个字符串快速比较的方法

Coder李海波 2007-08-06 02:13:39
1.不能一个字符一个字符去比较
2.不需要特别准确(比如90%以上准确就可以了)
3.应该可以提取一些特征值,按照特征值是否一样来比较,算法是什么?
...全文
368 14 打赏 收藏 转发到动态 举报
AI 作业
写回复
用AI写文章
14 条回复
切换为时间正序
请发表友善的回复…
发表回复
Coder李海波 2007-08-06
  • 打赏
  • 举报
回复
to taodm
不是做的一个方向,也不需要100%准确,不准确也没有太大的关系,主要是效率快和存储量少就可以了
taodm 2007-08-06
  • 打赏
  • 举报
回复
难道你想这么小打小闹就可以取代google?
海量数据检索问题,恐怕不是csdn上随便讨论就可以解决的。
100个双字节字符,每个字符大概3000+可选,5E347量级,想想你要产生多少特征码吧。
Coder李海波 2007-08-06
  • 打赏
  • 举报
回复
to taodm
平均长度大概<100个中文,
字符串的话太多了,互联网有多少网页,就有多少html,就有多少文本:)
Coder李海波 2007-08-06
  • 打赏
  • 举报
回复
to akirya
中间需要存储,并没有原始的字符串,如国存储原始的文档,量太大了,硬件承受不了。
taodm 2007-08-06
  • 打赏
  • 举报
回复
你的字符串,平均长度是多少?平均多少个字符串?
Coder李海波 2007-08-06
  • 打赏
  • 举报
回复
2边都现计算特征码,那还不如直接字节比较呢。
2边都预计算特征码,那你用hash/MD5都可以啊,还问什么呢?
----------------------------
中间有一个存储的过程,比如有100w个文档,存储量是很大的,我正在研究hash算法,几个hash算法一起用,可以增加精确度。
  • 打赏
  • 举报
回复
memcpy这个用汇编写的,应该比你自己的方案要快一些。
wsXiqiang 2007-08-06
  • 打赏
  • 举报
回复
用memcmp吧,要想不必太精确,就自己随机抽取某个片断进行比较!
taodm 2007-08-06
  • 打赏
  • 举报
回复
2边都现计算特征码,那还不如直接字节比较呢。
2边都预计算特征码,那你用hash/MD5都可以啊,还问什么呢?
Coder李海波 2007-08-06
  • 打赏
  • 举报
回复
特征码?
求ASCII值肯定不准确。。。。。
--------------
最好能比这个稍微准确一些
Coder李海波 2007-08-06
  • 打赏
  • 举报
回复
自己实现strcmp在当中加入计数器,用来测试比较准确度
------------------------
你没看清楚我的问题,没有字符串,只有类似MD5的特征码,我追求的少存储量和效率,
牺牲的是准确度,允许存在误差
lockhall 2007-08-06
  • 打赏
  • 举报
回复
特征码?

求ASCII值肯定不准确。。。。。
lockhall 2007-08-06
  • 打赏
  • 举报
回复
搞个变种的strcmp看看。

自己实现strcmp在当中加入计数器,用来测试比较准确度。

如果>90%继续比较。

。。。。
Coder李海波 2007-08-06
  • 打赏
  • 举报
回复
是比较两个比较大的字符串是否相等,但是这些信息无法存储(空间原因),只能提取字符的特征码来比较,我的问题是特征码怎么来设计,各位是否明白?

65,187

社区成员

发帖
与我相关
我的任务
社区描述
C++ 语言相关问题讨论,技术干货分享,前沿动态等
c++ 技术论坛(原bbs)
社区管理员
  • C++ 语言社区
  • encoderlee
  • paschen
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
  1. 请不要发布与C++技术无关的贴子
  2. 请不要发布与技术无关的招聘、广告的帖子
  3. 请尽可能的描述清楚你的问题,如果涉及到代码请尽可能的格式化一下

试试用AI创作助手写篇文章吧