急问:两个字符串快速比较的方法

Coder李海波 小米 研发工程师  2007-08-06 02:13:39
1.不能一个字符一个字符去比较
2.不需要特别准确(比如90%以上准确就可以了)
3.应该可以提取一些特征值,按照特征值是否一样来比较,算法是什么?
...全文
215 点赞 收藏 14
写回复
14 条回复
切换为时间正序
请发表友善的回复…
发表回复
Coder李海波 2007-08-06
to taodm
不是做的一个方向,也不需要100%准确,不准确也没有太大的关系,主要是效率快和存储量少就可以了
回复
taodm 2007-08-06
难道你想这么小打小闹就可以取代google?
海量数据检索问题,恐怕不是csdn上随便讨论就可以解决的。
100个双字节字符,每个字符大概3000+可选,5E347量级,想想你要产生多少特征码吧。
回复
Coder李海波 2007-08-06
to taodm
平均长度大概<100个中文,
字符串的话太多了,互联网有多少网页,就有多少html,就有多少文本:)
回复
Coder李海波 2007-08-06
to akirya
中间需要存储,并没有原始的字符串,如国存储原始的文档,量太大了,硬件承受不了。
回复
taodm 2007-08-06
你的字符串,平均长度是多少?平均多少个字符串?
回复
Coder李海波 2007-08-06
2边都现计算特征码,那还不如直接字节比较呢。
2边都预计算特征码,那你用hash/MD5都可以啊,还问什么呢?
----------------------------
中间有一个存储的过程,比如有100w个文档,存储量是很大的,我正在研究hash算法,几个hash算法一起用,可以增加精确度。
回复
memcpy这个用汇编写的,应该比你自己的方案要快一些。
回复
wsXiqiang 2007-08-06
用memcmp吧,要想不必太精确,就自己随机抽取某个片断进行比较!
回复
taodm 2007-08-06
2边都现计算特征码,那还不如直接字节比较呢。
2边都预计算特征码,那你用hash/MD5都可以啊,还问什么呢?
回复
Coder李海波 2007-08-06
特征码?
求ASCII值肯定不准确。。。。。
--------------
最好能比这个稍微准确一些
回复
Coder李海波 2007-08-06
自己实现strcmp在当中加入计数器,用来测试比较准确度
------------------------
你没看清楚我的问题,没有字符串,只有类似MD5的特征码,我追求的少存储量和效率,
牺牲的是准确度,允许存在误差
回复
lockhall 2007-08-06
特征码?

求ASCII值肯定不准确。。。。。
回复
lockhall 2007-08-06
搞个变种的strcmp看看。

自己实现strcmp在当中加入计数器,用来测试比较准确度。

如果>90%继续比较。

。。。。
回复
Coder李海波 2007-08-06
是比较两个比较大的字符串是否相等,但是这些信息无法存储(空间原因),只能提取字符的特征码来比较,我的问题是特征码怎么来设计,各位是否明白?
回复
发动态
发帖子
C++ 语言
创建于2007-09-28

5.9w+

社区成员

C++ 语言相关问题讨论,技术干货分享,前沿动态等
申请成为版主
社区公告
暂无公告