如何高效的实现这个处理重复数据的算法

shunzi__1984 2009-08-21 11:30:17

删除一堆数据里面的重复数据（保留重复数据的一个）
情况一：数据个数相对比较少的情况
情况二：数据个数相对比较多的情况（比如数据在一个文件里有几百亿个）

如何高效的实现这个算法（注重算法复杂度）
请各位汇集自己的智慧给出高效的算法，

...全文

220 26 打赏收藏转发到动态举报

写回复

用AI写文章

26 条回复

切换为时间正序

请发表友善的回复…

发表回复

yimixiaoxiong 2009-08-24

打赏
举报

少的话可以考虑set啊，不过如果能存储在数据库中的数据，现在数据库都有这样现成的功能啊

纠结的程序猿 2009-08-24

打赏
举报

[Quote=引用 13 楼 shunzi__1984 的回复:]
偶不希望用工具类
[/Quote]
那么自己构造一个hash表可以吗？

gx168853 2009-08-24

打赏
举报

强~

shunzi__1984 2009-08-24

打赏
举报

数据就算整形数据

chong232 2009-08-24

打赏
举报

[Quote=引用 12 楼 pilotedit 的回复:]
引用 11 楼 shunzi__1984 的回复:
大家继续跟帖啊看看还有什么号的算法
最好把算法贴出来
否则，说个大概可能还是有问题的
比如说用hash做的，如何选hash函数？？

要看你用什么开发环境。
如果是VC++的话，可以用CMap*****类。
如果是UNIX上的C\C++，可能是STL模版中的hash_set吧，记不太清楚了。

9楼说的也有道理,如果你的数据有一个确定的范围,比如1-100000,用位图也很好.但是如果没有一个确定的范围,比如有的数字可能很大,1000000000,就只能用hash表.
[/Quote]

嗯，跟你的数据特征有关系，万一你是字符串呢

shunzi__1984 2009-08-24

打赏
举报

偶不希望用工具类

纠结的程序猿 2009-08-24

打赏
举报

这种情况只能分段处理，
先把0到1亿之间的数字插入hash表，然后删除重复，导出数据到文件。
再把1亿到2亿之间的数字插入hash表，然后删除重复，导出数据到文件。
依次类推
最后合并。

shunzi__1984 2009-08-24

打赏
举报

如果不重复的数据就有几百亿呢

纠结的程序猿 2009-08-24

打赏
举报

如果不重复的数据只有几百万，那么用hash还是很容易做的。

纠结的程序猿 2009-08-24

打赏
举报

[Quote=引用 21 楼 shunzi__1984 的回复:]
我觉得大家都没有说到重点
数据多（几百亿）具体如何用hash表处理？？

[/Quote]
关键是不重复的数据有多少？

elysium1984 2009-08-24

打赏
举报

[Quote=引用 5 楼 liao05050075 的回复:]
数据个数相对比较少的情况,那你可以有较多选择。比如可以使用先排序，然后再去重复，或者使用二叉排序树。

数据个数相对比较多的情况，无疑的，使用位图是最好的选择，但它的所需要的空间比较大，
如果所有数中最大数为m，那么就要m bit的空间。
[/Quote]
up

shunzi__1984 2009-08-24

打赏
举报

我觉得大家都没有说到重点
数据多（几百亿）具体如何用hash表处理？？

fallening 2009-08-24

打赏
举报

要算法？
去看stl里边hash的实现
不要说你找不到

shunzi__1984 2009-08-24

打赏
举报

就是自己要想一个数据结构（不用系统的），hash函数如何选了，具体想来还是有很多问题？
请达人贴上具体算法

纠结的程序猿 2009-08-23

打赏
举报

[Quote=引用 11 楼 shunzi__1984 的回复:]
大家继续跟帖啊看看还有什么号的算法
最好把算法贴出来
否则，说个大概可能还是有问题的
比如说用hash做的，如何选hash函数？？

[/Quote]
要看你用什么开发环境。
如果是VC++的话，可以用CMap*****类。
如果是UNIX上的C\C++，可能是STL模版中的hash_set吧，记不太清楚了。

9楼说的也有道理,如果你的数据有一个确定的范围,比如1-100000,用位图也很好.但是如果没有一个确定的范围,比如有的数字可能很大,1000000000,就只能用hash表.

shunzi__1984 2009-08-23

打赏
举报

大家继续跟帖啊看看还有什么号的算法
最好把算法贴出来
否则，说个大概可能还是有问题的
比如说用hash做的，如何选hash函数？？

eijikayn 2009-08-22

打赏
举报

用hash吧

猫已经找不回了 2009-08-22

打赏
举报

删除一堆数据里面的重复数据（保留重复数据的一个）
情况一：数据个数相对比较少的情况
情况二：数据个数相对比较多的情况（比如数据在一个文件里有几百亿个）

1.数据个数少，如果数据值本身有最大值的，考虑用位图，时间效率是极致。



int bit_map[MAX]={0};

char data[NUM];                 //假设NUM个数据，里面有重复

for(int i=0 ;i<NUM: ++i)

{

    if(bit_map[data[i]]==0)

          bit_map[data[i]]=1;

    else

    {

          //data[i]为重复，删除之

     }

}

遍历一遍即可删除所有重复

纠结的程序猿 2009-08-22