如何高效的实现这个处理重复数据的算法

shunzi__1984 2009-08-21 11:30:17
删除一堆数据里面的重复数据(保留重复数据的一个)
情况一:数据个数相对比较少的情况
情况二:数据个数相对比较多的情况(比如数据在一个文件里有几百亿个)

如何高效的实现这个算法(注重算法复杂度)
请各位汇集自己的智慧给出高效的算法,
...全文
220 26 打赏 收藏 转发到动态 举报
写回复
用AI写文章
26 条回复
切换为时间正序
请发表友善的回复…
发表回复
yimixiaoxiong 2009-08-24
  • 打赏
  • 举报
回复
少的话可以考虑set啊,不过如果能存储在数据库中的数据,现在数据库都有这样现成的功能啊
纠结的程序猿 2009-08-24
  • 打赏
  • 举报
回复
[Quote=引用 13 楼 shunzi__1984 的回复:]
偶不希望用工具类
[/Quote]
那么自己构造一个hash表可以吗?
gx168853 2009-08-24
  • 打赏
  • 举报
回复
强~
shunzi__1984 2009-08-24
  • 打赏
  • 举报
回复
数据就算整形数据
chong232 2009-08-24
  • 打赏
  • 举报
回复
[Quote=引用 12 楼 pilotedit 的回复:]
引用 11 楼 shunzi__1984 的回复:
大家继续跟帖啊 看看还有什么号的算法
最好把算法贴出来
否则,说个大概可能还是有问题的
比如说用hash做的,如何选hash函数??


要看你用什么开发环境。
如果是VC++的话,可以用CMap*****类。
如果是UNIX上的C\C++,可能是STL模版中的hash_set吧,记不太清楚了。

9楼说的也有道理,如果你的数据有一个确定的范围,比如1-100000,用位图也很好.但是如果没有一个确定的范围,比如有的数字可能很大,1000000000,就只能用hash表.
[/Quote]

嗯,跟你的数据特征有关系,万一你是字符串呢
shunzi__1984 2009-08-24
  • 打赏
  • 举报
回复
偶不希望用工具类
纠结的程序猿 2009-08-24
  • 打赏
  • 举报
回复
这种情况只能分段处理,
先把0到1亿之间的数字插入hash表,然后删除重复,导出数据到文件。
再把1亿到2亿之间的数字插入hash表,然后删除重复,导出数据到文件。
依次类推
最后合并。
shunzi__1984 2009-08-24
  • 打赏
  • 举报
回复
如果不重复的数据就有几百亿呢
纠结的程序猿 2009-08-24
  • 打赏
  • 举报
回复
如果不重复的数据只有几百万,那么用hash还是很容易做的。
纠结的程序猿 2009-08-24
  • 打赏
  • 举报
回复
[Quote=引用 21 楼 shunzi__1984 的回复:]
我觉得大家都没有说到重点
数据多(几百亿)具体如何用hash表处理??

[/Quote]
关键是不重复的数据有多少?
elysium1984 2009-08-24
  • 打赏
  • 举报
回复
[Quote=引用 5 楼 liao05050075 的回复:]
数据个数相对比较少的情况,那你可以有较多选择。比如可以使用先排序,然后再去重复,或者使用二叉排序树。

数据个数相对比较多的情况,无疑的,使用位图是最好的选择,但它的所需要的空间比较大,
如果所有数中最大数为m,那么就要m bit的空间。
[/Quote]
up
shunzi__1984 2009-08-24
  • 打赏
  • 举报
回复
我觉得大家都没有说到重点
数据多(几百亿)具体如何用hash表处理??
fallening 2009-08-24
  • 打赏
  • 举报
回复
要算法?
去看stl里边hash的实现
不要说你找不到
shunzi__1984 2009-08-24
  • 打赏
  • 举报
回复
就是自己要想一个数据结构(不用系统的),hash函数如何选了,具体想来还是有很多问题?
请达人贴上具体算法
纠结的程序猿 2009-08-23
  • 打赏
  • 举报
回复
[Quote=引用 11 楼 shunzi__1984 的回复:]
大家继续跟帖啊 看看还有什么号的算法
最好把算法贴出来
否则,说个大概可能还是有问题的
比如说用hash做的,如何选hash函数??

[/Quote]
要看你用什么开发环境。
如果是VC++的话,可以用CMap*****类。
如果是UNIX上的C\C++,可能是STL模版中的hash_set吧,记不太清楚了。

9楼说的也有道理,如果你的数据有一个确定的范围,比如1-100000,用位图也很好.但是如果没有一个确定的范围,比如有的数字可能很大,1000000000,就只能用hash表.
shunzi__1984 2009-08-23
  • 打赏
  • 举报
回复
大家继续跟帖啊 看看还有什么号的算法
最好把算法贴出来
否则,说个大概可能还是有问题的
比如说用hash做的,如何选hash函数??
eijikayn 2009-08-22
  • 打赏
  • 举报
回复
用hash吧
  • 打赏
  • 举报
回复
删除一堆数据里面的重复数据(保留重复数据的一个)
情况一:数据个数相对比较少的情况
情况二:数据个数相对比较多的情况(比如数据在一个文件里有几百亿个)

1.数据个数少,如果数据值本身有最大值的,考虑用位图,时间效率是极致。


int bit_map[MAX]={0};
char data[NUM]; //假设NUM个数据,里面有重复
for(int i=0 ;i<NUM: ++i)
{
if(bit_map[data[i]]==0)
bit_map[data[i]]=1;
else
{
//data[i]为重复,删除之
}
}


遍历一遍即可删除所有重复
纠结的程序猿 2009-08-22
  • 打赏
  • 举报
回复
我认为位图不能做.
应该用哈希表(HASH)
oysoft 2009-08-21
  • 打赏
  • 举报
回复
许多数据库不是有这样现成的功能吗
加载更多回复(6)
1.算法是程序的灵魂,优秀的程序在对海量数据处理时,依然保持高速计算,就需要高效数据结构和算法支撑。2.网上数据结构和算法的课程不少,但存在两个问题:1)授课方式单一,大多是照着代码念一遍,数据结构和算法本身就比较难理解,对基础好的学员来说,还好一点,对基础不好的学生来说,基本上就是听天书了2)说是讲数据结构和算法,但大多是挂羊头卖狗肉,算法讲的很少。 本课程针对上述问题,有针对性的进行了升级 3)授课方式采用图解+算法游戏的方式,让课程生动有趣好理解 4)系统全面的讲解了数据结构和算法, 除常用数据结构和算法外,还包括程序员常用10大算法:二分查找算法(非递归)、分治算法、动态规划算法、KMP算法、贪心算法、普里姆算法、克鲁斯卡尔算法、迪杰斯特拉算法、弗洛伊德算法、马踏棋盘算法。可以解决面试遇到的最短路径、最小生成树、最小连通图、动态规划等问题及衍生出的面试题,让你秒杀其他面试小伙伴3.如果你不想永远都是代码工人,就需要花时间来研究下数据结构和算法。教程内容:本教程是使用Java来讲解数据结构和算法,考虑到数据结构和算法较难,授课采用图解加算法游戏的方式。内容包括: 稀疏数组、单向队列、环形队列、单向链表、双向链表、环形链表、约瑟夫问题、栈、前缀、中缀、后缀表达式、中缀表达式转换为后缀表达式、递归与回溯、迷宫问题、八皇后问题、算法的时间复杂度、冒泡排序、选择排序、插入排序、快速排序、归并排序、希尔排序、基数排序(桶排序)、堆排序、排序速度分析、二分查找、插值查找、斐波那契查找、散列、哈希表、二叉树、二叉树与数组转换、二叉排序树(BST)、AVL树、线索二叉树、赫夫曼树、赫夫曼编码、多路查找树(B树B+树和B*树)、图、图的DFS算法和BFS、程序员常用10大算法、二分查找算法(非递归)、分治算法、动态规划算法、KMP算法、贪心算法、普里姆算法、克鲁斯卡尔算法、迪杰斯特拉算法、弗洛伊德算法马踏棋盘算法。学习目标:通过学习,学员能掌握主流数据结构和算法实现机制,开阔编程思路,提高优化程序的能力。

64,682

社区成员

发帖
与我相关
我的任务
社区描述
C++ 语言相关问题讨论,技术干货分享,前沿动态等
c++ 技术论坛(原bbs)
社区管理员
  • C++ 语言社区
  • encoderlee
  • paschen
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
  1. 请不要发布与C++技术无关的贴子
  2. 请不要发布与技术无关的招聘、广告的帖子
  3. 请尽可能的描述清楚你的问题,如果涉及到代码请尽可能的格式化一下

试试用AI创作助手写篇文章吧