假设在32位机器上，请在2亿个未经排序数字中找出中间值给出算法思路就可以

Carina_workHard 2015-03-16 05:36:16

加精

如题，如何解决这个问题？

...全文

6100 33 打赏收藏转发到动态举报

写回复

用AI写文章

33 条回复

切换为时间正序

请发表友善的回复…

发表回复

zhouxiaofeng1021 2015-11-19

打赏
举报

引用 35 楼 cattpon 的回复:

[quote=引用 8 楼 zhouxiaofeng1021 的回复:] 我的思路先扫描一遍变成N个区间，慢慢简化参考这个 http://blog.csdn.net/lmsnju/article/details/4754466 不知道，你满意不？

这个就可以了~[/quote] 我觉得这个比较好就是大化小原理，有点像桶排序,每个区间就像一个桶

cattpon 2015-11-19

打赏
举报

引用 8 楼 zhouxiaofeng1021 的回复:

我的思路先扫描一遍变成N个区间，慢慢简化参考这个 http://blog.csdn.net/lmsnju/article/details/4754466 不知道，你满意不？

这个就可以了~

crane2000 2015-11-16

打赏
举报

这个题目有稳定的和不稳定的两种思路稳定的算法的话，典型的就是归并排序不稳定的话，提出如下想法： 1 .我们假设数字是均匀分布的，取第1Y个数为标记，设此数为M，然后遍历这2亿个数，大于M的，放在M右边的数组，小于它的，放在左边。记M左边有a个数，右边有b个数 2. 若a = -100000000-1, 那么M即为所求，若a > 100000000-1 ,那么需要在M左边的数组中找这个中位数，若a< 100000000-1那么需要在M右边的数组中找这个数。 3.假设是左边的数组，那么我们再去左边数组的第a/2个数作为标记，然后同步骤1，2，注意此时标记书数左边或者右边的数的数量有可能会做一些调整 4.如此递归下去，直到找到中位数为止。次算法最坏情况下可能为O(N*N),但平均考虑，应该优于O(N.LogN)的时间复杂度

lietong34 2015-11-15

打赏
举报

写的不错，mark留名！

PCCYC 2015-11-14

打赏
举报

题目有歧义吧。你的意思是排序后取中间值不咯？

qq_31804905 2015-11-13

打赏
举报

考虑使用外排序算法中的一种

qq_32739021 2015-11-11

打赏
举报

学习了学习了

纯粹码农 2015-11-07

打赏
举报

申请两亿位长度大小的空间，将2亿个数依次遍历，将1向左一数字大小的位

showjim 2015-11-06

打赏
举报

2Y个int，800MB，快排划分就可以了

Carina_workHard 2015-11-06

打赏
举报

好热心的大家！感谢！

cztcjlove 2015-11-06

打赏
举报

遍历区间，定位区间，取数

wwwiiservicepcom 2015-11-05

打赏
举报

**_是的_ 你说的很有道理**

赵4老师 2015-11-05

打赏
举报

为什么不用文件读写模拟内存读写呢？参考_lseeki64函数。

小笨和漂向北方 2015-11-05

打赏
举报

其实楼主也没说是否有重复，所以512M也不一定够用！

引用 3 楼 akirya 的回复:

要是4字节整数的话，用位来存储，比如遇到100，那就将100位置1。这样512M就放得下了然后从两边开始找就行了。

小笨和漂向北方 2015-11-05

打赏
举报

谢了！是我错了。原来木有说是连续，被忽悠了！所以应该是：(2^32-1)/CHAR_BIT=536,870,911.875 bytes

引用 19 楼 akirya 的回复:

[quote=引用 14 楼 micropentium6 的回复:] 2*10^8/CHAR_BIT=25,000,000 bytes 512M? 是我算错了吗？ [quote=引用 3 楼 akirya 的回复:] 要是4字节整数的话，用位来存储，比如遇到100，那就将100位置1。这样512M就放得下了然后从两边开始找就行了。

[/quote] 中间有空位呀，[/quote]

珍惜生命远离CPP 2015-11-05

打赏
举报

引用 14 楼 micropentium6 的回复:

2*10^8/CHAR_BIT=25,000,000 bytes 512M? 是我算错了吗？ [quote=引用 3 楼 akirya 的回复:] 要是4字节整数的话，用位来存储，比如遇到100，那就将100位置1。这样512M就放得下了然后从两边开始找就行了。

[/quote] 中间有空位呀，

业余草 2015-11-05

打赏
举报

数据不能重复，大致知道数据的范围的话，可以使用位图(bitmap) 楔子: 问题:假设一个文件中有9亿条不重复的9位整数，现在要求对这个文件进行排序。一般解题思路: 1、将数据导入到内存中 2、将数据进行排序　（比如插入排序、快速排序） 3、将排序好的数据存入文件 难题: 一个整数为4个字节即使使用数组也需要900,000,000 * 4byte = 3.4G内存对于32位系统，访问2G以上的内存非常困难，而且一般设备也没有这么多的物理内存将数据完全导入到内存中的做法不现实。 其他解决办法: 1、导入数据库运算 2、分段排序运算 3、使用bit位运算 解决方案一:数据库排序将文本文件导入到数据库，让数据库进行索引排序操作后提取数据到文件 优点：操作简单缺点：运算速度慢，而且需要数据库设备。 解决方案二:分段排序操作方式：规定一个内存大小，比如200M，200M可以记录52428800条记录，我们可以每次提取5000万条记录到文件进行排序，要装满9位整数需要20次，所以一共要进行20次排序，需要对文件进行20次读操作 缺点： 编码复杂，速度也慢(至少20次搜索) 关键步骤：先将整个9位整数进行分段，亿条数据进行分成20段，每段5000万条，在文件中依次搜索0~5000万，50000001~1亿…… 将排序的结果存入文件 解决方案三:bit位操作思考下面的问题: 一个最大的9位整数为999999999 这9亿条数据是不重复的，可不可以把这些数据组成一个队列或数组，让它有0~999999999(10亿个)元素数组下标表示数值，节点中用0表示这个数没有，1表示有这个数，判断0或1只用一个bit存储就够了声明一个可以包含9位整数的bit数组(10亿)，一共需要10亿/8=120M内存，把内存中的数据全部初始化为0 ，读取文件中的数据，并将数据放入内存。比如读到一个数据为341245909这个数据，那就先在内存中找到341245909这个bit，并将bit值置为1 ，遍历整个bit数组，将bit为1的数组下标存入文件 关键代码 检查是某一个char里面(first)的第second位中存储的数据是否为1 bool CompareBit (unsigned char first, int second) const static int mark_buf[] = {0x1, 0x2, 0x4, 0x8, 0x10, 0x20, 0x40, 0x80}; if (second > 8) return false; return (first & mark_buf[second]) == mark_buf[second]; 将某一个char(Desc)中的第source位置为1 bool WriteToBit (unsigned char *Desc, int source) const static int mark_buf[] = {0x1, 0x2, 0x4, 0x8, 0x10, 0x20, 0x40, 0x80}; if (source > 8) return false; Desc[0] |= mark_buf[source]; return true; 案例在某个项目中，我们需要对2亿条手机号码删除重复记录(过滤号码黑名单同样有效) 工作难点就在于如何处理这2亿条电话号码,直接用哈希表存放手机号码不大现实,即使经过优化,用一个unsigned int存放一条记录,那也得需要2亿*4=8亿byte,远超过32位系统的寻址能力 解决方案: 将电话号码由12位单个数字组成的字符串转换为一个unsigned int型数据(这个完全可能,手机号码由前三位数字和后面八位数字组成，后面八位需要占到1~1000万的空间,而前面用0~100的数字存储已经足够) ，为简单起见，默认为0~4G的数字都有可能分布号码，为此我们分配4G/32=512M的内存，将这2亿个号码整理成unsigned int类型后按上述办法存放在这块内存中(比如13512345678我们整理后为112345678,我们找到内存中112345678bit的下标,并将此bit值设为1) ，遍历整个bit数组,记录下所有的号码,这些号码即是不重复的手机号码总结建立一个足够大的bit数组当作hash表，以bit数组的下标来表示一个整数，以bit位中的0或1来表示这个整数是否在这个数组中存在，适用于无重复原始数据的搜索，原来每个整数需要4byte空间变为1bit，空间压缩率为32倍，扩展后可实现其他类型（包括重复数据）的搜索注意由于操作系统和编程语言本身的限制，有可能内存足够，但无法分配一块连续大内存的情况，这样的话可以申请多块稍微小一点的内存，然后用链表或其他的方式连接起来使用

xiaoxiangqing 2015-11-05

打赏
举报

这个有点难。

kenshu 2015-11-05

打赏
举报

这个问题我做过类似的,不过我是100亿个64位整数. 中数假定存在重复，用bitmap的算法很难求解这样处理: 1.每个2亿个数中的每一个K[i],按大小写到不同的文件中(比如分256个文件),假定你的K是32位整数,那写的文件就是k[i]/0x1000000. 2.最后算一下这256个文件中，分别写了几个数字，可以算出中数所在的文件。 3.对中数所在的文件排序(这个文件大约39万个数字，全部读进内存，直接用库函数qsort排序，相当快，秒级的) 4.得到中数. --------------------------------------- 这个方法，写代码就10几分钟的时间。(前提是你有自己常用的类库，比如丢一个内存块和文件名过去，就帮你加到文件的末尾这样的常用函数) 运行的瓶颈出现在第一步，你把绝大部份的时间都花在写文件上了。（你要写两亿次）. 改进的方法是: 先开256个数组，每个2048，每次先不写文件，而是存到数组中，最后数组满了，1024个数字再一起写文件。运行效率会有几个数量级的提升。

小笨和漂向北方 2015-11-04