假设在32位机器上,请在2亿个未经排序数字中找出中间值 给出算法思路就可以

Carina_workHard 2015-03-16 05:36:16
加精
如题,如何解决这个问题?
...全文
6100 33 打赏 收藏 转发到动态 举报
写回复
用AI写文章
33 条回复
切换为时间正序
请发表友善的回复…
发表回复
zhouxiaofeng1021 2015-11-19
  • 打赏
  • 举报
回复
引用 35 楼 cattpon 的回复:
[quote=引用 8 楼 zhouxiaofeng1021 的回复:] 我的思路先扫描一遍变成N个区间,慢慢简化 参考这个 http://blog.csdn.net/lmsnju/article/details/4754466 不知道,你满意不?
这个就可以了~[/quote] 我觉得这个比较好 就是大化小原理,有点像桶排序,每个区间就像一个桶
cattpon 2015-11-19
  • 打赏
  • 举报
回复
引用 8 楼 zhouxiaofeng1021 的回复:
我的思路先扫描一遍变成N个区间,慢慢简化 参考这个 http://blog.csdn.net/lmsnju/article/details/4754466 不知道,你满意不?
这个就可以了~
crane2000 2015-11-16
  • 打赏
  • 举报
回复
这个题目有稳定的和不稳定的两种思路 稳定的算法的话,典型的就是归并排序 不稳定的话,提出如下想法: 1 .我们假设数字是均匀分布的,取第1Y个数为标记,设此数为M,然后遍历这2亿个数,大于M的,放在M右边的数组,小于它的,放在左边。记M左边有a个数,右边有b个数 2. 若a = -100000000-1, 那么M即为所求, 若a > 100000000-1 ,那么需要在M左边的数组中找这个中位数,若a< 100000000-1那么需要在M右边的数组中找这个数。 3.假设是左边的数组,那么我们再去左边数组的第a/2个数作为标记,然后同步骤1,2,注意此时标记书数左边或者右边的数的数量有可能会做一些调整 4.如此递归下去,直到找到中位数为止。 次算法最坏情况下可能为O(N*N),但平均考虑,应该优于O(N.LogN)的时间复杂度
lietong34 2015-11-15
  • 打赏
  • 举报
回复
写的不错,mark留名!
PCCYC 2015-11-14
  • 打赏
  • 举报
回复
题目有歧义吧。 你的意思是排序后取中间值不咯 ?
qq_31804905 2015-11-13
  • 打赏
  • 举报
回复
考虑使用外排序算法中的一种
qq_32739021 2015-11-11
  • 打赏
  • 举报
回复
学习了 学习了
纯粹码农 2015-11-07
  • 打赏
  • 举报
回复
申请两亿位长度大小的空间,将2亿个数依次遍历,将1向左一数字大小的位
showjim 2015-11-06
  • 打赏
  • 举报
回复
2Y个int,800MB,快排划分就可以了
Carina_workHard 2015-11-06
  • 打赏
  • 举报
回复
好热心的大家! 感谢!
cztcjlove 2015-11-06
  • 打赏
  • 举报
回复
遍历区间,定位区间,取数
wwwiiservicepcom 2015-11-05
  • 打赏
  • 举报
回复
**_是的_ 你说的很有道理**
赵4老师 2015-11-05
  • 打赏
  • 举报
回复
为什么不用文件读写模拟内存读写呢? 参考_lseeki64函数。
  • 打赏
  • 举报
回复
其实楼主也没说是否有重复,所以512M也不一定够用!
引用 3 楼 akirya 的回复:
要是4字节整数的话,用位来存储,比如遇到100,那就将100位置1。 这样512M就放得下了 然后从两边开始找就行了。
  • 打赏
  • 举报
回复
谢了!是我错了。原来木有说是连续,被忽悠了! 所以应该是:(2^32-1)/CHAR_BIT=536,870,911.875 bytes
引用 19 楼 akirya 的回复:
[quote=引用 14 楼 micropentium6 的回复:] 2*10^8/CHAR_BIT=25,000,000 bytes 512M? 是我算错了吗? [quote=引用 3 楼 akirya 的回复:] 要是4字节整数的话,用位来存储,比如遇到100,那就将100位置1。 这样512M就放得下了 然后从两边开始找就行了。
[/quote] 中间有空位呀,[/quote]
  • 打赏
  • 举报
回复
引用 14 楼 micropentium6 的回复:
2*10^8/CHAR_BIT=25,000,000 bytes 512M? 是我算错了吗? [quote=引用 3 楼 akirya 的回复:] 要是4字节整数的话,用位来存储,比如遇到100,那就将100位置1。 这样512M就放得下了 然后从两边开始找就行了。
[/quote] 中间有空位呀,
业余草 2015-11-05
  • 打赏
  • 举报
回复
数据不能重复,大致知道数据的范围的话,可以使用位图(bitmap) 楔子: 问题:假设一个文件中有9亿条不重复的9位整数,现在要求对这个文件进行排序。 一般解题思路: 1、将数据导入到内存中 2、将数据进行排序 (比如插入排序、快速排序) 3、将排序好的数据存入文件 难题: 一个整数为4个字节即使使用数组也需要900,000,000 * 4byte = 3.4G内存对于32位系统,访问2G以上的内存非常困难,而且一般设备也没有这么多的物理内存将数据完全导入到内存中的做法不现实。 其他解决办法: 1、导入数据库运算 2、分段排序运算 3、使用bit位运算 解决方案一:数据库排序 将文本文件导入到数据库,让数据库进行索引排序操作后提取数据到文件 优点:操作简单缺点:运算速度慢,而且需要数据库设备。 解决方案二:分段排序 操作方式:规定一个内存大小,比如200M,200M可以记录52428800条记录,我们可以每次提取5000万条记录到文件进行排序,要装满9位整数需要20次,所以一共要进行20次排序,需要对文件进行20次读操作 缺点: 编码复杂,速度也慢(至少20次搜索) 关键步骤:先将整个9位整数进行分段,亿条数据进行分成20段,每段5000万条,在文件中依次搜索0~5000万,50000001~1亿…… 将排序的结果存入文件 解决方案三:bit位操作 思考下面的问题: 一个最大的9位整数为999999999 这9亿条数据是不重复的,可不可以把这些数据组成一个队列或数组,让它有0~999999999(10亿个)元素数组下标表示数值,节点中用0表示这个数没有,1表示有这个数,判断0或1只用一个bit存储就够了 声明一个可以包含9位整数的bit数组(10亿),一共需要10亿/8=120M内存,把内存中的数据全部初始化为0 ,读取文件中的数据,并将数据放入内存。比如读到一个数据为341245909这个数据,那就先在内存中找到341245909这个bit,并将bit值置为1 ,遍历整个bit数组,将bit为1的数组下标存入文件 关键代码 检查是某一个char里面(first)的第second位中存储的数据是否为1 bool CompareBit (unsigned char first, int second) const static int mark_buf[] = {0x1, 0x2, 0x4, 0x8, 0x10, 0x20, 0x40, 0x80}; if (second > 8) return false; return (first & mark_buf[second]) == mark_buf[second]; 将某一个char(Desc)中的第source位置为1 bool WriteToBit (unsigned char *Desc, int source) const static int mark_buf[] = {0x1, 0x2, 0x4, 0x8, 0x10, 0x20, 0x40, 0x80}; if (source > 8) return false; Desc[0] |= mark_buf[source]; return true; 案例 在某个项目中,我们需要对2亿条手机号码删除重复记录(过滤号码黑名单同样有效) 工作难点就在于如何处理这2亿条电话号码,直接用哈希表存放手机号码不大现实,即使经过优化,用一个unsigned int存放一条记录,那也得需要2亿*4=8亿byte,远超过32位系统的寻址能力 解决方案: 将电话号码由12位单个数字组成的字符串转换为一个unsigned int型数据(这个完全可能,手机号码由前三位数字和后面八位数字组成,后面八位需要占到1~1000万的空间,而前面用0~100的数字存储已经足够) ,为简单起见,默认为0~4G的数字都有可能分布号码,为此我们分配4G/32=512M的内存,将这2亿个号码整理成unsigned int类型后按上述办法存放在这块内存中(比如13512345678我们整理后为112345678,我们找到内存中112345678bit的下标,并将此bit值设为1) ,遍历整个bit数组,记录下所有的号码,这些号码即是不重复的手机号码 总结 建立一个足够大的bit数组当作hash表,以bit数组的下标来表示一个整数,以bit位中的0或1来表示这个整数是否在这个数组中存在,适用于无重复原始数据的搜索,原来每个整数需要4byte空间变为1bit,空间压缩率为32倍,扩展后可实现其他类型(包括重复数据)的搜索 注意 由于操作系统和编程语言本身的限制,有可能内存足够,但无法分配一块连续大内存的情况,这样的话可以申请多块稍微小一点的内存,然后用链表或其他的方式连接起来使用
xiaoxiangqing 2015-11-05
  • 打赏
  • 举报
回复
这个有点难。
kenshu 2015-11-05
  • 打赏
  • 举报
回复
这个问题我做过类似的,不过我是100亿个64位整数. 中数假定存在重复,用bitmap的算法很难求解 这样处理: 1.每个2亿个数中的每一个K[i],按大小写到不同的文件中(比如分256个文件),假定你的K是32位整数,那写的文件就是k[i]/0x1000000. 2.最后算一下这256个文件中,分别写了几个数字,可以算出中数所在的文件。 3.对中数所在的文件排序(这个文件大约39万个数字,全部读进内存,直接用库函数qsort排序,相当快,秒级的) 4.得到中数. --------------------------------------- 这个方法,写代码就10几分钟的时间。(前提是你有自己常用的类库,比如丢一个内存块和文件名过去,就帮你加到文件的末尾这样的常用函数) 运行的瓶颈出现在第一步,你把绝大部份的时间都花在写文件上了。(你要写两亿次). 改进的方法是: 先开256个数组,每个2048,每次先不写文件,而是存到数组中,最后数组满了,1024个数字再一起写文件。运行效率会有几个数量级的提升。
  • 打赏
  • 举报
回复
2*10^8/CHAR_BIT=25,000,000 bytes 512M? 是我算错了吗?
引用 3 楼 akirya 的回复:
要是4字节整数的话,用位来存储,比如遇到100,那就将100位置1。 这样512M就放得下了 然后从两边开始找就行了。
加载更多回复(13)
​什么是共识算法背景分布式系统集群设计面临着一个不可回避的问题,一致性问题对于系统的多个服务节点,给定一系列操作,如何试图使全局对局部处理结果达成某种程度的一致?这个一致性问题大致有如下的场景:节点之间通讯不可靠的,延迟和阻塞节点的处理可能是错误的,甚至节点自身随时可能宕机节点作恶举例说明,就比如有两家电影院同时售卖总量一定的电影票,在这样的场景下,要如何设计方式来保证两家电影院协调同步不出现超卖或者错卖的问题呢?共识算法,就是解决对某一提案(目标,投票等各种协作工作),大家达成一致意见的过程比如上述的买票问题,就可以有如下的设计:1.每次卖票打电话给其他电影院,确认当前票数2.协商售卖时间,比如一三五A卖,二四六B卖3.成立个第三方存票机构,它统一发票通过以上的设计,可以看出一个很重要的解决一致性算法的解决思路,即:将可能引发不一致的并行操作进行串行化,就是现在计算机系统里处理分布式一致性问题基础思路和唯一秘诀 著名的共识设计理论FLP 不可能性原理  共识算法的理论下限提出该定理的论文是由 Fischer, Lynch 和 Patterson 三位作者于 1985 年发表,该论文后来获得了 Dijkstra(就是发明最短路径算法的那位)奖。FLP 原理认为对于允许节点失效情况下,纯粹异步系统无法确保一致性在有限时间内完成。三人三房间投票例子三个人在不同房间,进行投票(投票结果是 0 或者 1)。三个人彼此可以通过电话进行沟通,但经常会有人时不时地睡着。比如某个时候,A 投票 0,B 投票 1,C 收到了两人的投票,然后 C 睡着了。A 和 B 则永远无法在有限时间内获知最终的结果。如果可以重新投票,则类似情形每次在取得结果前发生带入到计算机领域就是说,即便在网络通信可靠情况下,一个可扩展的分布式系统的共识问题的下限是无解。即可靠性的下限是0%CAP  分布式系统领域的重要原理CAP 原理最早由 Eric Brewer 在 2000 年,ACM 组织的一个研讨会上提出猜想,后来 Lynch 等人进行了证明• C(一致性):所有的节点上的数据时刻保持同步,即数据一致• A(可用性):每个求都能在一定时间内接受到一个响应,即低延迟• P(分区容错):当系统发生分区时仍然可以运行的定理:任何分布式系统只可同时满足二点,没法三者兼顾。即数据一致,响应及时,可分区执行不可能同时满足。举个例子:一个分布式网路上,某一个节点有一组依赖数据A,当网络无延迟,无阻塞时,依赖于X的操作可正常进行。但网络无延迟阻塞在现实世界是没法100%保证的,那么当网络异常时,必然会产生分布式系统的分区和孤岛,那当一个执行操作在A分区之外时,如果要保证P,即当系统发生分区时仍可运行,就需要在分布式系统多个节点有X的备份数据,以应对分区情况。则这时候就需要在C,A之间做出选择。假如选择C,即要保证数据在分布式网络的一致性,那么就需要在X每次改动时,需要将全网节点的X数据同步刷新成最新的状态,那么在等待数据刷新完成之前,分布式系统是不可响应X的依赖操作的,即A的功能缺失假如选择A,即要突出低延迟的实时响应。那么在响应的时候,可能全节点的X数据并没有同步到最新的状态,则会导致C的缺失。上面看上去有些绕,那么你只要记住这句话,CAP原理在分布式网络系统的应用讨论,其实就是讨论在允许网络发生故障的系统,该选择一致性还是可靠性?如果系统重视一致性,那么可以基于ACID原则做系统设计即 Atomicity(原子性)、Consistency(一致性)、Isolation(隔离性)、Durability(持久性)。ACID 原则描述了对分布式数据库的一致性需求,同时付出了可用性的代价。• Atomicity:每次操作是原子的,要么成功,要么不执行;• Consistency:数据库的状态是一致的,无状态;• Isolation:各种操作彼此互相不影响;• Durability:状态的改变是持久的,不会失效相应的有一个BASE原则,(Basic Availiability,Soft state,Eventually Consistency)则强调了可用性。 经典的共识算法设计业内,针对节点异常的情况,会有两种分类1.故障的,不响应的节点,成为非拜占庭错误2.恶意响应的节点,称为非拜占庭错误Paxos 最早的共识算法  非拜占庭算法的代表Paxos有三种角色:• proposer:提出一个提案,等待大家批准为结案。客户端担任该角色;• acceptor:负责对提案进行投票。往往是服务端担任该角色;• learner:被告知结案结果,并与之统一,不参与投票过程。即普通节点系统运行由proposer驱动,当合法提案在一定时间内收到1/2以上投票后达成共识。因此,可得出无法达成共识的条件:1.proposer故障2.二分之一以上acceptor故障拜占庭问题与BFT(Byzantine Fault Tolerant) 算法Leslie Lamport 1982 年提出用来解释一致性问题的一个虚构模型。拜占庭是古代东罗马帝国的首都,由于地域宽广,守卫边境的多个将军(系统的多个节点)需要通过信使来传递消息,达成某些一致的决定。但由于将军可能存在叛徒(系统节点出错),这些叛徒将努力向不同的将军发送不同的消息,试图会干扰一致性的达成。拜占庭问题即为在此情况下,如何让忠诚的将军们能达成行动的一致。对于拜占庭问题来说,假如将军总数为 N,叛变将军数为 F,则当N>=3F+1 时,问题才有解,即叛变的将军不超过1/3时,存在有效的算法,如BFT,不论叛变者如何折腾,忠诚的将军们总能达成一致的结果。这是一个数学论证的结论,有兴趣的同学可以自行推导。PBFT  一种高效拜占庭容错共识算法PBFT是Practical Byzantine Fault Tolerance的缩写,意为实用拜占庭容错算法。该算法是Miguel Castro 和Barbara Liskov(2008年图灵奖得主)在1999年提出来的,解决了原始拜占庭容错算法效率不高的问题。他的核心思想是:对于每一个收到命令的将军,都要去询问其他人,他们收到的命令是什么。如上图,假设命令由A将军分发,假如A是作恶异常,分发给B,C,D的操作分别是1,2,3.意图扰乱共识。拜占庭容错算法上设计实现是,当B,C,D收到命令后,相互之间也会沟通从A收到的命令是否一致,从而达到识破干扰的目的。其容错的极限就是N>=3F+1。PBFT 在区块链上的实现区块链的节点分为记账节点和普通节点两个角色记账节点负责向全网提供记账服务,并维护全局账本,每过一段时间从记账节点选一个议长,进行命令的分发,其他记账节点则作为议员进行验证将军就是记账节点,拥有全局账本,并验证交易的有效性,过互相传达验证结果,在f共识的一般流程如下:1.任一节点接收到发送者签名的交易数据求后,向全网广播2.所有记账节点均独立监听全网的交易数据,并记录在内存3.议长在经过t后发送共识求提案request4.议员在收到提案后,进行相关验证,发送响应response5.任意节点在限定时间内收到至少F+1个response后,共识达成,把交易记录入区块并发布给全网,如果超时,则更换视图和议长6.任意节点在收到完整区块后,把包含的交易从内存删除开始下一个共识循环区块产生间隔t,    记账节点n,  可容错节点数f, 视图编号v,  区块高度h, 议长编号p,  议员编号i p=(h-v)%n  未来的发展POW算法建立了比特币帝国,具有划时代的意义。但其能耗和速度问题却是制约区块链普及的两大难以解决的问题。目前POS算法是一大趋势,以太坊的Casper,EOS的DPos等都是借鉴了上述前人的设计理念做的基于应用场景的优化改造,但万变不离其宗,我和大家一样,需要不断的学习和思考,没准,能有发明出自己的共识算法的一天呢。 

64,637

社区成员

发帖
与我相关
我的任务
社区描述
C++ 语言相关问题讨论,技术干货分享,前沿动态等
c++ 技术论坛(原bbs)
社区管理员
  • C++ 语言社区
  • encoderlee
  • paschen
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
  1. 请不要发布与C++技术无关的贴子
  2. 请不要发布与技术无关的招聘、广告的帖子
  3. 请尽可能的描述清楚你的问题,如果涉及到代码请尽可能的格式化一下

试试用AI创作助手写篇文章吧