如何给超大数据排序

keyz 2008-11-30 03:28:55

有一个文件大于4G, 其中每10个字节为一段数据，如何给这些数据排序？算法或者提示皆可。

...全文

261 7 打赏收藏转发到动态举报

写回复

7 条回复

切换为时间正序

请发表友善的回复…

发表回复

suton 2008-11-30

打赏
举报

回复

大文件操作,没搞过.
以前都是用TFileMemory

4G,超过地址空间了...

估计只能用createfile,readfile,writefile那一组的api了.

临时能想到的办法,也只有这样:
以10个byte为单位,循环读文件.
循环内部:
用两分法,查找读出来的10个byte应该放在那个位置. 然后插入.

喝口水 2008-11-30

打赏
举报

回复

多个线程分段排序,排N次

keyz 2008-11-30

打赏
举报

回复

谢谢3楼。自己查到应该用外排序。主要是分段－内排序－归并。使用堆排序可能效率高些。

to：4楼，数据量太多，估计超过10亿，数据库效率恐怕太低，是否能完成也不一定。

willflyz 2008-11-30

打赏
举报

回复

能不能通过数据库来实现..

僵哥 2008-11-30

打赏
举报

回复

分段，堆排

keyz 2008-11-30

打赏
举报

回复

读到内存不现实，因为内存容量不够4G。而且32位系统不支持超过4G的空间寻址。

Storm2008 2008-11-30

打赏
举报

回复

学习~

自己写算法排序好像比较慢吧
能不能读到数据库中，排好序在读出来

或者利用TStringList

没写过，也没什么好的建议:)

美团电话面试题：10亿个short类型的数在内存有限的机器上排序。两种思路分享：1.计数排序；2.分而治之

当使用hive或spark对超大数据量（几十亿）数据进行排序的时候，直接使用row_number函数会导致数据严重倾斜，都在一个reduce任务上执行，导致很难跑出来，一定要排序的还可以参考如下sql

数据量很大的排序问题大量数据如何排序【尊重原创，转载请注明出处】http://blog.csdn.net/guyuealian/article/details/51119499 同学某天参加腾讯面试，技术面的时候，面试官问了排序问题：问题一：若有1T的数据，需要实现由大到小排序，你用什么办法，说说你的思路和想法？问题二：有10个G的数据，如果

一个100G的文件，内存只有4G，对其进行全排序，如何用普通的java程序编写处理我们一般说的排序算法是内部排序，指的是可以将所有数据一次性的载入内存当中，然后进行排序。但是，当要排序的数据量相当大的时候，无法将全部的数据加载到内存中，这时就需要采用外部排序的方法，采用分而治之的思想，将大的数据文件切分为小的，内存可以一次加载完成的数据块，对每个数据块进行排序，然后用归并排序将各个数据块进行排序。形成最终的排好序的数据文件。 1TB数据使用32GB内存如何排序　　①、把磁盘上的1TB数据分割为40块（c

spark大规模数据全排序当我们首次开源Spark时，我们旨在提供一种简单的API，以通用编程语言（Java，Python，Scala）进行分布式数据处理。通过对分布式数据集合（RDD）进行功能转换，Spark启用了分布式数据处理。这是一个功能强大的API，以前需要花费数千行代码来表达的任务可以减少到数十个。随着Spark的不断发展，我们希望使大数据工程师以外的更多受众能够利用分布...

语言基础/算法/系统设计

16,748

社区成员

33,247

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章