社区
语言基础/算法/系统设计
帖子详情
如何给超大数据排序
keyz
2008-11-30 03:28:55
有一个文件大于4G, 其中每10个字节为一段数据,如何给这些数据排序?算法或者提示皆可。
...全文
261
7
打赏
收藏
如何给超大数据排序
有一个文件大于4G, 其中每10个字节为一段数据,如何给这些数据排序?算法或者提示皆可。
复制链接
扫一扫
分享
转发到动态
举报
写回复
配置赞助广告
用AI写文章
7 条
回复
切换为时间正序
请发表友善的回复…
发表回复
打赏红包
suton
2008-11-30
打赏
举报
回复
大文件操作,没搞过.
以前都是用TFileMemory
4G,超过地址空间了...
估计只能用createfile,readfile,writefile那一组的api了.
临时能想到的办法,也只有这样:
以10个byte为单位,循环读文件.
循环内部:
用两分法,查找读出来的10个byte应该放在那个位置. 然后插入.
喝口水
2008-11-30
打赏
举报
回复
多个线程分段排序,排N次
keyz
2008-11-30
打赏
举报
回复
谢谢3楼。自己查到应该用外排序。主要是分段-内排序-归并。使用堆排序可能效率高些。
to:4楼,数据量太多,估计超过10亿,数据库效率恐怕太低,是否能完成也不一定。
willflyz
2008-11-30
打赏
举报
回复
能不能通过数据库来实现..
僵哥
2008-11-30
打赏
举报
回复
分段,堆排
keyz
2008-11-30
打赏
举报
回复
读到内存不现实,因为内存容量不够4G。而且32位系统不支持超过4G的空间寻址。
Storm2008
2008-11-30
打赏
举报
回复
学习~
自己写算法排序好像比较慢吧
能不能读到数据库中,排好序在读出来
或者利用TStringList
没写过,也没什么好的建议:)
超
大数据
量
排序
美团电话面试题:10亿个short类型的数在内存有限的机器上
排序
。两种思路分享:1.计数
排序
;2.分而治之
hive
超
大数据
量
排序
当使用hive或spark对
超
大数据
量(几十亿)数据进行
排序
的时候,直接使用row_number函数会导致数据严重倾斜,都在一个reduce任务上执行,导致很难跑出来,一定要
排序
的还可以参考如下sql
数据量很大的
排序
问题 大量数据如何
排序
数据量很大的
排序
问题 大量数据如何
排序
【尊重原创,转载请注明出处】http://blog.csdn.net/guyuealian/article/details/51119499 同学某天参加腾讯面试,技术面的时候,面试官问了
排序
问题: 问题一:若有1T的数据,需要实现由大到小
排序
,你用什么办法,说说你的思路和想法? 问题二:有10个G的数据,如果
对大量数据进行
排序
一个100G的文件,内存只有4G,对其进行全
排序
,如何用普通的java程序编写处理 我们一般说的
排序
算法是内部
排序
,指的是可以将所有数据一次性的载入内存当中,然后进行
排序
。但是,当要
排序
的数据量相当大的时候,无法将全部的数据加载到内存中,这时就需要采用外部
排序
的方法,采用分而治之的思想,将大的数据文件切分为小的,内存可以一次加载完成的数据块,对每个数据块进行
排序
,然后用归并
排序
将各个数据块进行
排序
。形成最终的排好序的数据文件。 1TB数据使用32GB内存如何
排序
①、把磁盘上的1TB数据分割为40块(c
spark大规模数据全
排序
_使用Spark DataFrames进行大规模数据科学
spark大规模数据全
排序
当我们首次开源Spark时 ,我们旨在提供一种简单的API,以通用编程语言(Java,Python,Scala)进行分布式数据处理。 通过对分布式数据集合(RDD)进行功能转换,Spark启用了分布式数据处理。 这是一个功能强大的API,以前需要花费数千行代码来表达的任务可以减少到数十个。 随着Spark的不断发展,我们希望使
大数据
工程师以外的更多受众能够利用分布...
语言基础/算法/系统设计
16,748
社区成员
33,247
社区内容
发帖
与我相关
我的任务
语言基础/算法/系统设计
Delphi 语言基础/算法/系统设计
复制链接
扫一扫
分享
社区描述
Delphi 语言基础/算法/系统设计
社区管理员
加入社区
获取链接或二维码
近7日
近30日
至今
加载中
查看更多榜单
社区公告
暂无公告
试试用AI创作助手写篇文章吧
+ 用AI写文章