社区
数据结构与算法
帖子详情
菜鸟前来请教一个 排序 问题~~求指导
chen_q07
2012-01-03 08:39:37
前两天看到有个人问如何对4000 0000(即40M行)的文本文件进行排序并且去重。
想了想,感觉没有什么好方法,故此来请教下各位大侠。
(简要说说算法和时间复杂度和内存占用就可以了,不用详细分析。给个参考链接更佳)。
...全文
270
10
打赏
收藏
菜鸟前来请教一个 排序 问题~~求指导
前两天看到有个人问如何对4000 0000(即40M行)的文本文件进行排序并且去重。 想了想,感觉没有什么好方法,故此来请教下各位大侠。 (简要说说算法和时间复杂度和内存占用就可以了,不用详细分析。给个参考链接更佳)。
复制链接
扫一扫
分享
转发到动态
举报
AI
作业
写回复
配置赞助广告
用AI写文章
10 条
回复
切换为时间正序
请发表友善的回复…
发表回复
打赏红包
wide288
2012-01-29
打赏
举报
回复
导入到数据库再操作不是更好
cnmhx
2012-01-28
打赏
举报
回复
对于海量数据,太大规模的数据只能分割成多个小规模数据,逐个实现小规模排序。
但不同时计算。要能同时计算(譬如你有256G的内存!),还分什么?
然后将各个小规模的排序结果,逐个插入合并。
jiantheone
2012-01-23
打赏
举报
回复
BindingSource.Sort = "id" '排序
超级大笨狼
2012-01-23
打赏
举报
回复
先分段,再每段分别排序去重,再归并。
4千万行算什么啊。 O(N)一分就变成子问题了。
排序可以做到N*logN
分段N=∑n
(∑n)*log(∑n) >> max(n*logn)
大规模数据缩小成多个小规模数据同时计算,这就是云计算,网格计算速度快的原因
不知道这个数学原理,都是伪云
fxltsbl
2012-01-21
打赏
举报
回复
如果是整形数字的话,可以考虑用bloom filter,时间复杂度,O(n),空间占不了多少,1亿条8位的整形也就是十几兆;不过是自动去重(想不去重都难,);可以网上搜搜
参考:http://hi.baidu.com/iseeyou100/blog/item/21f4c53be06bdcde9e3d62a5.html
SmallBoat2000
2012-01-20
打赏
举报
回复
这个要取决于你用什么机器。如果是在服务器端计算的话,一般像样点服务器都有128G以上的内存,这样的话完全可以装到内存中,例如:vector<string>中,再排序:sort()。最后再遍历去重。
或者直接用set<string>来装,这样就连排序和去重都省了。
绝伤残影
2012-01-05
打赏
举报
回复
用快速排序吧!
喜欢送
2012-01-04
打赏
举报
回复
吾生也有涯,而知无涯
接分
just_swizard
2012-01-04
打赏
举报
回复
这两天好像很多什么1亿个QQ号排序之类的……
数据库咋做的你也咋做就肯定没错,而且B+树算法啊什么的本身并不算复杂,当然如果你没有更简单的做法的话……
帆软24春招-产品/研发/运营/销售等13-23k/sp面议
24双非二本考研失败,初步打算二战的女大计算机,是准备找大厂的实习还是其他小公司跨专业的工作或实习,还是海投找春招呢,好难啊 #没有实习经历,还有机会进大厂吗#收留考研二战同学,转行同学!不限专业,不要
求
工作经验岗位职责:(软开前端、后端、测试岗位均有)1、参与国内TOP1的华为fangh。收留考研二战同学,转行同学!收留考研二战同学,转行同学!SOC,或者SoC,是
一个
缩写,包括的意思有: 1)SoC: System on Chip的缩写,称为系统级芯片,也有称片上系统,意指它是
一个
产品,是
一个
有。
扩展GridView控件(索引) - 增加多个常用功能
文章索引扩展GridView控件(1) - 鼠标经过行时改变行的样式扩展GridView控件(2) - 复合
排序
和
排序
状态提示扩展GridView控件(3) - 根据按钮的CommandName设置其客户端属性扩展GridView控件(4) - 联动复选框(复选框的全选和取消全选)扩展GridView控件(5) - 固定指定行、指定列扩展GridView控件(6) - 响应行的单击事件和双击事件扩
简单手写vue中Proxy&;defineProperty
秋招/春招
求
助,能源动力专业,单2,
求
职方向nvh性能开发,未来买房定居(家人支持很少,主要靠自己)更倾向武汉/重庆,个人最想去的深蓝汽车大概率没春招了(如有能。#Java# #后端#各位大佬,本人普通二本,数据科学与大数据技术专业,现在大二,看到网上好多人说大数据已死什么的,但我不想放弃走大数据,老师说我们不能只会大数据,还得会软件开发或前。#面经#人生中体验最差最差最差没有之一的面试经历要么是真心不想招我,要么是面试官的面试水平过低八股文环节,他问,你说熟悉MySQL,那MySQL的端口号是什么?
万科集团校招启动!多类职位任你选,这个offer不来抓住吗?
首先介绍一下我的情况,我是22年应届生,
一个
排名比较靠后的211院校,之前没有系统的教培经历,面试的岗。后端实习一面笑拉了,真汗流浃背了,第一次面试感觉面试官已经很克制不骂我的冲动了,答题支支吾吾,语无伦次,面完真的感觉自己是纯纯的fw,活该简历没人要哈哈哈1.自。华为武汉,光产品线,14级,n*14,软开 中兴微,西安,(n+4)*15,嵌入式开发,路由器芯片方向 在西安上学,家在湖北想知道华为光产品线加班强度大不中兴微。目前已有的offer情况:1.华为财经14级,深圳,数字化工程师,加班强度较大。
【大模型八股文面试】:强化学习在自然语言处理下的应用篇.pdf
大模型八股文面试题
数据结构与算法
33,027
社区成员
35,335
社区内容
发帖
与我相关
我的任务
数据结构与算法
数据结构与算法相关内容讨论专区
复制链接
扫一扫
分享
社区描述
数据结构与算法相关内容讨论专区
社区管理员
加入社区
获取链接或二维码
近7日
近30日
至今
加载中
查看更多榜单
社区公告
暂无公告
试试用AI创作助手写篇文章吧
+ 用AI写文章