社区
数据结构与算法
帖子详情
大数据量 面试题求解
dweqd
2011-06-26 09:34:37
A,B是2个数组,里面有百万条记录,B中的元素A中都有,怎么得到A中有的B没有的元素
数据为 int 型, 无序。 如果是其他数据类型会有什么变化
...全文
375
22
打赏
收藏
大数据量 面试题求解
A,B是2个数组,里面有百万条记录,B中的元素A中都有,怎么得到A中有的B没有的元素 数据为 int 型, 无序。 如果是其他数据类型会有什么变化
复制链接
扫一扫
分享
转发到动态
举报
写回复
配置赞助广告
用AI写文章
22 条
回复
切换为时间正序
请发表友善的回复…
发表回复
打赏红包
超级大笨狼
2011-07-04
打赏
举报
回复
http://www.cnblogs.com/dullwolf/archive/2011/06/23/2087954.html
位运算神马的,最给力了。
5t4rk
2011-07-01
打赏
举报
回复
应该是用位图好些
cnmhx
2011-07-01
打赏
举报
回复
用多重哈希!
namewchwch
2011-07-01
打赏
举报
回复
int型 直接建立bitmap 然后异或。
1)申请 两个512M内存a,b(32位机子下)初始化为0,
2)遍历数组A 若存在 -2^16 则 a 的第一bit (注意是bit)设置为1,若存在数值 -2^16+1 则内存a的第2 bit设置为1.
3)同理 对数组B 和内存b做同样的处理。
4)对内存 a,b做异或。所得结果即是
lazuma
2011-06-27
打赏
举报
回复
百万级别直接hashtable, 超过的话用bitmap好点
超级大笨狼
2011-06-27
打赏
举报
回复
不好意思,没仔细看题目。
正在看这文章,被误导了。
http://www.soobb.com/Destination_Wiki_27416.html
以前有个面试题目,是数据中只有一个不重复,用异或就可以挑出来。
这个还是哈希,复杂度是O(A)
对于草率审题,表示歉意,我经常草率审题:)
seqingzi
2011-06-27
打赏
举报
回复
以前有个相似的问题,新浪互粉,大笨狼是这么解决的.
seqingzi
2011-06-27
打赏
举报
回复
[Quote=引用 14 楼 seqingzi 的回复:]
AB异或,剩下的就是B中没有的.
[/Quote]
额..不行.异或之后数据就乱了..
seqingzi
2011-06-27
打赏
举报
回复
AB异或,剩下的就是B中没有的.
dweqd
2011-06-27
打赏
举报
回复
求大神指导啊? 谢谢[Quote=引用 8 楼 superdullwolf 的回复:]
异或运算即可,无需其他结构。
[/Quote]
nuptxxp
2011-06-27
打赏
举报
回复
[Quote=引用 8 楼 superdullwolf 的回复:]
异或运算即可,无需其他结构。
[/Quote]
怎么使用?
pandm
2011-06-27
打赏
举报
回复
[Quote=引用 8 楼 superdullwolf 的回复:]
异或运算即可,无需其他结构。
[/Quote]
怎么做到的?
YHL27
2011-06-27
打赏
举报
回复
算法求解。。
nkorange
2011-06-26
打赏
举报
回复
用位图不行吧,内存占用太大,用hash对付这种大范围大数据量比较合适。
[Quote=引用 1 楼 pandm 的回复:]
用位图
如果是其他数据就用哈希表
[/Quote]
dweqd
2011-06-26
打赏
举报
回复
可以说详细点儿吗[Quote=引用 1 楼 pandm 的回复:]
用位图
如果是其他数据就用哈希表
[/Quote]
stein42
2011-06-26
打赏
举报
回复
排下序就简单了。
超级大笨狼
2011-06-26
打赏
举报
回复
异或运算即可,无需其他结构。
vcf_reader
2011-06-26
打赏
举报
回复
hash最简单
pandm
2011-06-26
打赏
举报
回复
用位图
如果是其他数据就用哈希表
nkorange
2011-06-26
打赏
举报
回复
如果数据是int型,可以先把数组B里的元素存储在一个hash表里,hash的方法有很多,如链表法或者开放寻址,这些算法书里都有的。然后再遍历一遍A数组,查找A中元素是不是再hash表里,没有则说明是A有而B没有的。
[Quote=引用 5 楼 dweqd 的回复:]
怎么设计 哈希表呢引用 3 楼 nkorange 的回复:
用位图不行吧,内存占用太大,用hash对付这种大范围大数据量比较合适。
引用 1 楼 pandm 的回复:
用位图
如果是其他数据就用哈希表
[/Quote]
加载更多回复(2)
大数据
量
面试题
求解
现在有一亿条数据,根据主键ID区分。现在要从中随机的选择100w条数据,要保证效率和随机性,同时一条数据只能取一次。有什么好的思路或者算法没? select * from(select * from table_name sample(1)) where rownum
拼多多数据分析
面试题
大合集(20个)
第一家公司数据分析
面试题
整理就从拼多多开始,招聘总共分为学霸批、寻梦批、正式批三批。本人参加的是寻梦批的现场面,真实见闻是分三面,两面技术一面hr,可能由于人员安排原因,hr面并不都放在最后一面,且不是所有人都有三面,有同学面了一面结束的,也有面了两面结束的。
面试题
具体是业务题多一点还是机器学习等题目多一点,这个也不太好说,主观上是与你的简历或者面试官相关。不叭叭了,以下是给大家整理的多多的
面试题
,还有一部分是技术群伙伴的分享,再次谢谢各位同学留下面经,只能帮助大家到这里了,喜欢记得点赞、收藏。
数据分析
面试题
汇总
原理: L1正则是基于L1范数和项,即参数的绝对值和参数的积项;L2正则是基于L2范数,即在目标函数后面加上参数的平方和与参数的积项。 区别: 1.鲁棒性:L1对异常点不敏感,L2对异常点有放大效果。 2.稳定性:对于新数据的调整,L1变动很大,L2整体变动不大。 答案解析 数据分析只需要简单知道原理和区别就行,公式推导不需要,面试过程中也不会出现。:逻辑回归里面,对于正负例的界定,通常会设一个阈值,大于阈值的为正类,小于阈值为负类。如果我们减小这个阀值,更多的样本会被识别为正类,提高正类的识别率,但同时也
2023年最新的Vue全套
面试题
(含答案)
前端Vue
面试题
最新
面试题
最全的
面试题
vue
经典的海
量
数据处理
面试题
海
量
数据处理总结1. 如何从大
量
的 URL 中找出相同的 URL?1.1 题目描述1.2 解答思路1.3 方法总结2. 如何从大
量
数据中找出高频词?2.1 题目描述2.2 解答思路2.3 方法总结3. 如何找出某一天访问百度网站最多的 IP?3.1 题目描述3.2 解答思路3.3 方法总结4. 如何在大
量
的数据中找出不重复的整数?4.1 题目描述4.2 解答思路4.2.1 方法一:分治法4.2.2 方法二:位图法4.3 方法总结5. 如何在大
量
的数据中判断一个数是否存在? 1. 如何从大
量
的 URL 中找出
数据结构与算法
33,010
社区成员
35,327
社区内容
发帖
与我相关
我的任务
数据结构与算法
数据结构与算法相关内容讨论专区
复制链接
扫一扫
分享
社区描述
数据结构与算法相关内容讨论专区
社区管理员
加入社区
获取链接或二维码
近7日
近30日
至今
加载中
查看更多榜单
社区公告
暂无公告
试试用AI创作助手写篇文章吧
+ 用AI写文章