前两天困惑的面试题,求大佬解答

陌生人的魅力 2019-05-31 02:46:05
题目: 给你一个500G的文件, 用java算出其中重复最多的记录
...全文
167 7 打赏 收藏 转发到动态 举报
写回复
用AI写文章
7 条回复
切换为时间正序
请发表友善的回复…
发表回复
陌生人的魅力 2019-06-19
  • 打赏
  • 举报
回复
引用 6 楼 宾灬 的回复:
map-reduce思想; 500g文件可以拆分成多个小文件,写一个程序统计一个文件中每条记录的次数(文件作为输入,输出为记录与记录次数的Map映射 Map可以按key排序)。再写一个程序将上一个程序的输出作为输入,和并map中key相同的记录。


很强,大佬!
宾灬 2019-06-12
  • 打赏
  • 举报
回复
map-reduce思想; 500g文件可以拆分成多个小文件,写一个程序统计一个文件中每条记录的次数(文件作为输入,输出为记录与记录次数的Map映射 Map可以按key排序)。再写一个程序将上一个程序的输出作为输入,和并map中key相同的记录。
陌生人的魅力 2019-06-12
  • 打赏
  • 举报
回复
引用 4 楼 ITjavaman 的回复:
[quote=引用 3 楼 陌生人的魅力 的回复:]
[quote=引用 2 楼 ITjavaman 的回复:]
按这个量级,要效率的话我脑海里只有一个词hadoop

不讲效率的情况下呢?有啥办法?[/quote]
拆分文件,分别统计,再汇总[/quote]行吧,谢谢老大哥建议,
陌生人的魅力 2019-06-10
  • 打赏
  • 举报
回复
引用 2 楼 ITjavaman 的回复:
按这个量级,要效率的话我脑海里只有一个词hadoop

不讲效率的情况下呢?有啥办法?
ITjavaman 2019-06-10
  • 打赏
  • 举报
回复
引用 3 楼 陌生人的魅力 的回复:
[quote=引用 2 楼 ITjavaman 的回复:] 按这个量级,要效率的话我脑海里只有一个词hadoop
不讲效率的情况下呢?有啥办法?[/quote] 拆分文件,分别统计,再汇总
ITjavaman 2019-05-31
  • 打赏
  • 举报
回复
按这个量级,要效率的话我脑海里只有一个词hadoop
陌生人的魅力 2019-05-31
  • 打赏
  • 举报
回复
自己 顶顶顶

67,513

社区成员

发帖
与我相关
我的任务
社区描述
J2EE只是Java企业应用。我们需要一个跨J2SE/WEB/EJB的微容器,保护我们的业务核心组件(中间件),以延续它的生命力,而不是依赖J2SE/J2EE版本。
社区管理员
  • Java EE
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧