map-reduce思想; 500g文件可以拆分成多个小文件,写一个程序统计一个文件中每条记录的次数(文件作为输入,输出为记录与记录次数的Map映射 Map可以按key排序)。再写一个程序将上一个程序的输出作为输入,和并map中key相同的记录。
[quote=引用 3 楼 陌生人的魅力 的回复:] [quote=引用 2 楼 ITjavaman 的回复:] 按这个量级,要效率的话我脑海里只有一个词hadoop
按这个量级,要效率的话我脑海里只有一个词hadoop
[quote=引用 2 楼 ITjavaman 的回复:] 按这个量级,要效率的话我脑海里只有一个词hadoop
67,513
社区成员
225,879
社区内容
加载中
试试用AI创作助手写篇文章吧