求海量数据统计数据结构和算法

一见 2009-03-15 08:03:40
假设有如下一些页面:

http://www.huahua.com/1.htm
http://www.huahua.com/2.htm
http://www.huahua.com/3.htm
。。。。。。
http://www.huahua.com/1000000.htm
http://www.huahua.com/1000001.htm
http://www.huahua.com/1000002.htm
。。。。。。



现在统计1~n(n的值上百万,甚至千万)个页面被多少用户(每一个用户由唯一一个8字节整数标记,不同用户个数上千万,甚至亿)访问过。要求使用最小的机器完成统计,而且进程和机器挂掉后,对最终统计得到的结果影响要控制在万分之一内,统计以一个月为单位,每个月都从0开始统计,直到月底。要求每两分钟就能得到某个页面的最新统计情况,如上午11点时,某个页面被多少用户访问过。

同一用户访问同一个页面,在一个月内只算一次,但一个用户在一个月内访问N个页面,则算N次(对每个页面而言仍只算一次)。
...全文
108 1 打赏 收藏 转发到动态 举报
写回复
用AI写文章
1 条回复
切换为时间正序
请发表友善的回复…
发表回复
一见 2009-03-15
  • 打赏
  • 举报
回复
不断地统计,每两分钟出一次最新结果。

33,010

社区成员

发帖
与我相关
我的任务
社区描述
数据结构与算法相关内容讨论专区
社区管理员
  • 数据结构与算法社区
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧