求海量数据统计数据结构和算法
一见 2009-03-15 08:03:40 假设有如下一些页面:
http://www.huahua.com/1.htm
http://www.huahua.com/2.htm
http://www.huahua.com/3.htm
。。。。。。
http://www.huahua.com/1000000.htm
http://www.huahua.com/1000001.htm
http://www.huahua.com/1000002.htm
。。。。。。
现在统计1~n(n的值上百万,甚至千万)个页面被多少用户(每一个用户由唯一一个8字节整数标记,不同用户个数上千万,甚至亿)访问过。要求使用最小的机器完成统计,而且进程和机器挂掉后,对最终统计得到的结果影响要控制在万分之一内,统计以一个月为单位,每个月都从0开始统计,直到月底。要求每两分钟就能得到某个页面的最新统计情况,如上午11点时,某个页面被多少用户访问过。
同一用户访问同一个页面,在一个月内只算一次,但一个用户在一个月内访问N个页面,则算N次(对每个页面而言仍只算一次)。