社区
C++ 语言
帖子详情
提取出某日访问百度次数最多的那个IP
fdcumt
2013-08-03 10:39:18
将ip根据前n位分别映射到2^n个不同文件中。建立一个hash表将根据后面32-n位,映射到不同的文件偏移位置,在经过一次遍历文件就可以找出最多ip。这样就可以两次遍历读取最多的ip,空间复杂度较大,用了好多磁盘空间。大约为2^32*4个字节。内存空间较少,只是建立后32-n位的hash映射表。
这种方法在实际中有没有可行性???
如果可行的话,是不是可以扩展到经过MD5编码的所有字符串??(当然md5编码太长,进行优化上面的算法,适当的节省空间)????
...全文
89
6
打赏
收藏
提取出某日访问百度次数最多的那个IP
将ip根据前n位分别映射到2^n个不同文件中。建立一个hash表将根据后面32-n位,映射到不同的文件偏移位置,在经过一次遍历文件就可以找出最多ip。这样就可以两次遍历读取最多的ip,空间复杂度较大,用了好多磁盘空间。大约为2^32*4个字节。内存空间较少,只是建立后32-n位的hash映射表。 这种方法在实际中有没有可行性??? 如果可行的话,是不是可以扩展到经过MD5编码的所有字符串??(当然md5编码太长,进行优化上面的算法,适当的节省空间)????
复制链接
扫一扫
分享
转发到动态
举报
写回复
配置赞助广告
用AI写文章
6 条
回复
切换为时间正序
请发表友善的回复…
发表回复
打赏红包
qq120848369
2013-08-03
打赏
举报
回复
就算所有IP都有人上线, 才16G内存啊, 怕毛啊, 线上服务器64G内存是最低配了.
qq120848369
2013-08-03
打赏
举报
回复
写磁盘干啥啊, 内存里都搞定了啊.
fdcumt
2013-08-03
打赏
举报
回复
我的意思是仅以ip为例,这个方法还可以用到别的上面嘛。 我现在觉得应该是有点缺陷,在写数据时候次数太多,应该维护写几个文件队列,并设置一个队列最大值,等到某一个队列满,再将所有队列一次性写入磁盘,减少磁盘读取次数,节约时间成本。
nice_cxf
2013-08-03
打赏
举报
回复
ip地址直接转成int就好了,搞那么复杂干什么阿
fdcumt
2013-08-03
打赏
举报
回复
md5编码多长??????我只是说思路是否可行,如果过可行是否可以扩展到更广的方面。
fdcumt
2013-08-03
打赏
举报
回复
如果可行的话,是不是可以扩展到经过MD5编码的所有字符串??(当然md5编码太长,进行优化上面的算法,适当的节省空间)????
提取
出
某日
访问
网站
次数
最多
的那K个
IP
NULL 博文链接:https://yueyemaitian.iteye.com/blog/1180299
面试 大数据 算法解析
1.
提取
出
某日
访问
百度
次数
最多
的那个
IP
2.有一个1G大小的一个文件,里面每一行是一个词 3.给定a、b两个文件,各存放50亿个url,每个url各占64字节,内存限制是4G,让你找
出
a、b文件共同的url? 4.在2.5亿个整数中找
出
...
c语言如何对海量数据进行处理
1. 给定a、b两个文件,各存放50亿个url,每个url...4. 海量日志数据,
提取
出
某日
访问
百度
次数
最多
的那个
IP
。(利用hash分而治之,然后上归并,堆) 5. 在2.5亿个整数中找
出
不重复的整数,内存不足以容纳这2.5亿个整数。
大数据常见算法题.txt
第一部分、十道海量数据处理面试题 1、海量日志数据,
提取
出
某日
访问
百度
次数
最多
的那个
IP
。 此题,在我之前的一篇文章算法里头有所提到,当时给
出
的方案是:
IP
的数目还是有限的,
最多
2^32个,所以可以考虑使用hash...
大数据面试题(2).docx
4、海量日志数据,
提取
出
某日
访问
百度
次数
最多
的那个
IP
。 方案1:首先是这一天,并且是
访问
百度
的日志中的
IP
取
出
来,逐个写入到一个大文件中。大数据面试题(2)全文共26页,当前为第3页。大数据面试题(2)全文共26页...
C++ 语言
64,637
社区成员
250,559
社区内容
发帖
与我相关
我的任务
C++ 语言
C++ 语言相关问题讨论,技术干货分享,前沿动态等
复制链接
扫一扫
分享
社区描述
C++ 语言相关问题讨论,技术干货分享,前沿动态等
c++
技术论坛(原bbs)
社区管理员
加入社区
获取链接或二维码
近7日
近30日
至今
加载中
查看更多榜单
社区公告
请不要发布与C++技术无关的贴子
请不要发布与技术无关的招聘、广告的帖子
请尽可能的描述清楚你的问题,如果涉及到代码请尽可能的格式化一下
试试用AI创作助手写篇文章吧
+ 用AI写文章