需要根据url下载大量文件 下载地址url的存放问题

dduummoo 2014-11-18 05:01:06
我想根据url把网页下载下来,这样就有一个url池,然后我不断往里添加,并挨个下载
运行一段时间后 地址池里可能会有几十万甚至上百万个url
产生几个问题
1. 占据的空间很大
2. url有很多重复,下载效率低下(类似爬虫 ,在网页的页内链接里爬,链接就会有交叉现象)

对于这种模型,想请问一下各位大神有什么好办法解决空间问题和查重问题
...全文
288 2 打赏 收藏 转发到动态 举报
写回复
用AI写文章
2 条回复
切换为时间正序
请发表友善的回复…
发表回复
Sandrer 2014-11-18
  • 打赏
  • 举报
回复
在下行未达到上限的情况下,多开几条线程下载咯,注意线程同步 至于查重的问题,这么多的数据,也没什么特别好的方法了 或者可以多开一条线程,用来整理url的索引 首先按域名建立一个索引,再按下级目录一直循环建索引咯 这样整理起来的话比你一次循环所有数据要快吧
oyljerry 2014-11-18
  • 打赏
  • 举报
回复
用set来去重,查找也快

16,472

社区成员

发帖
与我相关
我的任务
社区描述
VC/MFC相关问题讨论
社区管理员
  • 基础类社区
  • Web++
  • encoderlee
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告

        VC/MFC社区版块或许是CSDN最“古老”的版块了,记忆之中,与CSDN的年龄几乎差不多。随着时间的推移,MFC技术渐渐的偏离了开发主流,若干年之后的今天,当我们面对着微软的这个经典之笔,内心充满着敬意,那些曾经的记忆,可以说代表着二十年前曾经的辉煌……
        向经典致敬,或许是老一代程序员内心里面难以释怀的感受。互联网大行其道的今天,我们期待着MFC技术能够恢复其曾经的辉煌,或许这个期待会永远成为一种“梦想”,或许一切皆有可能……
        我们希望这个版块可以很好的适配Web时代,期待更好的互联网技术能够使得MFC技术框架得以重现活力,……

试试用AI创作助手写篇文章吧