需要根据url下载大量文件下载地址url的存放问题

dduummoo 2014-11-18 05:01:06

我想根据url把网页下载下来,这样就有一个url池,然后我不断往里添加,并挨个下载
运行一段时间后地址池里可能会有几十万甚至上百万个url
产生几个问题
1. 占据的空间很大
2. url有很多重复,下载效率低下(类似爬虫 ,在网页的页内链接里爬,链接就会有交叉现象)

对于这种模型,想请问一下各位大神有什么好办法解决空间问题和查重问题

...全文

316 2 打赏收藏转发到动态举报

写回复

用AI写文章

2 条回复

切换为时间正序

请发表友善的回复…

发表回复

Sandrer 2014-11-18

打赏
举报

在下行未达到上限的情况下，多开几条线程下载咯，注意线程同步至于查重的问题，这么多的数据，也没什么特别好的方法了或者可以多开一条线程，用来整理url的索引首先按域名建立一个索引，再按下级目录一直循环建索引咯这样整理起来的话比你一次循环所有数据要快吧

oyljerry 2014-11-18

打赏
举报

用set来去重，查找也快

判断下载文件是否存在。

根据url下载文件到指定文件夹 package com.linkcircle.util; import java.io.BufferedInputStream; import java.io.File; import java.io.FileOutputStream; import java.io.IOException; import java.io....

1.把下载地址url，全部添加到filelist.txt文件中。3.批量下载文件，存放batdownload\file\目录下。2.双击batdownload.exe文件，进行批量下载。3.浏览器能访问的url，都可以使用工具进行批量下载。1.http和https地址...

里面有些内容android studio自动添加就可以了，实测可用，自己用的时候规避了... * 说明：根据指定URL将文件下载到指定目标位置 * @param urlPath * 下载路径 * @param downloadDir * 文件存放目录 * @retur...

一个很好的下载方法是将服务器上的文件压缩为一个压缩包，然后直接下载一个压缩包到本地即可。将服务器上的文件（动物图片）批量下载到本地，并保留服务器上的目录结构。该方案缺点压缩后的压缩包过大，如果下载中断...

VC/MFC

16,547

社区成员

421,618

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

VC/MFC社区版块或许是CSDN最“古老”的版块了，记忆之中，与CSDN的年龄几乎差不多。随着时间的推移，MFC技术渐渐的偏离了开发主流，若干年之后的今天，当我们面对着微软的这个经典之笔，内心充满着敬意，那些曾经的记忆，可以说代表着二十年前曾经的辉煌……
向经典致敬，或许是老一代程序员内心里面难以释怀的感受。互联网大行其道的今天，我们期待着MFC技术能够恢复其曾经的辉煌，或许这个期待会永远成为一种“梦想”，或许一切皆有可能……
我们希望这个版块可以很好的适配Web时代，期待更好的互联网技术能够使得MFC技术框架得以重现活力，……

试试用AI创作助手写篇文章吧

+ 用AI写文章

需要根据url下载大量文件 下载地址url的存放问题

需要根据url下载大量文件下载地址url的存放问题