关于python爬虫同时抓取上万个网站的方法

prog_cxy 2017-12-04 11:38:04

这段时间公司要求抓全国的一类网站，网站虽然都是一类的，但是结构也是各有不同，目前是抓了几十个上百个测试，我使用的是scrapy多爬虫爬取，感觉也不是特别好，所以在寻找更好的方法或者框架，看看有没有一些好的建议

...全文

2076 3 打赏收藏转发到动态举报

写回复

3 条回复

切换为时间正序

请发表友善的回复…

发表回复

风云路上想改名 2019-01-17

打赏
举报

回复

标签的定位，定位成功的概率，数据和想要的数据对应的上的概率

kevinkkkf 2018-03-13

打赏
举报

回复

这个对算法要求很高啊

网络爬虫抓取特定网站网页的html数据，但是一个网站有上千上万条数据，我们不可能知道网站网页的url地址，所以，要有个技巧去抓取网站的所有html页面。Scrapy是纯Python实现的爬虫框架，用户只需要定制开发几个模块...

- 模块与包：模块是Python程序架构的一个核心概念，包可以看作是一个存放模块的文件夹。 2. Python特性 - 简洁明了的语法。 - 面向对象的编程语言，支持多范式编程。 - 强大的标准库支持。 - 丰富的第三方库。...

综上所述，这个压缩包文件揭示了一个Python爬虫项目，其目标可能是抓取网络上的个人照片和相关资料。在实际开发和应用爬虫时，我们不仅要掌握技术，还要了解并遵守相关的道德规范和法律法规，保护网络环境的健康和...

原标题：python爬虫超简单攻略，带你写入门级的爬虫，抓取上万条信息最近经常有人问我，明明看着教程写个爬虫很简单，但是自己上手的时候就麻爪了。。。那么今天就给刚开始学习爬虫的同学，分享一下怎么一步一步写...

242

社区成员

4,810

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章