社区
Java
帖子详情
WebMagic同时启动多种子URL,如何处理?
mengfeihui
2018-03-07 08:55:30
最近在使用WebMagic写爬虫,有个问题一直没有想明白,希望高手解答。对于要爬取多个网站,如163、和讯等等网站,有多个种子URL,这样的是怎么启动同时进行爬取的,我初步考虑用线程,但是想到假如有上百种子URL,开上百个线程,会不会影响性能,请高手解答,跪谢!!!!
...全文
598
1
打赏
收藏
WebMagic同时启动多种子URL,如何处理?
最近在使用WebMagic写爬虫,有个问题一直没有想明白,希望高手解答。对于要爬取多个网站,如163、和讯等等网站,有多个种子URL,这样的是怎么启动同时进行爬取的,我初步考虑用线程,但是想到假如有上百种子URL,开上百个线程,会不会影响性能,请高手解答,跪谢!!!!
复制链接
扫一扫
分享
转发到动态
举报
写回复
配置赞助广告
用AI写文章
1 条
回复
切换为时间正序
请发表友善的回复…
发表回复
打赏红包
mengfeihui
2018-03-07
打赏
举报
回复
顶!d=====( ̄▽ ̄*)b
WebMagic
WebMagic
Java爬虫—
WebMagic
WebMagic
企业开发,比HttpClient和JSoup更方便
WebMagic
有DownLoad,PageProcessor,Schedule,Pipeline四大组件,并有Spider将他们组织起来,这四大组件对应就是爬虫的下载,
处理
,管理,持久化等功能。
用
Webmagic
和MongoDB实现的通用化爬虫框架
可忽略的小背景 我在第一家A公司的时候接触过通用化的爬虫框架,其中,下载,
URL
管理,
启动
爬虫任务,抽取都是自己团队实现的,一向喜欢开源和对比的我接触到了
Webmagic
,发现它只要实现一个PageProcessor,传递
URL
处理
解析就可以了。 后来我在B公司从事亚马逊网站的爬虫工作,用
Webmagic
+Spring+MySQL+MyBatis+Redis实现的,其中用到了Spring的IOC,A
Java爬虫框架之
WebMagic
的学习总结
WebMagic
是一个简单灵活的Java爬虫框架。基于
WebMagic
,可以快速开发出一个高效、易维护的爬虫。
网络爬虫2之
WebMagic
网络爬虫21.
WebMagic
介绍2.
WebMagic
功能3. 爬虫分类[4. 使用
WebMagic
爬取51job上的招聘信息](https://editor.csdn.net/md?articleId=106706999) 1.
WebMagic
介绍 基础知识:
WebMagic
是一款爬虫框架,其底层用到了HttpClient和Jsoup,让我们能够更方便的开发爬虫。
WebMagic
项目代码分为核心和扩展两部分。核心部分(
webmagic
-core)是一个精简的、模块化的爬虫实现,而扩展部分则包括
Java
50,348
社区成员
85,704
社区内容
发帖
与我相关
我的任务
Java
Java相关技术讨论
复制链接
扫一扫
分享
社区描述
Java相关技术讨论
java
spring boot
spring cloud
技术论坛(原bbs)
社区管理员
加入社区
获取链接或二维码
近7日
近30日
至今
加载中
查看更多榜单
社区公告
暂无公告
试试用AI创作助手写篇文章吧
+ 用AI写文章