webmagic如何过滤掉div下不需要的内容？

wangleikk 2016-11-17 02:26:12

代码如下：
<div class="a">
1
<p>2</p>
<p>3</p>
<p>4</p>
<p>5</p>
</div>
我只想要123的内容，请问怎么过滤掉45

...全文

207 回复打赏收藏转发到动态举报

写回复

回复

切换为时间正序

请发表友善的回复…

发表回复

一、WebMagic介绍 WebMagic的结构分为Downloader、PageProcessor、Scheduler、Pipeline四大组件，并由Spider将它们彼此组织起来。这四大组件对应爬虫生命周期中的下载、处理、管理和持久化等功能。WebMagic的设计参考了Scapy，但是实现方式更Java化一些。而Spider则将这几个组件组织起来，让它们可以互相交互，流程化的执行，可以认为Spider是一个大的容器，它也是WebMagic逻辑的核心。 1.1 WebMagic的四个组件 1

1 WebMagic介绍今天我们要学习一款爬虫框架的使用就是WebMagic。其底层用到了我们上一天课程所使用的HttpClient和Jsoup，让我们能够更方便的开发爬虫。 WebMagic项目代码分为核心和扩展两部分。核心部分(webmagic-core)是一个精简的、模块化的爬虫实现，而扩展部分则包括一些便利的、实用性的功能。 WebMagic的设计目标是尽量的模块化，并体现爬虫的功能特点。这部分提供非常简单、灵活的API，在基本不改变开发模式的情况下，编写一个爬虫。扩展部分(webmagic-e

WebMagic是一个简单灵活的Java爬虫框架。基于WebMagic，可以快速开发出一个高效、易维护的爬虫。

原文出自：http://webmagic.io/docs/zh 访问经常出错，于是把文档转到自己博客里 WebMagic支持使用独有的注解风格编写一个爬虫，引入webmagic-extension包即可使用此功能。在注解模式下，使用一个简单对象加上注解，可以用极少的代码量就完成一个爬虫的编写。对于简单的爬虫，这样写既简单又容易理解，并且管理起来也很方便。这也是WebMagic的一大特色，

知识补充但是在这里有个问题：在解析页面的时候，很可能会解析出相同的url地址(例如商品标题和商品图片超链接，而且url一样)，如果不进行处理，同样的url会解析处理多次，浪费资源。所以我们需要有一个url去重的功能 1. Scheduler组件 WebMagic提供了Scheduler可以帮助我们解决以上问题。 Scheduler是WebMagic中进行URL管理的组件。一般来说，Scheduler包括两个作用：对待抓取的URL队列进行管理。对已抓取的URL进行去重。 WebM

50,523

社区成员

85,601

社区内容

发帖

与我相关

我的任务

javaspring bootspring cloud 技术论坛（原bbs）

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章