scrapy中rules的问题

Maxwelll_ 2017-09-12 10:51:08

start_urls= [''http://www.abc.cn/abcc/index.html']
Rule(LinkExtractor(allow=(r'http://www.abc.cn/abcc/index_[0-9]+.html')),callback='parse_start_url'
,follow=False)]

这个follow=False表示访问全站所有符合规则的URL吗？为什爬虫只能访问start_urls中的网页就停了

...全文

342 2 打赏收藏转发到动态举报

写回复

2 条回复

切换为时间正序

请发表友善的回复…

发表回复

maya8maya85 2018-06-17

打赏
举报

回复

follow=True

Maxwelll_ 2017-12-01

打赏
举报

回复

aaaaaaa

在Spider中，你需要定义起始URL、解析规则（使用`start_urls`和`rules`或`parse`方法）以及如何从HTML中提取数据（使用XPath或CSS选择器）。 2. **Item**：Item代表你要爬取的数据结构，类似于数据库中的表结构。你...

在`qsbk.py`中，定义Spider的基本结构，包括起始URL、解析规则（`rules`或`parse`方法）等。例如： ```python import scrapy class QsbkSpider(scrapy.Spider): name = 'qsbk' allowed_domains = ['qsbk.com'] ...

在爬取过程中，我们可以设定规则（rules）来指导爬虫如何导航网站，比如限制爬取深度或者遵循特定的链接模式。关于"自定义爬取时间"，Scrapy可以通过设置爬虫的start_requests函数来实现。在这个函数中，我们可以...

在这个项目"基于scrapy的层次优先队列方法爬取中文维基百科，并自动抽取结构和半结构数据.zip"中，我们可以深入探讨如何利用数据结构——特别是层次优先队列（Priority Queue）来有效地爬取网页并处理数据。Scrapy是...

内容概要：本文介绍了使用Scrapy框架进行...阅读建议：读者应先熟悉Scrapy的基本概念和安装配置，在学习过程中结合实际案例进行代码编写和调试，注意理解LinkExtractor各参数的作用以及CrawlSpider中rules的配置逻辑。

37,743

社区成员

34,211

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

试试用AI创作助手写篇文章吧

+ 用AI写文章