scrapy想了解yield的和callback的用法。这个运行次序不明白。

泡白 2018-05-15 11:03:57

这是我scrapy中的spider：
import scrapy
from autopjt.items import AutopjtItem
from scrapy.http import Request

class AutospdSpider(scrapy.Spider):
name = 'autospd'
allowed_domains = ['dangdang.com']
start_urls = ['http://category.dangdang.com/pg1-cp01.10.13.00.00.00.html']

def parse(self, response):
item=AutopjtItem()
item['name']=response.xpath("//a[@name='itemlist-title']/@title").extract()
item['price']=response.xpath("//span[@class='search_now_price']/text()").extract()
item['link']=response.xpath("//a[@name='itemlist-title']/@href").extract()
item['comnum']=response.xpath("//a[@name='itemlist-review']/text()").extract()
#print("6")

yield item
for i in range(1,3):
url='http://category.dangdang.com/pg'+str(i)+'-cp01.10.13.00.00.00.html'
print("-------"+str(i))
yield Request(url,callback=self.parse)
print("+++++++"+str(i))

结果是：
C:\Users\Administrator\python-text\book_example\spider\autopjt>scrapy crawl autospd --nolog
-------1
+++++++1
-------2
+++++++2
-------1
+++++++1
-------2
+++++++2
-------1
+++++++1
-------2
+++++++2

为什么运行的结果是这样的？我不理解加了yield是如何运作的。然后可以说一下callback吗。是重新调用一次的一次吗？

...全文

1320 2 打赏收藏转发到动态举报

写回复

2 条回复

切换为时间正序

请发表友善的回复…

发表回复

泡白 2018-05-16

打赏
举报

回复

111111111111

oyljerry 2018-05-16

打赏
举报

回复

yield是返回这个数据，然后下次函数再进入的时候，会从yield开始继续执行

主要记录了scrapy的一些基础使用（文件下载及路径名称修改，图片下载及路径名称修改，item浅拷贝导致的数据错乱，写入数据库）以及踩坑填坑的经历

Scrapy 框架:scrapy 架构组成、scrapy 工作原理、response 常用的方法、 scrapy shell、pipelines 管道封装、yield 关键字、开启单/多管道、日志信息和日志等级、scrapy 的 post请求、设置代理、 CrawlSpider、写代码注意点(业务逻辑)、案例代码 ......................................................

一、Scrapy 基础知识 Scrapy 是适用于 Python 的一个快速、高层次的屏幕抓取和 web 抓取框架，用于抓取 web 站点并从页面中提取结构化的数据。Scrapy 用途广泛，可以用于数据挖掘、监测和自动化测试。 Scrapy 是一个框架，可以根据需求进行定制。它也提供了多种类型爬虫的基类，如 BaseSpider、sitemap 爬虫等，最新版本又提供了 web2.0 爬虫的支持。 1、Scrapy 基本模块 (1) 调度器(Scheduler) 调度器，说白了把它假设成为一个URL（抓

文章目录前言一、scrapy框架的基本使用1.1 windows下安装scrapy1.2 scrapy的基本使用二、scrapy数据解析总结前言什么是框架？就是一个集成了很多功能并且具有很强通用性的一个项目模板。如何学习框架？专门学习框架封装的各种功能的详细用法。什么是scrapy? 爬虫中封装好的一个明星框架。功能：高性能的持久化操作异步的数据下载操作高性能的数据解析操作分布式操作一、scrapy框架的基本使用环境安装 linux和mac操

目录一、基本框架介绍二、安装与基本命令三、scrapy框架基本使用及完整案例四、各组件的一些用法说明一、基本框架介绍 Scrapy框架介绍： Scrapy是: 由Python语言开发的一个快速、高层次的屏幕抓取和web抓取框架，用于抓取web站点并从页面中提取结构化的数据。 Scrapy吸引人的地方在于它是一个框架，任何人都可以根据需求方便的修改。它也提供了多...

37,719

社区成员

34,239

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

试试用AI创作助手写篇文章吧

+ 用AI写文章