Scrapy 爬取网页response.status=200，但response.body为403-Forbidden

笑个大西瓜 2016-08-24 05:57:00

新手上路，最近在学习python，用scrapy框架来爬取数据。
传统静态页面相对容易爬取，于是我尝试着爬取js动态加载的页面。http://www.itslaw.com/detail?judgementId=3d47dac4-79ed-40e7-99df-a688ec879f5e&area=1&index=1&sortType=2&count=1208&conditions=publishType%2B79%2B2%2B%E5%85%AC%E6%8A%A5%E6%A1%88%E4%BE%8B 该页面是我尝试爬取的页面。下面将我的代码以及爬取的结果贴图展示，请各位大神帮我看看怎么回事：
1.文件夹结构

2.WuSongSpider.py（非常简单，就定义了需要爬取的url以及将返回的response.body写入一个test.txt的文本中）

3.woenloadwebkit.py，延迟加载的中间件

4.rotateuseragent.py，用于在useragent池中随机选择一个

5.settings.py

6.test.txt，返回的结果（即response.body）

猜测应该是服务器端采取了什么反爬机制，请各位大神出手相助，谢谢！

...全文

1156 1 打赏收藏转发到动态举报

写回复

1 条回复

切换为时间正序

请发表友善的回复…

发表回复

笑个大西瓜 2016-08-24

打赏
举报

回复

补充：response.status=200

文章目录scrapy简介初尝scrapy安装scrapy第一个scrapy项目创建项目修改爬虫运行爬虫提取网页数据可以把结果存储在json文件后续 scrapy简介按scrapy官网的介绍来说，scrapy是一种快速的高级web crawling和web scraping，用于对网站进行爬取并从其页面提取结构化数据的框架，也就是爬虫。它可以用于数据挖掘、数据监控和自动化测试。初尝scrapy 安装scrapy 在有python环境下，可以直接使用pip安装。 pip install scrapy 安装

目录前言创建项目创建Item 创建Spider 解析付费榜运行爬取初始app列表 Selenium调用JS脚本获取app详情前言熟悉Scrapy之后，本篇文章带大家爬取七麦数据（https://www.qimai.cn/rank ）的ios appstore付费应用排行榜前100名应用。爬取内容包括app在列表中的下标，app图标地址，app的名称信息，app的类型，在分...

本文希望达到以下目标:简要介绍Scarpy阅读官网入门文档并实现文档中的范例使用Scarpy优豆瓣爬虫的抓取制定下一步学习目标初学Scrapy, 如有翻译不当, 或者代码错误, 请指出, 非常感谢1. Scrapy简介Scrapy是一个为了爬取网站数据，提取结构性数据而编写的应用框架。可以应用在包括数据挖掘，信息处理或存储历史数据等一系列的程序中。其最初是为了页面抓取 (更确切来说, 网络抓取 ...

scrapy安装在windows下，在dos中运行pip install Scrapy报错采用pip安装，安装时可能会出现安装错误Microsoft Visual C++ 14.0 is required，解决方案 http://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted 下载twisted对应版本的whl文件（如我的Twisted‑1...

今天这章是爬虫上来直接运行代码就会出现一个过期报错 ScrapyDeprecationWarning: Module `scrapy.spider` is deprecated, use `scrapy.spiders` instead from scrapy.spider import BaseSpiderd:/Computer Science/Python_High_Level/...

37,744

社区成员

34,211

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

试试用AI创作助手写篇文章吧

+ 用AI写文章