scrapy模块爬取douban网站遇到如下问题怎么解决

尼罗的撒哈拉 2018-07-05 05:35:00

import scrapy
from scrapy.http import Request,FormRequest

class DbSpider(scrapy.Spider):
name = 'db'
allowed_domains = ['douban.com']
header = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36"}
'''
start_urls = ['http://douban.com/']
'''
def start_request(self):
return [Request('https://accounts.douban.com/login',
callback=self.parse,
meta={
'cookiejar':1
}
)]
def parse(self, response):
url='https://accounts.douban.com/login'
print('此时没有验证码')
data={
"form_email":"746337002@qq.com",
"form_password":"fydxxn2055",
"redir":"https://www.douban.com/people/180702197/",
}
print("登陆中")
return [FormRequest.from_response(response,
meta={"cookiejar":response.meta["cookiejar"]},
headers=self.header,
formdata=data,
callback=self.next,
)]

def next(self,response):
print("此时已经登录完成并爬取了个人中心的数据")
title=response.xpath('/html/head/title/text()').extract()
note=response.xpath('//div[@class="note"]/text()]').extract()
print(title[0])
print(note[0])

...全文

67 回复打赏收藏转发到动态举报

写回复

回复

切换为时间正序

请发表友善的回复…

发表回复

【资源介绍】基于Django+PyEcharts实现游客行为分析系统可视化大屏源码+操作说明+sql数据库.tar 本项目Scrapy进行数据爬取，并使用Django框架+PyEcharts实现可视化大屏。效果如下每个模块都有详情页，可以通过点击首页各个模块的标签，进行访问。基于数据可视化的游客行为分析系统，包含以下几类图表： - 景点数量各区县分布地图 - 景点数量各区县分布图 - 景点评分分布图 - 景点浏览时间分布图 - 景点评论词云图 - 景点浏览人数占比分析 - 景点人数占比分析 - 景点评分数据排名还有登录注册界面，可以自己注册账号。 ### 2、python库安装本项目使用的python环境是3.8，Django4.0。（建议3.8及以上，不然可能装不了Django4） **这里以conda环境为例：** ```shell # 创建虚拟环境 conda create --name py38 python=3.8.13 # 激活环境 conda activate py38 # 安装库 pip install -i https://pypi.douban.com/simple -r requirements.txt ``` ### 3、MySQL部署 #### 3.1、创建库 ```shell # 创建数据库 create database hunan_web; # 使用数据库 use hunan_web; ``` 更多见说明文档【备注】 1、该资源内项目代码都经过测试运行成功，功能ok的情况下才上传的，请放心下载使用！有问题请及时沟通交流。 2、适用人群：计算机相关专业(如计科、信息安全、数据科学与大数据技术、人工智能、通信、物联网、自动化、电子信息等)在校学生、专业老师或者企业员工下载使用。 3、用途：项目具有较高的学习借鉴价值，也适用于小白学习入门进阶。当然也可作为毕设项目、课程设计、大作业、初期项目立项演示等。 4、如果基础还行，或者热爱钻研，亦可在此项目代码基础上进行修改添加，实现其他不同功能。欢迎下载，沟通交流，互相学习，共同进步！

本文实例讲述了Python利用Scrapy框架爬取豆瓣电影。分享给大家供大家参考，具体如下： 1、概念 Scrapy是一个为了爬取网站数据，提取结构性数据而编写的应用框架。可以应用在包括数据挖掘，信息处理或存储历史数据等一系列的程序中。通过Python包管理工具可以很便捷地对scrapy进行安装，如果在安装中报错提示缺少依赖的包，那就通过pip安装所缺的包 pip install scrapy...

一、Scrapy原理工作原理：通过引擎统领其他成员协同工作。在使用Scrapy的时候，不需要关心爬虫的每个流程，scrapy中的网络请求都是默认异步模式，请求和返回都会由引擎自动分配处理。如果某个请求出现异常，框架会做异常处理，跳过这个异常的请求，继续去执行后面的程序。 Scheduler（调度器）主要负责处理引擎发送过来的requests对象，把请求的url以有序的方式排列成队，等待引擎提取（类似gevent库的queue模块）。（Scrapy已实现） Downloader（下载器）负责处理引擎发送

项目目标:用Scrapy爬取招聘网站的招聘信息目标网站:职友集,url:https://www.jobui.com/rank/company/ 先爬取企业排行榜四个榜单里的公司，再接着爬取这些公司的招聘信息,爬取公司名称、职位、工作地点和招聘要求。一、创建项目电脑终端跳转到你想要保存项目的目录下输入创建Scrapy项目的命令： scrapy startproject jobui(jobui为项目名字可自取)start- [stɑːt]–开始 project-[ˈprɔdʒekt] —n,计划,

文章目录前言一、Scrapy爬虫爬取豆瓣电影1. Scrapy框架介绍（1） Scrapy框架构造：（2）数据流（3）项目结构2. 创建爬虫爬取豆瓣（1）创建项目（2）创建Item（3）解析Response和Request（4） Item Pipeline连接mysql数据库存储数据二、构建豆瓣电影评分预测模型1.引入库2.读入数据总结前言这段时间对爬虫进行了一定的学习，爬虫除了requests和BeautifulSoup还有很多框架，使用requests等库写爬虫如果爬取量不是太大，速度要求

其他开发语言

3,423

社区成员

15,635

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章