爬取淘宝评论时只能爬取99页，后面的全是和99页一样的，怎么解决啊

bite the dust 2019-04-08 03:48:21

有没有大神帮忙，还是只能100页

...全文

371 2 打赏收藏转发到动态举报

写回复

2 条回复

切换为时间正序

请发表友善的回复…

发表回复

此账号已关闭 2019-04-09

打赏
举报

回复

应该是cookie 限制吧，看一看你的源代码

bite the dust 2019-04-08

打赏
举报

回复

引用楼主 bite the dust的回复:

有没有大神帮忙，还是只能100页

能不能把几万条数据都爬出来？

这个爬虫是我前段时间在淘宝上做单子的时候遇见的一个客户需求。本来以为就是一个简单的爬虫项目。但后面客户加了数据清洗和数据分析的要求。而后又加了要详细代码解释的需求等等。直到最后客户坦白说这是他们大专的毕设.......但是这个单子坐下来只有200左右，我想了一下，感觉好亏啊。在淘宝上随便找一个做毕设的都要好多钱的，而且客户本身的代码能力、数学、逻辑能力都很差，导致我每行都给注释以及看不懂，在我交付代码后又纠缠了我一个多礼拜。反正总体做下来的感觉就是烦躁。头一次感觉到了客户需求变更带来的巨大麻烦。总之这是一次不是很愉快的爬虫经历。但是作为我写爬虫以来注释最详细的一次，以及第一次真正使用像matplotlib这种数据分析库的代码，我认为还是有必要分享出来给大家当个参考的（PS：大佬轻拍~）。爬虫本身几乎没有什么难度，写的也比较乱，敬请见谅。爬取安居客上的出租房信息（武汉地区的），并通过爬取的数据进行数据清洗以及数据分析。给出四个不同层面的可视化图

### 安居客出租房（武汉为例）爬虫+数据分析+可视化这个爬虫是我前段时间在淘宝上做单子的时候遇见的一个客户需求。本来以为就是一个简单的爬虫项目。但后面客户加了数据清洗和数据分析的要求。而后又加了要详细代码解释的需求等等。直到最后客户坦白说这是他们大专的毕设.......但是这个单子坐下来只有200左右，我想了一下，感觉好亏啊。在淘宝上随便找一个做毕设的都要好多钱的，而且客户本身的代码能力、数学、逻辑能力都很差，导致我每行都给注释以及看不懂，在我交付代码后又纠缠了我一个多礼拜。反正总体做下来的感觉就是烦躁。头一次感觉到了客户需求变更带来的巨大麻烦。总之这是一次不是很愉快的爬虫经历。但是作为我写爬虫以来注释最详细的一次，以及第一次真正使用像matplotlib这种数据分析库的代码，我认为还是有必要分享出来给大家当个参考的（PS：大佬轻拍~）。爬虫本身几乎没有什么难度，写的也比较乱，敬请见谅。 **功能** 爬取安居客上的出租房信息（武汉地区的），并通过爬取的数据进行数据清洗以及数据分析。给出四个不同层面的可视化图。最终结果如下图所示： ![Image text](https://raw.githubusercontent.com/srx-2000/git_spider/master/anjuke_room_rent_info/result/1.png) ![Image text](https://raw.githubusercontent.com/srx-2000/git_spider/master/anjuke_room_rent_info/result/2.png) ![Image text](https://raw.githubusercontent.com/srx-2000/git_spider/master/anjuke_room_rent_info/result/3.png) ![Image text](https://raw.githubusercontent.com/srx-2000/git_spider/master/anjuke_room_rent_info/result/4.png) **环境** 1. Windows 10 2. python3.7 **使用方法** 首先声明该爬虫由于是特定情况下写的，所以本身的通用性特别差，仅可以对安居客网站上的武汉的出租房信息进行爬取，且需要自己手动更新cookie。同时在对数据进行分析及可视化的时候由于也是特别针对武汉出租房的进行的，所以针对性也比较强。如果别的需求需要自己进行更改。 1. 访问[安居客网址](https://wuhan.anjuke.com/)，获取cookie。 > tip：获取cookie的方法可根据[此链接](https://jingyan.baidu.com/article/5d368d1ea6c6e33f60c057ef.html) 2. 在项目中找到`spider.py`的文件，将第12行的cookie换成你自己的cookie。 3. 运行`spider.py`，获取房源信息。运行后应会产生一个`武汉出租房源情况.csv`的文件。此文件为我们从安居客上爬取的房源信息，其中包含`房屋租住链接、房屋描述、房屋地址、房屋详情（户型）以及经纪人、房屋价格`五个属性。 4. 在获取了数据之后我们运行`matplotlib.py`文件。进行数据清洗，分析，可视化。运行后即可获得**功能**中展示四个图片。 **技术栈** 1. request 2. parsel 3. pandas 4. matplotlib **进步（相比之前）** 此次爬虫相比之前的技术上可以说有减无增。但其中注释相当详细，可谓是每行代码都有注释。所以对于初学者应该有一些用处。同时使用matplotlib进行了数据分析可视化等。对于数据处理的代码的注释也是几乎每行都有注释的。

本篇目标抓取淘宝MM的姓名，头像，年龄抓取每一个MM的资料简介以及写真图片把每一个MM的写真图片按照文件夹保存到本地熟悉文件保存的过程 1.URL的格式在这里我们用到的URL是 http://mm.taobao.com/json/request_top_list.htm?page=1，问号前面是基地址，后面的参数page是代表第几页，可以随意更换地址。点击开之后，会发现有一些淘宝MM的简介，并附有超链接链接到个人详情页面。我们需要抓取本页面的头像地址，MM姓名，MM年龄，MM居住地，以及MM的个人详情页面地址。 2.抓取简要信息相信大家经过上几次的实战，对抓取和

1.通过访问淘宝传输图片的js来获取链接地址下载图片。 2.链接地址由三部分拼接而成，分别是通过分析不变的前半部分和后半部分以及jsonp后面的参数以及tce_sid后面的参数这里初步确定为目标服务器进程号和子进程号。使用： 1：通过人为输入json_pid和tce_sid 2：通过输入的json_pid和tce_sid来进行拆分目标的url，来进行爬取 v1.0版本功能不够完善的api接口的交流谢谢合作联系v：

目前网站上很多爬取评论的博文都已经失效了，所以自己尝试写一篇目前可行的爬取代码。我们以爬取淘宝的APPLE官方旗舰店的Iphone11为例。打开淘宝页面，按下F12快捷键，进入开发者模式。点击累计评价。然后在开发者窗口左上角输入list，找到相应的进程。这里发现了评论。寻找请求头headers信息。找到请求的url，发现其中只有三个参数是会改变的。发现其中的规律。首先是"currentP...

37,719

社区成员

34,238

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

试试用AI创作助手写篇文章吧

+ 用AI写文章