在scrapy框架下利用json接口获取到的json数据和接口实际显示的数据不符合

这都些啥 2019-06-24 10:23:22



import json

import time



import scrapy

from scrapy import Request





class BokeSpider(scrapy.Spider):

    name = 'boke'

    allowed_domains = ['blog.csdn.net']

    start_urls = ['http://blog.csdn.net/']



    def parse(self, response):

        word = 'python'

        shown_offset = int(time.time() * 1000000)

        baser_url = 'https://blog.csdn.net/api/articles?type=more&category={0}&shown_offset={1}'.format(word, str(shown_offset))



        yield Request(url=baser_url, callback=self.language_block, encoding='utf-8')



    def language_block(self,response):



        print('发出请求的链接是:', response.url)

        json_str = json.loads(response.text)

        print(json_str)

重复运行项目，不同的接口得到的json数据都是一样的。但是直接通过浏览器访问接口让后格式化得到的数据跟在控制台输出的数据不一样。不知道问题出在哪里？
seetings.py 中设置了基本请求头

DEFAULT_REQUEST_HEADERS = {

  'Accept': 

  'Accept-Language': 

  'User-Agent': 

  'cookie': 

}

...全文

219 2 打赏收藏转发到动态举报

写回复

用AI写文章

2 条回复

切换为时间正序

请发表友善的回复…

发表回复

这都些啥 2019-06-25

打赏
举报

求大神帮忙。。。。。。。。。。。。。

考古学家lx(李玺) 2019-06-25

打赏
举报

区别大吗。大了的话就是参数问题了

前段时间有个数据源网站突然更新，原本通过websocket爬取的数据突然就gg了。没得办法，只能用最原始的方法来爬取想要的数据了。爬取过不少的网站数据，这里不对爬虫合理合法性做讨论。纯粹分享我知道的一点点技术网站大体分三种（对于爬虫而言） ⒈网站直接通过接口获取数据（json和页面）。简单的就是通过传一些params来获取不同数据，这种是最简单的。通过requests模块就可以很容易拿到自己想要的数据。json数据好说，直接解析json就可以。另一种是接口返回的是网页源代码，这种稍稍麻烦些，也不难，scrapy这个框架就是好用，xpath也是神器。简单学习下，爬取个网站不在话下。 ⒉第二

学习Python爬虫，怎能少了Scrapy框架？Scrapy框架是爬虫集大成者，让你享受框架带来的种种流畅和便利。本课程讲解爬虫相关基础，通过多个实际案例，深入浅出吃透Scrapy框架的架构原理及具体使用方法。学完本课程，你也就上手了Scrapy框架，能独立使用Scrapy框架爬取多数网站内容以及下载文件。----------------------------------------------------------------scarpy是分布式爬虫框架。——实现爬取网站数据、提取结构性数据而编写的应用框架，用途广泛。框架的作用？相当于建高楼大厦，已经做好了框架结构，只需要根据具体需求和目标砌墙和搞装修就行啦。使用scarpy，就已经有了爬虫框架；只需要根据具体需求和目标，做好少部分模块，就可以很方便爬取到数据资源。

利用Scrapy进行Github仓库数据爬取

3行和4行都是json的post请求，但是最好加上（“Content-Type”: “application/json”,）请求头。这在发送 POST 请求时很有用，特别是当你需要向服务器传递 JSON 格式的数据时。会自动将其转换为 JSON 格式，并设置请求的 Content-Type 为。会将这些数据编码为表单形式，并设置请求的 Content-Type 为。参数用于发送表单数据，通常使用在 POST 请求中。字典编码为表单形式，并将其作为请求的正文发送。是两个常用的参数，用于传递不同类型的数据。

脚本语言

37,720

社区成员

34,239

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

试试用AI创作助手写篇文章吧

+ 用AI写文章