python爬取aqistudy网站数据的代码相关问题

qq_24720839 2018-03-03 12:52:41

最近在爬取aqistudy网站的历史数据，copy了网上一段代码，代码运行没问题，但爬取的数据是空的，代码如下：



import requests as rq

import re

#import io

from bs4 import BeautifulSoup



Url='https://www.aqistudy.cn/historydata/'

headers = { 'User-Agent':

    'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36' 

    }



def getcity():

    hotcitys = rq.get(Url,headers=headers)

    soup = BeautifulSoup(hotcitys.text, 'lxml')  #这里使用lxml来解析

    citynames = []

    cityurls = []

    citys = soup.find_all('a',limit=19)[-10:]     #分片的形式来获取十个热门城市

    for city in citys:

        cityurl = city.get('href')

        cityurls.append(cityurl)

        cityname = city.get_text()

        citynames.append(cityname)

    return cityurls,citynames

cityurls,citynames = getcity()



def getwebs(url):

    data = rq.get(url,headers=headers).text

    soup = BeautifulSoup(data, 'lxml')

    ahrefs = soup.find_all('a')          #找到所有的链接

    webs = []

#    names = []

    for href in ahrefs:

        href = href.get('href')

        hrefd = re.findall('(.*?month=\d{6})',href)  #用正则来匹配每月

        if hrefd:

            urls = Url + hrefd[0]

            webs.append(urls)

    return webs



def Savepm25(webs,path):

    for web in webs:

        print('正在下载数据...'+web)

        data = rq.get(web,headers=headers).text

        soup = BeautifulSoup(data, 'lxml')

        pms = soup.find_all('td')

        aqis = []

        for pm in pms:        

            data = pm.get_text()

            aqis.append(data)

        i = 0

        while i < 12:

#            aqis.pop()

            i = i + 1

        with open(path+'.csv', 'a+') as f:                

             i = 1

             for aqi in aqis:

                if i % 11 != 0:

                    f.write(aqi + ',')       # CSV表格里以','为分隔符

                else:

                    f.write(aqi + '\r\n')    #若是行尾则换行

                i = i + 1



paths = []

for cityname in citynames:

    path = cityname + 'pm25'

    paths.append(path)

i = 0

for url in  cityurls:

    url = Url+url

    print(url)

    webs=getwebs(url)

    path = paths[i]

    Savepm25(webs,path)

    i = i + 1

请大神看看是那里出错了。

...全文

492 2 打赏收藏转发到动态举报

写回复

2 条回复

切换为时间正序

请发表友善的回复…

发表回复

ljh_csdn_ljh 2019-08-01

打赏
举报

回复

https://blog.csdn.net/ljh_csdn_ljh/article/details/98082330 我编写的最新解决办法，你试试！

qq_24720839 2018-03-03

打赏
举报

回复

顶贴顶帖，急需解决！谢谢各位大神~

爬取空气质量检测网的部分城市的历年每天质量数据思路----------------------------------------- 从某城市的空气质量网页获取某市每月的链接，再爬取每个月的表格数据。连云港市：https://www.aqistudy.cn/historydata/daydata.php?city=连云港连云港2014年5月的空气质量：https://www.aqistudy.cn/historydata/daydata.php?city=连云港&month=2014-05 遇到的问题----------------------------------------- 获取的网页中的表格数据隐藏，尝试requests无法获取。判断可能是动态加载的网页尝试----------------------------------------- 1. 通过XHR，js查找隐藏数据的加载网页，没有找到。 2. 使用phantomjs.get() result=pd.read_html ,可以获得隐藏的表格数据，但是并不稳定，只是偶尔出现加载的表格数据,无法大规模的获取解决方法----------------------------------------- 查找资料得知这个网站的表格数据在Console里的items中，使用selenium的webdriver.firefox(),driver.execute_script("return items") 数据可获得。仍遇到的问题：----------------------------------------- 爬取一个网页可获得数据，但是连续的获取网页，会出现两个错误。 1.Message: ReferenceError: items is not defined 2.connection refused 解决方法： 1.connection refused问题,可能是网页开太多，使用driver.quit() 2. 如果 execute_script 还是出错，可尝试pd.read_html获取信息。之前用phantomjs获取的时候输出空的表格，可能由于加载不够，用 Waite直到table出现之后再获取网页 Element=wait.until(EC.element_to_be_clickable((By.XPATH,"/html/body/div[3]/div[1]/div[1]/table/tbody"))) 3.之后出现偶尔出现输出为空，使用循环，如果输出表格为空，再重新获取。 if len(result)>1: filename = str(month) + '.xls' result.to_excel('E:\python\案例程序\data\\' + filename) print('成功存入'+filename) driver.quit() else: driver.quit() return getdata(monthhref,month)

python爬取aqistudy网站的aqi数据

目的：从天气网站中爬取数据，生成excel表格，里面存储南昌市近十一年的天气情况，并对爬取产生的数据进行数据分析。大家好，给大家分享一下python爬虫爬取天气数据讲解，很多人还不知道这一点。首先，导入 requests 模块，并调用函数 requests.get(),从天气的网站上面获。其次，使用 pandas.concat().to_excel 函数，将爬取的结果保存到表格中，并。取该函数所需要的各种参数，然后对里面的参数进行相应的赋值。如果想保存生成的图片，可以自行添加代码进行保存。

爬某空气质量网，详细流程。

爬虫与反爬虫 - 2023最新爬取某天气网站历史数据 - JS逆向 - Python实现

249

社区成员

6,554

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章