python爬虫数据存储到excel

_firemoon 2018-01-30 11:42:31

爬取了腾讯课堂的一些数据，但是在存储的过程中遇到了一点问题。就是无法正确地存储到相对应的行和列，
下面是代码



import requests

import re

from bs4 import BeautifulSoup

import xlwt             #导入相关库



all_info_list = []      #定义一个空列表，用来存储爬虫数据。



headers = {'user-agent':'Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/57.0.2987.74 Safari/537.36'}         #请求头



def get_info(url):

    res = requests.get(url,headers = headers)

    soups = BeautifulSoup(res.text, "lxml").find_all('h4')

    for soup in soups:

        infos= soup.find_all('a')

        for info in infos:

            course = re.findall(r'(?<=title=").*?(?=")', str(info))      #课程

            href = re.findall(r'(?<=href=").*?(?=")',str(info))          #链接

    firms = re.findall(r'<span class="item-source">(.*?)</span>', res.text, re.S)

    firm = re.findall(r'(?<=title=").*?(?=")', str(firms))               #出品

    info_list = [course, href, firm]

    all_info_list.append(info_list)                     #写入爬虫数据



if __name__ == "__main__":          #主函数

    urls = ['https://ke.qq.com/course/list?mt=1001&st=2002&tt=3019&page={}'.format(i) for i in range(1,10)]

    for url in urls:

        get_info(url)



    book = xlwt.Workbook(encoding='utf-8')

    sheet = book.add_sheet('ke_qq')

    head = ['课程','链接','出品']     #表头

    for h in range(len(head)):

        sheet.write(0,h,head[h])    #写入表头

    i = 1

    for list in all_info_list:

        j = 0

        for data in list:

            sheet.write(i,j,data)

            j+=1

        i+=1

book.save('E:\spiderfile\ke.xls')

结果就是这样子

...全文

1305 3 打赏收藏转发到动态举报

写回复

3 条回复

切换为时间正序

请发表友善的回复…

发表回复

习风的博客 2018-07-03

打赏
举报

回复

不知道你的问题有没有解决，我参照你的代码重写了，就抓下来了，不过没有用你在上面定义的空列表，

虾米馅煎包 2018-01-31

打赏
举报

回复

我看见你表中课程和链接的值都是一样的？怎么才是匹配相对应的行和列？提个建议你存表之前你可以先把all_info_list 输出看看是否是正确的来排错。

python 爬虫 Excel存储

Python采集数据存储到Excel Python采集数据存储到MySQL MySQL从0安装到穿件数据库和数据表使用Python链接MySQL 用Python发邮件、定时发邮件

本课程使用Python3作为编程语言，主要内容包括Python爬虫的基本原理，编写简单的爬虫，使用爬虫从百度下载比基尼美女图片、beautiful soup的详细使用方法，如何使用beautiful soup分析html代码，基于队列的爬虫、数据存储、数据拆分、爬虫限速、网页跟踪等技术。本课程也是《Python爬虫实战》套餐的重要课程。任务作业：请在当当网上抓取《Python从菜鸟到高手》一书的相关信息，图书地址：http://product.dangdang.com/25333314.html 。需要通过Beautiful Soup分析图书页面的代码。并解析出图书排名、图书作者、图书评论数和图书的ISBN，然后将这些信息输出的Python控制台。（注意：作业需写在CSDN博客中，请把作业链接贴在评论区，老师会定期逐个批改~~）

爬虫（Web Crawler）是一种自动化程序，用于从互联网上收集信息。其主要功能是访问网页、提取数据并存储，以便后续分析或展示。爬虫通常由搜索引擎、数据挖掘工具、监测系统等应用于网络数据抓取的场景。爬虫的工作流程包括以下几个关键步骤： URL收集：爬虫从一个或多个初始URL开始，递归或迭代地发现新的URL，构建一个URL队列。这些URL可以通过链接分析、站点地图、搜索引擎等方式获取。请求网页：爬虫使用HTTP或其他协议向目标URL发起请求，获取网页的HTML内容。这通常通过HTTP请求库实现，如Python中的Requests库。解析内容：爬虫对获取的HTML进行解析，提取有用的信息。常用的解析工具有正则表达式、XPath、Beautiful Soup等。这些工具帮助爬虫定位和提取目标数据，如文本、图片、链接等。数据存储：爬虫将提取的数据存储到数据库、文件或其他存储介质中，以备后续分析或展示。常用的存储形式包括关系型数据库、NoSQL数据库、JSON文件等。遵守规则：为避免对网站造成过大负担或触发反爬虫机制，爬虫需要遵守网站的robots.txt协议，限制访问频率和深度，并模拟人类访问行为，如设置User-Agent。反爬虫应对：由于爬虫的存在，一些网站采取了反爬虫措施，如验证码、IP封锁等。爬虫工程师需要设计相应的策略来应对这些挑战。爬虫在各个领域都有广泛的应用，包括搜索引擎索引、数据挖掘、价格监测、新闻聚合等。然而，使用爬虫需要遵守法律和伦理规范，尊重网站的使用政策，并确保对被访问网站的服务器负责。

从天气后报网（http://www.tianqihoubao.com）中爬取绵阳市某一年的历史天气信息，包括每天最高气温、最低气温、天气状况、风向等，完成以下功能：（1）将获取的数据信息存储到“data.csv”文件中，每行数据格式为“日期，最高温，最低温，天气，风向”；（2）在data.csv文件中增加“平均温度”一列，其中：平均温度=（最高温+最低温）/2；（3）统计并输出data.csv文件中平均气温在20-26°的总天数；（4）统计这一年中，多云、晴天、雨天、阴天的天数（可以自选标准，如阴/多云,可以当作阴天），使用matplotlib库将各类天气的天数制作饼图并保存；（5）统计并输出这一列中每个月的最高气温和最低气温；（6）选取这一年中的某个季度，使用Matplotlib库绘制并保存最高温和最低温的走势图

37,719

社区成员

34,239

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

试试用AI创作助手写篇文章吧

+ 用AI写文章