求助 用python批量爬取excel里的公司年报

s_727 2019-12-03 03:59:40
python小白,在网上看了很多脚本,但是都运行有bug。
想批量下载excel里的公司近几年年报~
...全文
525 12 打赏 收藏 转发到动态 举报
写回复
用AI写文章
12 条回复
切换为时间正序
请发表友善的回复…
发表回复
肆水東澤 2019-12-05
  • 打赏
  • 举报
回复
引用 11 楼 syl_222 的回复:
[quote=引用 10 楼 肆水崬流 的回复:]
你就是要读取excel这里面信息是吗?然后怎么输出?保存成什么?

我的大概思路是读取excel里面的公司代码,利用公司代码查询年报地址,再循环下载地址进行下载。年报一般都是pdf,文件就保存这个格式就可以。[/quote]
你以后叙述问题,要描述清楚,你有的excel种,有公司的相关信息,但没有公司年报,公司年报需要根据公司信息在网上查询,然后下载公司的年报。那你就得读取excel中公司信息,然后找到可以下载公司年报的网站,下载pdf
s_727 2019-12-05
  • 打赏
  • 举报
回复
引用 10 楼 肆水崬流 的回复:
你就是要读取excel这里面信息是吗?然后怎么输出?保存成什么?

我的大概思路是读取excel里面的公司代码,利用公司代码查询年报地址,再循环下载地址进行下载。年报一般都是pdf,文件就保存这个格式就可以。
肆水東澤 2019-12-04
  • 打赏
  • 举报
回复
引用 5 楼 syl_222 的回复:
[quote=引用 2 楼 肆水崬流 的回复:]
你得先有目标网址,分析网页,找到下载excel节点,下载文件。一般使用requests库,请求网页,找到下载节点,获取下载链接,使用requests.get根据下载链接下载文件就行了。复杂的网页,使用selenium+lxml+requests


就是这一部分的分析我不太知道怎么写,请问可以举个例子吗[/quote]
你excel从网站下载?还是就是读取excel中的公司年报信息?
s_727 2019-12-04
  • 打赏
  • 举报
回复
引用 2 楼 肆水崬流 的回复:
你得先有目标网址,分析网页,找到下载excel节点,下载文件。一般使用requests库,请求网页,找到下载节点,获取下载链接,使用requests.get根据下载链接下载文件就行了。复杂的网页,使用selenium+lxml+requests


就是这一部分的分析我不太知道怎么写,请问可以举个例子吗
s_727 2019-12-04
  • 打赏
  • 举报
回复
我将excel文件保存成立csv格式,已经成功读取了,但是怎么拼接url下载底子不太懂
肆水東澤 2019-12-04
  • 打赏
  • 举报
回复
你就是要读取excel这里面信息是吗?然后怎么输出?保存成什么?
s_727 2019-12-04
  • 打赏
  • 举报
回复
引用 8 楼 肆水崬流 的回复:
[quote=引用 7 楼 syl_222 的回复:]
[quote=引用 6 楼 肆水崬流 的回复:]
[quote=引用 5 楼 syl_222 的回复:]
[quote=引用 2 楼 肆水崬流 的回复:]
你得先有目标网址,分析网页,找到下载excel节点,下载文件。一般使用requests库,请求网页,找到下载节点,获取下载链接,使用requests.get根据下载链接下载文件就行了。复杂的网页,使用selenium+lxml+requests


就是这一部分的分析我不太知道怎么写,请问可以举个例子吗[/quote]
你excel从网站下载?还是就是读取excel中的公司年报信息?[/quote]

是下载excel里面的公司年报,excel公司是给定的[/quote]
下载excel里的?公司年报?你excel已经有了,就是读取excel中内容了,读写excel用openpyxl,你把excel中要的东西截图一下发上来[/quote]
部分内容是这样的
肆水東澤 2019-12-04
  • 打赏
  • 举报
回复
引用 7 楼 syl_222 的回复:
[quote=引用 6 楼 肆水崬流 的回复:]
[quote=引用 5 楼 syl_222 的回复:]
[quote=引用 2 楼 肆水崬流 的回复:]
你得先有目标网址,分析网页,找到下载excel节点,下载文件。一般使用requests库,请求网页,找到下载节点,获取下载链接,使用requests.get根据下载链接下载文件就行了。复杂的网页,使用selenium+lxml+requests


就是这一部分的分析我不太知道怎么写,请问可以举个例子吗[/quote]
你excel从网站下载?还是就是读取excel中的公司年报信息?[/quote]

是下载excel里面的公司年报,excel公司是给定的[/quote]
下载excel里的?公司年报?你excel已经有了,就是读取excel中内容了,读写excel用openpyxl,你把excel中要的东西截图一下发上来
s_727 2019-12-04
  • 打赏
  • 举报
回复
引用 6 楼 肆水崬流 的回复:
[quote=引用 5 楼 syl_222 的回复:]
[quote=引用 2 楼 肆水崬流 的回复:]
你得先有目标网址,分析网页,找到下载excel节点,下载文件。一般使用requests库,请求网页,找到下载节点,获取下载链接,使用requests.get根据下载链接下载文件就行了。复杂的网页,使用selenium+lxml+requests


就是这一部分的分析我不太知道怎么写,请问可以举个例子吗[/quote]
你excel从网站下载?还是就是读取excel中的公司年报信息?[/quote]

是下载excel里面的公司年报,excel公司是给定的
KBoEr 2019-12-03
  • 打赏
  • 举报
回复
基本流程:模拟登陆,登陆以后获取到登录的cookies,然后使用该cookies抓取excel
肆水東澤 2019-12-03
  • 打赏
  • 举报
回复
你得先有目标网址,分析网页,找到下载excel节点,下载文件。一般使用requests库,请求网页,找到下载节点,获取下载链接,使用requests.get根据下载链接下载文件就行了。复杂的网页,使用selenium+lxml+requests
weiweixiao995 2019-12-03
  • 打赏
  • 举报
回复
https://www.cnblogs.com/insane-Mr-Li/p/9092619.html 看看这个

37,720

社区成员

发帖
与我相关
我的任务
社区描述
JavaScript,VBScript,AngleScript,ActionScript,Shell,Perl,Ruby,Lua,Tcl,Scala,MaxScript 等脚本语言交流。
社区管理员
  • 脚本语言(Perl/Python)社区
  • IT.BOB
加入社区
  • 近7日
  • 近30日
  • 至今

试试用AI创作助手写篇文章吧