求助用python批量爬取excel里的公司年报

s_727 2019-12-03 03:59:40

python小白，在网上看了很多脚本，但是都运行有bug。
想批量下载excel里的公司近几年年报~

...全文

525 12 打赏收藏转发到动态举报

写回复

用AI写文章

12 条回复

切换为时间正序

请发表友善的回复…

发表回复

肆水東澤 2019-12-05

打赏
举报

引用 11 楼 syl_222 的回复:

[quote=引用 10 楼肆水崬流的回复:]
你就是要读取excel这里面信息是吗？然后怎么输出？保存成什么？

我的大概思路是读取excel里面的公司代码，利用公司代码查询年报地址，再循环下载地址进行下载。年报一般都是pdf，文件就保存这个格式就可以。[/quote]
你以后叙述问题，要描述清楚，你有的excel种，有公司的相关信息，但没有公司年报，公司年报需要根据公司信息在网上查询，然后下载公司的年报。那你就得读取excel中公司信息，然后找到可以下载公司年报的网站，下载pdf

s_727 2019-12-05

打赏
举报

引用 10 楼肆水崬流的回复:

你就是要读取excel这里面信息是吗？然后怎么输出？保存成什么？

我的大概思路是读取excel里面的公司代码，利用公司代码查询年报地址，再循环下载地址进行下载。年报一般都是pdf，文件就保存这个格式就可以。

肆水東澤 2019-12-04

打赏
举报

引用 5 楼 syl_222 的回复:

[quote=引用 2 楼肆水崬流的回复:]
你得先有目标网址，分析网页，找到下载excel节点，下载文件。一般使用requests库，请求网页，找到下载节点，获取下载链接，使用requests.get根据下载链接下载文件就行了。复杂的网页，使用selenium+lxml+requests

就是这一部分的分析我不太知道怎么写，请问可以举个例子吗[/quote]
你excel从网站下载？还是就是读取excel中的公司年报信息？

s_727 2019-12-04

打赏
举报

引用 2 楼肆水崬流的回复:

你得先有目标网址，分析网页，找到下载excel节点，下载文件。一般使用requests库，请求网页，找到下载节点，获取下载链接，使用requests.get根据下载链接下载文件就行了。复杂的网页，使用selenium+lxml+requests

就是这一部分的分析我不太知道怎么写，请问可以举个例子吗

s_727 2019-12-04

打赏
举报

我将excel文件保存成立csv格式，已经成功读取了，但是怎么拼接url下载底子不太懂

肆水東澤 2019-12-04

打赏
举报

你就是要读取excel这里面信息是吗？然后怎么输出？保存成什么？

s_727 2019-12-04

打赏
举报

引用 8 楼肆水崬流的回复:

[quote=引用 7 楼 syl_222 的回复:]
[quote=引用 6 楼肆水崬流的回复:]
[quote=引用 5 楼 syl_222 的回复:]
[quote=引用 2 楼肆水崬流的回复:]
你得先有目标网址，分析网页，找到下载excel节点，下载文件。一般使用requests库，请求网页，找到下载节点，获取下载链接，使用requests.get根据下载链接下载文件就行了。复杂的网页，使用selenium+lxml+requests

就是这一部分的分析我不太知道怎么写，请问可以举个例子吗[/quote]
你excel从网站下载？还是就是读取excel中的公司年报信息？[/quote]

是下载excel里面的公司年报，excel公司是给定的[/quote]
下载excel里的？公司年报？你excel已经有了，就是读取excel中内容了，读写excel用openpyxl，你把excel中要的东西截图一下发上来[/quote]

部分内容是这样的

肆水東澤 2019-12-04

打赏
举报

引用 7 楼 syl_222 的回复:

[quote=引用 6 楼肆水崬流的回复:]
[quote=引用 5 楼 syl_222 的回复:]
[quote=引用 2 楼肆水崬流的回复:]
你得先有目标网址，分析网页，找到下载excel节点，下载文件。一般使用requests库，请求网页，找到下载节点，获取下载链接，使用requests.get根据下载链接下载文件就行了。复杂的网页，使用selenium+lxml+requests

s_727 2019-12-04

打赏
举报

引用 6 楼肆水崬流的回复:

[quote=引用 5 楼 syl_222 的回复:]
[quote=引用 2 楼肆水崬流的回复:]
你得先有目标网址，分析网页，找到下载excel节点，下载文件。一般使用requests库，请求网页，找到下载节点，获取下载链接，使用requests.get根据下载链接下载文件就行了。复杂的网页，使用selenium+lxml+requests

就是这一部分的分析我不太知道怎么写，请问可以举个例子吗[/quote]
你excel从网站下载？还是就是读取excel中的公司年报信息？[/quote]

是下载excel里面的公司年报，excel公司是给定的