请教一个爬虫的问题

sjcmhx8w8e 2021-04-03 11:12:48

如果用chrome浏览器检查源代码是：<a target="_blank" href="/finalpage/2021-04-03/1209638861.PDF">
如果用request请求页面用response打印出来的源代码是：<a target="_blank" :href="pdfUrl">
求教各位大牛怎么能抓取href的数据？

...全文

125 2 打赏收藏转发到动态举报

写回复

2 条回复

切换为时间正序

请发表友善的回复…

发表回复

sjcmhx8w8e 2021-04-06

打赏
举报

回复

谢谢,我用的是selenium

放风喽 2021-04-06

打赏
举报

回复

异步加载的数据，用selenium，或者找到后端接口。

本文讨论了Python爬虫在使用Selenium时遇到的数据量不稳定问题，通过社区交流，发现可采用Requests替代，简化代码并提高效率。文中详细记录了问题的解决过程及优化建议。

文章讲述了在Python中使用requests库进行网络爬虫时遇到的问题，具体是POST请求缺少headers参数，特别是origin字段，导致数据无法正确获取。通过群内讨论，成员提供了解决方案，添加了必要的headers和cookies，成功解析了返回的JSON数据。

文章介绍了在Python网络爬虫中遇到的一个问题，即如何通过设置正确的headers和cookies来成功获取网页数据。通过分享代码示例，展示了如何设置这些参数以解决无法获取数据的问题，并强调了解决问题的多种方法。,

文章介绍了在Python网络爬虫中遇到的一个问题，即在提取表格内容时误提取到页码信息。通过两种解决方案进行了解答：一是使用`pd.read_html`读取表格并删除多余行；二是利用xpath方法结合匿名函数清理无效字符。作者感谢了提供思路和代码的社区成员，并鼓励读者在学习中遇到问题积极交流。,

文章介绍了Python网络爬虫处理验证码的两种方法。一种是直接请求图片URL进行识别，另一种是根据图片标签定位并优化代码，避免依赖特定位置。作者鼓励读者实践并提供了解决问题的思路和资源。,

37,740

社区成员

34,211

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

试试用AI创作助手写篇文章吧

+ 用AI写文章