社区
脚本语言
帖子详情
请教一个爬虫的问题
sjcmhx8w8e
2021-04-03 11:12:48
如果用chrome浏览器检查源代码是:<a target="_blank" href="/finalpage/2021-04-03/1209638861.PDF">
如果用request请求页面用response打印出来的源代码是:<a target="_blank" :href="pdfUrl">
求教各位大牛怎么能抓取href的数据?
...全文
125
2
打赏
收藏
请教一个爬虫的问题
如果用chrome浏览器检查源代码是: 如果用request请求页面用response打印出来的源代码是: 求教各位大牛怎么能抓取href的数据?
复制链接
扫一扫
分享
转发到动态
举报
写回复
配置赞助广告
用AI写文章
2 条
回复
切换为时间正序
请发表友善的回复…
发表回复
打赏红包
sjcmhx8w8e
2021-04-06
打赏
举报
回复
谢谢,我用的是selenium
放风喽
2021-04-06
打赏
举报
回复
异步加载的 数据,用selenium,或者找到后端接口。
盘点
一个
selenium网络
爬虫
问题
本文讨论了Python
爬虫
在使用Selenium时遇到的数据量不稳定
问题
,通过社区交流,发现可采用Requests替代,简化代码并提高效率。文中详细记录了
问题
的解决过程及优化建议。
盘点
一个
Python网络
爬虫
问题
文章讲述了在Python中使用requests库进行网络
爬虫
时遇到的
问题
,具体是POST请求缺少headers参数,特别是origin字段,导致数据无法正确获取。通过群内讨论,成员提供了解决方案,添加了必要的headers和cookies,成功解析了返回的JSON数据。
盘点
一个
Python网络
爬虫
抓取股票代码
问题
(上篇)
文章介绍了在Python网络
爬虫
中遇到的
一个
问题
,即如何通过设置正确的headers和cookies来成功获取网页数据。通过分享代码示例,展示了如何设置这些参数以解决无法获取数据的
问题
,并强调了解决
问题
的多种方法。,
盘点
一个
Python网络
爬虫
过程中Xpath提取器的
问题
文章介绍了在Python网络
爬虫
中遇到的
一个
问题
,即在提取表格内容时误提取到页码信息。通过两种解决方案进行了解答:一是使用`pd.read_html`读取表格并删除多余行;二是利用xpath方法结合匿名函数清理无效字符。作者感谢了提供思路和代码的社区成员,并鼓励读者在学习中遇到
问题
积极交流。,
盘点
一个
Python网络
爬虫
过验证码的
问题
(方法二)
文章介绍了Python网络
爬虫
处理验证码的两种方法。一种是直接请求图片URL进行识别,另一种是根据图片标签定位并优化代码,避免依赖特定位置。作者鼓励读者实践并提供了解决
问题
的思路和资源。,
脚本语言
37,740
社区成员
34,211
社区内容
发帖
与我相关
我的任务
脚本语言
JavaScript,VBScript,AngleScript,ActionScript,Shell,Perl,Ruby,Lua,Tcl,Scala,MaxScript 等脚本语言交流。
复制链接
扫一扫
分享
社区描述
JavaScript,VBScript,AngleScript,ActionScript,Shell,Perl,Ruby,Lua,Tcl,Scala,MaxScript 等脚本语言交流。
社区管理员
加入社区
获取链接或二维码
近7日
近30日
至今
加载中
查看更多榜单
试试用AI创作助手写篇文章吧
+ 用AI写文章