怎么抓取网页异步加载的代码和静态文件？

backnet 2016-03-24 03:59:14

比如玩单机版的html5网页游戏
可以抓取到第一次加载的时候，页面上所有的请求的url把请求的内容下载下来
但是，玩游戏的中途，触发了某段js执行，这段js又去加载了图片或者css等，这样请求的资源怎么抓取
不能遗漏了每一个url

类似于htmlunit这样的东西，有好用的解决方案吗

...全文

313 2 打赏收藏转发到动态举报

写回复

2 条回复

切换为时间正序

请发表友善的回复…

发表回复

sinat_19363659 2016-05-30

打赏
举报

回复

问题解决了没，我也有同样的问题，谢谢

backnet 2016-03-24

打赏
举报

回复

什么编程语言都可以，只要可以实现我的需求

网站扒站工具，可以通过该软件把指定的网站全站的html和css等资源全部拔下，通过cms等系统快速的建立自己的网站仿站风格。很好很强大啊！

很多网页数据是通过异步加载的方式加载，通过jsoup获取数据只能获取静态数据.如果需要获取异步加载后的数据，这时候就需要htmlunit 了。话不多说，直接看代码！maven 配置：commons-loggingcommons-logging1.2org.jsoupjsoup1.10.2net.sourceforge.htmlunithtmlunit2.25也可以直接打包下载：https://do...

文章目录问题描述分析网页1.判断网页加载方式２.判断网页是否为异步加载３.判断网页请求方式解决方案问题描述我想输入一个关键词，获取简书搜索界面的每一页中每一篇文章的url链接。分析网页 1.判断网页加载方式 1）右键查看源代码，发现想要的数据不在源代码里，初步判断网页没那么简单。 2）Google Chorme，f12进入控制台后f5刷新，找到Doc选项，预览第一个包的加载页面，发现只是加...

首先导入爬虫所需的库。requests库是一个常用的HTTP请求库，用于向网站发送请求并获取响应。可以使用该库设置请求头（Headers），并获取页面内容。lxml是Python中另一个常用的XML和HTML解析库。它提供了高效且灵活的解析器，用于处理XML和HTML文档。lxml的解析速度非常快，并且支持XPath和CSS选择器，使得数据提取和定位元素变得更加简单和方便。简而言之，requests库用于得到网页的页面内容，lxml库用于提取我们需要的数据。import csv。

为了便利化使用selenium驱动浏览器进行操作，遇到一个网页，大部分内容都是通过xhr请求后再通过前端js处理显示，带来的一个问题就是，采用显示等待无法准确的定位到需要的节点。因此，需要考虑采用判断xhr请求是否完成后再进行定位，或者直接获取xhr请求返回内容的做法。

81,113

社区成员

341,727

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章