怎样爬取网页上的用JS显示出来的数据

struts_hibernate_sp 2013-12-19 10:32:20

求助各位大神，我在用jsoup爬去网页数据的时候，发现有些网页上的数据并不是直接显示在源码中，而是通过JS的函数显示的，请问我该怎么抓取这些数据呢？请各位大虾指点，最好有代码示例哈，谢谢谢谢谢谢！！！！！！！！

...全文

703 9 打赏收藏转发到动态举报

写回复

用AI写文章

9 条回复

切换为时间正序

请发表友善的回复…

发表回复

风卷残云222 2015-10-16

打赏
举报

。。。。我来挖坟，楼主问题解决了吗，偶也遇到相同的问题

ysj_csdn 2015-04-13

打赏
举报

楼主的问题解决了吗？我遇到同样的问题，能否给予指点呢

张运领 2013-12-19

打赏
举报

话说，听说，爬虫好像是爬不到动态加载的数据的。

打字员 2013-12-19

打赏
举报

JS修改頁面，如果數據來源就是頁面上的一個數組對象撒的，那你乍搞如果來源是ajax，frame，首先是跨域，即使你有了數據，會怎麼操作數據得到最后的結果，你也不知道所以如果LZ是對某個網站或某些有共同點的網站專門寫程序，那還有可能，想真做得通用不現實。

tony4geek 2013-12-19

打赏
举报

模拟请求呢。

struts_hibernate_sp 2013-12-19

打赏
举报

嗯，谢谢你哈！！

张运领 2013-12-19

打赏
举报

其实，我没有写过爬虫，也没有用过，看的一些前端开发方面的文章有这么提过一句说是：重要的内容不要使用js动态加载，那么会导致搜索引擎的蜘蛛无法抓取到，这样网页被搜索引擎收录的概率就会小了。具体的我也不懂，不知道有没有其他的办法，帮不了你的。

struts_hibernate_sp 2013-12-19

打赏
举报

......难道你就没办法了么，，，，，，

这几天在家闲得无聊，意外的挖掘到了一个资源网站（你懂得），但是网速慢广告多下载不了种种原因让我突然萌生了爬虫的想法。下面说说流程：一、网站分析首先进入网站，F12检查，本来以为这种低端网站很好爬取，是我太低估了web主。可以看到我刷新网页之后，出现了很多js文件，并且响应获取的代码与源代码不一样，这就不难猜到这个网站是动态加载页面。目前我知道的动态网页爬取的方法只有这两种：1、从网页响应中找到JS脚本返回的JSON数据；2、使用Selenium对网页进行模拟访问。源代码问题好解决，重要的是我获取的源代码中有没有我需要的东西。我再一次进入网站进行F12检查源代码，点击左上角然后在页面

在讲爬取淘宝详情页数据之前，先来介绍一款 Chrome 插件：Toggle JavaScript (它可以选择让网页是否显示 js 动态加载的内容)，如下图所示：当这个插件处于关闭状态时，待爬取的页面显示的数据如下: 当这个插件处于打开状态时，待爬取的页面显示的数据如下: 可以看到，页面上很多数据都不显示了，比如商品价格变成了划线价格，而且累计评论也变成了0，说明这些数据都是动态加载的，以下演示真实价格的找法(评论内容找法类似)，首先检查页面元素，然后点击Network选项卡，刷新页面，可以看到很多动态加载的数据，在里面找到包含商品价格的链接(可以使用Ctrl+f查找)，如下图所示

本课程主要给大家分享基于Python语言的网络爬虫各种工具的使用和实战案例，涉及的知识点requests爬虫库，Python正则表达式，xpath的使用，selenium的使用，进程线程协程，scrapy框架的使用。本课程还有超多的实战，百度,微博,今日头条，网易，boss直聘，豆瓣等网站的爬取，以及用scrapy框架爬取全网数据本教程是由IT兄弟连知名讲师姚青林老师讲解，姚老师讲课非常由代入感，很容易听懂，深受学员的喜爱！这些实战教程肯定会对你的面试加分，让你在面试中脱颖而出！

基于Python的南京二手房数据采集及可视化分析 1 内容简介首先通过爬虫采集链家网上所有南京二手房的房源数据，并对采集到的数据进行清洗；然后，对清洗后的数据进行可视化分析，探索隐藏在大量数据背后的规律；最后，采用一个聚类算法对所有二手房数据进行聚类分析，并根据聚类分析的结果，将这些房源大致分类，以对所有数据的概括总结。通过上述分析，我们可以了解到目前市面上二手房各项基本特征及房源分布情况，帮助我们进行购房决策。 2 应用技术介绍 1）Python网络爬虫技术 Requests Beautifulsoup 2）Python数据分析技术 Numpy Matplotlib Pandas 3）k-means聚类算法 4）高德地图开发者应用JS API 3 数据采集及数据清洗 3.1 数据采集该部分通过网络爬虫程序抓取链家网上所有南京二手房的数据，收集原始数据，作为整个数据分析的基石。 3.1.1 链家网网站结构分析链家网二手房主页界面如图1、图2，主页上面红色方框位置显示目前南京二手房在售房源的各区域位置名称，中间红色方框位置显示了房源的总数量，下面红色方框显示了二手房房

资源包含文件：设计报告word+源码该项目共分为两个大的模块：数据爬取部分和数据 flask 框架网页展示部分。数据 flask 框架展示部分：主要使用到了 flask、jQuery、echarts、CSS 技术来将数据合理美观的展示在网页中，实现了项目需求分析的要求，该部分的 flask 框架并不难掌握，重点是使用模版来响应 HTML 格式的网页信息；对于 jQuery(js)部分，比较复杂，需要 AJAX 获取爬取到的信息以及对数据进行动态处理，还要处理页面中图像、单选按钮的点击事件以及 focus 事件，同时在 jQuery 部分还有修改 HTML 的 CSS 样式，使得页面流畅美观；这里选择 echarts 开源工具将数据渲染到网页中，并通过设置不同的 option 来设置不同效果的图表，进而可以通过柱状图详细动态的展示数据，也可以通过总览图显示所有数据的整体状况。详细介绍参考：https://biyezuopin.blog.csdn.net/article/details/123560070?spm=1001.2014.3001.5502

JavaScript

87,910

社区成员

224,616

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章