如何爬取所需的网页数据?

LeaderTech_NJ 2017-09-22 04:32:54

目标链接如下:
http://quote.morningstar.ca/Quicktakes/Financials/is.aspx?t=TSCO®ion=USA&culture=en-CA&ops=clear

需要获取的数据内容如下图所示:

最终希望返回的结果:Dictionary<DateTime,Decimal>形式
如:<2012-12-1, 146>,<2013-12-1,142>

目前现有思路：
通过WebClient获取目标网页源码String类型，然后解析，并获取所需信息。

这种思路一定可行，但是开发过程比较低效。请教大神，是否有开源的信息爬取框架能够解决类似的问题？

...全文

948 5 打赏收藏转发到动态举报

写回复

5 条回复

切换为时间正序

请发表友善的回复…

发表回复

玄晶软件 2021-06-17

打赏
举报

回复 1

可以用八爪鱼采集器，只要三步，轻松采集到数据

全栈极简 2017-09-24

打赏
举报

回复

同意3#，通过httpwebrequest获取到数据后，解析json即可。 http://www.cnblogs.com/guwei4037/p/6835294.html http://www.cnblogs.com/guwei4037/p/3499184.html

needfreedoms 2017-09-23

打赏
举报

回复

用浏览器的开发人员工具先查找你要的数据然后下载下来字符串操作就行了 http://financials.morningstar.com/ajax/ReportProcess4HtmlAjax.html?t=XNAS:TSCO®ion=USA&culture=en_ca&productCode=CAN&reportType=is&period=12&dataType=A&order=asc&columnYear=5&curYearPart=1st5year&rounding=3&view=raw&r=829605&callback=jsonp1506178856325&_=1506178856357 这个是数据

闭包客 2017-09-22

打赏
举报

回复

使用一个 html 解析器，可以节省分析 html 的时间： http://blog.csdn.net/closurer/article/details/73466685 这里有和 WebClient 搭配使用的例子： http://bibaoke.com/post/77 前面有人说到，这个网页的数据是异步加载的，这种需要和 WebBrowser 搭配使用： http://bibaoke.com/post/78 你也可以使用 phantomjs、selenium 这些业界的流行方案。

shoppo0505 2017-09-22

打赏
举报

回复

看了下,这个网页的source 屏蔽掉了你要的内容,就是抓下网页也没用. 试下别的网站吧. 如果谁解决内容屏蔽问题,我也很乐意听听.

用python做的爬取网页的实例，基于beautifulsoup技术，可能会需要导入相关的包，matplotlib所需的numpy和scipy在这个网址可以下载http://www.lfd.uci.edu/~gohlke/pythonlibs/#matplotlib

基于urllib实现非自动爬取163邮箱 1、从网页或者Fiddler拿到所需数据,如header、cookie、postdata等 2、编写代码发送post请求抓取数据获取sid码 3、通过cookie与sid组合登录邮箱，爬取收件箱目录及地址 4、通过收件箱目录及地址爬取邮件相关内容 5、正则匹配输出到本地，Finish

本视频课程主要培训Python爬虫入门，数据分析及数据可视化实战内容，通过本课的学习，您可以在2小时左右掌握Python基础编程的核心内容，实现Python在爬虫、数据分析，及数据可视化等操作，各位同学在掌握了Python后，可以选择Python的其中一个方向进行深入研究，不管对于自身升职找工作，还是对于自身IT专业能力的提升，都是非常有帮助的。刘宇宙，《Python3.5从零开始学》、《Python3.7从零开始学》一书作者。目前主要担任大数据人工智能后台技术负责，负责人工智能项目落地，目前已落地计算机视觉中的以图搜图、侵权图片检测、智能广告、实时推荐、销量预测等项目。先后从事过卡系统研发，云计算中IAAS的研发，大数据研发，物联网研发，网络爬虫研发。

Python爬虫是一种自动化获取网页数据的技术，它可以用于爬取网站上的文本、图片、视频等内容。在爬取古诗文网的数据时，我们可以使用Python的requests库来发送HTTP请求，获取网页内容；使用BeautifulSoup库来解析HTML文档，提取所需的数据。

前言本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理。一、什么是动态网页所谓的动态网页，是指跟静态网页相对的一种网页编程技术。静态网页，随着html代码的生成，页面的内容和显示效果就基本上不会发生变化了——除非你修改页面代码。而动态网页则不然，页面代码虽然没有变，但是显示的内容却是可以随着时间、环境或者数据库操作的结果而发生改变的。——来源百度百科动态网页具有减少工作量、内容更新快、可完成功能多等特点，被很多公司所采用，比如狗东、某

110,568

社区成员

642,567

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

让您成为最强悍的C#开发者

试试用AI创作助手写篇文章吧

+ 用AI写文章