爬取腾讯新闻自媒体时候,抓不到包,采集不到数据,请问有什么好办法

负刀入梦里 2018-08-02 05:48:22

以这个链接为例:
https://view.inews.qq.com/media/9408862
我想访问的网页格式是:
https://view.inews.qq.com/media/ +数字
在进行采集中发现,用fiddler和浏览器抓不到想要的数据,这个网页有用的源码很少,请问有什么办法可以采集这种网页吗?
能不能解释一下相关源码的作用,我看了一堆网页相关css 和js,感觉好像全是加密算法
应该可以用selenium模拟抓取,但是这样太慢了..

...全文

1089 4 打赏收藏转发到动态举报

写回复

4 条回复

切换为时间正序

请发表友善的回复…

发表回复

负刀入梦里 2018-08-04

打赏
举报

回复

====人工置顶====

负刀入梦里 2018-08-03

打赏
举报

回复

引用 1 楼 f091542356 的回复:

用selenium虽然慢，但一直放在那让它自己采集不就好了吗？

1千两百万网页....我用scrapy直接访问都嫌慢...而且要定期更新一次.....听说这种加密js代码可以通过运行js来得到想要的数据,大神了解过这方面的知识吗

负刀入梦里 2018-08-03

打赏
举报

回复

====人工置顶====

Jian_openwrt 2018-08-02

打赏
举报

回复

用selenium虽然慢，但一直放在那让它自己采集不就好了吗？

本文介绍了一个基于Python的新闻采集与订阅平台的设计与实现。平台通过Scrapy实现多源新闻爬取，利用Django搭建后端服务，结合Vue实现前端交互，支持个性化订阅、智能推荐和内容聚合。系统具备新闻分类、检索、用户行为分析、内容可信度评估等功能，旨在解决信息过载、个性化不足和内容可信度低等问题，提升用户新闻获取效率。

针对恶意爬虫Bot程序带来的信息泄露、业务风险等问题，腾讯云网站管家WAF采用AI引擎进行精准检测，温和管理而非直接杜绝，有效保护业务运营安全。

本文深入探讨了今日头条作为一款个性化新闻推荐引擎的核心功能、用户行为、盈利模式及SWOT分析，包括其在新闻类APP市场上的定位、竞争优势与挑战。

本文介绍如何利用OpenClaw框架集成腾讯IMA知识库，实现自动化网页爬取、内容采集与结构化存储。通过配置Skill和API，OpenClaw可定时抓取指定网站（如新浪财经、推特）的AI或财经资讯，并存入IMA进行检索、问答与报告生成。文中强调安全机制、多角色龙虾Agent设计及与Obsidian/Notion/数据库等平台的扩展对接能力，体现其作为个人智能中枢在知识管理与RPA场景中的核心价值。

本文介绍了一个利用Python技术抓取并分析互联网上关于京杭大运河相关信息的过程。作者通过爬取百度搜索结果页面，使用PhantomJS解决加密链接问题，最终收集大量文本数据，并进行了词频分析。

37,738

社区成员

34,210

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

试试用AI创作助手写篇文章吧

+ 用AI写文章