Scrapy爬虫：知乎个人动态页面的URL怎么处理才能模拟鼠标滚动获得更多的动态

lkangkang 2018-02-28 10:19:53

首次载入的页面不在XHR里面，之后用鼠标滚动URL中含有每滚动一次最后一个项目的id，这样的URL怎么处理。例如，刚进去页面会刷出来8个项目，第八个id为123456，那么下一次请求的URL就是...&limit=8&after_id=123456

...全文

1143 2 打赏收藏转发到动态举报

写回复

2 条回复

切换为时间正序

请发表友善的回复…

发表回复

python_T 2018-03-10

打赏
举报

回复

selenium+无头浏览器。

虾米馅煎包 2018-03-02

打赏
举报

回复

用浏览器驱动模拟JS，实现动态加载。

本文系统讲解Selenium在动态页面数据采集中的核心应用，涵盖环境搭建、浏览器反检测配置、显式等待策略、八大元素定位法、iframe/弹窗处理、无头模式优化、代理与UA轮换、人类行为模拟、并行化设计等关键技术。重点剖析JS渲染页、登录态维持、滑块验证码绕过等典型场景，并强调Robots协议遵守、请求频率控制及数据使用伦理等合规实践。

本文深入解析Selenium驱动无头浏览器（PhantomJS及现代Chrome/Firefox无头模式）抓取动态渲染页面的核心流程，涵盖环境配置、WebDriver通信机制、隐式/显式等待策略、JavaScript执行、元素定位与lxml/BeautifulSoup解析，以及反反爬应对、错误处理和资源管理等关键技术点，强调浏览器自动化爬虫的底层逻辑与工程实践规范。

本文系统阐述GPT-Crawler技术架构，即融合大语言模型（LLM）与网络爬虫的新型数据解析范式。重点解析其解决传统爬虫在动态页面解析、非结构化文本语义理解及规则维护方面的瓶颈；详述Playwright/Scrapy等爬虫框架与GLM/GPT等LLM API的协同集成方案；涵盖提示工程设计、在线/后处理两种模式、成本控制策略（批处理、缓存、模型分级）及生产级优化（分布式爬取、API调用容错、伦理合规）。核心技术聚焦于LLM驱动的结构化信息抽取。

本文系统解析现代反爬虫机制的三层防御体系：协议规范层、基础技术校验层及高级行为分析与动态渲染层。重点阐述浏览器指纹（Canvas/WebGL/字体/时区等）和用户行为指纹（鼠标轨迹、点击延迟、滚动模式、请求时序）的检测原理，并给出对应的技术应对策略，包括请求头模拟、代理池管理、无头浏览器反检测、行为随机化及分布式低频爬取。强调在合法合规前提下提升爬虫健壮性。

本文详解使用Selenium搭配无头Chrome进行动态网页爬取的完整流程，涵盖环境搭建（含ChromeDriver自动管理）、电商列表页滚动加载实战、显式等待机制、反反爬策略（WebDriver指纹隐藏、行为随机化）及性能优化（禁用资源、并发控制）。重点强调DOM动态渲染场景下Selenium不可替代性，以及与requests等静态工具的协同使用边界。

37,739

社区成员

34,211

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

试试用AI创作助手写篇文章吧

+ 用AI写文章