社区
脚本语言
帖子详情
Scrapy爬虫:知乎个人动态页面的URL怎么处理才能模拟鼠标滚动获得更多的动态
lkangkang
2018-02-28 10:19:53
首次载入的页面不在XHR里面,之后用鼠标滚动URL中含有每滚动一次最后一个项目的id,这样的URL怎么处理。例如,刚进去页面会刷出来8个项目,第八个id为123456,那么下一次请求的URL就是...&limit=8&after_id=123456
...全文
1143
2
打赏
收藏
Scrapy爬虫:知乎个人动态页面的URL怎么处理才能模拟鼠标滚动获得更多的动态
首次载入的页面不在XHR里面,之后用鼠标滚动URL中含有每滚动一次最后一个项目的id,这样的URL怎么处理。例如,刚进去页面会刷出来8个项目,第八个id为123456,那么下一次请求的URL就是...&limit=8&after_id=123456
复制链接
扫一扫
分享
转发到动态
举报
写回复
配置赞助广告
用AI写文章
2 条
回复
切换为时间正序
请发表友善的回复…
发表回复
打赏红包
python_T
2018-03-10
打赏
举报
回复
selenium+无头浏览器。
虾米馅煎包
2018-03-02
打赏
举报
回复
用浏览器驱动模拟JS,实现动态加载。
Selenium
爬虫
实战:从
动态
页面
采集到反爬对抗的完整指南
本文系统讲解Selenium在
动态
页面
数据采集中的核心应用,涵盖环境搭建、浏览器反检测配置、显式等待策略、八大元素定位法、iframe/弹窗
处理
、无头模式优化、代理与UA轮换、人类行为
模拟
、并行化设计等关键技术。重点剖析JS渲染页、登录态维持、滑块验证码绕过等典型场景,并强调Robots协议遵守、请求频率控制及数据使用伦理等合规实践。
Selenium无头浏览器
爬虫
实战:从PhantomJS到
动态
页面
数据抓取
本文深入解析Selenium驱动无头浏览器(PhantomJS及现代Chrome/Firefox无头模式)抓取
动态
渲染
页面
的核心流程,涵盖环境配置、WebDriver通信机制、隐式/显式等待策略、JavaScript执行、元素定位与lxml/BeautifulSoup解析,以及反反爬应对、错误
处理
和资源管理等关键技术点,强调浏览器自动化
爬虫
的底层逻辑与工程实践规范。
GPT-Crawler实战:大模型赋能智能
爬虫
,高效解析非结构化数据
本文系统阐述GPT-Crawler技术架构,即融合大语言模型(LLM)与网络
爬虫
的新型数据解析范式。重点解析其解决传统
爬虫
在
动态
页面
解析、非结构化文本语义理解及规则维护方面的瓶颈;详述Playwright/
Scrapy
等
爬虫
框架与GLM/GPT等LLM API的协同集成方案;涵盖提示工程设计、在线/后
处理
两种模式、成本控制策略(批
处理
、缓存、模型分级)及生产级优化(分布式爬取、API调用容错、伦理合规)。核心技术聚焦于LLM驱动的结构化信息抽取。
现代反
爬虫
机制全解析:从基础请求到行为指纹的攻防策略
本文系统解析现代反
爬虫
机制的三层防御体系:协议规范层、基础技术校验层及高级行为分析与
动态
渲染层。重点阐述浏览器指纹(Canvas/WebGL/字体/时区等)和用户行为指纹(
鼠标
轨迹、点击延迟、
滚动
模式、请求时序)的检测原理,并给出对应的技术应对策略,包括请求头
模拟
、代理池管理、无头浏览器反检测、行为随机化及分布式低频爬取。强调在合法合规前提下提升
爬虫
健壮性。
Selenium
动态
网页
爬虫
实战:从环境搭建到反反爬策略
本文详解使用Selenium搭配无头Chrome进行
动态
网页爬取的完整流程,涵盖环境搭建(含ChromeDriver自动管理)、电商列表页
滚动
加载实战、显式等待机制、反反爬策略(WebDriver指纹隐藏、行为随机化)及性能优化(禁用资源、并发控制)。重点强调DOM
动态
渲染场景下Selenium不可替代性,以及与requests等静态工具的协同使用边界。
脚本语言
37,739
社区成员
34,211
社区内容
发帖
与我相关
我的任务
脚本语言
JavaScript,VBScript,AngleScript,ActionScript,Shell,Perl,Ruby,Lua,Tcl,Scala,MaxScript 等脚本语言交流。
复制链接
扫一扫
分享
社区描述
JavaScript,VBScript,AngleScript,ActionScript,Shell,Perl,Ruby,Lua,Tcl,Scala,MaxScript 等脚本语言交流。
社区管理员
加入社区
获取链接或二维码
近7日
近30日
至今
加载中
查看更多榜单
试试用AI创作助手写篇文章吧
+ 用AI写文章