css反爬及应对1

isscollege 2023-01-13 12:00:07

课时名称	课时知识点
css反爬及应对1	css反爬及应对1

...全文

43 回复打赏收藏转发到动态举报

写回复

回复

切换为时间正序

请发表友善的回复…

发表回复

03反爬及总结

在爬虫中，字体反爬工具是一种常见的反爬手段，用于防止爬虫程序通过解析网页中的字体文件来获取真实的文本内容。字体反爬工具的原理是将网页中的文本内容使用特定的字体进行编码，然后通过CSS样式将编码后的文本显示在网页上。这样，即使爬虫程序成功获取到网页源代码，也无法直接解析出正确的文本内容。为了应对字体反爬工具，爬虫程序需要进行相应的处理。以下是一些常见的应对策略： 1. 字体映射表：爬虫程序可以通过分析网页中的CSS样式和字体文件，构建出字体映射表。字体映射表记录了字符编码与实际文本之间的对应关系，可以用于解码网页中的文本内容。 2. 字体文件下载：爬虫程序可以模拟浏览器行为，下载网页中使用的字体文件。然后通过解析字体文件，获取字符编码与实际文本之间的对应关系。 3. 字体替换：爬虫程序可以将网页中使用的字体文件替换为已知的字体文件，从而绕过字体反爬工具。这需要事先收集一些常见的字体文件，并将其保存在本地供爬虫程序使用。 4. OCR识别：如果以上方法都无法绕过字体反爬工具，爬虫程序可以使用OCR（光学字符识别）技术，将网页中的图片转换为文本。然后再对文本进行处理和分析。

点评网对数字做了处理，一些数字的信息像评论条数、人均、评分等都做了反爬保护。上面的网页中评论条数是1405条，但在页面源码中，除了第一个数字1以外，后面的数字我们看不到，都是一些像随机编码一样的css class。

python反反爬机制及示例代码.docx 主要涉及User-Agent检测、IP封锁、请求频率限制、验证码识别、动态加载内容、Cookie检测、页面结构变化、机器学习反爬虫，这8种常见反爬机制。并给出相应对策和实现代码。

### 基础知识 1. **Python爬虫简介**： - 爬虫是一种自动化程序，旨在浏览和提取网页数据。 - 常用库包括 `requests`（用于发送HTTP请求）和 `BeautifulSoup`（用于解析HTML）。 2. **HTTP请求方法**： - GET: 请求获取指定的资源。 - POST: 向服务器提交数据进行处理。 - 其他方法包括 PUT, DELETE, HEAD 等。 3. **HTML和CSS基础**： - 理解HTML标签、元素和属性。 - 理解CSS选择器，用于在HTML中定位元素。 ### 爬虫实例 1. **使用 requests 和 BeautifulSoup** ``` python复制代码import requests from bs4 import BeautifulSoup url = 'https://example.com' response = requests.get(url) soup = BeautifulSoup(response.

李秀忠的课程社区_NO_2

1

社区成员

119

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章