python爬取https网站时报错ssl版本问题无法导入url

羌俊恩社区创始人

优质创作者: 运维技术领域

领域专家: 操作系统技术领域

2023-11-10 18:04:14

一、问题描述

某次python脚本爬取某网站https地址时，程序运行报错：ImportError: urllib3 v2.0 only supports OpenSSL 1.1.1+, currently the 'ssl' module is compiled with 'OpenSSL 1.1.0h 27 Mar 2018'. See: https://github.com/urllib3/urllib3/issues/2168

二、处理

Python urllib 库用于操作网页 URL，并对网页的内容进行抓取处理。上述报错是因为当前的urllib3中的版本与请求所需的不匹配，当前版本过低，需要升级，执行如下安装即可：

pip3 install urllib3==1.26.15 -i https://pypi.tuna.tsinghua.edu.cn/simple

urllib 包包含了以下几个模块：

urllib.request：打开和读取 URL。
urllib.error：包含 urllib.request 抛出的异常。
urllib.parse：解析 URL。
urllib.robotparser：解析 robots.txt 文件。

各子模块用法如下：

另外，正如上文脚本中代码片段，还需要引入.request，我们抓取网页一般需要对 headers（网页头信息）进行模拟，否则网页很容易判定程序为爬虫，从而禁止访问。这时候需要使用到 urllib.request.Request 类：

urllib.request 定义了一些打开 URL 的函数和类，包含授权验证、重定向、浏览器 cookies等。另外还有一个常用方法，urlopen

urllib.request 可以模拟浏览器的一个请求发起过程。

...全文

645 回复打赏收藏转发到动态举报

写回复

用AI写文章

切换为时间正序

请发表友善的回复…

发表回复

◆ ◆ ◆ ◆由于爬虫涉及较多网络专用术语，而小咖也仅是单纯一金融民工，因此这里就直接将网络上对于这些关键术语的定义展示给大家，如果感兴趣大家可以自行深度学习，而小咖的Python系列将主要专注于各类python...

Python常见问题整理

本文提供了一份详细的Python自动化爬取全国行政区划GeoJSON数据的实战指南。通过解析阿里云DataV的数据接口，手把手教你编写健壮的爬虫脚本，自动获取并结构化存储省、市、区县三级地图数据，并演示如何将数据无缝...

urllib是 Python 内置的标准库，功能较为基础，适合对性能要求不高的场景。params = {适用场景：- 不需要第三方依赖的轻量级项目。- 对性能要求不高、请求量小的脚本。aiohttp是一个支持异步 I/O 的 HTTP 客户端/...

Python pip install如何修改默认下载路径pip动不动就下载数百M的文件。...输入：python -m siteC:\Users\hewei>python -m sitesys.path = ['C:\\Users\\xxx','D:\\Program Files\\Python37\\python37.zip'...

云享运维知识库

136,205

社区成员

231

社区内容

发帖

与我相关

我的任务

devops经验分享开源技术论坛（原bbs）北京·西城区

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

本社区：旨在推进运维云化知识库建设，为更多运维提供参考及经验交流；加入社区的同学，如果运维工作中遇到问题或最后得到解决，有劳凑空发帖，分享共建FAQ社区。

得到解决方案的同学，请积极为发帖的同学点赞、评论、能力范围内打赏激励。另外本社区采用游戏修仙角色作为鼓励，对不同贡献者授予对应“勋章”。

最后祝愿社区繁荣昌盛，此致敬礼！！！

试试用AI创作助手写篇文章吧

+ 用AI写文章