小白求助，关于Python提取后缺失网址的问题

胖子学Python 2023-11-05 13:05:05

response = session.get(href, headers=headers, cookies=cookies).text
etree_detail = etree.HTML(response)
img_list = etree_detail.xpath('//div[@class="tuyiyi_body"]/p/img/@src')
img_list.insert(0, main_src)

# 发送GET请求并获取响应

# 将响应结果转换为ElementTree对象

# 使用XPath表达式提取指定class的div下的p标签中的img标签的src属性

# 将获取到的图片链接列表插入到img_list列表的首位，并添加默认的图片链接

现在的采集到的值是：images/202307/1689501370350679.jpg

缺少前面的网址：https://www.tuyiyi.com/

学习Python时间短，请问怎么才能把缺少的网址加进去，谢谢~

...全文

191 4 打赏收藏转发到动态举报

写回复

用AI写文章

4 条回复

切换为时间正序

请发表友善的回复…

发表回复

胖子学Python 2023-11-05

打赏
举报

谢谢老师，我按您的方法改了一下代码，成功了，但是中途还是有报错
改后代码如下：

            response = session.get(href, headers=headers, cookies=cookies).text
            etree_detail = etree.HTML(response)
            img_list = etree_detail.xpath('//div[@class="tuyiyi_body"]/p/img/@src')
            base_url = "https://www.tuyiyi.com/"
            img_list.insert(0, main_src)
            img_list = [base_url + i for i in img_list]
            # print(img_list)

运行中的报错如下图：

您如可以的话，帮我看看……

脑子不好真君 2023-11-05

打赏
举报

img_list = ['images/202307/1689501370350679.jpg']

base_url = "https://www.tuyiyi.com//"
url = [base_url + i for i in img_list]
print(url)

胖子学Python 2023-11-05

@脑子不好真君明白了，我把 img_list.insert(0, main_src)这句删掉之后就不搞错了……谢谢老师

脑子不好真君 2023-11-05

@胖子学Python

看着他一个个将姓名，年龄……从word表格里复制粘贴到excel里，边粘贴心里边暗暗诅咒着自己的boss……但毕竟新手小白，又不能违背老板的意愿说我不干了，爱咋咋地，于是过来向我求助。我说，这事情好办啊，学学...

一个 Python 数据工程师的 Python 学习经验分享

本文围绕 Python 爬虫展开，系统阐述了爬虫项目的数据管理流程。首先讲解数据爬取，包括明确目标、选择框架、编写代码及应对反爬虫机制。接着介绍数据存储的多种方式及实现，以及数据清洗中常见问题和处理方法。随后...

本实验采用纯Python基础语法结合外部API调用，在不...这一实践虽然有效揭示了智能体的底层运行原理，但同时也凸显了原生开发的典型痛点：流程控制复杂度高、状态维护困难、模块化程度不足以及可视化支持缺失等问题。

Python

10,177

社区成员

703

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

欢迎来到Python学习者们的社区，

本社区分享你需要的文章、问题解答、技术互助、学习资源、面试系列等等

欢迎你的加入，祝你学有所成~

试试用AI创作助手写篇文章吧

+ 用AI写文章