小白求助,关于Python提取后缺失网址的问题

胖子学Python 2023-11-05 13:05:05
response = session.get(href, headers=headers, cookies=cookies).text
etree_detail = etree.HTML(response)
img_list = etree_detail.xpath('//div[@class="tuyiyi_body"]/p/img/@src')
img_list.insert(0, main_src)

  # 发送GET请求并获取响应
 
  # 将响应结果转换为ElementTree对象

  # 使用XPath表达式提取指定class的div下的p标签中的img标签的src属性

  # 将获取到的图片链接列表插入到img_list列表的首位,并添加默认的图片链接
 

现在的采集到的值是:images/202307/1689501370350679.jpg

缺少前面的网址:https://www.tuyiyi.com/

学习Python时间短,请问怎么才能把缺少的网址加进去,谢谢~

...全文
89 4 打赏 收藏 转发到动态 举报
写回复
用AI写文章
4 条回复
切换为时间正序
请发表友善的回复…
发表回复
  • 打赏
  • 举报
回复

谢谢老师,我按您的方法改了一下代码,成功了,但是中途还是有报错
改后代码如下:

            response = session.get(href, headers=headers, cookies=cookies).text
            etree_detail = etree.HTML(response)
            img_list = etree_detail.xpath('//div[@class="tuyiyi_body"]/p/img/@src')
            base_url = "https://www.tuyiyi.com/"
            img_list.insert(0, main_src)
            img_list = [base_url + i for i in img_list]
            # print(img_list)

运行中的报错如下图:

img

您如可以的话,帮我看看……

  • 打赏
  • 举报
回复 1
img_list = ['images/202307/1689501370350679.jpg']

base_url = "https://www.tuyiyi.com//"
url = [base_url + i for i in img_list]
print(url)

img

  • 举报
回复
@脑子不好真君 明白了,我把 img_list.insert(0, main_src)这句删掉之后就不搞错了……谢谢老师
  • 举报
回复 1
@胖子学Python

5,504

社区成员

发帖
与我相关
我的任务
社区描述
人生苦短,我用python
社区管理员
  • Python 学习者
  • 嗨学编程
  • 松鼠爱吃饼干
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告

欢迎来到Python学习者们的社区,

 

本社区分享你需要的文章、问题解答、技术互助、学习资源、面试系列等等

 

欢迎你的加入,祝你学有所成~

试试用AI创作助手写篇文章吧