5,504
社区成员




response = session.get(href, headers=headers, cookies=cookies).text
etree_detail = etree.HTML(response)
img_list = etree_detail.xpath('//div[@class="tuyiyi_body"]/p/img/@src')
img_list.insert(0, main_src)
# 发送GET请求并获取响应
# 将响应结果转换为ElementTree对象
# 使用XPath表达式提取指定class的div下的p标签中的img标签的src属性
# 将获取到的图片链接列表插入到img_list列表的首位,并添加默认的图片链接
现在的采集到的值是:images/202307/1689501370350679.jpg
缺少前面的网址:https://www.tuyiyi.com/
学习Python时间短,请问怎么才能把缺少的网址加进去,谢谢~
谢谢老师,我按您的方法改了一下代码,成功了,但是中途还是有报错
改后代码如下:
response = session.get(href, headers=headers, cookies=cookies).text
etree_detail = etree.HTML(response)
img_list = etree_detail.xpath('//div[@class="tuyiyi_body"]/p/img/@src')
base_url = "https://www.tuyiyi.com/"
img_list.insert(0, main_src)
img_list = [base_url + i for i in img_list]
# print(img_list)
运行中的报错如下图:
您如可以的话,帮我看看……