关于用python的requests模块返回编码乱码问题

liwan123 2016-03-14 11:45:33

import requests
import lxml
from lxml import etree
url = 'http://www.chinacoalchem.com/news.asp?id=60719'
loginurl = "http://www.chinacoalchem.com/loginchk.asp?action=pw"
postdata = {
'userid':'liwan123',
'password':'lishichao1',
'UserLogin':'True',
'Submit.x':'25',
'Submit.y':'14'
}
res1 = requests.post(loginurl, data=postdata)
res2 = requests.get(url, cookies=res1.cookies)
res2.encoding = 'gb2312'
res2 = res2.text

xmlcontent = etree.HTML(res2)
links = xmlcontent.xpath('//@href')
for link in links:
print link
代码如上，运行结果如下：
Traceback (most recent call last):
File "D:/python-work/demo.py", line 23, in <module>
print link
UnicodeEncodeError: 'gbk' codec can't encode character u'\xb2' in position 34: illegal multibyte sequence
images/css.css
Events/2016MeOH.pdf
index.asp
more.asp?lm=政策规划
more.asp?lm=公司动态
more.asp?lm=工程项目
more.asp?lm=技术进展
more.asp?lm=市场行情
more.asp?lm=甲醇
more.asp?lm=%C3%BA%D6%C6%CC%EC%C8%BB%C6%F8
more.asp?lm=煤制油
more.asp?lm=MTO/MTP
more.asp?lm=其他煤化工
yuekan.asp
http://www.shenhuagroup.com.cn
http://www.ykjt.cn/
http://www.ctdmto.com/
http://meeting.qianzhan.com/
http://www.wison.com
http://www.famens.com

Process finished with exit code 1
不知道该怎么该好，怎么设置都有问题，

...全文

1195 2 打赏收藏转发到动态举报

写回复

2 条回复

切换为时间正序

请发表友善的回复…

发表回复

屎克螂 2016-04-07

打赏
举报

回复

前面都不要转在最后面转 print link的时候 print link.decode('gbk')

竹聿Simon 2016-03-16

打赏
举报

回复

好像涉及到中英文字符混合的问题，程序出错的那个地方正好是一个含有中文的网址： u'http://www.blogcn.com/zlzj/tougao.\xb2\xa9\xce\xc4\xd4\xad\xb4\xb4.html' 中文部分是“博文原创”

在网络通信中，数据可能采用各种编码格式，`chardet`能自动识别这些编码，确保数据正确解码，避免乱码问题。除了基础功能，`requests`还提供了许多高级特性： - **POST请求**：不仅可以GET数据，还可以POST数据，...

下面是一个使用`requests`模块发送GET请求的例子： ```python import requests url = "https://www.baidu.com" response = requests.get(url) response.encoding = "utf-8" # 设置响应的编码格式，防止乱码 print...

然而，在使用`requests`获取网页内容时，常常会遇到乱码问题，尤其是对于非UTF-8编码的网页。本文将详细探讨如何解决Python `requests`爬取网页内容时出现的乱码问题。首先，我们需要了解`requests`的基本用法。当...

5. 现在，使用Excel打开这个经过转换的CSV文件，由于编码方式与Excel相同，你应该能正常查看数据，不会有乱码问题。为了避免这种编码问题，你还可以在Python中编写代码时，明确指定CSV文件的编码方式。例如，使用`...

这样做之后，Python在读取和输出字符串时，就会使用UTF-8编码来处理，这样就避免了编码不匹配导致的乱码问题。还可以通过编码转换的方式来处理已经获取的网页内容。在获取网页内容后，可以先用UTF-8解码，然后再...

37,743

社区成员

34,212

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

试试用AI创作助手写篇文章吧

+ 用AI写文章