python2.7爬虫抓取gb2312为乱码,怎么解决

O_Oomg 2017-06-21 09:57:15
代码如下 看的七月语法视频的,不知道问题出在哪里??请指教下 谢谢各位

# coding=utf-8
import requests
import xml.etree.ElementTree as ET
from xml.parsers.expat import ParserCreate

import sys
reload(sys)
sys.setdefaultencoding('utf-8')

class DefaultSaxHandler(object):
def __init__(self, provinces):
self.provinces = provinces

# 处理标签开始
def start_element(self, name, attrs):
if name != 'map':
name = attrs['title']
number = attrs['href']
self.provinces.append((name, number))

# 处理标签结束
def end_element(self, name):
pass

# 文本处理
def char_data(self, text):
pass

def get_province_entry(url):
# 获取文本,并用gb2312解码
content = requests.get(url).content.decode('gb2312')
# 确定要查找字符串的开始结束位置,并用切片获取内容。
start = content.find('<map name=\"map_86\" id=\"map_86\">')
end = content.find('</map>')
content = content[start:end + len('</map>')].strip()
provinces = []
# 生成Sax处理器
handler = DefaultSaxHandler(provinces)
# 初始化分析器
parser = ParserCreate()
parser.StartElementHandler = handler.start_element
parser.EndElementHandler = handler.end_element
parser.CharacterDataHandler = handler.char_data
# 解析数据
parser.Parse(content)
# 结果字典为每一页的入口代码

return provinces

provinces = get_province_entry('http://www.ip138.com/post')
print provinces
...全文
540 8 打赏 收藏 转发到动态 举报
写回复
用AI写文章
8 条回复
切换为时间正序
请发表友善的回复…
发表回复
O_Oomg 2017-06-28
  • 打赏
  • 举报
回复
引用 5 楼 chuifengde 的回复:
decode('gb2312')后加上.encode('utf-8')
谢谢了
O_Oomg 2017-06-28
  • 打赏
  • 举报
回复
引用 6 楼 xuxi_php 的回复:
你的代码没有问题,只是中文存在Python 容器中编码的问题。用循环输出一下,即可。
好的 谢谢
黄哥Python培训 2017-06-27
  • 打赏
  • 举报
回复
你的代码没有问题,只是中文存在Python 容器中编码的问题。用循环输出一下,即可。
chuifengde 2017-06-23
  • 打赏
  • 举报
回复
decode('gb2312')后加上.encode('utf-8')
O_Oomg 2017-06-22
  • 打赏
  • 举报
回复
引用 3 楼 stdcall_Jeremy 的回复:
decode('utf-8'),
也报错了 说UnicodeDecodeError: 'utf8' codec can't decode byte 0xd3 in position 241: invalid continuation byte
secsilm 2017-06-22
  • 打赏
  • 举报
回复
我去掉了
import sys
reload(sys)
sys.setdefaultencoding('utf-8')


运行没问题,下面是输出


另外建议最好不要使用 sys.setdefaultencoding
stdcall_Jeremy 2017-06-22
  • 打赏
  • 举报
回复
decode('utf-8'),
O_Oomg 2017-06-22
  • 打赏
  • 举报
回复
引用 1 楼 u010099080 的回复:
我去掉了
import sys
reload(sys)
sys.setdefaultencoding('utf-8')


运行没问题,下面是输出


另外建议最好不要使用 sys.setdefaultencoding

这个我去掉这个会提示 ascii问题

37,719

社区成员

发帖
与我相关
我的任务
社区描述
JavaScript,VBScript,AngleScript,ActionScript,Shell,Perl,Ruby,Lua,Tcl,Scala,MaxScript 等脚本语言交流。
社区管理员
  • 脚本语言(Perl/Python)社区
  • IT.BOB
加入社区
  • 近7日
  • 近30日
  • 至今

试试用AI创作助手写篇文章吧