python2.7爬虫抓取gb2312为乱码,怎么解决

O_Oomg 2017-06-21 09:57:15

代码如下看的七月语法视频的，不知道问题出在哪里？？请指教下谢谢各位

# coding=utf-8

import requests

import xml.etree.ElementTree as ET

from xml.parsers.expat import ParserCreate



import sys

reload(sys)

sys.setdefaultencoding('utf-8')



class DefaultSaxHandler(object):

    def __init__(self, provinces):

        self.provinces = provinces



    # 处理标签开始

    def start_element(self, name, attrs):

        if name != 'map':

            name = attrs['title']

            number = attrs['href']

            self.provinces.append((name, number))



    # 处理标签结束

    def end_element(self, name):

        pass



    # 文本处理

    def char_data(self, text):

        pass

    

def get_province_entry(url):

    # 获取文本，并用gb2312解码

    content = requests.get(url).content.decode('gb2312')

    # 确定要查找字符串的开始结束位置，并用切片获取内容。

    start = content.find('<map name=\"map_86\" id=\"map_86\">')

    end = content.find('</map>')

    content = content[start:end + len('</map>')].strip()

    provinces = []

    # 生成Sax处理器

    handler = DefaultSaxHandler(provinces)

    # 初始化分析器

    parser = ParserCreate()

    parser.StartElementHandler = handler.start_element

    parser.EndElementHandler = handler.end_element

    parser.CharacterDataHandler = handler.char_data

    # 解析数据

    parser.Parse(content)

    # 结果字典为每一页的入口代码

    

    return provinces



provinces = get_province_entry('http://www.ip138.com/post')

print provinces

...全文

594 8 打赏收藏转发到动态举报

写回复

用AI写文章

8 条回复

切换为时间正序

请发表友善的回复…

发表回复

O_Oomg 2017-06-28

打赏
举报

引用 5 楼 chuifengde 的回复:

decode('gb2312')后加上.encode('utf-8')

谢谢了

O_Oomg 2017-06-28

打赏
举报

引用 6 楼 xuxi_php 的回复:

你的代码没有问题，只是中文存在Python 容器中编码的问题。用循环输出一下，即可。

好的谢谢

黄哥Python培训 2017-06-27

打赏
举报

你的代码没有问题，只是中文存在Python 容器中编码的问题。用循环输出一下，即可。

chuifengde 2017-06-23

打赏
举报

decode('gb2312')后加上.encode('utf-8')

O_Oomg 2017-06-22

打赏
举报

引用 3 楼 stdcall_Jeremy 的回复:

decode('utf-8'),

也报错了说UnicodeDecodeError: 'utf8' codec can't decode byte 0xd3 in position 241: invalid continuation byte

secsilm 2017-06-22

打赏
举报

我去掉了

import sys

reload(sys)

sys.setdefaultencoding('utf-8')

运行没问题，下面是输出

另外建议最好不要使用 sys.setdefaultencoding

stdcall_Jeremy 2017-06-22

打赏
举报

decode('utf-8'),

O_Oomg 2017-06-22

打赏
举报

引用 1 楼 u010099080 的回复:

我去掉了
import sys

reload(sys)

sys.setdefaultencoding('utf-8')
运行没问题，下面是输出

另外建议最好不要使用 sys.setdefaultencoding

这个我去掉这个会提示

ascii问题

主要为大家详细介绍了Python网络爬虫出现乱码问题的解决方法，具有一定的参考价值，感兴趣的小伙伴们可以参考一下

Python 模拟抓取百度贴吧爬虫源码，除了抓取百度贴吧，还模拟抓取了糗事百科的内容，　　关于模拟抓取百度贴吧：　　语言：Python 2.7 　　操作：输入网址后自动只看楼主并保存到本地文件　　功能：将楼主发布的内容打包txt存储到本地。　　　　关于抓取糗事百科内容：　　操作：输入quit退出阅读糗事百科　　功能：按下回车依次浏览今日的糗百热点　　更新：解决了命令提示行下乱码的问题

Python chardet-2.2 插件2.2版本适用于2.7，说实话这个

摘要 Beautiful Soup 是一个可以从 HTML 或 XML 格式文件中提取数据的 Python 库，他可以将HTML 或 XML 数据解析为Python 对象，以方便通过Python代码进行处理。文档环境 Centos7.5 Python2.7 BeautifulSoup4 Beautifu Soup 使用说明 Beautiful Soup 的基本功能就是对HTML的标签进行查找及编辑。基本概念-对象类型 Beautiful Soup 将复杂 HTML 文档转换成一个复杂的树形结构，每个节点都被转换成一个Python 对象，Beautiful Soup将这些

1、使用的IDE和编辑器IDE：PyCharm 、 Visual Studio编辑器：Vim 、Sublime Text等抓包工具：fiddler python需要导入各种各样强大的库教程基于python2.7版本的2、Python爬虫，我们需要学习的有1. Python基础语法学习（基础知识）2. HTML页面的内容抓取（数据抓取）3. HTML页面的数据提取（数据清洗）4. Scrapy框架以...

脚本语言

37,744

社区成员

34,213

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

试试用AI创作助手写篇文章吧

+ 用AI写文章