Python3 中文输出到终端乱码问题，网上的decode（）不好用

langzi2050 2017-08-31 10:11:04

Python3.4做的爬虫，爬取网页的中文然后输出到终端，但是显示如图的乱码。尝试网上的decode()，不好用。麻烦大侠指点一下哪里出问题了。先谢谢了。



#!/usr/bin/env python3

# -*- coding: utf-8

import re

import urllib.request

import sys

def craw(url,page):

    html1=urllib.request.urlopen(url).read()#打开url读取

    html1=str(html1)#因为是bytes-like数据，需要转化

    pat1='<div id="IFX_p2045".+?<div id="IFX_p2002">'#'<div id="plist".+? <div class="page clearfix">'#匹配图片list的开头和结尾，找网页中出现一次的字符串作为标识

    result1=re.compile(pat1).findall(html1)#编译正则表达式，findall 找到所有符合正则的列表

    

    result1=result1[0]#不明白这样写的意思，result=str(result1)这样写也能实现

    pat2='https://dl.fang.anjuke.com/loupan/\d*.html'

    imagelist=re.compile(pat2).findall(result1)

    #print(imagelist)

    x=1

    for imageurl in imagelist:

        #imagename="C:/"+str(x)+".html"#保存到本地的路径，如果要放到文件夹，一定要提前新建好

        #print(imagename)

        print("imageurl:"+imageurl)

        loupan_html=urllib.request.urlopen(imageurl).read()

        loupan_html=str(loupan_html)

        loupan_pat='j-triggerlayer">(.+?)</h1>'#<h1 id="j-triggerlayer">金马杰座</h1>

        loupan_name=re.compile(loupan_pat).findall(loupan_html)

        loupan_name=str(loupan_name)

        print(type(loupan_name))

        print(sys.getdefaultencoding())

        print(loupan_name.encode().decode('utf-8'))

            

for i in range(1,2):

    url="https://dl.fang.anjuke.com/loupan/all/p"+str(i)+"/"#翻页

    craw(url,i)

    print(i)

...全文

608 4 打赏收藏转发到动态举报

写回复

4 条回复

切换为时间正序

请发表友善的回复…

发表回复

chuifengde 2017-08-31

打赏
举报

回复

html1=str(html1)改成html1.decode('utf-8')

黄哥Python培训 2017-08-31

打赏
举报

回复

关键点帮你点破一下： urllib.request.urlopen(url).read() 返回值为bytes 类型

黄哥Python培训 2017-08-31

打赏
举报

回复

Python 3 bytes 转str

langzi2050 2017-08-31

打赏
举报

回复

谢谢两位大侠。（拱手）

Python研究控制台打印乱码： print '你好，世界！'.decode('utf-8') url = 'http://{0}:{1}/{2}' . format ( '0.0.0.0' , 2375 , 'xxx' ) url = 'http://{ip}:{port}/{uri}' . format ( ip = '0.0.0.0' , port = 2375 , uri = 'xxx' ) url = 'http://%s:%d/%s' % ( '0.0.0.0' , 2375 , 'xxx' ) Windows Python依赖库 1.找到对应的whl包下载 2.直接pip install *.whl或者修改.whl文件为.zip文件，解压缩文件的Python文件夹复制到- python安装目录下的Lib -目录下 Python2.7环境变量假如sys.path不对，则使用Python终端sys.path = [...]重新设置即可。默认环境配置如下： root@node-40: ~ # python Python 2.7.6 (default, Jun 22 2

前言曾几何时 Python 中文乱码的问题困扰了我很多很多年，每次出现中文乱码都要去网上搜索答案，虽然解决了当时遇到的问题但下次出现乱码的时候又会懵逼，究其原因还是知其然不知其所以然。现在有的小伙伴为了躲避中文乱码的问题甚至代码中不使用中文，注释和提示都用英文，我曾经也这样干过，但这并不是解决问题，而是逃避问题，今天我们一起彻底解决 Python 中文乱码的问题。基础知识 ASC...

注意，同学们不用一次性出几千元买所有课程，根据老师经验，很多同学花了几千元，结果上到后面难度加深或者和授课老师三观不合无法继续学习了，白白浪费几千元。老师所有学习内容按季分发，每季的学习内容只需几元到上百元，都有案例配合。学完吃透一季再学下一季的内容，有基础的同学可以直接按季购买，这样学不下去就可以果断止损，不会浪费钱了。另外凡是购买老师课程的同学可以留下QQ号，老师将会拉你入对应的群，在群里和其他同学一起讨论学习，比买没版权的课程单打独斗强。由于本课程价格低廉，所以一般推荐学生们在群里互相讨论学习，老师无法做到一对一实时解答，敬请谅解。本系列课程由浅入深将介绍前端页面的逆向学习以及后端PY的爬虫技术，主要分以下类种前端:1 HTML基础以及 CSS样式2 JS初级和高级课程3 WEBPACK以及BABEL调用4 NODEJS使用5 WEBSOCK通讯机制6 VUE2 VUE3学习后端py: 多线程以及协程手写爬虫脚本FEADER数据爬取scrapy分布式爬虫介绍，补环境SELENIUM，playwright 自动化操作页面逆向技术：1 AST还原代码2 补环境3 常见加密方式以及DECODE方法4 逆向代码调试5 DECODE常见安全厂商加密方法，如akamai, 瑞数等。6 RPC

python2输出中文乱码问题1、在源码文件第一行添加#-*-coding:utf-8-*-或#encoding=utf-8 或#encoding=UTF-8注意：一定要在第一行！2、在字符串前加 ‘ u ’例： spring=u"这是一个测试字符串"3、若上述2种方式仍然不能保证能输出正常输出中文，就需要做编码解码设置即encode：编码(真实字符与二进制串的对应关系，真实字符→二...

Python 文件在 Windows 控制台输出乱码问题、报错问题总结以统计记事本中文字数为例

37,720

社区成员

34,238

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

试试用AI创作助手写篇文章吧

+ 用AI写文章