python open出来的中文使用findall后乱码

張葒兵 2017-05-22 08:39:18

我的py文件中设置了utf-8，setting中也设置了utf-8，text.txt文件的编码格式也是utf-8，为什么f.read()出来显示中文不乱码，使用findall()方法后反而乱码呢，求大神指导

# encoding:utf-8
import re
f = open('text.txt','r')
text = f.read()
f.close()
print text
content = re.findall('<title>(.*?)</title>',text)
print content

-----------------------------------------------------输出的结果--------------------------------------------------------
C:\Python27\python.exe G:/workspace/leanPython/readFile.py
<html>
<title>我的第一个Python程序</title>
</html>
['\xe6\x88\x91\xe7\x9a\x84\xe7\xac\xac\xe4\xb8\x80\xe4\xb8\xaaPython\xe7\xa8\x8b\xe5\xba\x8f']

...全文

829 4 打赏收藏转发到动态举报

写回复

用AI写文章

4 条回复

切换为时间正序

请发表友善的回复…

发表回复

AbnerKou 2017-08-10

打赏
举报

#!/usr/bin/env python # encoding:utf-8 import re f = open('text.txt','r') text = f.read() f.close() print text content = re.findall('<title>(.*?)</title>',text) print content[0]

屎克螂 2017-05-24

打赏
举报

它就是中文的，只是你放在数组里打印了，你 print x[0] 或 print ''.join(x)

Jack-Cui 2017-05-23

打赏
举报

read()后面decode或者encode试试呢？

sanGuo_uu 2017-05-23

打赏
举报

zzr='\xe6\x88\x91\xe7\x9a\x84\xe7\xac\xac\xe4\xb8\x80\xe4\xb8\xaaPython\xe7\xa8\x8b\xe5\xba\x8f'

print zzr.decode('utf-8')

本文详细解析了Keil MDK中文字符乱码与#870-D警告的根源，提供了从编码识别到批量转换的完整解决方案。通过工具对比、代码重整和编译器指令屏蔽等多种方法，帮助开发者彻底解决这一常见问题，并给出预防措施与最佳实践，确保项目编码规范统一。

PDF数据提取避坑指南本文系统总结了PDF数据提取中的12个常见问题及解决方案，涵盖中文乱码、表格提取、OCR识别、加密处理等典型场景。针对中文乱码问题，建议优先使用pymupdf库，配合编码检测和字体映射处理；表格提取需采用坐标校准和合并单元格还原技术；扫描件OCR需构建完整的预处理流水线，包括图像增强、倾斜校正等步骤。文章提供了可复用的代码模板和流程图，帮助开发者构建更鲁棒的PDF处理系统。关键词：PDF解析、中文乱码、表格提取、OCR识别、数据安全

本文深入解析Python中常见的`SyntaxError: Non-ASCII character`错误，探讨文件编码问题的本质及解决方案。从编辑器配置、文件声明到团队协作规范，提供全面的编码最佳实践，帮助开发者有效预防和解决乱码问题，确保代码在多环境下的兼容性。

词云图是文本可视化中最直观的基础技术，其本质是文本分析与图像渲染的协同过程。原理上需经历文本清洗、分词统计、词频加权、字体渲染四个关键环节，尤其在中文场景下，必须解决空格缺失、停用词干扰、字体缺失和编码兼容等核心问题。该技术具备轻量部署、可解释性强、易嵌入自动化流程等工程价值，广泛应用于电商评论分析、用户反馈挖掘、社交媒体热点追踪等业务场景。本文聚焦WordCloud与jieba协同实践，深入解析中文分词、停用词动态过滤及中文字体适配等高频痛点。

自然语言处理（NLP）在真实业务场景中，核心挑战并非模型复杂度，而是原始文本到可训练特征的可靠转化。本文聚焦中文文本处理的关键环节——编码鲁棒性、emoji与标点的语义化标记、业务关键词锚定、结构化模式识别，以及基于jieba和scikit-learn的轻量级TF-IDF+SGD建模链路。区别于学术向词向量或大模型教程，它强调‘信号保真度’优先，通过噪声隔离、语义锚定、结构感知三层预处理，将口语化、中英混排、含emoji的电商评论/客服对话等非规范文本，转化为高解释性、可调试、可增量更新的特征表示。适用于需

脚本语言

37,739

社区成员

34,211

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

试试用AI创作助手写篇文章吧

+ 用AI写文章