nltk的中文显示问题

laoyaotask 2014-03-21 12:52:42

环境：win7 64位，python2.7.5 64位，nltk2.0.4 , myeclipse 10, pydev

#-*- coding:utf-8 -*-

'''

程序目标：自定义一段带词性标的文本，利用nltk的相关工具进行统计。

'''

import nltk

sent="我/a 是/b 中国/c 人/d 。/e 你/a 是/b 美国/c 人/d 。/e";

postag=[nltk.tag.str2tuple(t) for t in sent.split()];

for element0,element1 in postag:

    print element0,element1;

print postag;

fdist=nltk.FreqDist(postag);

fdist.plot();

在pydev下写的程序，各处编码均已设置为utf-8。

控制台输出如下：

print element0,element1 打印结果显示正常，print postag;结果不正常

plot画图如下：

横坐标上的中文显示不正常。

另外，python的中文显示问题真是十分令人头疼，从网上找的资料也让人眼晕，有没有比较简洁的解决办法呢？谢谢了

...全文

274 2 打赏收藏转发到动态举报

写回复

用AI写文章

2 条回复

切换为时间正序

请发表友善的回复…

发表回复

laoyaotask 2014-03-23

打赏
举报

例如中文的utf-8来decode

'\xe4\xb8\xad\xe6\x96\x87'.decode('utf-8')

[/quote] 谢谢后来只好安装Python3了，这个问题就不存在了

iasky 2014-03-22

打赏
举报

输出的时候转换为unicode显示例如中文的utf-8来decode

'\xe4\xb8\xad\xe6\x96\x87'.decode('utf-8')

导入必要的库： ...获取 NLTK 中文停用词列表，并定义一个自定义的停用词集合。合并停用词列表，并从文本中移除这些停用词。生成和显示词云图：使用 WordCloud 生成词云图，并显示和保存到本地文件。

请注意，中文的停用词处理可能需要自定义停用词表，因为NLTK默认只包含英文停用词。 **4. 情感分析（Sentiment Analysis）** NLTK还提供了一些工具来进行情感分析。SentimentIntensityAnalyzer可以计算文本的积极...

6. **测试安装**：安装完成后，可以通过在命令提示符中输入`Start > All Programs > Python 27 > IDLE`，然后在IDLE中输入`import nltk`，如果无错误信息显示，则说明NLTK已经成功安装。 ### 可选步骤 - **安装...

1. **中文编码处理**：在处理全中文内容时，编码问题至关重要。常见的中文编码有GBK和UTF-8，GBK是简体中文的旧标准，而UTF-8则支持全球多种语言，包括中文。开发者需要确保在整个项目中一致使用正确的编码，以避免...

在处理中文文本时，尤其是在编程或开发需要显示中文的软件或网页时，SimHei字体文件是必不可少的资源。结合标签“cn_stopwords”和“simhei.ttf”，我们可以深入探讨以下几个知识点： 1. **中文停用词表**：停用...

脚本语言

37,743

社区成员

34,212

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

试试用AI创作助手写篇文章吧

+ 用AI写文章