37,722
社区成员
发帖
与我相关
我的任务
分享
#-*- coding:utf-8 -*-
'''
程序目标:自定义一段带词性标的文本,利用nltk的相关工具进行统计。
'''
import nltk
sent="我/a 是/b 中国/c 人/d 。/e 你/a 是/b 美国/c 人/d 。/e";
postag=[nltk.tag.str2tuple(t) for t in sent.split()];
for element0,element1 in postag:
print element0,element1;
print postag;
fdist=nltk.FreqDist(postag);
fdist.plot();
'\xe4\xb8\xad\xe6\x96\x87'.decode('utf-8')
[/quote]
谢谢 后来只好安装Python3了,这个问题就不存在了 '\xe4\xb8\xad\xe6\x96\x87'.decode('utf-8')