python词频统计

tangjingxiao 2011-10-11 09:54:32

实现对单个文档词频统计和对多个文档共词词频统计，将统计结果输出到另外一个txt文档中，对多个文档，需要指明词当前所在的文档名。

...全文

624 13 打赏收藏转发到动态举报

写回复

用AI写文章

13 条回复

切换为时间正序

请发表友善的回复…

发表回复

荷兰人号 2011-11-04

打赏
举报

怎么实现分词呢？

jiaweiqq123 2011-11-03

打赏
举报

mapreduce里面的wordcount用例，好简单的说

jibohe2 2011-10-29

打赏
举报

我可以帮你。需要的话给我写邮件吧hejibo@ueseo.org

[Quote=引用楼主 tangjingxiao 的回复:]
实现对单个文档词频统计和对多个文档共词词频统计，将统计结果输出到另外一个txt文档中，对多个文档，需要指明词当前所在的文档名。
[/Quote]

gle2135_15993328320 2011-10-20

打赏
举报

这个问题好眼熟啊，曾经用perl做过。。。

tangjingxiao 2011-10-20

打赏
举报

[Quote=引用 7 楼 alliwannasay 的回复:]
提供一段代码实现单个文本的word统计

#!/usr/bin/env python
dic={}
for i in open('data.txt'):
array=[]
i=i.strip()
array=i.split()
for j in array:
if not dic.has_key(j):
dic[j]=0
dic[j]+=1

……
[/Quote]
python3.2中has_key已经没有了

stewartzy 2011-10-16

打赏
举报

这是mapreduce的作业吧，网上有的是，看一下就是了

alliwannasay 2011-10-16

打赏
举报

提供一段代码实现单个文本的word统计

#!/usr/bin/env python
dic={}
for i in open('data.txt'):
array=[]
i=i.strip()
array=i.split()
for j in array:
if not dic.has_key(j):
dic[j]=0
dic[j]+=1

for i in dic.keys():
print i,dic[i]

效率还不错 5M的文本1S内出结果。

tangjingxiao 2011-10-14