python词频统计

tangjingxiao 2011-10-11 09:54:32
实现对单个文档词频统计和对多个文档共词词频统计,将统计结果输出到另外一个txt文档中,对多个文档,需要指明词当前所在的文档名。
...全文
624 13 打赏 收藏 转发到动态 举报
写回复
用AI写文章
13 条回复
切换为时间正序
请发表友善的回复…
发表回复
荷兰人号 2011-11-04
  • 打赏
  • 举报
回复
怎么实现分词呢?
jiaweiqq123 2011-11-03
  • 打赏
  • 举报
回复
mapreduce里面的wordcount用例,好简单的说
jibohe2 2011-10-29
  • 打赏
  • 举报
回复
我可以帮你。需要的话给我写邮件吧hejibo@ueseo.org

[Quote=引用楼主 tangjingxiao 的回复:]
实现对单个文档词频统计和对多个文档共词词频统计,将统计结果输出到另外一个txt文档中,对多个文档,需要指明词当前所在的文档名。
[/Quote]
  • 打赏
  • 举报
回复
这个问题好眼熟啊,曾经用perl做过。。。
tangjingxiao 2011-10-20
  • 打赏
  • 举报
回复
[Quote=引用 7 楼 alliwannasay 的回复:]
提供一段代码 实现单个文本的word统计

#!/usr/bin/env python
dic={}
for i in open('data.txt'):
array=[]
i=i.strip()
array=i.split()
for j in array:
if not dic.has_key(j):
dic[j]=0
dic[j]+=1

……
[/Quote]
python3.2中has_key已经没有了
stewartzy 2011-10-16
  • 打赏
  • 举报
回复
这是mapreduce的作业吧,网上有的是,看一下就是了
alliwannasay 2011-10-16
  • 打赏
  • 举报
回复
提供一段代码 实现单个文本的word统计

#!/usr/bin/env python
dic={}
for i in open('data.txt'):
array=[]
i=i.strip()
array=i.split()
for j in array:
if not dic.has_key(j):
dic[j]=0
dic[j]+=1

for i in dic.keys():
print i,dic[i]

效率还不错 5M的文本1S内出结果。
tangjingxiao 2011-10-14
  • 打赏
  • 举报
回复
统计中文文章里面的词
aidings 2011-10-13
  • 打赏
  • 举报
回复
什么意思。如果是统计string 出现多少次用str.count()
tangjingxiao 2011-10-12
  • 打赏
  • 举报
回复
关键是我刚开始学,不会。。。
iambic 2011-10-11
  • 打赏
  • 举报
回复
这么简单的作业,自己写。
mkki 2011-10-11
  • 打赏
  • 举报
回复
没开明白,要表达什么意思
libralibra 2011-10-11
  • 打赏
  • 举报
回复
不就是string.count吗?

37,720

社区成员

发帖
与我相关
我的任务
社区描述
JavaScript,VBScript,AngleScript,ActionScript,Shell,Perl,Ruby,Lua,Tcl,Scala,MaxScript 等脚本语言交流。
社区管理员
  • 脚本语言(Perl/Python)社区
  • IT.BOB
加入社区
  • 近7日
  • 近30日
  • 至今

试试用AI创作助手写篇文章吧