[perl]如何用哈希表进行词频统计

haibo1979 2005-01-02 03:47:41

比如一个文档：

中国百姓中国
百姓人民中国

该文档的词频：中国3，百姓2，人民1

我考虑用哈希表来做，比如将“中国”作为哈希表的一个"key"，重复次数作为"value".
不过不知道怎么具体实现，哪位大侠抽时间帮忙解答一下？
有其他好的方法实现也行。刚学PERL，实在没有头绪。

...全文

445 7 打赏收藏转发到动态举报

写回复

用AI写文章

7 条回复

切换为时间正序

请发表友善的回复…

发表回复

xyzxyz1111 2005-03-24

打赏
举报

把[\x80-\xff]+/gi
改为[\x80-\xff]{2,2}/gi才能正确的统计汉字的词频。

--------------------------
统计的是词频，不是汉字的字频，所以无所谓了。

fibbery 2005-03-24

打赏
举报

%d=();是初始化一个空的哈希变量，不是引用！
()是空列表，它既可以初始化数组也可以初始化哈希变量。

chenshibing 2005-03-24

打赏
举报

把[\x80-\xff]+/gi
改为[\x80-\xff]{2,2}/gi才能正确的统计汉字的词频。
请楼上的指教下%d = ();是什么意思？指向hash表的引用？指向数组的引用？还是创建一个空的hash表
？能否顺便指教下@self = {};是什么意思

genepoet 2005-01-26

打赏
举报

[\x80-\xff]+/gi
指的是匹配汉字,
因为汉字是双字节编码的,所以字节首位为1的代表是汉字

zrpxd 2005-01-19

打赏
举报

不好意思，能不能问一下上面的（[\x80-\xff]+/gi）是什么意思啊

haibo1979 2005-01-05

打赏
举报

用哈希表进行词频统计，真的是比用循环嵌套快得多，呵呵，perl真是好阿（可惜我还是个生手），
谢谢“如是我闻”先生！！

xyzxyz1111 2005-01-03

打赏
举报

#!/usr/bin/perl

open (FILE, shift) || die "Words file not specified\n";
%d = ();
while(<FILE>){
if (@uc = $_ =~/[\x80-\xff]+/gi)
{
foreach $a(@uc){
$d{$a} += 1;
}
}
}
foreach (keys %d){
printf "%s:%d\n", $_, $d{$_};
}

哈希表是根据设定的哈希函数H（key）和处理冲突方法将一组关键字映射到一个有限的地址区间上，并以关键字在地址区间中的象作为记录在表中的存储位置，这种表称为哈希表或散列，所得存储位置称为哈希地址或散列地址...

典型应用是用于统计和排序大量的字符串（但不仅限于字符串），所以经常被搜索引擎系统用于文本词频统计。它的优点是：最大限度地减少无谓的字符串比较，查询效率比哈希表高。小写英文字母或大写英文字母的字典数是一...

例子1-1展示了如何使用Pig Latin脚本来对童谣“Mary Had a Little Lamb”进行词频统计。例1-1　使用Pig对童谣“Mary和她的羔羊”进行词频统计 --加载文件名为Mary的文件， --并将记录中的唯一字段命名为...

典型应用是用于统计，排序和保存大量的字符串（但不仅限于字符串），所以经常被搜索引擎系统用于文本词频统计。它的优点是：利用字符串的公共前缀来节约存储空间，最大限度地减少无谓的字符串比较，查询效率比哈希表...

典型应用是用于统计和排序大量的字符串（但不仅限于字符串），所以经常被搜索引擎系统用于文本词频统计。它的优点是：最大限度地减少无谓的字符串比较，查询效率比哈希表高。性质它有3个基本性质：根节点不...

脚本语言

37,719

社区成员

34,239

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

试试用AI创作助手写篇文章吧

+ 用AI写文章