汉字频率统计

bxxxr 2003-07-29 10:32:03
汉字的频率统计不像英文那样公开!在网上很难找到(至少我没看见)。于是自己想办法:用JS写一个小过程“搜索gb2312汉字在网上的频率”。http://www.csdn.net/Develop/article/19/19992.shtm

  运行两个多小时,借助baidu和google得到两份汉字频率表(gb2312的前3755字)。但发现这两个表的汉字频率相差很大(见下表)!也不知道哪一个更科学一点。我用excel把两个表排序一下,再合并成一个新表(见下表),感觉还不错。

  请大家看看,我这个汉字频率统计,是否说的过去:)哪位有更科学、更权威的请帖一下或bxxxr#yahoo.com.cn欢迎交流!

//start mynew
1 的
2 在
3 了
4 是
5 为
6 有
7 和
8 我
9 一
10 与
11 请
12 上
13 中
14 之
15 等
16 人
17 到
18 年
19 个
20 将
21 对
22 地
23 您
24 给
25 这
26 下
27 网
28 也
29 来
30 你
31 就
32 新
33 吗
34 该
35 不
36 多
37 还
38 要
39 让
40 大
41 后
42 三
43 本
44 都
45 时
46 月
47 或
48 说
49 已
50 以
//end mynew

//start baidu
1 的
2 本
3 在
4 您
5 为
6 与
7 是
8 有
9 请
10 和
11 我
12 中
13 了
14 新
15 上
16 网
17 一
18 人
19 站
20 你
21 名
22 不
23 可
24 年
25 将
26 个
27 市
28 到
29 者
30 版
31 之
32 给
33 下
34 大
35 对
36 页
37 及
38 号
39 会
40 区
41 或
42 等
43 来
44 多
45 就
46 好
47 用
48 发
49 要
50 小
//end baidu

//start google
1 啊
2 哎
3 唉
4 得
5 的
6 等
7 地
8 嘿
9 了
10 嘛
11 吗
12 呢
13 哦
14 呀
15 之
16 着
17 在
18 是
19 一
20 和
21 有
22 为
23 我
24 这
25 也
26 该
27 对
28 上
29 到
30 请
31 与
32 中
33 人
34 年
35 个
36 将
37 说
38 后
39 来
40 给
41 还
42 让
43 无
44 月
45 就
46 下
47 而
48 于
49 并
50 几
//end google
...全文
25 1 打赏 收藏 转发到动态 举报
写回复
用AI写文章
1 条回复
切换为时间正序
请发表友善的回复…
发表回复
lostnull 2003-07-30
  • 打赏
  • 举报
回复
:)

87,910

社区成员

发帖
与我相关
我的任务
社区描述
Web 开发 JavaScript
社区管理员
  • JavaScript
  • 无·法
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧