程序设计实训 - 题目 12 词频统计

2019301248-侯星宇 2022夏-程序设计实训 2022-07-29 23:57:39

程序设计实训 - Python

题目 12

img

代码实现

# NPU 程序设计实训 HW12 词频统计
# 函数 word_freq() 用于统计词频
import string
import re


def word_freq(path):
    # 读取高频词
    sight_word = open('./sight word.txt', 'r').read()
    sight_word = sight_word.lower()
    sight_word_list = sight_word.split()
    # 读取文本
    text = open(path, 'r').read()
    text_list = re.findall(r'[a-z\'0-9—“”]+', text.lower())
    text_list = [i.lower() for i in text_list if i and i.lower() not in sight_word_list]
    dic = {}
    # 统计词频
    for i in text_list:
        if i in dic:
            dic[i] += 1
        else:
            dic[i] = 1
    result = sorted(dic.items(), key=lambda x: (x[1], x[0]), reverse=True)

    return result[:10]

结果展示

# 测试函数
path = './text.txt'
print(word_freq(path))

结果如下

img

...全文
77 回复 打赏 收藏 举报
写回复
回复
切换为时间正序
请发表友善的回复…
发表回复
相关推荐
发帖
西工大网安实践教学社区

31

社区成员

依托实践实训环节,为同学们更好掌握所需的基本技能,提供一个交流学习的社区。
python安全linux 高校
社区管理员
  • shawn904
  • weixin_44003872
加入社区
帖子事件
编辑了帖子
2022-07-30 16:04
创建了帖子 (查看)
2022-07-29 23:57
社区公告
暂无公告