hadoop wordcount统计中文文章的字频

csdn4006600 2019-05-11 10:53:10
我已经能正常运行wordcount了,但还不能解决问题。 1.要统计字频,每个汉字之间要空格。这个要怎么做?或者在wordcount中怎么分中文字? 2.txt文本中有500篇文章,要求是统计每片文章的字频。这个该怎么做?我的想法是把每篇文章单独存储到一个txt中,然后wordcount统计。 好像可以按照文字编码格式 utf-8,gbk这些,使用正则来拆字? 我这些文章是爬虫爬下来的,也可以在爬虫这边处理下。 我在网上找过了,都是处理英文的,根本没有统计字频的。 能指一条路吗?我不想花了功夫之后发现方法不行 爬虫是python,wordcount是java
...全文
80 回复 打赏 收藏 转发到动态 举报
写回复
用AI写文章
回复
切换为时间正序
请发表友善的回复…
发表回复

6,129

社区成员

发帖
与我相关
我的任务
社区描述
MS-SQL Server 新技术前沿
社区管理员
  • 新技术前沿社区
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧