hadoop wordcount统计中文文章的字频
我已经能正常运行wordcount了,但还不能解决问题。
1.要统计字频,每个汉字之间要空格。这个要怎么做?或者在wordcount中怎么分中文字?
2.txt文本中有500篇文章,要求是统计每片文章的字频。这个该怎么做?我的想法是把每篇文章单独存储到一个txt中,然后wordcount统计。
好像可以按照文字编码格式 utf-8,gbk这些,使用正则来拆字?
我这些文章是爬虫爬下来的,也可以在爬虫这边处理下。
我在网上找过了,都是处理英文的,根本没有统计字频的。
能指一条路吗?我不想花了功夫之后发现方法不行
爬虫是python,wordcount是java