hadoop WordCount统计中文文章的字频

csdn4006600 2019-05-11 11:49:15

我已经能正常运行wordcount了，但还不能解决问题。 1.要统计字频，每个汉字之间要空格。这个要怎么做？或者在wordcount中怎么分中文字？ 2.txt文本中有500篇文章，要求是统计每片文章的字频。这个该怎么做？我的想法是把每篇文章单独存储到一个txt中，然后wordcount统计。好像可以按照文字编码格式 utf-8,gbk这些，使用正则来拆字？我这些文章是爬虫爬下来的，也可以在爬虫这边处理下。我在网上找过了，都是处理英文的，根本没有统计字频的。能指一条路吗？我不想花了功夫之后发现方法不行爬虫是python，wordcount是java

...全文