[spark]WordCount问题,输出结果总是不对,求帮忙

晚秋_梦依在 2016-01-07 05:29:33
进入spark-shell,进行测试:输入,
然后执行:,输出结果总是1,无语,折腾了我好久,已疯,希望大神们帮个忙!!!下面是我的hdfs文件:
从最后一图看,单词数那么多,怎么也不是一个啊
...全文
311 3 打赏 收藏 转发到动态 举报
AI 作业
写回复
用AI写文章
3 条回复
切换为时间正序
请发表友善的回复…
发表回复
部落酋长 2016-03-09
  • 打赏
  • 举报
回复
你这个语句就是读取这个文件,文件只有一行 textFile就是默认以回车换行符作为默认分割,因此输出值为1 val words = readmeFile.flatMap(_.split(" ")) val wordCounts = words.map(x => (x, 1)).reduceByKey(_ + _)
晚秋_梦依在 2016-03-06
  • 打赏
  • 举报
回复
如图,计算的是行数,不是单词数
wangbiao1150 2016-01-08
  • 打赏
  • 举报
回复
你好,你这样统计的并不是单词的个数,而是rdd的个数,你需要这样做:val words = readmeFile.flatMap(_.split(" ")) val wordCounts = words.map(x => (x, 1)).reduceByKey(_ + _) wordCounts.print() 这样才是统计单词的个数。 可以加入spark技术交流群366436387,共同交流学习。

1,270

社区成员

发帖
与我相关
我的任务
社区描述
Spark由Scala写成,是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行计算框架,Spark基于MapReduce算法实现的分布式计算。
社区管理员
  • Spark
  • shiter
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧