[spark]WordCount问题，输出结果总是不对，求帮忙

晚秋_梦依在 2016-01-07 05:29:33

进入spark-shell，进行测试：输入，

然后执行：

，输出结果总是1，无语，折腾了我好久，已疯，希望大神们帮个忙！！！下面是我的hdfs文件：

，从最后一图看，单词数那么多，怎么也不是一个啊

...全文

316 3 打赏收藏转发到动态举报

写回复

3 条回复

切换为时间正序

请发表友善的回复…

发表回复

部落酋长 2016-03-09

打赏
举报

回复

你这个语句就是读取这个文件，文件只有一行 textFile就是默认以回车换行符作为默认分割，因此输出值为1 val words = readmeFile.flatMap(_.split(" ")) val wordCounts = words.map(x => (x, 1)).reduceByKey(_ + _)

晚秋_梦依在 2016-03-06

打赏
举报

回复

如图，计算的是行数，不是单词数

wangbiao1150 2016-01-08

打赏
举报

回复

你好，你这样统计的并不是单词的个数，而是rdd的个数，你需要这样做：val words = readmeFile.flatMap(_.split(" ")) val wordCounts = words.map(x => (x, 1)).reduceByKey(_ + _) wordCounts.print() 这样才是统计单词的个数。可以加入spark技术交流群366436387，共同交流学习。

在上一篇文章中，我们讲了Spark大数据处理的可扩展性和负载均衡，今天要讲的是更为重点的容错处理，这涉及到Spark的应用场景和RDD的设计来源。 Spark的应用场景 Spark主要针对两种场景：机器学习，数据挖掘，图应用中常用的迭代算法（每一次迭代对数据执行相似的函数）交互式数据挖掘工具（用户反复查询一个数据子集） Spark在spark-submit外，还提供了spark-shel...

本文转自http://mp.weixin.qq.com/s?__biz=MzA5MTcxOTk5Mg==&mid=208059053&idx=3&sn=1157ab5db7bc2783e812e3dc14a0b92e&scene=18#rd，所有权力归原作者所有。在上一篇文章中，我们讲了Spark大数据处理的可扩展性和负载均衡，今天要讲的是更为重点的容错处理，这涉及到Spark的应用场

本篇是介绍Spark的入门系列文章，希望能帮你初窥Spark的大门。一、 Spark概述 1 首先回答什么是Spark？ Spark是一种基于内存的快速，通用，可扩展的大数据计算引擎。那有的同学可能会问，大数据计算引擎，MapReduce不就是吗？为什么又来个Spark？其中最大的原因还是MapReduce自身的短板导致： 1. 基本运算规则从存储介质中采集数据，然后进行计算，最...

spark 1.6.0 安装与配置（spark1.6.0、Ubuntu14.04、hadoop2.6.0、scala2.10.6、jdk1.7）

美团点评Hadoop/Spark系统实践一、Hadoop/Spark 定位与应用架构1.1 功能和定位（是什么）二级目录三级目录Spark 实践 ) 美团大数据系统整体架构一、Hadoop/Spark 定位与应用架构 1.1 功能和定位（是什么） Hadoop 开源地址和官网 Spark 开源地址和官网简单来说，拆解之后的 Hadoop/Spark 项目基本分为三层：① 最底层是资源调度和文件存储 ② 往上是分布式计算内核 ③最上层是 Spark 衍生的一些框架。今天说的主要是三个黑框的部分。

1,273

社区成员

1,171

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章