spark Streaming在local 可以运行正常，但是在yarn上数据不能处理（只有Ctrl+c）才能执行这是什么问题

yisun123456 2017-10-10 09:47:15

Spark Streaming消费kafka数据处理后保存到mongodb
目前的问题是：
在local可以实时处理并且保存到数据库里面，但是采用spark on yarn 只能接收数据（貌似是），然后不能处理数据，在Ctrl+C后可以将数据进行处理，这个是什么问题？？？？？

...全文

1478 4 打赏收藏转发到动态举报

写回复

4 条回复

切换为时间正序

请发表友善的回复…

发表回复

yisun123456 2017-10-10

打赏
举报

回复

之前之所以不能正常是因为在窗口函数后面加了map函数，这个map函数是与mongodb连接在一起的所以不能做到实时提交到数据库运算如果采用local模式则没有这样的问题

yisun123456 2017-10-10

打赏
举报

回复

on yarn 是正常连接的数据库可以操作前辈可以给调试下吗

yisun123456 2017-10-10

打赏
举报

回复

为什么？可以给详细讲讲吗？感觉on yarn连接mongo不是很普遍的吗

alinly 2017-10-10

打赏
举报

回复

on yarn 应该是连接不到mongodb数据库，看日志.

1. Spark是特性  高可伸缩性  高容错  于内存计算 2. Spark的生态体系（BDAS，中文:伯利克分析栈）  MapReduce属于Hadoop生态体系之一，Spark则属于BDAS生态体系之一  Hadoop包含了MapReduce、HDFS、HBase、Hive、Zookeeper、Pig、Sqoop等  BDAS包含了Spark、Shark（相当于Hive）、BlinkDB、Spark Streaming（消息实时处理框架,类似Storm）等等 3. Spark与MapReduce 优势：  MapReduce通常将中间结果放到HDFS上，Spark是基于内存并行大数据框架，中间结果存放到内存，对于迭代数据Spark效率高。  MapReduce总是消耗大量时间排序，而有些场景不需要排序，Spark可以避免不必要的排序所带来的开销  Spark是一张有向无环图（从一个点出发最终无法回到该点的一个拓扑），并对其进行优化。 4. Spark支持的API Scala、Python、Java等 5. 运行模式  Local （用于测试、开发）  Standlone （独立集群模式）  Spark on Yarn （Spark在Yarn上）  Spark on Mesos （Spark在Mesos）

一、项目说明本项目为平时使用Spark/HBase/Kafka等大数据组件的Demo示例，后续会逐渐丰富; 支持Kerberos/非Kerberos环境下操作HBase/Kafka/HDFS/Spark; 支持Spark Streaming实时读取Kafka；支持Kafka/HBase相关可配置；支持Yarn/local环境下操作; 支持Java/Scala两种语言编写Spark相关代码；只支持Spark 2.1.1; TODO: 补充Spark SQL/StructStreaming相关代码; 补充Kafka/HBase相关操作; 支持Spark多版本； 1.1 项目构建说明 src/main/java: java语言编写程序示例; src/main/scala: scala语言编写程序示例; src/main/resources: 项目使用resources示例; 1.2 具体

最近在提交spark程序到yarn消费kerberos认证方式的kafka数据。由于配置文件相对/绝对路径不正确配置遇到了报错，这里整理并记录一下。以上的问题，说白了就是在任务真正的执行节点，并没有成功从绝对路径中加载到对应的配置文件。因为别的节点并没有这些配置文件。所以需要用--flies将我们需要用到的配置都加载到yarn服务上，然后yarn来将这些配置问价分发到真正执行任务的目录上。所以我们用的一些参数中指定的配置也须写成相对路径。和。.........

现象：sparkStreaming 作业 local[*] 可以正常消费到数据并处理，但提交到yarn-cluster后只消费到数据但没有处理，从 Streaming Statistics 可见只有消费到数据，但没有处理原因: 提交命令时只配置了1个 container ，确切的说是1个 core ，该 core 被分配用于消费数据，没有core可以用来处理，通过executor界面可以看到 spark-submit --master yarn-cluster --num-executors.

目录一、Spark Streaming功能介绍（1）概述（2）DStream概述（3）Storm和Spark Streaming比较二、一个简单的例子三、Spark Streaming服务架构及工作原理四、编程模型一、Spark Streaming功能介绍（1）概述 Spark Streaming是一个基于Spark Core之上的实时计算框架，可以从很多数据源消费数据并对数据进行处理.Spark Streaming 是Spark核心API的一个扩展，可以实现高吞吐量的、具备容错机制的实时流数据的处理。

1,258

社区成员

1,168

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章