社区
Spark
帖子详情
spark Streaming在local 可以运行正常 ,但是在yarn上数据不能处理(只有Ctrl+c)才能执行 这是什么问题
yisun123456
2017-10-10 09:47:15
Spark Streaming消费kafka数据 处理后保存到mongodb
目前的问题是:
在local可以实时处理并且保存到数据库里面,但是采用spark on yarn 只能接收数据(貌似是),然后不能处理数据,在Ctrl+C后可以将数据进行处理,这个是什么问题?????
...全文
1478
4
打赏
收藏
spark Streaming在local 可以运行正常 ,但是在yarn上数据不能处理(只有Ctrl+c)才能执行 这是什么问题
Spark Streaming消费kafka数据 处理后保存到mongodb 目前的问题是: 在local可以实时处理并且保存到数据库里面,但是采用spark on yarn 只能接收数据(貌似是),然后不能处理数据,在Ctrl+C后可以将数据进行处理,这个是什么问题?????
复制链接
扫一扫
分享
转发到动态
举报
写回复
配置赞助广告
用AI写文章
4 条
回复
切换为时间正序
请发表友善的回复…
发表回复
打赏红包
yisun123456
2017-10-10
打赏
举报
回复
之前之所以不能正常是因为在窗口函数后面加了map函数,这个map函数是与mongodb连接在一起的 所以不能做到实时提交到数据库运算 如果采用local模式 则没有这样的问题
yisun123456
2017-10-10
打赏
举报
回复
on yarn 是正常连接的 数据库可以操作 前辈可以给调试下吗
yisun123456
2017-10-10
打赏
举报
回复
为什么?可以给详细讲讲吗?感觉on yarn连接mongo不是很普遍的吗
alinly
2017-10-10
打赏
举报
回复
on yarn 应该是连接不到mongodb数据库, 看日志.
Spark
实战.docx
1.
Spark
是特性 高可伸缩性 高容错 于内存计算 2.
Spark
的生态体系(BDAS,中文:伯利克分析栈) MapReduce属于Hadoop生态体系之一,
Spark
则属于BDAS生态体系之一 Hadoop包含了MapReduce、HDFS、HBase、Hive、Zookeeper、Pig、Sqoop等 BDAS包含了
Spark
、Shark(相当于Hive)、BlinkDB、
Spark
Streaming
(消息实时
处理
框架,类似Storm)等等 3.
Spark
与MapReduce 优势: MapReduce通常将中间结果放到HDFS上,
Spark
是基于内存并行大
数据
框架,中间结果存放到内存,对于迭代
数据
Spark
效率高。 MapReduce总是消耗大量时间排序,而有些场景不需要排序,
Spark
可以避免不必要的排序所带来的开销
Spark
是一张有向无环图(从一个点出发最终无法回到该点的一个拓扑),并对其进行优化。 4.
Spark
支持的API Scala、Python、Java等 5.
运行
模式
Local
(用于测试、开发) Standlone (独立集群模式)
Spark
on
Yarn
(
Spark
在
Yarn
上)
Spark
on Mesos (
Spark
在Mesos)
spark
-demos:
Spark
(多种版本)+
Streaming
HiveSQLUDF演示
一、项目说明 本项目为平时使用
Spark
/HBase/Kafka等大
数据
组件的Demo示例,后续会逐渐丰富; 支持Kerberos/非Kerberos环境下操作HBase/Kafka/HDFS/
Spark
; 支持
Spark
Streaming
实时读取Kafka; 支持Kafka/HBase相关可配置; 支持
Yarn
/
local
环境下操作; 支持Java/Scala两种语言编写
Spark
相关代码; 只支持
Spark
2.1.1; TODO: 补充
Spark
SQL/Struct
Streaming
相关代码; 补充Kafka/HBase相关操作; 支持
Spark
多版本; 1.1 项目构建说明 src/main/java: java语言编写程序示例; src/main/scala: scala语言编写程序示例; src/main/resources: 项目使用resources示例; 1.2 具体
【
spark
】记录一次
spark
spark
streaming
使用命令行提交任务在
Yarn
集群模式无法正常消费kerberos kafka
数据
的
问题
最近在提交
spark
程序到
yarn
消费kerberos认证方式的kafka
数据
。由于配置文件 相对/绝对路径不正确配置遇到了报错,这里整理并记录一下。以上的
问题
,说白了就是在任务真正的
执行
节点,并没有成功从绝对路径中加载到对应的配置文件。因为别的节点并没有这些配置文件。所以需要用--flies将我们需要用到的配置都加载到
yarn
服务上,然后
yarn
来将这些配置问价分发到真正
执行
任务的目录上。所以我们用的一些参数中指定的配置也须写成相对路径。和。.........
spark
Streaming
yarn
-cluster消费到了
数据
但没有
处理
现象:
spark
Streaming
作业
local
[*] 可以正常消费到
数据
并
处理
,但提交到
yarn
-cluster后只消费到
数据
但没有
处理
,从
Streaming
Statistics 可见只有消费到
数据
,但没有
处理
原因: 提交命令时只配置了1个 container ,确切的说是1个 core ,该 core 被分配用于消费
数据
,没有core可以用来
处理
,通过executor界面可以看到
spark
-submit --master
yarn
-cluster --num-executors.
Spark
Streaming
架构原理详解!
目录一、
Spark
Streaming
功能介绍(1)概述(2)DStream概述(3)Storm和
Spark
Streaming
比较二、一个简单的例子三、
Spark
Streaming
服务架构及工作原理四、编程模型 一、
Spark
Streaming
功能介绍 (1)概述
Spark
Streaming
是一个基于
Spark
Core之上的实时计算框架,可以从很多
数据
源消费
数据
并对
数据
进行
处理
.
Spark
Streaming
是
Spark
核心API的一个扩展,可以实现高吞吐量的、具备容错机制的实时流
数据
的
处理
。
Spark
1,258
社区成员
1,168
社区内容
发帖
与我相关
我的任务
Spark
Spark由Scala写成,是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行计算框架,Spark基于MapReduce算法实现的分布式计算。
复制链接
扫一扫
分享
社区描述
Spark由Scala写成,是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行计算框架,Spark基于MapReduce算法实现的分布式计算。
社区管理员
加入社区
获取链接或二维码
近7日
近30日
至今
加载中
查看更多榜单
社区公告
暂无公告
试试用AI创作助手写篇文章吧
+ 用AI写文章