sparkstreaming怎么从一个共享的内存读数据?

程序猿大哥 2017-04-26 09:23:16
现在我有很多个任务,比如说每隔十秒统计最近一天的数据,其中根据不同维度,不同条件有很多种统计方式,但是每个任务其实需要的数据都是一样的,就是最近一天的数据(不是自然天,是当前时间前24小时的数据),假如把数据都放到每个任务的内存里就浪费空间了,以后增加任务也还是会有问题,所以有没有一个共享的空间可以读呢?让所有任务都读同一块共享的数据,

我有一个疑问可以在sparkstreaming里直接读mongodb的数据吗?
...全文
307 1 打赏 收藏 转发到动态 举报
写回复
用AI写文章
1 条回复
切换为时间正序
请发表友善的回复…
发表回复
LinkSe7en 2017-04-27
  • 打赏
  • 举报
回复
如果你的集群本身能让那么多作业同时跑的话,你可以把作业的处理方法封装成类,然后每个作业开启一条线程,每个线程执行各自的处理类。然后开启dynamicAllocation。那就在一个应用里同时执行多个作业了

1,261

社区成员

发帖
与我相关
我的任务
社区描述
Spark由Scala写成,是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行计算框架,Spark基于MapReduce算法实现的分布式计算。
社区管理员
  • Spark
  • shiter
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧