sparkstreaming怎么从一个共享的内存读数据?

程序猿大哥 2017-04-26 09:23:16

现在我有很多个任务，比如说每隔十秒统计最近一天的数据，其中根据不同维度，不同条件有很多种统计方式，但是每个任务其实需要的数据都是一样的，就是最近一天的数据（不是自然天，是当前时间前24小时的数据），假如把数据都放到每个任务的内存里就浪费空间了，以后增加任务也还是会有问题，所以有没有一个共享的空间可以读呢？让所有任务都读同一块共享的数据，

我有一个疑问可以在sparkstreaming里直接读mongodb的数据吗？

...全文

307 1 打赏收藏转发到动态举报

写回复

1 条回复

切换为时间正序

请发表友善的回复…

发表回复

LinkSe7en 2017-04-27

打赏
举报

回复

如果你的集群本身能让那么多作业同时跑的话，你可以把作业的处理方法封装成类，然后每个作业开启一条线程，每个线程执行各自的处理类。然后开启dynamicAllocation。那就在一个应用里同时执行多个作业了

1.Spark Streaming：缓存与持久化机制 2.Spark Streaming：Checkpoint机制 3.Spark Streaming：部署、升级和监控应用程序 4.Spark Streaming：容错机制以及事务语义详解

Spark Streaming数据存储与调优

概述 spark Streaming是对核心Spark API的一个扩展，用来实现对实时流数据的处理，并且具有很好的可扩展性、高吞吐量和容错性。Spark Streaming支持从多种数据源提取数据，例如：Kafka、Flume、Kinesis，或者是TCP套接子。同时也能提供一些高级API来表达复杂的算法，如map、reduce、join以及window等。再处理完数据后，Spark Streming还可以将处理完的数据推送到文件系统、数据库或者实时仪表盘上，用来做具体的展示。 Spark Stream

缓存、持久化机制与RDD类似，Spark Streaming也可以让开发人员手动控制，将数据流中的数据持久化到内存中。对DStream调用persist()方法，就可以让Spark Streaming自动将该数据流中的所有产生的RDD，都持久化到内存中。如果要对一个DStream多次执行操作，那么，对DStream持久化是非常有用的。因为多次操作，可以共享使用内存中的一份缓存数据。对于基于窗...

一 Spark Streaming 1 Spark Streaming概述 1.1 实时数据处理的动机以前所未有的速度创造数据来自移动，网络，社交，物联网的指数数据增长… 联网设备：2012年为9B，到2020年将达到50B 到2020年，超过1万亿个传感器我们如何实时利用数据的价值？价值会迅速下降→立即获取价值从被动分析到直接运营解锁新的竞争优势需要全新的方法 1.2 跨行业的用例 1.3 什么是Spark Streaming？ Apache Spark核心API的扩展，用

1,261

社区成员

1,169

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章