求助 一个spark streaming 的问题

swcj 2016-10-26 05:37:39
在 spark streaming 中我通过 kafka获取数据,(这个部分已经ok)

然后需要和 数据库中的数据进行比较 ,这个数据需要读到内存中,不然每条数据 查库 效率太低

然后缓存每 8条数据进行进行统计


目前没有什么思路 ,请大神指点一下
...全文
495 5 打赏 收藏 转发到动态 举报
写回复
用AI写文章
5 条回复
切换为时间正序
请发表友善的回复…
发表回复
kxiaozhuk 2016-11-07
  • 打赏
  • 举报
回复
可不可以启动sparkstreaming监听前先把数据一次性load进来内存呢,再去做Kfaka的读取和数据的比较。
火阳邪神 2016-11-01
  • 打赏
  • 举报
回复
可以用redis来做缓存 ,存储大 ,查询速度也比较快
火阳邪神 2016-11-01
  • 打赏
  • 举报
回复
可以用redis来做缓存 ,存储搭 ,查询速度也快
swcj 2016-10-26
  • 打赏
  • 举报
回复
数据库我想缓存在内存中,如果每次去查询效率太低了,而且数据的数据很大有3000w
LinkSe7en 2016-10-26
  • 打赏
  • 举报
回复
数据库可以写一个socket sender和你流的时间间隔相同的频率去对数据库进行查询,然后把socket和kafka的流join起来,就可以进行比较了。但不能说多少条就执行一个batch,只能按时间区间或者窗口滑动

1,258

社区成员

发帖
与我相关
我的任务
社区描述
Spark由Scala写成,是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行计算框架,Spark基于MapReduce算法实现的分布式计算。
社区管理员
  • Spark
  • shiter
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧