spark streaming 用到mysql数据怎么加载？

Container123 2020-03-11 10:48:01

spark streaming需要用到mysql的数据，将查询到的mysql数据转换成数据集和实时数据进行连接，mysql数据时刻变动，所以不用广播变量

应该怎么做呢？

结合sparksql，用sparksql从mysql中读取？

在dstream的transform/transformToPair中进行jdbc加载，然后再用SparkContext将其parallelize？

还是什么其他方法？

大神们路过请给小弟解答一下。。。。。。

...全文

3676 3 打赏收藏转发到动态举报

写回复

3 条回复

切换为时间正序

请发表友善的回复…

发表回复

清柿 2021-04-15

打赏
举报

回复

我使用的seq 然后在用sparkContext.makeRDD(seq) 和你大差不差

Container123 2020-10-16

打赏
举报

回复

你好，刚看见，实际需求变化没有很频繁，最后就用的广播变量，更新之前对比了一下是否变化了

已个人 2020-10-08

打赏
举报

回复

大佬，这个需求你是怎么实现的，我也有这种场景的需求，求代码

记得自己要引入环境（1）利用SparkStreaming从文件目录读入日志信息，日志内容包含： ”日志级别、函数名、日志内容“ 三个字段，字段之间以空格拆分。请看数据源的文件。（2）对读入都日志信息流进行指定筛选出日志级别为error或warn的，并输出到外部MySQL中。需要用到的函数（1）输入采用textFileStream()算子（2）输出采用foreachRDD()算子（3）将RDD转为DataFrame （4）DataFrame注册为临时表，使用SQL过滤（5）将过滤后的数据保存到MySQL

GraduationDesign 描述：蔡维毕业设计题目：基于大数据平台的股评信息文本挖掘研究 mysql 120.79.24.24 kafka 47.106.142.94 sparkStreaming 47.106.106.207 系统架构图模块说明 get_data:爬取数据存入数据库，并将数据发送到kafka. analyse:对分词的数据进行筛选，分为两轮。先通过词性模板将少数词过滤，在通过PMI-IR对词进行筛选。 streaming_cut_term: scala编写的sparkStreaming程序，实时从kafka拿取消息，进行实时分词，分词数据存入mysql term_score:对筛选后的词打分。打包说明最后程序打包jar ,放在linux运行。可以用到NiFi,（读取csv文件到mysql，hive等）主要功能介绍爬取数据地址解析：http://s

SparkStreaming读取Kafka数据源并写入Mysql数据库一、实验环境本实验所用到的工具有 kafka_2.11-0.11.0.2； zookeeper-3.4.5； spark-2.4.8； Idea； MySQL5.7 什么是zookeeper？ zookeeper 主要是服务于分布式服务，可以用zookeeper来做：统一配置管理，统一命名服务，分布式锁，集群管理。使用分布式系统就无法避免对节点管理的问题（需要是实时感知节点的状态，对接点进行统一管理等等），而由于这些问题处理起来

Spark Streaming

目录1 Streaming 应用场景2 Lambda 架构3 Streaming 计算模式4 SparkStreaming 计算思想 1 Streaming 应用场景在很多实时数据处理的场景中，都需要用到流式处理（Stream Process）框架，Spark也包含了两个完整的流式处理框架Spark Streaming和Structured Streaming（Spark 2.0出现），先阐述流式处理框架，之后介绍Spark Streaming框架使用。在传统的数据处理过程中，我们往往先将数据存入数

Hadoop生态社区

20,809

社区成员

4,691

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章