17.cm添加flume及配置&邮件报警&sparkStreaming拉起kafka的数据指标监控1

bj278595437 2023-01-12 15:00:06

课时名称	课时知识点
17.cm添加flume及配置&邮件报警&sparkStreaming拉起kafka的数据指标监控1	添加flume组件及配置邮件报警等，是很多遇到的问题

...全文

229 回复打赏收藏转发到动态举报

写回复

回复

切换为时间正序

请发表友善的回复…

发表回复

一、Kafka的安装和准备工作 Kafka的安装，请看另外一文，一定要选择和自己电脑上已经安装的scala版本号一致才可以，本教程安装的Spark版本号是1.6.2，scala版本号是2.10，所以，一定要选择Kafka版本号是2.10开头的。比如，到Kafka官网中，可以下载安装文件Kafka_2.10-0.10.1.0，前面的2.10就是支持的scala版本号，后面的0.10.1.0是Kafka自身的版本号。下面，我们启动Kafka。请登录Linux系统（本教程统一使用hadoop用户登录），打开一

Spark Streaming 支持多种实时输入源数据的读取，其中包括Kafka、flume、socket流等等。除了Kafka以外的实时输入源，由于我们的业务场景没有涉及，在此将不会讨论。本篇文章主要着眼于我们目前的业务场景，只关注Spark Streaming读取Kafka数据的方式。

1.准备工作 ①一个java程序，需要有一些操作能够打印特定log日志,并打成jar包； ②在linux服务器上安装flume、zookeeper、kafka； 2.案例思路当我在jar包程序部署在linux服务器上时，每当我访问特定接口，就会产生特定日志文件，这时候flume监听该日志文件，然后并且对日志进行过滤，一些springboot应用启动日志需要过滤，然后对接到kafka，kafka对日志进行格式化清洗，最后对接SparkStreaming就可以进行相关业务处理了 3.案例流程图

SparkStreaming+kafka+flume实现日志的实时处理环境准备项目思路实验环境启动配置编写项目代码启动测试环境准备 1 三台安装Hadoop的虚拟机 2 flume的安装参考flume的大数据集群安装 3 kafka 安装参考kafka集群 4 windows +ideal+mysql 项目思路利用ideal产生实时的日志，利用log4j文件，将日志文件实时采集到flume上面，利用kafka来进行监听传输，通过sparkStreaming 对产生的日志文件进行计算,并且实时

1.背景介绍在当今的大数据时代，实时数据处理和分析已经成为企业和组织中非常重要的一部分。随着数据量的增加，传统的批处理方法已经不能满足实时性要求。因此，流处理技术(Stream Processing)逐渐成为了关注的焦点。 Apache Spark是一个开源的大数据处理框架，它可以处理批量数据和流式数据。Spark Streaming是Spark生态系统中的一个组件，用于处理流式数据。Kaf...

侯勇蛟的课程社区_NO_1

1

社区成员

44

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章