spark streaming, kafka导入数据到es性能调优

WAVwind 2017-03-01 11:23:50

主要代码如图，求教如何提升性能，将kafka数据导入到es

...全文

865 2 打赏收藏转发到动态举报

写回复

2 条回复

切换为时间正序

请发表友善的回复…

发表回复

HelloWordSong 2018-10-10

打赏
举报

回复

pom依赖能发下吗?

LinkSe7en 2017-03-02

打赏
举报

回复

导入Es那块估计没什么好优化的。从Kafka接收数据那块可以优化。看看官方文档的KafkaUtils.createDirectStream

flume+Logstash+Kafka+Spark Streaming进行实时日志处理分析【大数据】

:party_popper:v1.6.0-0.10 解决了批次计算延迟后出现的任务append导致整体恢复后计算消费还是跟不上的问题支持动态调节 streaming 的批次间隔时间（不同于sparkstreaming 的定长的批次间隔，StructuredStreaming中使用trigger实现了。）支持在streaming过程中重设 topics，用于生产中动态地增加删减数据源添加了速率控制，KafkaRateController。用来控制读取速率，由于不是用的sparkstreaming，所有速率控制的一些参数拿不到，得自己去计算。提供spark-streaming-kafka-0-10_2.10 spark 1.6 来支持 kafka的ssl 支持rdd.updateOffset 来管理偏移量。 :party_popper: v1.6.0-0.10_ssl 只是结合了 sparkstreaming 1.6 和 ka

1.项目代码均经过功能验证ok，确保稳定可靠运行。欢迎下载体验！下载完使用问题请私信沟通。 2.主要针对各个计算机相关专业，包括计算机科学、信息安全、数据科学与大数据技术、人工智能、通信、物联网等领域的在校学生、专业教师、企业员工。 3.项目具有丰富的拓展空间，不仅可作为入门进阶，也可直接作为毕设、课程设计、大作业、初期项目立项演示等用途。 4.当然也鼓励大家基于此进行二次开发。在使用过程中，如有问题或建议，请及时沟通。 5.期待你能在项目中找到乐趣和灵感，也欢迎你的分享和反馈！【资源说明】基于spark-streaming框架的实时计算系统源码+项目说明.zip 项目架构：开发语言：Scala、Java 计算框架：Spark-Streaming 数据库：Redis、Elasticsearch 消息队列：Kafka 数据采集：Maxwell（离线）、Spark-Streaming（实时）数据可视化：Spring-Boot、Echart 项目流程： 1、产生数据到MySQL； 2、使用Maxwell把数据从MySQL采集到Kafka； 3、ODS层Spark-Streaming从Kafka消费数据，对消费的数据进行分流处理，维度数据写入Redis，事实数据重新写入Kafka的不同主题； 4、DWD层Spark-Streaming再从相应的Kafka主题中消费数据，进行数据处理，写入到Elasticsearch； 5、通过Spring-Boot开发相关接口，从写入到Elasticsearch中读取数据并展示。项目亮点：解决从Kafka中消费数据时的漏消费、重复消费以及读取数据时的顺序问题。 publisher-realtime——数据可视化模块 sparkStreaming-realtime——实时计算模块

流处理引擎这是使用Spark Streaming，Kafka和Elasticsearch进行近实时流处理的示例。此项目的先决条件 Elasticsearch设置 i）Elasticsearch 6.3.0或最新版本并将其解压缩。 ii）运行以下命令。 $ bin/elasticsearch Kafka设置 i）Kafka-0.10.0.1或最新版本并解压缩。 ii）运行以下命令以启动Zookeeper和Kafka： $ bin/zookeeper-server-start.sh config/zookeeper.properties $ bin/kafka-server-start.sh config/server.properties 入门：克隆并以本地模式运行： $ git clone git@github.com:techmonad/st

数据处理管道描述只需5个步骤，即可使用Docker Machine和Compose，Kafka，Cassandra和Spark构建功能强大的实时数据处理管道和可视化解决方案。参见下面的项目架构：到底发生了什么事？我们连接到twitter流API（），并开始基于关键字列表侦听事件，这些事件直接转发到Kafka（不解析）。在中间，有一个spark作业，收集这些事件，将它们转换为Spark SQL上下文（），该上下文过滤kafka消息并仅提取感兴趣的字段，在这种情况下为： user.location，文本和user.profile_image_url ，一旦有了，我们就会使用

1,258

社区成员

1,168

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章