spark加载elasticsearch缓慢

qq_20691009 2018-08-29 03:45:35

es总数据量大约有10亿，去最近一个月的数据(大概5000万)，使用sparksql去加载，然后处理相关业务。加载异常缓慢，感谢有做过类似优化的朋友共享一下。另附加载代码：
val vehpassDataFrame = sparkSession.sqlContext.read.format("org.elasticsearch.spark.sql").options(options).load("alias_veh_pass/doc")
vehpassDataFrame.select("hphm","hpzl","jgsj","gctp1","gcbh","lhy_syxz").createTempView("alias_veh_pass")

...全文

342 回复打赏收藏转发到动态举报

写回复

回复

切换为时间正序

请发表友善的回复…

发表回复

课程目标掌握ElasticSearch的部署方法及应用，达到后端开发的技术要求适用人群大学生中学生初学者转业士兵有IT领域从业意愿的人群课程简介ElasticSearch是一款数据分析数据库+数据搜索引擎。课程以ElasticSearch7.x版本为例进行讲解，课程讲述了以下内容：在Linux系统下ElasticSearch的本地部署方法。在Linux系统下ElasticSearch对外服务的配置，常见问题及解决方法。如何在ElasticSearch建立索引，插入数据。如何在ElasticSearch更新和删除数据。如何在ElasticSearch简单搜索数据。如何在ElasticSearch完成复杂搜索及选取字段。

Elasticsearch中拥有大量的自定义配置项，除了以下一些官方不能统一进行配置的选项（与环境，使用者情况有关），大多数最好不要自行配置，因为会引起很多不必要的麻烦（不好排查），并且es的很多默认项的已经是比较优的配置（包括性能方面）。 1、elasticsearch.yml 1、cluster.name 配置es的集群名称，默认是elasticsearch，es会自动发现在同一网段

使用命令启动 bin/elasticsearch bin/elasticsearch -Ehttp.port=8200 -Epath.data=node2 指定端口号制定data2 bin/elasticsearch -Ehttp.port=7200 -Epath.data=node3 指定端口号制定data3 查看集群 http://localhost:9200/_cat/nodes?v 查看集群详情 http://localhost:9200/_cluster/stats elasticsearc

我的日常工作中，需要非常频繁的访问elasticsearch的官方文档，但并非各种环境下我都能顺畅的访问Elastic的官网。一份手边的离线文档，能让工作变得更加简单

声明：本文是较早的一篇关于Elasticsearch性能指标监控的博文，内容总结全面，作者 Emily Chang，原文地址：https://www.datadoghq....

1,258

社区成员

1,168

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章