spark跨集群读取数据并计算

eric90g 2019-02-28 04:23:28

有2个hdp集群，hdp1和hdp2，想让spark程序运行在hdp1上，读取hdp2上的数据，大神们有什么方案么？
目前尝试过把hdp2集群的hive-site.xml core-site.xml hdfs-site.xml放到hdp1上的一个spark的conf下，spark-sql可以访问，但是运行spark仅在local模式下可以运行，放在yarn上边，就会报java.net.UnknownHostException: xxxxxx(namenode HA的名字)

...全文

683 3 打赏收藏转发到动态举报

写回复

3 条回复

切换为时间正序

请发表友善的回复…

发表回复

垃圾的CS DN 2021-03-01

打赏
举报

回复

群主解决这个问题了么和你遇到了相同的问题

eric90g 2019-03-01

打赏
举报

回复

引用 1 楼 LinkSe7en 的回复:

你应该是hdp1的集群节点没有hdp2的host信息吧？

host信息都配置过了，local模式是可以运行的，放在yarn上运行就不行了

LinkSe7en 2019-02-28

打赏
举报

回复

你应该是hdp1的集群节点没有hdp2的host信息吧？

简述常见的跨集群的数据迁移工具有distcp、sqoop等等本文是介绍使用spark on hive的方式读取不同集群hive中的数据并落入本地集群，

我们有两个集群（ps：计算集群/存储集群），现在有个需求就是，计算集群运行Spark任务，从kafka取数据写到存储集群的hive。 1，在远程连接Hive时Hive有两种服务Hive Metastore Server和HiveServer2 HiveServer2是JDBC连接，使用这种方式会占用数据本地集群的计算资源（常用默认端口10000的那种） 2，Spark连接Hive可以使用Hive Metastore Server，这样只需连接Hive的元数据，通过元数据记录的数据路径拉取数据使用Spark对

本文适用有入门spark基础的同学，一些最基础知识不再赘述通过阅读本文即可掌握使用Spark跨集群同步Hive数据的技巧！众所周知，业界比较成熟的同步数据工具是Sqoop，它是连接关系型数据库和Hadoop的桥梁比较常用的场景是从MySQL等RDB同步到Hive、Hbase或者将Hive、Hbase的数据导出到MySQL 但是在天池技术选型时选用了用Spark来从大数据集群同步数据到大禹集群下面来比较一下这两种方式： ①Sqoop使用配置化，Spark需要代码开发学习成本上使用Spark稍微高一些

大家平时可能都是在本集群上读取本地的HDFS文件，那如果我有两套集群呢？这个时候该如何读取另外一套集群上面的HDFS文件呢？废话不多说，直接上代码，如果代码有关于一些nameservices等这些信息不知道去哪里看的人，可以翻翻我之前的博客，或者私信我。

最近公司在做多个集群的合并和下线工作，部分集群要缩小规模，a集群有flink/spark程序实时写数据到a集群的hdfs/hive上，这部分部分数据要迁移到b集群的hdfs，由于a程序用到组件过多所以决定程序还保留在a集群，a集群的flink/spark程序将数据写到b集群，同时a集群的历史数据也要迁移到b集群。所以这里就设计到3处改动： spark程序跨集群写数据 sparkConf.set("hive.metastore.uris", "thrift://xxx.xxx.xxx.xxx:9083"

1,275

社区成员

1,171

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章