搭建的spark集群不能访问50070端口？

不努力谁会可怜你？ 2018-12-19 05:07:11

配置：centos7、jdk1.7、hadoop2.4.1、三台spark虚拟机(spark02,spark03,spark04).其中spark02:有datanode,namenode,screndnode,jps。这里老师的有datanode而我没有。其它两台都有jps,datanode

...全文

363 2 打赏收藏转发到动态举报

写回复

2 条回复

切换为时间正序

请发表友善的回复…

发表回复

不努力谁会可怜你？ 2019-01-07

打赏
举报

回复

其实我上面回答的不对。。解决方法是把之前生成的数据节点删除重新启动初始化节点就行了。。

不努力谁会可怜你？ 2018-12-19

打赏
举报

回复

在hdfs-site.xml里加上对外访问的端口：

<property>
<name>dfs.http.address</name>
<value>0.0.0.0:50070</value>
</property>

本文详细介绍了在CentOS Stream 9系统上搭建Spark集群的完整流程，涵盖基础环境配置、Spark安装与部署、集群模式配置以及开发环境搭建。讲解了Spark的Local模式安装，随后，介绍了如何搭建Spark Standalone集群和Spark on YARN集群。最后，配置了PySpark开发环境，包括JupyterLab的安装与使用，支持交互式编程和作业提交。所有资源可通过文末的百度网盘链接获取。本文为大数据处理和分析提供了完整的Spark集群搭建指南。

当应用程序运行时，Master会在集群中选择一个Worker进程启动一个名为DriverWrapper的子进程，该子进程即为Driver进程，所起的作用相当于YARN集群的ApplicationMaster角色，类似MapReduce程序运行时所产生的MRAppMaster进程。Spark Standalone集群使用Spark自带的资源调度框架，但一般我们把数据保存在HDFS上，用HDFS做数据持久化，所以Hadoop还是需要配置，但是可以只配置HDFS相关的，而Hadoop YARN不需要配置。

Local 模式：在本地模式下，Spark 将作为一个单独的 Java 进程在本地运行，不需要启动额外的集群资源。本地模式适用于开发和调试，可以快速运行 Spark 应用程序并查看结果，而不需要配置和管理集群资源。Standalone 模式： Standalone 模式是 Spark 提供的最简单的部署方式，也是默认的部署模式。在 Standalone 模式下，Spark 自身作为一个独立的集群运行，可以通过启动 Spark Master 和 Spark Worker 进程来启动一个完整的 Spark 集

（2）配置Workers文件。复制Workers.template文件并重命名为Workers，打开Workers文件删除原有内容，并添加如下代码，每一行代表一个子节点的主机名，这里的workers文件名为，slaves.template。（3）进入Spark的/conf目录下，复制spark-env.sh.template文件并重命名为spark-env.sh。(7)通过命令jps查看进程，开启Spark集群后，master节点增加了Master进程，而子节点则增加了Worker进程。

搭建 Spark 和 hdfs 的集群环境会消耗一些时间和精力，处于学习和开发阶段的同学关注的是 Spark应用的开发，他们希望整个环境能快速搭建好，从而尽快投入编码和调试，今天咱们就借助 Docker 容器，极速搭建和体验 Spark 和hdfs 的集群环境. 实战环境信息以下是本次实战涉及的版本号：操作系统：腾讯云 Ubuntu 服务器 hadoop：2.8 Spark：2.3 docker：17.03.2-ce docker-compose：1.23.2 极速搭建 Spark 集群和 hdfs

1,274

社区成员

1,171

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章