【Spark】FusionInsight-Spark-FAQ
FusionInsight-Spark-FAQ
Spark是一个高效的通用的大规模数据处理引擎。这里汇总了FusionInsight中Spark组件的相关问题,包括Spark功能介绍、参数说明、常用命令、常见问题及解决办法等信息,并会定期更新。
1 常用命令
1.1 Spark的安装
FI集群中Spark依赖的服务:
1)在安全模式下:Kerberos,LdapServer,HDFS,Yarn,HBaseDBservice
2)非安全模式下:HDFS,Yarn,HBase,DBservice
FI中Spark的安装集成在Manager侧:
对于新集群:下载包含Spark组件的安装包,执行Manager侧的安装脚本即可完成Spark的安装。
对于已完成FI安装的集群:请先确保Spark依赖的服务安装完毕之后才可以完成Spark的安装,在FI界面,Service->add service->spark等步骤即可完成Spark服务的安装。
1.2 Shell客户端安装
在FI页面,可以下载安装客户端。在下载完客户端后,需要解压安装。
安装命令: sh install.sh /destination_path/
1.3 客户端的使用
功能:在spark客户端可以进行任务提交。
使用方法:
1) 进行source,kinit操作,以便使用客户端的配置和与服务端通信的认证信息
2) 任务的提交(主要有以下几种任务):
A)利用spark-submit提交任务,命令:
. /destination_path/Spark/spark/bin/spark-submit --class classname --master yarn-client ../lib/dependencyjars
B) 进入scala交互平台,使用其REPL功能,命令:
. /destination_path/Spark/spark/bin/spark-sehll
C) 进入spark-sql交互平台,执行spark-sql任务,命令:
. /destination_path/Spark/spark/bin/spark-sql –master yarn-client
D) 登陆beeline,利用jdbc提交spark-sql任务,命令:
/destination_path/Spark/spark/bin/beeline
!connect jdbc:hive2://ha-cluster/default;user.principal=spark/hadoop.hadoop.com@HADOOP.COM;sasl.qop=auth-conf;auth=KERBEROS;principal=spark/hadoop.hadoop.com@HADOOP.COM
在C50中,JDBCServer提供ha模式,在beeline连接jdbcserver时需使用ha-cluster代替C30中的ip:port模式。