Spark 引擎

Spark 引擎

本文主要介绍在Linkis1.X中，spark引擎的配置、部署和使用。

1.Spark引擎使用前的环境配置

如果您希望在您的服务器上使用spark引擎，您需要保证以下的环境变量已经设置正确并且引擎的启动用户是有这些环境变量的。

强烈建议您在执行spark任务之前，检查下执行用户的这些环境变量。

环境变量名	环境变量内容	备注
JAVA_HOME	JDK安装路径	必须
HADOOP_HOME	Hadoop安装路径	必须
HADOOP_CONF_DIR	Hadoop配置路径	必须
HIVE_CONF_DIR	Hive配置路径	必须
SPARK_HOME	Spark安装路径	必须
SPARK_CONF_DIR	Spark配置路径	必须
python	python	建议使用anaconda的python作为默认python

表1-1 环境配置清单

2.Spark引擎的配置和部署

2.1 spark版本的选择和编译

注意: 编译spark引擎之前需要进行linkis项目全量编译理论上Linkis1.X支持的spark2.x以上的所有版本。默认支持的版本为Spark2.4.3。如果您想使用其他的spark版本，如spark2.1.0，则您仅仅需要将插件spark的版本进行修改，然后进行编译即可。具体的，您可以找到linkis-engineplugin-spark模块，将maven依赖中”spark.version”标签的值改成2.1.0，然后单独编译此模块即可。

2.2 spark engineConn部署和加载

如果您已经编译完了您的spark引擎的插件，那么您需要将新的插件放置到指定的位置中才能加载，具体可以参考下面这篇文章

EngineConnPlugin引擎插件安装

2.3 spark引擎的标签

Linkis1.X是通过标签配置来区分引擎版本的，所以需要我们在数据库中插入数据，插入的方式如下文所示。

EngineConnPlugin引擎插件安装 > 2.2 管理台Configuration配置修改（可选）

3.spark引擎的使用

准备操作，队列设置

因为spark的执行需要队列的资源，所以用户在执行之前，必须要设置自己能够执行的队列。

图3-1 队列设置您也可以通过在提交参数的StartUpMap里面添加队列的值：startupMap.put("wds.linkis.rm.yarnqueue", "dws")

3.1 通过Linkis SDK进行使用

Linkis提供了Java和Scala 的SDK向Linkis服务端提交任务. 具体可以参考 JAVA SDK Manual. 对于Spark任务你只需要修改Demo中的EngineConnType和CodeType参数即可:

        Map<String, Object> labels = new HashMap<String, Object>();
        labels.put(LabelKeyConstant.ENGINE_TYPE_KEY, "spark-2.4.3"); // required engineType Label
        labels.put(LabelKeyConstant.USER_CREATOR_TYPE_KEY, "hadoop-IDE");// required execute user and creator
        labels.put(LabelKeyConstant.CODE_TYPE_KEY, "sql"); // required codeType py,sql,scala

3.2 通过Linkis-cli进行任务提交

Linkis 1.0后提供了cli的方式提交任务，我们只需要指定对应的EngineConn和CodeType标签类型即可，Spark的使用如下：

# codeType对应关系 py-->pyspark  sql-->sparkSQL scala-->Spark scala
sh ./bin/linkis-cli -engineType spark-2.4.3 -codeType sql -code "show tables"  -submitUser hadoop -proxyUser hadoop
# 可以在提交参数通过-confMap wds.linkis.yarnqueue=dws  来指定yarn 队列
sh ./bin/linkis-cli -engineType spark-2.4.3 -codeType sql  -confMap wds.linkis.yarnqueue=dws -code "show tables"  -submitUser hadoop -proxyUser hadoop