运行示例
在XLearning客户端,使用$XLEARNING_HOME/bin/xl-submit
提交脚本将作业提交至Yarn集群。以TensorFlow作业提交为例:
1 上传训练数据至hdfs路径
将发布包解压后的data文件夹上传至hdfs,如:
cd $XLEARNING_HOME
hadoop fs -put data /tmp/
2 提交运行
cd $XLEARNING_HOME/examples/tensorflow
$XLEARNING_HOME/bin/xl-submit \
--app-type "tensorflow" \
--app-name "tf-demo" \
--input /tmp/data/tensorflow#data \
--output /tmp/tensorflow_model#model \
--files demo.py,dataDeal.py \
--launch-cmd "python demo.py --data_path=./data --save_path=./model --log_dir=./eventLog --training_epochs=10" \
--worker-memory 10G \
--worker-num 2 \
--worker-cores 3 \
--ps-memory 1G \
--ps-num 1 \
--ps-cores 2 \
--queue default \
提交脚本各参数含义如下:
参数名称 | 含义 |
---|---|
app-name | 作业名称为 "tf-demo" |
app-type | 作业类型为 "tensorflow" |
input | 输入文件,HDFS路径:/tmp/data/tensorflow,对应本地路径./data |
output | 输出文件,HDFS路径:/tmp/tensorflow_model,对应本地路径./model |
files | 需要传给各container的本地文件,包括 demo.py、dataDeal.py |
launch-cmd | 训练执行命令 |
worker-memory | worker内存使用为10G |
worker-num | worker数目为2 |
worker-cores | worker使用CPU核数为3 |
ps-memory | parameterServer内存使用为1G |
ps-num | parameterServer数目为1 |
ps-cores | parameterServer使用CPU核数为2 |
queue | 作业提交队列 |
更多相关参数详细说明请见运行提交参数部分。