运行示例

在XLearning客户端,使用$XLEARNING_HOME/bin/xl-submit提交脚本将作业提交至Yarn集群。以TensorFlow作业提交为例:

1 上传训练数据至hdfs路径

将发布包解压后的data文件夹上传至hdfs,如:

  1. cd $XLEARNING_HOME
  2. hadoop fs -put data /tmp/

2 提交运行

  1. cd $XLEARNING_HOME/examples/tensorflow
  2. $XLEARNING_HOME/bin/xl-submit \
  3. --app-type "tensorflow" \
  4. --app-name "tf-demo" \
  5. --input /tmp/data/tensorflow#data \
  6. --output /tmp/tensorflow_model#model \
  7. --files demo.py,dataDeal.py \
  8. --launch-cmd "python demo.py --data_path=./data --save_path=./model --log_dir=./eventLog --training_epochs=10" \
  9. --worker-memory 10G \
  10. --worker-num 2 \
  11. --worker-cores 3 \
  12. --ps-memory 1G \
  13. --ps-num 1 \
  14. --ps-cores 2 \
  15. --queue default \

提交脚本各参数含义如下:

参数名称含义
app-name作业名称为 "tf-demo"
app-type作业类型为 "tensorflow"
input输入文件,HDFS路径:/tmp/data/tensorflow,对应本地路径./data
output输出文件,HDFS路径:/tmp/tensorflow_model,对应本地路径./model
files需要传给各container的本地文件,包括 demo.py、dataDeal.py
launch-cmd训练执行命令
worker-memoryworker内存使用为10G
worker-numworker数目为2
worker-coresworker使用CPU核数为3
ps-memoryparameterServer内存使用为1G
ps-numparameterServer数目为1
ps-coresparameterServer使用CPU核数为2
queue作业提交队列

更多相关参数详细说明请见运行提交参数部分。