使用指导
前提条件
首先需要保证用户提供的历史日志及待预测负载格式符合要求,其次为保证预测准确率,用户提供的历史语句日志应尽可能全面并具有代表性。
背景信息
工具目录下提供了示例数据集及演示代码,更加详细的说明与工具所需依赖请参考工具根目录下的Readme文件。
操作步骤
如果这是您第一次使用本工具,您应该提供历史日志以供模型训练,类型为:
执行开始时间 | 执行结束时间 | 锁时间 | 执行等待时间 | 语句文本
历史日志中每一行的格式如上,其中每两列之间的分隔符为’\t|\t’,如果某列无法提供,请将其置0。
执行训练命令进行训练:
python src/main.py train [--train LOG_FILE] [--model MODEL_DIR]
LOG_FILE: 供训练用历史日志的路径。
MODEL_DIR: 训练生成的模型及中间文件存储路径。
在进行预测之前,请确保训练过程已经顺利完成。待预测负载需要为文件格式,格式为每行为一条语句。
执行预测命令进行预测:
python src/main.py predict [--model MODEL_DIR] [--predict WORKLOAD_FILE] [--ratio RETRAIN_RATIO]
MODEL_DIR: 模型路径,应与训练过程所指定的同名参数值一致。
WORKLOAD_FILE: 待预测负载文件路径。
RETRAIN_RATIO: 推荐模型重训的阈值。 默认值为0.5,代表如果未训练元素数量达到已训练元素数量的0.5倍时,工具会提示您建议重新训练模型,使您的预测结果更加精准。在出现此提示时,不会影响该次预测。
预测结果为一个float类型的列表 ,其中第n个值代表了待预测负载第n行语句的预测执行时间。该结果会显示在您的屏幕上,且被返回。
说明:
如果您希望同时训练并预测,工具提供了快速启动方式命令:
>python src/main.py all [--train LOG_FILE] [--model MODEL_DIR] [--predict WORKLOAD_FILE] [--ratio RETRAIN_RATIO]
>
各个参数含义与分别执行时一致。
示例
使用工具提供的demo数据进行训练:
python src/main.py train –train test/data/train.csv –model test/data/
使用工具提供的demo数据进行预测:
python src/main.py predict –model test/data/ –predict test/data/test.csv –ratio 0.2
快速启动:
```
python src/main.py all –train test/data/train.csv –model test/data/ –predict test/data/test.csv –ratio 0.2 ```