架构设计

架构设计

Mobile 在这次升级为 Lite 架构，侧重多硬件、高性能的支持，其主要设计思想如下

引入 Type system，强化多硬件、量化方法、data layout 的混合调度能力
硬件细节隔离，通过不同编译开关，对支持的任何硬件可以自由插拔
引入 MIR(Machine IR) 的概念，强化带执行环境下的优化支持
优化期和执行期严格隔离，保证预测时轻量和高效率

架构图如下

Paddle Inference Refactor1.0

编译期和执行期严格隔离设计

compile time 优化完毕可以将优化信息存储到模型中；execution time 载入并执行
两套 API 及对应的预测lib，满足不同场景
- CxxPredictor 打包了 Compile Time 和 Execution Time，可以 runtime 在具体硬件上做分析和优化，得到最优效果
- MobilePredictor 只打包 Execution Time，保持部署和执行的轻量

`Execution Time` 轻量级设计和实现

每个 batch 实际执行只包含两个步骤执行
- Op.InferShape
- Kernel.Run，Kernel 相关参数均使用指针提前确定，后续无查找或传参消耗
- 设计目标，执行时，只有 kernel 计算本身消耗
轻量级 Op 及 Kernel 设计，避免框架额外消耗
- Op 只有 CreateKernels 和 InferShape 两个重要职能
- Kernel 只有 Run 职能

多硬件后端支持

硬件通用行为，使用 TargetWrapper 模块做适配器适配，对上层框架提供一致界面
框架上层策略保持硬件无关，如存储优化 (Memory optimize)，计算剪枝 (Computation prune) 等，任何硬件接入均可直接复用
框架支持了硬件通用行为，特定硬件细节不做过多约束，各硬件可以自行实现并接入框架
计算模式上目前支持两种主流模型，一种是类似 X86, ARM CPU 等非异构设备；一种是 GPU，或 FPGA 等异构设备（支持 stream, event异步执行模式以及跨设备拷贝）

多硬件及算法混合调度支持

TensorTy 用来表示 Tensor 类型

struct TensorTy {
    TargetType target;
    PrecisionType precision;
    DataLayout layout;
    int deviceid;
};

enum class TargetType { kARM, kX86, kCUDA, kOpenCL };
enum class PrecisionType { kFP32, kFP16, kInt8, kInt16 };
enum class DataLayout { kNCHW, kNHWC };

REGISTER_LITE_KERNEL(
  mul, kARM, kFloat, kNCHW, arm::MulCompute, def)
  .BindInput("X", {LiteType::GetTensorTy(kARM, kFloat, kNCHW)})
  .BindInput("Y", {LiteType::GetTensorTy(kARM, kFloat, kNCHW))})
  .BindOutput("Out", {LiteType::GetTensorTy(kARM, kFloat, kNCHW)})
  .Finalize();