低代码数据计算

完成底层数据集成后,数据依然是零散、低价值密度的,无法直接为上层算法和 DI 应用提供数据服务。此时还需对数据进行汇聚加工,主要包括数据清洗、数据萃取和数据导出等操作。

数据清洗

离线数据清洗

  1. 配置离线数据清洗任务时,任务节点所属工作流周期选择单次任务或周期任务。

  2. 拖拽锚点可创建新的节点任务,选择 数据清洗

  3. 填写数据清洗节点基本信息。

    低代码数据计算 - 图1

    | 参数 | 说明 | 是否必填 | | —————— | —————————————————————————————— | ———— | | 节点名称 | 任务节点名称 | 是 | | 节点描述 | 任务节点描述 | 否 | | 视图类型 | 选择视图编辑(可视化图形界面配置)或自定义编辑(文本代码编辑) | 是 | | 存储方式 | 选择存储一或存储二 | 是 | | 清洗类型 | 选择事实表或维度表 | 是 | | 创建方式 | 手动创建或选择已有(若首次创建表,请选择手动创建) | 是 | | 表名称 | 维度表/事实表名称 | 是 | | 表中文名 | 维度表/事实表中文名称 | 是 | | 加载策略 | 增量/全量 | 是 | | 表描述 | 维度表/事实表描述 | 否 | | CPU | 分配该任务节点使用 CPU | 是 | | 最大分配内存 | 分配该任务占用队列的最大内存 | 是 |

  4. 选择主模型并新增关联模型。

    | 参数 | 说明 | 是否必填 | | —————— | ——————————————— | ———— | | 选择主模型 | 选择数据来源表 | 是 | | 过滤条件 | 填写数据来源表的过滤条件 | 否 | | 选择关联模型 | 选择关联的数据表 | 是 | | 关联类型 | LEFT JOIN/RIGHT JOIN/FULL JOIN | 是 | | 过滤条件 | 填写数据来源表的过滤条件 | 否 | | 配置字段 | 主模型与关联模型关联条件 | 是 | | 配置方式 | 关联字段/自定义编辑 | 是 | | 关联字段 | 主模型关联字段 | 是 |

  5. 配置目标模型字段。

    | 参数 | 说明 | 是否必填 | | ——————————- | —————————————————————————————— | ———— | | 过滤条件 | 过滤主模型和关联模型的数据集 | 否 | | 字段名 | 字段名称 | 是 | | 字段描述 | 字段描述 | 否 | | 字段类型 | 字段类型 | 是 | | 字段长度 | 字段长度 | 否 | | 是否主键 | 主键 | 否 | | 是否分区键 | 分区键 | 否 | | 配置方式 | 关联字段/自定义编辑(自定义逻辑请选择自定义编辑) | 是 | | 关联模型字段/配置规则 | 若配置方式为关联字段,则在关联模型中选择相应字段;若配置方式为自定义编辑,则在配置规则中编写规则 | 是 |

实时数据清洗

  1. 配置实时数据清洗任务时,任务节点所属工作流周期选择实时任务。
  2. 拖拽锚点可创建新的节点任务,选择 数据清洗
  3. 填写数据清洗节点基本信息。
  4. 当前实时数据清洗仅支持自定义编辑操作。在自定义文本编辑中编写 Flink-SQL 逻辑,具体语法及参数配置请参见 Flink 官网

数据萃取

离线数据萃取

  1. 配置离线数据萃取任务时,任务节点所属工作流周期选择单次任务或周期任务。

  2. 拖拽锚点可创建新的节点任务,选择 数据萃取

  3. 填写数据萃取节点基本信息。

    低代码数据计算 - 图2

    | 参数 | 说明 | 是否必填 | | —————— | —————————————————————————————— | ———— | | 节点名称 | 任务节点名称 | 是 | | 节点描述 | 任务节点描述 | 否 | | 视图类型 | 选择视图编辑(可视化图形界面配置)或自定义编辑(文本代码编辑) | 是 | | 存储方式 | 选择存储一或存储二 | 是 | | 萃取类型 | 选择汇总表或应用表 | 是 | | 创建方式 | 手动创建或选择已有(若首次创建表,请选择手动创建) | 是 | | 表名称 | 汇总表/应用表名称 | 是 | | 表中文名 | 汇总表/应用表中文名称 | 是 | | 加载策略 | 增量/全量 | 是 | | 表描述 | 汇总表/应用表描述 | 否 | | CPU | 分配该任务节点使用 CPU | 是 | | 最大分配内存 | 分配该任务占用队列的最大内存 | 是 |

  4. 选择主模型并新增关联模型。

    | 参数 | 说明 | 是否必填 | | —————— | ——————————————— | ———— | | 选择主模型 | 选择数据来源表 | 是 | | 过滤条件 | 填写数据来源表的过滤条件 | 否 | | 选择关联模型 | 选择关联的数据表 | 是 | | 关联类型 | LEFT JOIN/RIGHT JOIN/FULL JOIN | 是 | | 过滤条件 | 填写数据来源表的过滤条件 | 否 | | 配置字段 | 主模型与关联模型关联条件 | 是 | | 配置方式 | 关联字段/自定义编辑 | 是 | | 关联字段 | 主模型关联字段 | 是 |

  5. 配置目标模型字段。

    | 参数 | 说明 | 是否必填 | | ——————————- | —————————————————————————————— | ———— | | 过滤条件 | 过滤主模型和关联模型的数据集 | 否 | | 字段名 | 字段名称 | 是 | | 字段描述 | 字段描述 | 否 | | 字段类型 | 字段类型 | 是 | | 字段长度 | 字段长度 | 否 | | 是否主键 | 主键 | 否 | | 是否分区键 | 分区键 | 否 | | 配置方式 | 关联字段/自定义编辑(自定义逻辑请选择自定义编辑) | 是 | | 关联模型字段/配置规则 | 若配置方式为关联字段,则在关联模型中选择相应字段;若配置方式为自定义编辑,则在配置规则中编写规则 | 是 |

实时数据萃取

  1. 配置实时数据萃取任务时,任务节点所属工作流周期选择实时任务。
  2. 拖拽锚点可创建新的节点任务,选择 数据萃取
  3. 填写数据萃取节点基本信息。
  4. 当前实时数据萃取仅支持自定义编辑操作。在自定义文本编辑中编写 Flink-SQL 逻辑,具体语法及参数配置请参见 Flink 官网

数据导出

离线数据导出

  1. 配置离线数据导出任务时,任务节点所属工作流周期选择单次任务或周期任务。

  2. 拖拽锚点可创建新的节点任务,选择 数据导出

  3. 填写数据导出节点基本信息。

    低代码数据计算 - 图3

    | 参数 | 说明 | 是否必填 | | —————— | —————————————— | ———— | | 节点名称 | 任务节点名称 | 是 | | 节点描述 | 任务节点描述 | 否 | | 视图类型 | 当前仅支持视图编辑 | 是 | | 存储方式 | 选择存储一或存储二 | 是 | | CPU | 分配该任务节点使用 CPU | 是 | | 最大分配内存 | 分配该任务占用队列的最大内存 | 是 |

  4. 填写配置信息参数。


    模块 参数 说明
    模型同步来源 数据源 默认为数据平台存储组件
    数据模型 选择已开发完成的数据模型
    加载策略 全量/增量
    加载时间 分/时/天(选择增量)
    过滤条件 确定导出表的数据范围
    模型同步目标 数据源 选择已配置完成的业务数据源
    数据模型 选择已配置完成的业务源数据模型
    写入模式 选择更新/覆盖
    前置条件 输入前置语句逻辑,例如 truncate table xxx
  5. 完成以上信息填写后,可在左下角进行字段配置。

  6. 点击 确认 完成数据导出节点配置。

实时数据导出

  1. 配置实时数据导出任务时,任务节点所属工作流周期选择实时任务。
  2. 拖拽锚点可创建新的节点任务,选择 数据导出
  3. 填写数据导出节点基本信息。
  4. 当前实时数据导出仅支持自定义编辑操作。在自定义文本编辑中编写 Flink-SQL 逻辑,具体语法及参数配置请参见 Flink 官网