工作流管理

完成数据源和数据模型配置后,需对数据进行处理,包括数据清洗、数据萃取、数据导出等常规操作,此外还可以选择标签计算、One ID 等。

创建工作流

进入 数据集成 > 工作流管理,创建文件夹(可选)后在文件夹下添加工作流,根据需要配置工作流信息。

工作流管理 - 图1

  • 周期:可选单次任务、周期任务和实时任务,其中单次任务和周期任务属于离线任务计算。

    • 单次任务:运行一次任务即结束。
    • 周期任务:每隔一段时间运行一次任务。
    • 实时任务:始终运行任务。
  • 参数设置:工作流所需全局参数。

    假设设置时间参数为 pt=${yyyy-MM-dd-1},在下游节点中可填写 ${pt} 以引用该参数,平台将替换该变量为某个具体日期。

  • 依赖工作流:若当前工作流需在另一个工作流运行完成的基础上再执行,即需配置依赖工作流。

  • 提交队列:可实现更精细的工作流分配和管理,具体请参见 队列管理

  • 任务优先级:可设置工作流运行的优先级,数字越大,优先级越高。

  • 所属目录:当前工作流所在文件夹。

数据集成

将数据从数据源中集成至系统内部。

创建集成节点

选择数据集成节点。

工作流管理 - 图2

编辑集成节点

  1. 选择需读取的数据源和数据模型。

  2. 点击 + 创建系统内部 Cassandra 模型名称。  

工作流管理 - 图3

3) 选择所需字段后,点击 > 添加至 Cassandra 模型。

  1. 点击 编辑 修改模型字段,包括主键、分区键等。模型中必须包含主键。

  2. 点击 添加 可自行添加字段,添加的字段需设置默认值。

工作流管理 - 图4

  1. 在编辑模型字段或添加字段时,可添加质量规则。

  2. 点击 确定 保存配置。

数据清洗

创建清洗节点

选择数据清洗节点。

工作流管理 - 图5

编辑清洗节点

  1. 设置清洗表表名。
  2. 选择需清洗的系统内部表名为主模型,添加过滤条件以筛选表中字段,等同于 SQL 中的 Where 语句。
  3. 可选新增关联模型。
  4. 在模型中选择用户所需字段,点击箭头图标同步至清洗表。
  5. 可根据需要编辑或新增字段(右侧模型必须含有分区键)。

数据萃取

创建萃取节点

选择数据萃取节点。

工作流管理 - 图6

编辑萃取节点

  1. 设置萃取表表名。
  2. 选择需萃取的系统内部表名为主模型,添加过滤条件以筛选表中字段,等同于 SQL 中的 Where 语句。
  3. 可选新增关联模型。
  4. 在模型中选择用户所需字段,点击箭头图标同步至萃取表。
  5. 可根据需要编辑或新增字段。

工作流管理 - 图7

数据导出

将系统内部已处理的数据导出至外部数据源。

创建导出节点

工作流管理 - 图8

编辑导出节点

  1. 选择需导出的数据模型。
  2. 选择数据源(EXTERNAL 类型)。
  3. 选择该数据源下的数据模型(需提前创建,且导出的字段名、数量和顺序需保持一致)。

工作流管理 - 图9

ONE ID

One ID 是针对用户所选字段的每一条数据加密后生成的唯一性 ID(Unique ID)。

  • 用户可按照优先级针对所配置的字段生成唯一的 One ID,随后对比相同的 One ID 数据以排同查异,查找不同系统下的同一用户。
  • 通过工作流中 One ID 节点生成的数据将存储于数据湖的 dim_cust_oneid 纬度表中,新生成的 One ID 数据将替代原有数据,随后重新加载最新数据。
  • One ID 生成的数据表 dim_cust_oneid 存在 6 个字段(one_id、phone、app_id、open_id、member_id、email),若用户所选字段来源于此,则该部分字段将显示为空。
  • One ID 将依次根据 phone、member_id、email、app_id 和 open_id 字段生成。若用户设置第一优先级为空,则生成规则将根据优先级依次顺延。

例如,用户已设置 phone、member_id、email 三个字段,则 One ID 将针对 phone 加密生成。若第一优先级字段 phone 字段为空,则 One ID 将针对 member_id 加密生成,以此类推。

One ID 旨在解决多系统或多数据来源下,无法判断用户是否为同一用户的问题。合理使用该功能,可通过关键字段查找不同数据源中的相同用户,并且对比信息异同。

工作流管理 - 图10

  1. 创建工作流并创建所需节点。

  2. 基于已创建的节点,选择 One ID 节点。

  3. 新建数据模型(通常为两个,即重复两次以下操作):

    3.1 点击 新建数据模型

    3.2 选择相应的数据模型。

    3.3 对数据模型中的字段进行业务说明。

    3.4 点击 确定 保存配置。

  4. 运行工作流。

One ID 的生成结果可在 数据集成 > 即席查询 中查询。

  1. 查找 dim_cust_oneid 纬度表。

  2. 复制相应的查询 SQL(也可自定义编写)。

  3. 执行 SQL,获取相应结果。

标签计算

您可为表中字段配置标签,数据平台将同步源数据至会员平台,会员平台可在此基础上为字段添加规则并同步至数据平台,数据平台即可根据字段规则进行计算。若会员平台未配置规则,则该节点在实际执行中无法进行计算。

例如,某一百万数据中包含年龄字段。您可在标签计算节点中设置年龄字段为指标,在会员平台设置规则(年龄大于 18 为成年人,小于 18 为未成年人),数据平台即可通过计算了解成年和未成年的具体人群。

创建标签节点

选择标签计算节点。

工作流管理 - 图11

编辑标签节点

  1. 点击 添加指标

  2. 选择需计算的表名和字段。

  3. 点击 确定 保存配置。

工作流管理 - 图12

数据注销

若您不希望系统保留数据,可通过数据注销清除留存于系统内部的数据。

工作流管理 - 图13

Python 执行

您可通过 Python 进行机器学习,并通过日志查看运行结果。

工作流管理 - 图14

群组计算

您可在标签计算的基础上,通过群组计算划分人群。

工作流管理 - 图15

工作流明细

您可进入 数据集成 > 工作流管理 查看工作流明细。

工作流管理 - 图16

工作流导入导出

如需导出工作流,勾选工作流目录或工作流后,点击 批量导出

工作流管理 - 图17

如需导入工作流,点击 批量导入 > 上传 后,在本地选择后缀为 .workflow 的文件即可。

工作流管理 - 图18