数据开发
概述
完成数据集成后,可以对FDP数据平台中的数据根据不同业务规则进行加工,从而发现其价值,主要步骤为数据清洗与数据萃取,以下章节详细描述具体操作步骤。
数据清洗
离线数据清洗
- 离线数据清洗任务配置时,任务节点所属工作流周期选择单次任务或周期任务。
拖拽锚点可创建新的节点任务,选择数据清洗,进入参数填写页面。
步骤一:对所要创建表类型,表名称,加载策略等基本信息进行填写,填写完毕后,点击下一步,进行步骤二和步骤三。
步骤二/步骤三:对数据来源表(主模型)以及通过填写过滤条件对数据范围进行确定,在步骤三中可点击新增关联模型按钮,来选择与主模型关联的关联模型和关联方式,过滤条件对关联模型的数据范围进行筛选。配置完成后点击确认按钮,在列表中可查看、配置、删除已配置的关联模型。点击配置按钮,将主模型与关联模型关联条件进行设置。如果存在变更情况,需删除原配置关系,再进行重新配置新的关联关系。
步骤四:完成关联模型配置后,点击下一步,配置目标模型字段。左侧同步模型字段列表中含主模型+关联模型所有字段,下侧填写过滤条件对主模型和关联模型的数据集,进行过滤。右侧目标模型字段可由左侧同步模型字段同步,亦可点击下侧添加按钮进行新建字段。确定目标模型所有字段后,点击右侧功能按钮,对字段描述、类型、计算逻辑等信息进行编辑。最后,点击上方SQL预览按钮,查看目标模型生成SQL逻辑,查看无误后,点击完成按钮,生成所创建的数据清洗节点。
步骤 | 参数 | 说明 | 是否必填项 |
---|---|---|---|
步骤一 | 节点名称 | 任务节点名称 | 是 |
节点描述 | 任务节点描述 | 否 | |
视图类型 | 选择视图编辑(可视化图形界面配置)/ 自定义编辑(文本代码编辑) | 是 | |
存储方式 | 选择存储一/存储二(存储一和存储二详见产品功能介绍) | 是 | |
清洗类型 | 选择事实表或维度表,详情请参考(数据模型设计与开发规范) | 是 | |
创建方式 | 手动创建/选择已有(如将创建表为第一次创建,选择手动创建) | 是 | |
表名称 | 维度表/事实表表名称 | 是 | |
表中文名 | 维度表/事实表表中文名称 | 是 | |
加载策略 | 增量/全量 | 是 | |
表描述 | 维度表/事实表表描述 | 否 | |
CPU | 分配该任务节点使用CPU | 是 | |
最大分配内存 | 分配该任务占用队列的最大内存 | 是 | |
步骤二 | 选择主模型 | 选择数据来源表 | 是 |
过滤条件 | 对数据来源表进行的过滤条件填写 | 否 | |
步骤三 | 选择关联模型 | 选择关联的数据表 | 是 |
关联类型 | LEFT JOIN/RIGHT JOIN /FULL JOIN | 是 | |
过滤条件 | 对数据来源表进行的过滤条件填写 | 否 | |
配置字段 | 主模型与关联模型关联条件 | 是 | |
配置方式 | 关联字段/自定义编辑 | 是 | |
关联字段 | 主模型关联字段 | 是 | |
步骤四 | 过滤条件 | 对主模型和关联模型的数据集,进行过滤 | 否 |
字段名 | 字段名称 | 是 | |
字段描述 | 字段描述 | 否 | |
字段类型 | 字段类型 | 是 | |
字段长度 | 字段长度 | 否 | |
是否主键 | 主键 | 否 | |
是否分区键 | 分区键 | 否 | |
配置方式 | 关联字段/自定义编辑(自定义逻辑选择自定义编辑) | 是 | |
关联模型字段/配置规则 | 如配置方式选择关联字段,则在关联模型中选择相应字段,如在配置方式中选择自定义编辑,则在配置规则中编写规则 | 是 |
实时数据清洗
- 实时数据清洗任务配置时,任务节点所属工作流周期选择实时任务。
拖拽锚点可创建新的节点任务,选择数据清洗,目前实时数据清洗仅支持自定义编辑操作。
填写实时清洗节点节点名称、CPU、表名称等基础信息。
在自定义文本编辑中书写Flink-SQL逻辑,书写语法及参数配置可参考Flink官网。
操作演示
数据萃取
离线数据萃取
- 离线数据萃取任务配置时,任务节点所属工作流周期选择单次任务或周期任务。
拖拽锚点可创建新的节点任务,选择数据萃取,进入参数填写页面。
步骤一:对所要创建表类型,表名称,加载策略等基本信息进行填写,填写完毕后,点击下一步,进行步骤二和步骤三。
步骤二/步骤三:对数据来源表(主模型)以及通过填写过滤条件对数据范围进行确定,在步骤三中可点击新增关联模型按钮,来选择与主模型关联的关联模型和关联方式,过滤条件对关联模型的数据范围进行筛选。配置完成后点击确认按钮,在列表中可查看、配置、删除已配置的关联模型。点击配置按钮,将主模型与关联模型关联条件进行设置。如果存在变更情况,需删除原配置关系,再进行重新配置新的关联关系。
步骤四:完成关联模型配置后,点击下一步,配置目标模型字段。左侧同步模型字段列表中含主模型+关联模型所有字段,下侧填写过滤条件对主模型和关联模型的数据集,进行过滤。右侧目标模型字段可由左侧同步模型字段同步,亦可点击下侧添加按钮进行新建字段。确定目标模型所有字段后,点击右侧功能按钮,对字段描述、类型、计算逻辑等信息进行编辑。最后,点击上方SQL预览按钮,查看目标模型生成SQL逻辑,查看无误后,点击完成按钮,生成所创建的数据萃取节点。
步骤 | 参数 | 说明 | 是否必填项 |
---|---|---|---|
步骤一 | 节点名称 | 任务节点名称 | 是 |
节点描述 | 任务节点描述 | 否 | |
视图类型 | 选择视图编辑(可视化图形界面配置)/ 自定义编辑(文本代码编辑) | 是 | |
存储方式 | 选择存储一/存储二(存储一和存储二详见产品功能介绍) | 是 | |
萃取类型 | 选择汇总表或应用表,详情请参考(数据模型设计与开发规范) | 是 | |
创建方式 | 手动创建/选择已有(如将创建表为第一次创建,选择手动创建) | 是 | |
表名称 | 汇总表/应用表表名称 | 是 | |
表中文名 | 汇总表/应用表表中文名称 | 是 | |
加载策略 | 增量/全量 | 是 | |
表描述 | 汇总表/应用表表描述 | 否 | |
CPU | 分配该任务节点使用CPU | 是 | |
最大分配内存 | 分配该任务占用队列的最大内存 | 是 | |
步骤二 | 所有参数 | 同数据清洗步骤二一致,请参考数据数据清洗步骤二 | 参考步骤二 |
步骤三 | 所有参数 | 同数据清洗步骤三一致,请参考数据数据清洗步骤三 | 参考步骤三 |
步骤四 | 所有参数 | 同数据清洗步骤四一致,请参考数据数据清洗步骤四 | 参考步骤四 |
实时数据萃取
- 实时数据萃取任务配置时,任务节点所属工作流周期选择实时任务。
拖拽锚点可创建新的节点任务,选择数据清洗,目前实时数据萃取仅支持自定义编辑操作。
填写实时萃取节点节点名称、CPU、表名称等基础信息。
- 在自定义文本编辑中书写Flink-SQL逻辑,书写语法及参数配置可参考Flink官网。
数据导出
离线数据导出
- 离线数据导出任务配置时,任务节点所属工作流周期选择单次任务或周期任务。
拖拽锚点可创建新的节点任务,选择数据导出。
填写数据导出节点基础信息。
参数 | 说明 | 是否必填项 |
---|---|---|
节点名称 | 任务节点名称 | 是 |
描述 | 任务节点描述 | 否 |
视图类型 | 选择视图编辑(目前仅支持视图导向配置) | 是 |
存储方式 | 选择存储一/存储二(存储一和存储二详见产品功能介绍) | 是 |
CPU | 分配该任务节点使用CPU | 是 |
最大分配内存 | 分配该任务占用队列的最大内存 | 是 |
- 填写配置信息参数
模块 | 参数 | 说明 |
---|---|---|
模型同步来源 | 数据源 | 默认数据平台存储组件 |
数据模型 | 选择已完成开发的数据模型 | |
加载策略 | 全量/增量 | |
加载时间 | 分/时/天(选择增量) | |
过滤条件 | 对所要导出表进行数据范围确定 | |
模型同步目标 | 数据源 | 选择已配置完成的业务数据源 |
数据模型 | 选择已配置完成的业务源数据模型 | |
写入模式 | 选择更新/覆盖 | |
前置条件 | 输入前置语句逻辑,如truncate table xxx |
完成基础信息和配置信息参数填写后,可在左下角点击编辑按钮对每一个字段进行质量规则的配置,质量规则详情参考上述质量规则操作。
最后点击确认按钮完成数据导出节点配置。
实时数据导出
实时任务配置时,任务节点所属工作流周期选择实时任务。
- 拖拽锚点可创建新的节点任务,选择数据导出,目前实时数据导出仅支持自定义编辑操作。
- 实时导出书写语法及参数配置可参考flink官网。