简介

InLong Transform 助力 InLong 扩展接入分发能力,接入侧适配更丰富的数据协议和上报场景,分发侧适配复杂多样的数据分析场景,提高数据质量和数据协作,提供连接、聚合、筛选、分组、取值、抽样等和计算引擎解耦的计算能力,简化用户上报数据的前置操作,降低数据使用门槛,简化用户开始分析数据前的前置操作,聚焦数据的业务价值,实现数据“可见即可用”。

总览 - 图1

应用场景

  • 数据清洗:在数据集成过程中,需要对来自不同源的数据进行清洗,以消除数据中的错误、重复和不一致。Transform 能力可以帮助企业更有效地进行数据清洗,提高数据质量。
  • 数据融合:将来自不同数据源的数据融合在一起,以便进行统一的分析和报告。Transform 能力可以处理不同格式和结构的数据,实现数据的融合和集成。
  • 数据标准化:将数据转换为统一的标准格式,以便进行跨系统和跨平台的数据分析。Transform 能力可以帮助企业实现数据的标准化和规范化。
  • 数据分区和索引:为了提高数据查询和分析的性能,对数据进行分区和建立索引。Transform 能力可以实现分区和索引的字段值动态调整,从而提高数据仓库的性能。
  • 数据聚合和计算:在数据分析过程中,通过对数据进行聚合和计算,提取有价值的业务信息。Transform 能力可以实现复杂的数据聚合和计算,覆盖多维度的数据分析。
  • 数据安全和隐私保护:在数据集成过程中,需要确保数据的安全和隐私。Transform 能力可以实现数据的脱敏、加密和授权管理,保护数据的安全和隐私。
  • 跨团队数据共享:出于数据安全考虑,只共享数据流的筛选子集;出于数据依赖解耦考虑,和合作团队约定数据接口,动态调整多流合并到数据流接口。

特性

  • 通过 SQL 来描述数据流的 Transform 处理逻辑,支持标准 SQL 的语法。
  • 提供丰富的 SQL Function 处理各种 Transform 需求,并支持 UDF 扩展。
  • 支持 CSV、KV、ProtoBuffer、JSON 等扁平表格和树形结构的数据源解码解析框架。
  • 支持 CSV、KV 等数据目标的编码框架。
  • 数据源解码和数据目标编码可扩展开发。

未来规划

  • 支持更丰富的 Transform UDF、数据源解码器、数据目标编码器。
  • 支持基于 Time Window 的 Group 和 Join 能力。
  • 将 Transform 集成到 InLong 的各个模块,提升模块的处理能力和使用体验。
    • Agent:负责从各个数据源采集原始数据,扩展 Transform 能力后,增加 PB、Json 等复杂的数据源协议的支持,增加数据过滤和格式转换的能力。
    • Realtime Synchronization:目前实时同步基于 FlinkSQL 实现转换,一个数据流一个作业;扩展 Transform 能力后,增加 PB、Json 等复杂的数据源协议的支持;并且支持一个作业多个数据流。
    • Offline Synchronization:离线同步目前规划基于 Flink Batch 实现,InLongTransform 作为自定义函数拓展其转换能力;可以将 InLong 数据流的落库数据目标作为数据源,实现内部数据集成,实现预处理,通过前置 Sort 作业或离线同步作业的结束或者分区关闭事件触发下游离线作业。
    • Manager:Manager 扩展 Transform 能力后,界面提供原始数据的预转换操作,验证转换逻辑配置的正确性,提高用户体验。
    • Sort:目前 Sort 定义是一个数据流每种离线数据目标只落库一份,扩展 Transform 能力后,允许落库多份并且是子集合,并且通过关联静态库表丰富最终落库的内容,优化后续业务任务的处理。