简介

inlong-sort是一个基于flink的ETL系统,支持多种数据源,支持简单的字段抽取,支持多种存储系统。 inlong-sort依赖inlong-manager进行系统元数据的管理。

特性

支持的数据源

  • pulsar

支持的存储系统

  • hive(当前支持parquet、orc和text格式)
  • kafka
  • clickhouse
  • iceberg

一些局限

当前inlong-sort在ETL的transform阶段,只支持简单的字段抽取功能,一些复杂功能暂不支持。

未来规划

支持更多种类的数据源

kafka等

支持更多种类的存储

Hbase,Elastic Search等

支持更多种写入hive的文件格式

sequece file等