总览

简介

Inlong-sort-standalone是一个负责将用户上报的数据流从缓存层消费出来,分发到不同数据存储的模块,支持Hive、ElasticSearch、CLS等多种数据存储。
Inlong-sort-standalone依赖inlong-manager进行系统元数据的管理,Inlong-sort-standalone按集群部署,按目标存储聚合分发任务。

特性

多租户系统

inlong-sort-standalone支持多租户,一个inlong-sort-standalone集群可以承载不同租户的分发任务,分发任务从Inlong-manager获取。
每个分发任务负责将多个数据流分发到一个数据存储,用户只需要在Inlong-manager的前端页面进行配置,指定数据流分发到具体数据存储。
举例:Inlong数据流d1和d2,都分发Hive集群H1,d1还分发到ElasticSearch集群E1,d2还分发到CLS集群C1,那么inlong-sort-standalone集群会收到三个分发任务。

  • H1分发任务消费d1和d2,分发到Hive集群H1;
  • E1分发任务消费d1,分发到ElasticSearch集群E1;
  • C1分发任务消费d2,分发到CLS集群C1。

分发任务支持动态更新

inlong-sort-standalone支持动态更新分发任务,比如Inlong数据流所在数据源的信息,数据流schema信息,目标数据存储的信息。
需要注意的是,Inlong数据流新增分发,会从缓存层的最新位置开始消费;
Inlong数据流分发下线后重新上线,如果下线时的消费位置还在缓存层的生命周期内,则从下线时的消费位置继续消费;
如果下线时的消费位置已不在缓存层的生命周期内,则从缓存层的最新位置开始消费。

缓存层支持的消息队列

  • Inlong-tubemq
  • Apache Pulsar

支持的数据存储

  • Apache Hive(当前只支持sequence文件格式)
  • Apache Pulsar
  • Apache Kafka

未来规划

支持更多种类的缓存层消息队列

Apache Kafka等。

支持更多种类的数据存储

Hbase,ElasticSearch等。

支持更多种写入Apache Hive的文件格式

ORC file等。