流规格
- 数据类型
- 语言定义

流规格

数据类型

在 eKuiper 中，每个列或表达式都有一个相关的数据类型。数据类型描述（约束）该类型的列可以容纳的一组值或该类型可以产生的表达式。

以下是支持的数据类型的列表。

#	数据类型	说明
1	bigint
2	float
3	string
4	datetime
5	boolean
6	bytea	用于存储二进制数据的字节数组。如果在格式为 “JSON” 的流中使用此类型，则传入的数据需要为 base64 编码的字符串。
7	array	数组类型可以是任何简单类型，数组类型或结构类型。
8	struct	复杂类型

语言定义

CREATE STREAM   
    stream_name   
    ( column_name <data_type> [ ,...n ] )
    WITH ( property_name = expression [, ...] );

支持的属性名称

属性名称	可选	说明
DATASOURCE	否	取决于不同的源类型；如果是 MQTT 源，则为 MQTT 数据源主题名；其它源请参考相关的文档。
FORMAT	是	传入的数据类型，支持 “JSON”, “PROTOBUF” 和 “BINARY”，默认为 “JSON” 。关于 “BINARY” 类型的更多信息，请参阅 Binary Stream。该属性是否生效取决于源的类型，某些源自身解析的时固定私有格式的数据，则该配置不起作用。可支持该属性的源包括 MQTT 和 ZMQ 等。
SCHEMAID	是	解码时使用的模式，目前仅在格式为 PROTOBUF 的情况下使用。
KEY	是	保留配置，当前未使用该字段。它将用于 GROUP BY 语句。
TYPE	是	源类型，如未指定，值为 “mqtt”。
StrictValidation	是	针对流模式控制消息字段的验证行为。有关更多信息，请参见 Strict Validation
CONF_KEY	是	如果需要配置其他配置项，请在此处指定 config 键。有关更多信息，请参见 MQTT stream 。
SHARED	是	是否在使用该流的规则中共享源的实例
TIMESTAMP	是	代表该事件时间戳的字段名。如果有设置，则使用此流的规则将采用事件时间；否则将采用处理时间。详情请看时间戳管理。
TIMESTAMP_FORMAT	是	字符串和时间格式转换时使用的默认格式。

示例1

my_stream 
  (id bigint, name string, score float)
WITH ( datasource = "topic/temperature", FORMAT = "json", KEY = "id");

该流将订阅 MQTT 主题topic/temperature，服务器连接使用配置文件$ekuiper/etc/mqtt_source.yaml 中默认部分的 server 键。

有关更多信息，请参见 MQTT source

示例2

demo (
        USERID BIGINT,
        FIRST_NAME STRING,
        LAST_NAME STRING,
        NICKNAMES ARRAY(STRING),
        Gender BOOLEAN,
        ADDRESS STRUCT(STREET_NAME STRING, NUMBER BIGINT),
    ) WITH (DATASOURCE="test/", FORMAT="JSON", KEY="USERID", CONF_KEY="demo");

流将订阅 MQTT 主题 test/，服务器连接使用配置文件$ekuiper/etc/mqtt_source.yaml 中 demo 部分的设置。

示例3

demo () WITH (DATASOURCE="test/", FORMAT="protobuf", SCHEMAID="proto1.Book");

流将订阅 MQTT 主题 test/，使用 PROTOBUF 格式，根据在 $ekuiper/etc/schemas/protobuf/schema1.proto 文件中的 Book 定义对流入的数据进行解码。其中，模式的管理详见模式注册表。

有关更多信息，请参见 MQTT source
有关规则和流管理的更多信息，请参见规则和流 CLI docs

共享源实例

默认情况下，每个规则会创建自己的源实例。在某些场景中，用户需要不同的规则处理完全相同的数据流。例如，在处理传感器的温度数据时，用户可能需要一个规则，当一段时间的平均温度大于30度时触发警告；而另一个规则则是当一段时间的平均温度小于0度时触发警告。使用默认配置时，两个规则各自独立实例化源实例。由于网络延迟等原因，规则可能得到不同顺序，甚至各有缺失数据的数据流，从而在不同的数据维度中计算平均值。通过配置共享源实例，用户可以确保两个规则处理完全相同的数据。同时，由于节省了额外的源实例开销，规则的性能也能得到提升。

使用共享源实例模式，只需要共享源实例的流时，将其 SHARED 属性设置为 true 。

demo (
        ...
    ) WITH (DATASOURCE="test", FORMAT="JSON", KEY="USERID", SHARED="true");

Strict Validation

StrictValidation 的值可以为 true 或 false。
1）True：如果消息不符合流定义，则删除消息。
2）False：保留消息，但用默认的空值填充缺少的字段。
bigint: 0
float: 0.0
string: ""
datetime: (NOT support yet)
boolean: false
array: zero length array
struct: null value

Schema-less 流

如果流的数据类型未知或不同，我们可以不使用字段来定义它。这称为 schema-less。通过将字段设置为空来定义它。

schemaless_stream 
  ()
WITH ( datasource = "topic/temperature", FORMAT = "json", KEY = "id");

Schema-less 流字段数据类型将在运行时确定。如果在不兼容子句中使用该字段，则会抛出运行时错误并将其发送到目标。例如，where temperature > 30。一旦温度不是数字，将错误发送到目标。

有关 SQL 语言的更多信息，请参见查询语言元素。

二进制流

对于二进制数据流，例如图像或者视频流，需要指定数据格式为 “BINARY” 。二进制流的数据为一个二进制数据块，不区分字段。所以，其流定义必须仅有一个 bytea 类型字段。如下流定义示例中，二进制流的数据将会解析为 demoBin 流中的 image 字段。

demoBin (
    image BYTEA
) WITH (DATASOURCE="test/", FORMAT="BINARY");

如果 “BINARY” 格式流定义为 schemaless，数据将会解析到默认的名为 self 的字段。