SQL语句 - DDL语句 - 《Apache Doris 文档(201812)》

DDL语句

DDL语句

Create Database

该语句用于新建数据库(database)

语法：

CREATE DATABASE [IF NOT EXISTS] db_name;

举例：

新建数据库 db_test
CREATE DATABASE db_test;

Create Table

该语句用于创建表(table)

语法：

  CREATE [EXTERNAL] TABLE [IF NOT EXISTS] [database.]table_name
   (column_definition[, column_definition, ...])
   [ENGINE = [olap|mysql|broker]]
[key_desc]
   [partition_desc]
   [distribution_desc]
   [PROPERTIES ("key"="value", ...)]
   [BROKER PROPERTIES ("key"="value", ...)];

Column_definition

语法：

col_name col_type [agg_type] [NULL | NOT NULL] [DEFAULT "default_value"]

col_name：列名称
col_type：列类型，可以是INT，DOUBLE，DATE等，参考数据类型章节。
agg_type：聚合类型，目前支持SUM，MAX，MIN、REPLACE和HLL_UNION(仅用于HLL列，为HLL独有的聚合方式)5种。聚合类型是可选选项，如果不指定，说明该列是维度列（key列），否则是事实列（value列）。建表语句中，所有的key列必须在value列之前，一张表可以没有value列，这样的表就是维度表，但不能没有key列。该类型只对聚合模型(key_desc的type为AGGREGATE KEY)有用，其它模型不需要指定这个。
是否允许为NULL: 默认允许为NULL，导入时用\N来表示

说明：

在导入的时候，Palo会自动把相同key列对应的value列按照指定的聚合方法合并（针对聚合模型）。比如，Palo中有一张表包含三列：k1，k2和v，其中v是int类型的value列，聚合方法是SUM，k1和k2是key列。假如原本有数据如下

| k1  | k2  | v   |
|-----|-----|-----|
| 1   | 1   | 10  |
| 1   | 2   | 20  |
| 2   | 2   | 30  |

新导入的数据如下：

| k1  | k2  | v   |
|-----|-----|-----|
| 1   | 1   | 5   |
| 2   | 2   | 10  |
| 3   | 1   | 5   |

导入以后，Palo中的数据如下

| k1  | k2  | v   |
|-----|-----|-----|
| 1   | 1   | 15  |
| 1   | 2   | 20  |
| 2   | 2   | 40  |
| 3   | 1   | 5   |

可以看到，在k1和k2相同的时候，v列使用SUM聚合方法做了聚合。

ENGINE类型

说明：

ENGINE默认为olap，也就是由Palo提供存储支持，也可以选择mysql，broker。

mysql类型用来存储维表，由用户自己维护，方便修改。查询的时候，Palo可以自动实现mysql表和olap表的连接操作。使用mysql类型，需要提供以下properties信息

PROPERTIES (
 "host" = "mysql_server_host",
 "port" = "mysql_server_port",
 "user" = "your_user_name",
 "password" = "your_password",
 "database" = "database_name",
 "table" = "table_name"
 )

“table”条目中的“table_name”是mysql中的真实表名。而CREATE TABLE语句中的table_name是该mysql表在Palo中的名字，二者可以不同。

broker类型表示表的访问需要通过指定的broker, 需要在 properties 提供以下信息

PROPERTIES (
 "broker_name" = "broker_name",
 "paths" = "file_path1[,file_path2]",
 "column_separator" = "value_separator",
 "line_delimiter" = "value_delimiter"
）

另外还可以提供Broker需要的Property信息，通过BROKER PROPERTIES来传递，例如HDFS需要传入

BROKER PROPERTIES(
 "username" = "name",
 "password" = "password"
)

这个根据不同的Broker类型，需要传入的内容也不相同

其中"paths" 中如果有多个文件，用逗号[,]分割。如果文件名中包含逗号，那么使用 %2c 来替代。如果文件名中包含 %，使用 %25 代替。现在文件内容格式支持CSV，支持GZ，BZ2，LZ4，LZO(LZOP) 压缩格式。

key_desc

语法：

key_type(k1[,k2 ...])

说明：

数据按照指定的key列进行排序，且根据不同的key_type具有不同特性。

key_type支持一下类型：

AGGREGATE KEY:key列相同的记录，value列按照指定的聚合类型进行聚合，适合报表、多维分析等业务场景。
UNIQUE KEY：key列相同的记录，value列按导入顺序进行覆盖，适合按key列进行增删改查的点查询业务。
DUPLICATE KEY:key列相同的记录，同时存在于Palo中，适合存储明细数据或者数据无聚合特性的业务场景。

partition_desc

语法：

PARTITION BY RANGE (k1)
(
PARTITION partition_name VALUES LESS THAN MAXVALUE|("value1") [("key"="value")],
PARTITION partition_name VALUES LESS THAN MAXVALUE|("value2") [("key"="value")],
...
)

Partition使用指定的key列和指定的数据范围对数据进行分区，每个分区在物理上对应不同的数据块，便于快速过滤和按分区删除等操作。目前只支持按Range分区，只能有一个分区列，分区列必须是key列。注意，最后一个PARTITION从句之后没有逗号。

说明：

分区名称仅支持字母开头，并且只能由字母、数字和下划线组成
目前只支持以下类型的列作为分区列，且只能指定一个分区列TINYINT, SAMLLINT, INT, BIGINT, LARGEINT, DATE, DATETIME
分区为左闭右开区间，首个分区的左边界做为最小值
如果指定了分区，无法确定分区范围的导入数据会被过滤掉
每个分区后面的key-value键值对可以设置该分区的一些属性，目前支持如下属性：
storage_medium：用于指定该分区的初始存储介质，可选择SSD或HDD。默认为HDD。单节点SSD容量为50G，可以根据性能需求和数据量选择存储介质。
storage_cooldown_time：当设置存储介质为SSD时，指定该分区在SSD上的存储到期时间。默认存放7天。格式为："yyyy-MM-dd HH:mm:ss"。到期后数据会自动迁移到HDD上。
replication_num:指定分区的副本数。默认为3

distribution_desc

distribution用来指定如何分桶，可以选择Random分桶和Hash分桶两种分桶方式。

Random分桶语法：

DISTRIBUTED BY RANDOM [BUCKETS num]

Hash分桶语法：

DISTRIBUTED BY HASH (k1[,k2 ...]) [BUCKETS num]

说明：

Random使用所有key列进行哈希分桶，默认分区数为10。Hash使用指定的key列进行分桶，默认分区数为10。如果ENGINE类型为olap，必须指定分桶方式；如果是mysql则无须指定。
不建议使用Random分桶，建议使用Hash分桶。

properties

如果ENGINE类型为olap，则可以在properties中指定行存或列存

如果ENGINE类型为olap，且没有指定partition信息，可以在properties设置存储介质、存储到期时间和副本数等属性。如果指定了partition信息，需要为每个partition分别指定属性值，参考partition_desc

PROPERTIES (
"storage_medium" = "[SSD|HDD]",
["storage_cooldown_time" = "yyyy-MM-dd HH:mm:ss"],
["replication_num" = "3"]
)

如果ENGINE类型为 olap, 并且 storage_type 为 column, 可以指定某列使用 bloom filter 索引。bloom filter 索引仅适用于查询条件为 in 和 equal 的情况，该列的值越分散效果越好。目前只支持以下情况的列:除了 TINYINT FLOAT DOUBLE 类型以外的 key 列及聚合方法为 REPLACE 的 value 列

PROPERTIES (
"bloom_filter_columns"="k1,k2,k3"
）

关于建表的补充说明

Partition和Distribution的说明：
Palo支持复合分区，第一级称为Partition，对应建表语句中的partition_desc从句；第二级称为Distribution，对应建表语句中的distribution_desc从句。Partition是可选的，如果建表时没有指定Partition，系统会自动创建唯一的一个Partition。Distribution必须显式指定。在以下场景中推荐创建Partition：
历史数据删除需求：如有删除历史数据的需求（比如仅保留最近N天的数据）。使用复合分区，可以通过删除历史分区来达到目的。
解决数据倾斜问题：每个分区可以单独指定分桶数量。如按天分区，当每天的数据量差异很大时，可以通过指定分区的分桶数，合理划分不同分区的数据。
如有按时间维度进行数据划分、导入、查询、删除、历史数据回溯等业务需求，推荐使用复合分区功能。
合理的表模式：

Palo中使用类似前缀索引的结构来提高查询性能。数据在Palo内部是按照key列排序的，并且组织为一个个Data Block。每个Data Block的第一行的前几列会被用作这个Data Block的索引，在数据导入时创建。该索引可以帮助Palo快速过滤一些Data Block。考虑到索引大小等因素，Palo最多使用一行的前36个字节作为索引，遇到VARCHAR类型则会中断，并且VARCHAR类型最多只使用字符串的前20个字节。下面举例说明。

表1的schema：

)

前三列的长度和为（4+8+24=）36，正好36字节，所以前三列被用作前缀索引。

表2的schema：

)

前两列的长度为（4+8=）12，没有达到36，但是第三列为varchar，所以前三列被用作索引，其中k3只去前20字节。

表3的schema：

)

该表第一列是varchar类型，所以只有k3列的前20字节作为索引。

表4的schema：

)

前四列的长度和为（8+8+8+8=）32，如果加上第五列（8个字节），就会超过36字节。所以只有前四列被用作索引。

如果对于表2和表3执行同样的语句：

SELECT * from tbl WHERE k1 = 12345;

表2的性能会明显由于表3，因为在表2中可以用到k1索引，而表3只有k3作为索引，该查询会进行扫全表的操作。因此，在建表时，应该尽量将频繁使用，选择度高的列放在前面，尽量不要将varchar类型放在前几列，尽量使用整型作为索引列。

举例：

1.创建一个olap表，使用Random分桶，使用列存，相同key的记录进行聚合

CREATE TABLE example_db.table_random
   (
   k1 TINYINT,
   k2 DECIMAL(10, 2) DEFAULT "10.5",
   v1 CHAR(10) REPLACE,
   v2 INT SUM
   )
   ENGINE=olap
AGGREGATE KEY(k1, k2)
   DISTRIBUTED BY RANDOM BUCKETS 32
   PROPERTIES ("storage_type"="column");

2.创建一个olap表，使用Hash分桶，使用行存，相同key的记录进行覆盖。设置初始存储介质和存放到期时间。

CREATE TABLE example_db.table_hash
   (
   k1 BIGINT,
   k2 LARGEINT,
   v1 VARCHAR(2048),
   v2 SMALLINT DEFAULT "10"
   )
   ENGINE=olap
UNIQUE KEY(k1, k2)
   DISTRIBUTED BY HASH (k1, k2) BUCKETS 32
   PROPERTIES(
   "storage_type"="row"，
   "storage_medium" = "SSD",
   "storage_cooldown_time" = "2015-06-04 00:00:00"
   );

3.创建一个olap表，使用Key Range分区，使用Hash分桶。默认使用列存。相同key的记录同时存在。设置初始存储介质和存放到期时间。

   CREATE TABLE example_db.table_range
   (
   k1 DATE,
   k2 INT,
   k3 SMALLINT,
   v1 VARCHAR(2048),
   v2 DATETIME DEFAULT "2014-02-04 15:36:00"
   )
   ENGINE=olap
DUPLICATE KEY(k1, k2, k3)
   PARTITION BY RANGE (k1)
   (
   PARTITION p1 VALUES LESS THAN ("2014-01-01")
   ("storage_medium" = "SSD", "storage_cooldown_time" = "2015-06-04 00:00:00"),
   PARTITION p2 VALUES LESS THAN ("2014-06-01")
   ("storage_medium" = "SSD", "storage_cooldown_time" = "2015-06-04 00:00:00"),
   PARTITION p3 VALUES LESS THAN ("2014-12-01")
   )
   DISTRIBUTED BY HASH(k2) BUCKETS 32;

说明：

这个语句会将数据划分成如下3个分区：

( { MIN }, {"2014-01-01"} )
[ {"2014-01-01"}, {"2014-06-01"} )
[ {"2014-06-01"}, {"2014-12-01"} )

不在这些分区范围内的数据将视为非法数据被过滤

4.创建一个 mysql 表

CREATE TABLE example_db.table_mysql
(
k1 DATE,
k2 INT,
k3 SMALLINT,
k4 VARCHAR(2048),
k5 DATETIME
)
ENGINE=mysql
PROPERTIES
(
"host" = "127.0.0.1",
"port" = "8239",
"user" = "mysql_user",
"password" = "mysql_passwd",
"database" = "mysql_db_test",
"table" = "mysql_table_test"
)

5.创建一个数据文件存储在HDFS上的 broker 外部表, 数据使用 "|" 分割，"\n" 换行

CREATE EXTERNAL TABLE example_db.table_broker
(
k1 DATE,
k2 INT,
k3 SMALLINT,
k4 VARCHAR(2048),
k5 DATETIME
)
ENGINE=broker
PROPERTIES (
    "broker_name" = "hdfs",
    "path" = "hdfs://hdfs_host:hdfs_port/data1,hdfs://hdfs_host:hdfs_port/data2,hdfs://hdfs_host:hdfs_port/data3%2c4",
    "column_separator" = "|",
    "line_delimiter" = "\n"
)
BROKER PROPERTIES (
    "username" = "hdfs_user",
    "password" = "hdfs_password"
)

6.创建一个含有HLL列的表

CREATE TABLE example_db.example_table
(
k1 TINYINT,
k2 DECIMAL(10, 2) DEFAULT "10.5",
v1 HLL HLL_UNION,
v2 HLL HLL_UNION
)
ENGINE=olap
AGGREGATE KEY(k1, k2)
DISTRIBUTED BY RANDOM BUCKETS 32
PROPERTIES ("storage_type"="column");

Drop Database

该语句用于删除数据库(database)

语法：

DROP DATABASE [IF EXISTS] db_name;

举例：

删除数据库 db_test

DROP DATABASE db_test;

Drop Table

该语句用于删除表(table)

语法：

DROP TABLE [IF EXISTS] [db_name.]table_name;

举例：

1.删除一个 table

DROP TABLE my_table;

2.如果存在，删除指定 database 的 table

DROP TABLE IF EXISTS example_db.my_table;

Alter Database

该语句用于设置指定数据库的配额。（仅管理员使用）

语法：

ALTER DATABASE db_name SET DATA QUOTA quota;

举例：

设置指定数据库数据量配额为1GB

ALTER DATABASE example_db SET DATA QUOTA 1073741824;

Alter Table

该语句用于对已有的table进行修改。该语句分为三种操作类型：partition、rollup和schema change。Partition是上文提到的复合分区中的第一级分区；rollup是物化索引相关的操作；schema change用来修改表结构。这三种操作不能同时出现在一条ALTER TABLE语句中。其中schema change和rollup是异步操作，任务提交成功则返回，之后可以使用SHOW ALTER命令查看进度。Partition是同步操作，命令返回表示执行完毕。

语法：

ALTER TABLE [database.]table alter_clause1[, alter_clause2, ...];

Alter_clause分为partition、rollup、schema change和rename四种。

partition支持的操作

增加分区

语法：

ADD PARTITION [IF NOT EXISTS] partition_name VALUES LESS THAN [MAXVALUE|("value1")] ["key"="value"] [DISTRIBUTED BY RANDOM [BUCKETS num] | DISTRIBUTED BY HASH (k1[,k2 ...]) [BUCKETS num]]

注意：

分区为左闭右开区间，用户指定右边界，系统自动确定左边界
如果没有指定分桶方式，则自动使用建表使用的分桶方式
如果已经指定分桶方式，则只能修改分桶数，不可修改分桶方式或分桶列
["key"="value"] 部分可以设置分区的一些属性，具体说明见CREATE TABLE

删除分区

语法：

DROP PARTITION [IF EXISTS] partition_name

注意：

使用分区方式的表至少要保留一个分区
执行 DROP PARTITION 一段时间内，可以通过 RECOVER 语句恢复被删除的 partition。详见 RECOVER 语句

修改分区属性

语法：

MODIFY PARTITION partition_name SET ("key" = "value", ...)

说明：

当前支持修改分区的 storage_medium、storage_cooldown_time 和replication_num 三个属性。
建表时没有指定partition时，partition_name同表名。

rollup支持的操作

rollup index类似于物化视图。建表完成之后，这张表中没有rollup index，只有一个base index，这个index的name和表名相同。用户可以为一张表建立一个或多个rollup index，每个rollup index包含base index中key和value列的一个子集，Palo会为这个子集生成独立的数据，用来提升查询性能。如果一个查询涉及到的列全部包含在一个rollup index中，Palo会选择扫瞄这个rollup index而不是全部的数据。用户可以根据自己应用的特点选择创建rollup index,rollup支持的操作：

创建 rollup index

语法：

ADD ROLLUP rollup_name (column_name1, column_name2, ...) [FROM from_index_name] [PROPERTIES ("key"="value", ...)]

注意：

如果没有指定from_index_name，则默认从base index创建
rollup表中的列必须是from_index中已有的列
在properties中，可以指定存储格式。具体请参阅 CREATE TABLE

删除 rollup index

语法：

DROP ROLLUP rollup_name
[PROPERTIES ("key"="value", ...)]

注意：

不能删除 base index
执行 DROP ROLLUP 一段时间内，可以通过 RECOVER 语句恢复被删除的 rollup index。详见 RECOVER 语句

schema change

Schema change操作用来修改表结构，包括添加列、删除列、修改列类型以及调整列顺序等。可以修改base index和rollup index的结构。

Schema change支持的操作：

向指定index的指定位置添加一列

语法：

ADD COLUMN column_name column_type [KEY | agg_type] [DEFAULT "default_value"]
[AFTER column_name|FIRST]
[TO index_name]
[PROPERTIES ("key"="value", ...)]

注意：

聚合模型如果增加 value 列，需要指定agg_type
非聚合模型如果增加key列，需要指定KEY关键字
不能在rollup index中增加base index中已经存在的列。如有需要，可以重新创建一个 rollup index

向指定index添加多列

语法：

ADD COLUMN (column_name1 column_type [KEY | agg_type] DEFAULT "default_value", ...)
[TO index_name]
[PROPERTIES ("key"="value", ...)]

注意：

聚合模型如果增加 value 列，需要指定agg_type
非聚合模型如果增加key列，需要指定KEY关键字
不能在rollup index中增加base index中已经存在的列，如有需要，可以重新创建一个 rollup index。

从指定 index 中删除一列

语法：

DROP COLUMN column_name [FROM index_name]

注意：

不能删除分区列
如果是从base index中删除列，那么rollup index中如果包含该列，也会被删除

修改指定index的列类型以及列位置

语法：

MODIFY COLUMN column_name column_type [KEY | agg_type] [DEFAULT "default_value"]
[AFTER column_name|FIRST]
[FROM index_name]
[PROPERTIES ("key"="value", ...)]

注意：

聚合类型如果修改value列，需要指定agg_type
非聚合类型如果修改key列，需要指定KEY关键字
只能修改列的类型，列的其他属性维持原样（即其他属性需在语句中按照原属性显式的写出，参考schema change举例5）
分区列不能做任何修改
目前支持以下类型的转换（精度损失由用户保证）。TINYINT, SMALLINT, INT, BIGINT转换成TINYINT, SMALLINT, INT, BIGINT, DOUBLE。LARGEINT转换成DOUBLE 。VARCHAR支持修改最大长度
不支持从NULL转为NOT NULL

对指定index的列进行重新排序

语法：

ORDER BY (column_name1, column_name2, ...)
[FROM index_name]
[PROPERTIES ("key"="value", ...)]

注意：

index中的所有列都要写出来
value列在key列之后

rename

Rename操作用来修改表名、rollup index名称和partition名称

Rename支持的操作：

修改表名

语法：

RENAME new_table_name

修改rollup index名称

语法：

RENAME ROLLUP old_rollup_name new_rollup_name

修改partition名称

语法：

RENAME PARTITION old_partition_name new_partition_name

举例：

1.增加分区, 现有分区 [MIN, 2013-01-01)，增加分区[2013-01-01, 2014-01-01)，使用默认分桶方式

ALTER TABLE example_db.my_table
ADD PARTITION p1 VALUES LESS THAN ("2014-01-01");

2.增加分区，使用新的分桶方式

ALTER TABLE example_db.my_table
ADD PARTITION p1 VALUES LESS THAN ("2015-01-01")
DISTRIBUTED BY RANDOM BUCKETS 20;

3.删除分区

ALTER TABLE example_db.my_table
DROP PARTITION p1;

4.创建index: example_rollup_index，基于 base index（k1,k2,k3,v1,v2）,列式存储。

ALTER TABLE example_db.my_table
ADD ROLLUP example_rollup_index(k1, k3, v1, v2)
PROPERTIES("storage_type"="column");

5.创建index: example_rollup_index2，基于example_rollup_index（k1,k3,v1,v2）

ALTER TABLE example_db.my_table
ADD ROLLUP example_rollup_index2 (k1, v1)
FROM example_rollup_index;

6.删除index: example_rollup_index2

ALTER TABLE example_db.my_table
DROP ROLLUP example_rollup_index2;

7.向example_rollup_index的col1后添加一个key列new_col(非聚合模型)

ALTER TABLE example_db.my_table
ADD COLUMN new_col INT KEY DEFAULT "0" AFTER col1
TO example_rollup_index;

8.向example_rollup_index的col1后添加一个value列new_col(非聚合模型)

ALTER TABLE example_db.my_table
ADD COLUMN new_col INT DEFAULT "0" AFTER col1
TO example_rollup_index;

9.向example_rollup_index的col1后添加一个key列new_col(聚合模型)

ALTER TABLE example_db.my_table
ADD COLUMN new_col INT DEFAULT "0" AFTER col1
TO example_rollup_index;

10.向example_rollup_index的col1后添加一个value列new_col SUM聚合类型(聚合模型)

ALTER TABLE example_db.my_table
ADD COLUMN new_col INT SUM DEFAULT "0" AFTER col1
TO example_rollup_index;

11.向 example_rollup_index 添加多列（聚合模型）

ALTER TABLE example_db.my_table
ADD COLUMN (col1 INT DEFAULT "1", col2 FLOAT SUM DEFAULT "2.3")
TO example_rollup_index;

12.从example_rollup_index删除一列

ALTER TABLE example_db.my_table
DROP COLUMN col2
FROM example_rollup_index;

13.修改base index的col1列的类型为BIGINT，并移动到col2列后面

ALTER TABLE example_db.my_table
MODIFY COLUMN col1 BIGINT DEFAULT "1" AFTER col2;

14.修改base index的val1列最大长度。原val1为(val1 VARCHAR(32) REPLACE DEFAULT "abc")

ALTER TABLE example_db.my_table
MODIFY COLUMN val1 VARCHAR(64) REPLACE DEFAULT "abc";

15.重新排序example_rollup_index中的列（设原列顺序为：k1,k2,k3,v1,v2）

ALTER TABLE example_db.my_table
ORDER BY (k3,k1,k2,v2,v1)
FROM example_rollup_index;

16.同时执行两种操作

ALTER TABLE example_db.my_table
ADD COLUMN v2 INT MAX DEFAULT "0" AFTER k2 TO example_rollup_index,
ORDER BY (k3,k1,k2,v2,v1) FROM example_rollup_index;

17.修改表的 bloom filter 列

ALTER TABLE example_db.my_table
PROPERTIES ("bloom_filter_columns"="k1,k2,k3");

18.将名为 table1 的表修改为 table2

ALTER TABLE table1 RENAME table2;

19.将表 example_table 中名为 rollup1 的 rollup index 修改为 rollup2

ALTER TABLE example_table RENAME ROLLUP rollup1 rollup2;

20.将表 example_table 中名为 p1 的 partition 修改为 p2

ALTER TABLE example_table RENAME PARTITION p1 p2;

Cancel Alter

该语句用于撤销一个alter操作

撤销alter table column (即schema change)语法：

CANCEL ALTER TABLE COLUMN FROM db_name.table_name

撤销alter table rollup操作

CANCEL ALTER TABLE ROLLUP FROM db_name.table_name

举例：

1.撤销针对 my_table 的 ALTER COLUMN 操作。

CANCEL ALTER TABLE COLUMN
FROM example_db.my_table;

2.撤销 my_table 下的 ADD ROLLUP 操作。

CANCEL ALTER TABLE ROLLUP
FROM example_db.my_table;