ANALYZE

ANALYZE 语句用于更新 TiDB 在表和索引上留下的统计信息。执行大批量更新或导入记录后,或查询执行计划不是最佳时,建议运行 ANALYZE

当 TiDB 逐渐发现这些统计数据与预估不一致时,也会自动更新其统计数据。

目前 TiDB 收集统计信息为全量收集,通过 ANALYZE TABLE 语句来实现。关于该语句的详细使用方式,可参考常规统计信息

语法图

AnalyzeTableStmt

ANALYZE TABLE - 图1

AnalyzeOptionListOpt

ANALYZE TABLE - 图2

AnalyzeOptionList

ANALYZE TABLE - 图3

AnalyzeOption

ANALYZE TABLE - 图4

AnalyzeColumnOption

ANALYZE TABLE - 图5

TableNameList

ANALYZE TABLE - 图6

TableName

ANALYZE TABLE - 图7

ColumnNameList

ANALYZE TABLE - 图8

IndexNameList

ANALYZE TABLE - 图9

PartitionNameList

ANALYZE TABLE - 图10

  1. AnalyzeTableStmt ::=
  2. 'ANALYZE' ( 'TABLE' ( TableNameList ( 'ALL COLUMNS' | 'PREDICATE COLUMNS' ) | TableName ( 'INDEX' IndexNameList? | AnalyzeColumnOption | 'PARTITION' PartitionNameList ( 'INDEX' IndexNameList? | AnalyzeColumnOption )? )? ) 'INDEX' IndexNameList? ) AnalyzeOptionListOpt
  3. AnalyzeOptionListOpt ::=
  4. ( WITH AnalyzeOptionList )?
  5. AnalyzeOptionList ::=
  6. AnalyzeOption ( ',' AnalyzeOption )*
  7. AnalyzeOption ::=
  8. ( NUM ( 'BUCKETS' | 'TOPN' | ( 'CMSKETCH' ( 'DEPTH' | 'WIDTH' ) ) | 'SAMPLES' ) ) | ( FLOATNUM 'SAMPLERATE' )
  9. AnalyzeColumnOption ::=
  10. ( 'ALL COLUMNS' | 'PREDICATE COLUMNS' | 'COLUMNS' ColumnNameList )
  11. TableNameList ::=
  12. TableName (',' TableName)*
  13. TableName ::=
  14. Identifier ( '.' Identifier )?
  15. ColumnNameList ::=
  16. Identifier ( ',' Identifier )*
  17. IndexNameList ::=
  18. Identifier ( ',' Identifier )*
  19. PartitionNameList ::=
  20. Identifier ( ',' Identifier )*

示例

  1. CREATE TABLE t1 (id INT NOT NULL PRIMARY KEY AUTO_INCREMENT, c1 INT NOT NULL);
  1. Query OK, 0 rows affected (0.11 sec)
  1. INSERT INTO t1 (c1) VALUES (1),(2),(3),(4),(5);
  1. Query OK, 5 rows affected (0.03 sec)
  2. Records: 5 Duplicates: 0 Warnings: 0
  1. ALTER TABLE t1 ADD INDEX (c1);
  1. Query OK, 0 rows affected (0.30 sec)
  1. EXPLAIN SELECT * FROM t1 WHERE c1 = 3;
  1. +------------------------+---------+-----------+------------------------+---------------------------------------------+
  2. | id | estRows | task | access object | operator info |
  3. +------------------------+---------+-----------+------------------------+---------------------------------------------+
  4. | IndexReader_6 | 10.00 | root | | index:IndexRangeScan_5 |
  5. | └─IndexRangeScan_5 | 10.00 | cop[tikv] | table:t1, index:c1(c1) | range:[3,3], keep order:false, stats:pseudo |
  6. +------------------------+---------+-----------+------------------------+---------------------------------------------+
  7. 2 rows in set (0.00 sec)

当前的统计信息状态为 pseudo,表示统计信息不准确。

  1. ANALYZE TABLE t1;
  1. Query OK, 0 rows affected (0.13 sec)
  1. EXPLAIN SELECT * FROM t1 WHERE c1 = 3;
  1. +------------------------+---------+-----------+------------------------+-------------------------------+
  2. | id | estRows | task | access object | operator info |
  3. +------------------------+---------+-----------+------------------------+-------------------------------+
  4. | IndexReader_6 | 1.00 | root | | index:IndexRangeScan_5 |
  5. | └─IndexRangeScan_5 | 1.00 | cop[tikv] | table:t1, index:c1(c1) | range:[3,3], keep order:false |
  6. +------------------------+---------+-----------+------------------------+-------------------------------+
  7. 2 rows in set (0.00 sec)

统计信息已经正确地更新和加载。

MySQL 兼容性

ANALYZE TABLE 在语法上与 MySQL 类似。但 ANALYZE TABLE 在 TiDB 上的执行时间可能长得多,因为它的内部运行方式不同。

TiDB 与 MySQL 在以下方面存在区别:所收集的统计信息,以及查询执行过程中统计信息是如何被使用的。虽然 TiDB 中的 ANALYZE 语句在语法上与 MySQL 类似,但存在以下差异:

  • 执行 ANALYZE TABLE 时,TiDB 可能不包含最近提交的更改。若对行进行了批量更改,在执行 ANALYZE TABLE 之前,你可能需要先执行 sleep(1),这样统计信息更新才能反映这些更改。参见 #16570
  • ANALYZE TABLE 在 TiDB 中的执行时间比在 MySQL 中的执行时间要长得多。

另请参阅