众所周知,MySQL8.0之前的版本DDL是非原子的。也就是说对于复合的DDL,比如DROP TABLE t1, t2;执行过程中如果遇到server crash,有可能出现表t1被DROP掉了,但是t2没有被DROP掉的情况。即便是一条DDL,比如CREATE TABLE t1(a int);也可能在server crash的情况下导致建表不完整,有可能在建表失败的情况下遗留.frm或者.ibd文件。

    上面情况出现的主要原因就是MySQL不支持原子的DDL。从图1可以看出,MySQL8.0以前,metadata在Server layer是存储在MyISAM引擎的系统表里,对于事务型引擎Innodb则自己存储一份metadata。这也导致MySQL存在如下一些弊端:

    1. metadata由于存储在Server layer以及存储引擎(这里特指Innodb),两份系统表很容易造成数据的不一致。
    2. 两份系统表存储的信息有所不同,访问Server layer以及存储引擎需要使用不同API,这种设计导致了不能很好的统一对系统metadata的访问。另外两份API,也同时增加了代码的维护量。
    3. 由于Server layer的metadata存储在非事务引擎(MyISAM)里,所以在进行crash recovery的时候就不能维持原子性。
    4. DDL的非原子性使得Replication处理异常情况变得更加复杂。比如DROP TABLE t1, t2; 如果DROP t1成功,但是DROP t2失败,Replication就无法保证主备一致性了。

    atomic-ddl-1.png

    图1: MySQL Data Dictionary before MySQL8.0

    MySQL8.0为了解决上面的缺陷,引入了事务型DDL。首先我们看一下MySQL8.0 metadata存储的架构变化:

    atomic-ddl-2.png

    图2: MySQL Data Dictionary in MySQL8.0

    图2我们可以看到,Server layer(后面简称SL)以及Storage Engine(后面简称SE) 使用同一份data dictionary(后面简称DD)用来存储metadata。SL和SE将各自需要的metadata存入DD中。由于DD使用Innodb作为存储引擎,所以crash recovery的时候,DD可以安全的进行事务回滚。

    下面我们介绍一下MySQL8.0为了实现原子DDL,在源码层面引入的一些重要数据结构:

    1. class Dictionary_client
    2. /*
    3. 这个类提供了SL以及SE统一访问DD的接口。每一个THD都有一个访问DD的Dictionary_client类型的成员。 如果需要操作DD,直接调用相关接口函数即可。
    4. 这个类成员函数的主要方法是去访问一个多session共享的cache来操作DD存储的各种对象。和其他cache一样,如果在访问过程中,在这个cache里没有找到对应的对象,那么后台会自动读取DD中的相关metadata,进而构建相应的数据表。
    5. */
    6. {
    7. public:
    8. /*
    9. 这个类是用来辅助Dictionary_client自动释放获取的DD对象。该类会自动跟踪当前Dictionary_client获取的每个DD对象。当Dictionary_client对象生命期结束的时候,该对象会自动释放当前session获取的DD对象。
    10. 这个类对象可以进行嵌套,Dictionary_client中的m_current_releaser成员变量始终会指向嵌套堆栈最顶层的一个Auto_releaser对象。如果当前的Auto_releaser对象结束了生命期,它会释放掉自己记录的位于共享cache中的DD对象,同时把m_current_releaser指向上一个老的Auto_releaser对象。
    11. */
    12. class Auto_releaser
    13. {
    14. friend class Dictionary_client;
    15. private:
    16. Dictionary_client *m_client; // 用来指向当前的Dictionary_client对象
    17. Object_registry m_release_registry; // 用来记录从共享cache中获取的DD对象,以便自动释放
    18. Auto_releaser *m_prev; // 用来形成列表,以方便当前实例生命期结束的时候,将Dictionary_client对象中的Auto_releaser重新指向之前创建的实例。
    19. /**
    20. 注册一个DD对象
    21. */
    22. template <typename T>
    23. void auto_release(Cache_element<T> *element)
    24. {
    25. // Catch situations where we do not use a non-default releaser.
    26. DBUG_ASSERT(m_prev != NULL);
    27. m_release_registry.put(element);
    28. }
    29. /**
    30. 当一个Auto_releaser对象结束生命期的时候,有的DD对象并不能结束生命期,该函数用来把一个DD对象转移给上一个Auto_releaser对象。
    31. */
    32. template <typename T>
    33. void transfer_release(const T* object);
    34. /**
    35. 移除一个DD对象
    36. */
    37. template <typename T>
    38. Auto_releaser *remove(Cache_element<T> *element);
    39. // Create a new empty auto releaser. Used only by the Dictionary_client.
    40. Auto_releaser();
    41. public:
    42. /**
    43. Create a new auto releaser and link it into the dictionary client
    44. as the current releaser.
    45. @param client Dictionary client for which to install this auto
    46. releaser.
    47. */
    48. explicit Auto_releaser(Dictionary_client *client);
    49. // Release all objects registered and restore previous releaser.
    50. ~Auto_releaser();
    51. // Debug dump to stderr.
    52. template <typename T>
    53. void dump() const;
    54. };
    55. private:
    56. std::vector<Entity_object*> m_uncached_objects; // Objects to be deleted.
    57. Object_registry m_registry_committed; // Registry of committed objects.
    58. Object_registry m_registry_uncommitted; // Registry of uncommitted objects.
    59. Object_registry m_registry_dropped; // Registry of dropped objects.
    60. THD *m_thd; // Thread context, needed for cache misses.
    61. Auto_releaser m_default_releaser; // Default auto releaser.
    62. Auto_releaser *m_current_releaser; // Current auto releaser.
    63. ...
    64. }
    65. /**
    66. 该类定义了共享的DD对象缓存,该类取代了8.0之前的table_cache。数据库对象会根据对象类型从不同的map中获取对象。所有对DD对象的访问都需要经过该缓存。
    67. */
    68. class Shared_dictionary_cache
    69. {
    70. private:
    71. // 设置一些缓存的最大容量,目前看来都是硬编码
    72. static const size_t collation_capacity= 256;
    73. static const size_t column_statistics_capacity= 32;
    74. static const size_t charset_capacity= 64;
    75. static const size_t event_capacity= 256;
    76. static const size_t spatial_reference_system_capacity= 256;
    77. /**
    78. Maximum number of DD resource group objects to be kept in
    79. cache. We use value of 32 which is a fairly reasonable upper limit
    80. of resource group configurations that may be in use.
    81. */
    82. static const size_t resource_group_capacity= 32;
    83. /* 下面是各种不同类型DD对象缓存map */
    84. Shared_multi_map<Abstract_table> m_abstract_table_map;
    85. Shared_multi_map<Charset> m_charset_map;
    86. Shared_multi_map<Collation> m_collation_map;
    87. Shared_multi_map<Column_statistics> m_column_stat_map;
    88. Shared_multi_map<Event> m_event_map;
    89. Shared_multi_map<Resource_group> m_resource_group_map;
    90. Shared_multi_map<Routine> m_routine_map;
    91. Shared_multi_map<Schema> m_schema_map;
    92. Shared_multi_map<Spatial_reference_system> m_spatial_reference_system_map;
    93. Shared_multi_map<Tablespace> m_tablespace_map;
    94. template <typename T> struct Type_selector { }; // Dummy type to use for
    95. // selecting map instance.
    96. /**
    97. Overloaded functions to use for selecting map instance based
    98. on a key type. Const and non-const variants.
    99. */
    100. Shared_multi_map<Abstract_table> *m_map(Type_selector<Abstract_table>)
    101. { return &m_abstract_table_map; }
    102. Shared_multi_map<Charset> *m_map(Type_selector<Charset>)
    103. { return &m_charset_map; }
    104. Shared_multi_map<Collation> *m_map(Type_selector<Collation>)
    105. { return &m_collation_map; }
    106. Shared_multi_map<Column_statistics> *m_map(Type_selector<Column_statistics>)
    107. { return &m_column_stat_map; }
    108. Shared_multi_map<Event> *m_map(Type_selector<Event>)
    109. { return &m_event_map; }
    110. Shared_multi_map<Resource_group> *m_map(Type_selector<Resource_group>)
    111. { return &m_resource_group_map; }
    112. Shared_multi_map<Spatial_reference_system> m_spatial_reference_system_map;
    113. Shared_multi_map<Tablespace> m_tablespace_map;
    114. template <typename T> struct Type_selector { }; // Dummy type to use for
    115. // selecting map instance.
    116. /**
    117. Overloaded functions to use for selecting map instance based
    118. on a key type. Const and non-const variants.
    119. */
    120. Shared_multi_map<Abstract_table> *m_map(Type_selector<Abstract_table>)
    121. { return &m_abstract_table_map; }
    122. Shared_multi_map<Charset> *m_map(Type_selector<Charset>)
    123. { return &m_charset_map; }
    124. Shared_multi_map<Collation> *m_map(Type_selector<Collation>)
    125. { return &m_collation_map; }
    126. Shared_multi_map<Column_statistics> *m_map(Type_selector<Column_statistics>)
    127. { return &m_column_stat_map; }
    128. Shared_multi_map<Event> *m_map(Type_selector<Event>)
    129. { return &m_event_map; }
    130. Shared_multi_map<Resource_group> *m_map(Type_selector<Resource_group>)
    131. { return &m_resource_group_map; }
    132. Shared_multi_map<Routine> *m_map(Type_selector<Routine>)
    133. { return &m_routine_map; }
    134. Shared_multi_map<Schema> *m_map(Type_selector<Schema>)
    135. { return &m_schema_map; }
    136. Shared_multi_map<Spatial_reference_system> *
    137. m_map(Type_selector<Spatial_reference_system>)
    138. { return &m_spatial_reference_system_map; }
    139. Shared_multi_map<Tablespace> *m_map(Type_selector<Tablespace>)
    140. { return &m_tablespace_map; }
    141. const Shared_multi_map<Abstract_table> *m_map(Type_selector<Abstract_table>) const
    142. { return &m_abstract_table_map; }
    143. const Shared_multi_map<Charset> *m_map(Type_selector<Charset>) const
    144. { return &m_charset_map; }
    145. const Shared_multi_map<Collation> *m_map(Type_selector<Collation>) const
    146. { return &m_collation_map; }
    147. const Shared_multi_map<Column_statistics> *
    148. m_map(Type_selector<Column_statistics>) const
    149. { return &m_column_stat_map; }
    150. const Shared_multi_map<Schema> *m_map(Type_selector<Schema>) const
    151. { return &m_schema_map; }
    152. const Shared_multi_map<Spatial_reference_system> *
    153. m_map(Type_selector<Spatial_reference_system>) const
    154. { return &m_spatial_reference_system_map; }
    155. const Shared_multi_map<Tablespace> *m_map(Type_selector<Tablespace>) const
    156. { return &m_tablespace_map; }
    157. const Shared_multi_map<Resource_group> *m_map(
    158. { return &m_abstract_table_map; }
    159. const Shared_multi_map<Charset> *m_map(Type_selector<Charset>) const
    160. { return &m_charset_map; }
    161. const Shared_multi_map<Collation> *m_map(Type_selector<Collation>) const
    162. { return &m_collation_map; }
    163. const Shared_multi_map<Column_statistics> *
    164. m_map(Type_selector<Column_statistics>) const
    165. { return &m_column_stat_map; }
    166. const Shared_multi_map<Schema> *m_map(Type_selector<Schema>) const
    167. { return &m_schema_map; }
    168. const Shared_multi_map<Spatial_reference_system> *
    169. m_map(Type_selector<Spatial_reference_system>) const
    170. { return &m_spatial_reference_system_map; }
    171. const Shared_multi_map<Tablespace> *m_map(Type_selector<Tablespace>) const
    172. { return &m_tablespace_map; }
    173. const Shared_multi_map<Resource_group> *m_map(
    174. Type_selector<Resource_group>) const
    175. { return &m_resource_group_map; }
    176. /**
    177. 根据DD对象类型获取对应的map对象。
    178. */
    179. template <typename T>
    180. Shared_multi_map<T> *m_map()
    181. { return m_map(Type_selector<T>()); }
    182. template <typename T>
    183. const Shared_multi_map<T> *m_map() const
    184. { return m_map(Type_selector<T>()); }
    185. Shared_dictionary_cache()
    186. { }
    187. public:
    188. static Shared_dictionary_cache *instance();
    189. // Set capacity of the shared maps.
    190. static void init();
    191. // Shutdown the shared maps.
    192. static void shutdown();
    193. // Reset the shared cache. Optionally keep the core DD table meta data.
    194. static void reset(bool keep_dd_entities);
    195. // Reset the table and tablespace partitions.
    196. static bool reset_tables_and_tablespaces(THD *thd);
    197. /**
    198. 根据DD类型及名称来验证对象是否在缓存中。
    199. */
    200. template <typename K, typename T>
    201. bool available(const K &key)
    202. { return m_map<T>()->available(key); }
    203. /**
    204. 该函数用来输出调试信息。
    205. */
    206. template <typename T>
    207. void dump() const
    208. {
    209. #ifndef DBUG_OFF
    210. fprintf(stderr, "================================\n");
    211. fprintf(stderr, "Shared dictionary cache\n");
    212. m_map<T>()->dump();
    213. fprintf(stderr, "================================\n");
    214. #endif
    215. }
    216. };
    217. } // namespace cache
    218. /**
    219. 这个类抽象了对DD对象的metadata进行存储的方法。它是一个静态类。对于新创建的对象(表,索引,表空间等)都会通过该类进行一个clone, clone之后该类会将该对象的metadata存储到对应的系统表中。另外,它也提供接口用来从系统表中获取metadata并生成调用需要的DD对象。
    220. 该类同时也提供了一个缓存,每次调用存储新对象的时候,它会自动将一个对象clone缓存起来。该类成员函数中core_xxx都是负责操作缓存。
    221. */
    222. class Storage_adapter
    223. {
    224. friend class dd_cache_unittest::CacheStorageTest;
    225. private:
    226. /**
    227. Use an id not starting at 1 to make it easy to recognize ids generated
    228. before objects are stored persistently.
    229. */
    230. static const Object_id FIRST_OID= 10001;
    231. /**
    232. 为新的对象产生一个ID标识。
    233. */
    234. template <typename T>
    235. Object_id next_oid();
    236. /**
    237. 根据对象名称从缓存中返回一个对象的clone。
    238. */
    239. template <typename K, typename T>
    240. void core_get(const K &key, const T **object);
    241. Object_registry m_core_registry; // Object registry storing core DD objects.
    242. mysql_mutex_t m_lock; // Single mutex to protect the registry.
    243. static bool s_use_fake_storage; // Whether to use the core registry to
    244. // simulate the storage engine.
    245. Storage_adapter()
    246. { mysql_mutex_init(PSI_NOT_INSTRUMENTED, &m_lock, MY_MUTEX_INIT_FAST); }
    247. ~Storage_adapter()
    248. {
    249. mysql_mutex_lock(&m_lock);
    250. m_core_registry.erase_all();
    251. mysql_mutex_unlock(&m_lock);
    252. mysql_mutex_destroy(&m_lock);
    253. }
    254. public:
    255. /* 这里可以获取到单例。 */
    256. static Storage_adapter *instance();
    257. /**
    258. 根据对象类型返回缓存区中所有对象的数量。
    259. */
    260. template <typename T>
    261. size_t core_size();
    262. /**
    263. 获取对象ID标识
    264. */
    265. template <typename T>
    266. Object_id core_get_id(const typename T::Name_key &key);
    267. /**
    268. 该函数可以根据对象类型及名称获取对象。如果该对象已经被缓存,那么调用core_get获取clone对象。否则会根据对象类型到对应的metadata数据表中查找并构造一个对象。
    269. */
    270. template <typename K, typename T>
    271. static bool get(THD *thd,
    272. const K &key,
    273. enum_tx_isolation isolation,
    274. bool bypass_core_registry,
    275. const T **object);
    276. /**
    277. 缓存中清除一个对象.
    278. */
    279. template <typename T>
    280. void core_drop(THD *thd, const T *object);
    281. /**
    282. 从对象所对应的各个metadata数据表中清除相关数据.
    283. */
    284. template <typename T>
    285. static bool drop(THD *thd, const T *object);
    286. /**
    287. 缓冲区中添加一个DD对象
    288. */
    289. template <typename T>
    290. void core_store(THD *thd, T *object);
    291. /**
    292. 该函数会根据DD对象类型,将metadata存入相关的系统表中。后面的建表语句中会对该函数进行详细的解释。
    293. */
    294. template <typename T>
    295. static bool store(THD *thd, T *object);
    296. /**
    297. 同步缓存中的DD对象。
    298. */
    299. template <typename T>
    300. bool core_sync(THD *thd, const typename T::Name_key &key, const T *object);
    301. /**
    302. Remove and delete all elements and objects from core storage.
    303. */
    304. void erase_all();
    305. /**
    306. 备份缓存中的对象。
    307. */
    308. void dump();
    309. };
    310. } // namespace cache
    311. } // namespace dd

    接下来我们以CREATE TABLE为例从源码上简单看一下MYSQL8.0是如何实现原子DDL的。

    CREATE TABLE实现的流程图如下:

    create-table.jpg

    这里我们看一下CREATE TABLE过程中新增加的几个比较重要的函数(这里主要看Innodb存储引擎):

    1. /*
    2. 该函数将会为Innodb存储引擎创建它自己需要的系统列。实际上就是把原来Innodb自己的系统表统一到DD中。
    3. */
    4. int
    5. ha_innobase::get_extra_columns_and_keys(
    6. const HA_CREATE_INFO*,
    7. const List<Create_field>*,
    8. const KEY*,
    9. uint,
    10. dd::Table* dd_table)
    11. {
    12. DBUG_ENTER("ha_innobase::get_extra_columns_and_keys");
    13. THD* thd = ha_thd();
    14. dd::Index* primary = nullptr;
    15. bool has_fulltext = false;
    16. const dd::Index* fts_doc_id_index = nullptr;
    17. /* 检查各个定义的索引是否合法。*/
    18. for (dd::Index* i : *dd_table->indexes()) {
    19. /* The name "PRIMARY" is reserved for the PRIMARY KEY */
    20. ut_ad((i->type() == dd::Index::IT_PRIMARY)
    21. == !my_strcasecmp(system_charset_info, i->name().c_str(),
    22. primary_key_name));
    23. if (!my_strcasecmp(system_charset_info,
    24. i->name().c_str(), FTS_DOC_ID_INDEX_NAME)) {
    25. ut_ad(!fts_doc_id_index);
    26. ut_ad(i->type() != dd::Index::IT_PRIMARY);
    27. fts_doc_id_index = i;
    28. }
    29. /* 验证索引算法是否有效 */
    30. switch (i->algorithm()) {
    31. ...
    32. }
    33. /* 验证并处理全文索引 */
    34. if (has_fulltext) {
    35. ...
    36. }
    37. /* 如果当前没有定义主键,Innodb将自动增加DB_ROW_ID作为主键。 */
    38. if (primary == nullptr) {
    39. dd::Column* db_row_id = dd_add_hidden_column(
    40. dd_table, "DB_ROW_ID", DATA_ROW_ID_LEN,
    41. dd::enum_column_types::INT24);
    42. if (db_row_id == nullptr) {
    43. DBUG_RETURN(ER_WRONG_COLUMN_NAME);
    44. }
    45. primary = dd_set_hidden_unique_index(
    46. dd_table->add_first_index(),
    47. primary_key_name,
    48. db_row_id);
    49. }
    50. /* 为二级索引增加主键列 */
    51. std::vector<const dd::Index_element*,
    52. ut_allocator<const dd::Index_element*>> pk_elements;
    53. for (dd::Index* index : *dd_table->indexes()) {
    54. if (index == primary) {
    55. continue;
    56. }
    57. pk_elements.clear();
    58. for (const dd::Index_element* e : primary->elements()) {
    59. if (e->is_prefix() ||
    60. std::search_n(index->elements().begin(),
    61. index->elements().end(), 1, e,
    62. [](const dd::Index_element* ie,
    63. const dd::Index_element* e) {
    64. return(&ie->column()
    65. == &e->column());
    66. }) == index->elements().end()) {
    67. pk_elements.push_back(e);
    68. }
    69. }
    70. for (const dd::Index_element* e : pk_elements) {
    71. auto ie = index->add_element(
    72. const_cast<dd::Column*>(&e->column()));
    73. ie->set_hidden(true);
    74. ie->set_order(e->order());
    75. }
    76. }
    77. /* 增加系统列 DB_TRX_ID, DB_ROLL_PTR. */
    78. dd::Column* db_trx_id = dd_add_hidden_column(
    79. dd_table, "DB_TRX_ID", DATA_TRX_ID_LEN,
    80. dd::enum_column_types::INT24);
    81. if (db_trx_id == nullptr) {
    82. DBUG_RETURN(ER_WRONG_COLUMN_NAME);
    83. }
    84. dd::Column* db_roll_ptr = dd_add_hidden_column(
    85. dd_table, "DB_ROLL_PTR", DATA_ROLL_PTR_LEN,
    86. dd::enum_column_types::LONGLONG);
    87. if (db_roll_ptr == nullptr) {
    88. DBUG_RETURN(ER_WRONG_COLUMN_NAME);
    89. }
    90. dd_add_hidden_element(primary, db_trx_id);
    91. dd_add_hidden_element(primary, db_roll_ptr);
    92. /* Add all non-virtual columns to the clustered index,
    93. unless they already part of the PRIMARY KEY. */
    94. for (const dd::Column* c : const_cast<const dd::Table*>(dd_table)->columns()) {
    95. if (c->is_hidden() || c->is_virtual()) {
    96. continue;
    97. }
    98. if (std::search_n(primary->elements().begin(),
    99. primary->elements().end(), 1,
    100. c, [](const dd::Index_element* e,
    101. const dd::Column* c)
    102. {
    103. return(!e->is_prefix()
    104. && &e->column() == c);
    105. })
    106. == primary->elements().end()) {
    107. dd_add_hidden_element(primary, c);
    108. }
    109. }
    110. DBUG_RETURN(0);
    111. }
    112. template <typename T>
    113. Dictionary_client::store(T* object)
    114. {
    115. ...
    116. /* 调用下面函数完成存储 */
    117. if (Storage_adapter::store(m_thd, object))
    118. return true;
    119. ...
    120. }
    121. /* 该函数负责将DD对象写入对应的系统表中。 */
    122. template <typename T>
    123. bool Storage_adapter::store(THD *thd, T *object)
    124. {
    125. // 如果是测试或者未到真正需要建表的阶段,只存入缓存,不进行持久化存储。
    126. if (s_use_fake_storage ||
    127. bootstrap::DD_bootstrap_ctx::instance().get_stage() <
    128. bootstrap::Stage::CREATED_TABLES)
    129. {
    130. instance()->core_store(thd, object);
    131. return false;
    132. }
    133. // 这里会验证DD对象的有效性
    134. if (object->impl()->validate())
    135. {
    136. DBUG_ASSERT(thd->is_system_thread() || thd->killed || thd->is_error());
    137. return true;
    138. }
    139. // 切换上下文,包括更新系统表的时候关闭binlog、修改auto_increament_increament增量、设置一些相关变量等与修改DD相关的上下文。
    140. Update_dictionary_tables_ctx ctx(thd);
    141. ctx.otx.register_tables<T>();
    142. DEBUG_SYNC(thd, "before_storing_dd_object");
    143. // object->impl()->store 这里会将DD对象存入相关的系统表。具体比如表,列, 表空间是如何持久化到系统表中的,由于篇幅有限,我们将在以后的月报中继续剖析。
    144. if (ctx.otx.open_tables() || object->impl()->store(&ctx.otx))
    145. {
    146. DBUG_ASSERT(thd->is_system_thread() || thd->killed || thd->is_error());
    147. return true;
    148. }
    149. // Do not create SDIs for tablespaces and tables while creating
    150. // dictionary entry during upgrade.
    151. if (bootstrap::DD_bootstrap_ctx::instance().get_stage() >
    152. bootstrap::Stage::CREATED_TABLES &&
    153. dd::upgrade_57::allow_sdi_creation() &&
    154. sdi::store(thd, object))
    155. return true;
    156. return false;
    157. }

    综上篇章简要的描述了MySQL8.0实现原子DDL的背景以及一些重点的数据结构,并对CREATE TABLE过程,以及创建过程中用到的几个重要函数进行了分析。但是原子DDL的实现是一个非常大的工程,本篇月报由于篇幅问题,只是挖了冰山一角。以后的月报会继续对原子DDL的实现进行分析,希望大家持续关注。