
InnoDB有两个非常重要的日志,undo log 和 redo log;通过undo log可以看到数据较早版本,实现MVCC,或回滚事务等功能;redo log用来保证事务持久性

本文以一条insert语句为线索介绍 mini transaction

mini transaction 简介

mini transation 主要用于innodb redo log 和 undo log写入,保证两种日志的ACID特性


  1. The FIX Rules

  2. Write-Ahead Log

  3. Force-log-at-commit

Force -log-at-commit要求当一个事务提交时,其产生所有的mini-transaction日志必须刷到持久设备中



本文使用 MySQL 5.6.16 版本进行分析

mini transation 相关代码路径位于 storage/innobase/mtr/ 主要有 mtr0mtr.cc 和 mtr0log.cc 两个文件

另有部分代码在 storage/innobase/include/ 文件名以 mtr0 开头

mini transaction 的信息保存在结构体 mtr_t 中,结构体成员描述如下

memomtr 持有锁的栈
inside_ibufinsert buffer 是否修改
modifications是否修改buffer pool pages
made_dirty是否产生buffer pool脏页
n_log_recslog 记录数
start_lsnlsn 起始值
end_lsnlsn 结束值

一个 mini transaction 从 mtr_start(mtr)开始,到 mtr_commit(mtr)结束

一条insert语句涉及的 mini transaction

下面涉及 mtr 的嵌套,在代码中,每个 mtr_t 对象变量名都叫 mtr,本文中为了区分不同 mtr,给不同的对象加编号

下面一般省略 mtr_t 以外的参数

第一个 mtr 从 row_ins_clust_index_entry_low 开始

  1. mtr_start(mtr_1) // mtr_1 贯穿整条insert语句
  2. row_ins_clust_index_entry_low
  3. mtr_s_lock(dict_index_get_lock(index), mtr_1) // 对index加s锁
  4. btr_cur_search_to_nth_level
  5. row_ins_clust_index_entry_low
  6. mtr_memo_push(mtr_1) // buffer RW_NO_LATCH 入栈
  7. buf_page_get_gen
  8. btr_cur_search_to_nth_level
  9. row_ins_clust_index_entry_low
  10. mtr_memo_push(mtr_1) // page RW_X_LATCH 入栈
  11. buf_page_get_gen
  12. btr_block_get_func
  13. btr_cur_latch_leaves
  14. btr_cur_search_to_nth_level
  15. row_ins_clust_index_entry_low
  16. mtr_start(mtr_2) // mtr_2 用于记录 undo log
  17. trx_undo_report_row_operation
  18. btr_cur_ins_lock_and_undo
  19. btr_cur_optimistic_insert
  20. row_ins_clust_index_entry_low
  21. mtr_start(mtr_3) // mtr_3 分配或复用一个 undo log
  22. trx_undo_assign_undo
  23. trx_undo_report_row_operation
  24. btr_cur_ins_lock_and_undo
  25. btr_cur_optimistic_insert
  26. row_ins_clust_index_entry_low
  27. mtr_memo_push(mtr_3) // 对复用(也可能是分配)的 undo log page 加 RW_X_LATCH 入栈
  28. buf_page_get_gen
  29. trx_undo_page_get
  30. trx_undo_reuse_cached // 这里先尝试复用,如果复用失败,则分配新的 undo log
  31. trx_undo_assign_undo
  32. trx_undo_report_row_operation
  33. trx_undo_insert_header_reuse(mtr_3) // 写 undo log header
  34. trx_undo_reuse_cached
  35. trx_undo_assign_undo
  36. trx_undo_report_row_operation
  37. trx_undo_header_add_space_for_xid(mtr_3) // 在 undo header 中预留 XID 空间
  38. trx_undo_reuse_cached
  39. trx_undo_assign_undo
  40. trx_undo_report_row_operation
  41. mtr_commit(mtr_3) // 提交 mtr_3
  42. trx_undo_assign_undo
  43. trx_undo_report_row_operation
  44. btr_cur_ins_lock_and_undo
  45. btr_cur_optimistic_insert
  46. row_ins_clust_index_entry_low
  47. mtr_memo_push(mtr_2) // 即将写入的 undo log page 加 RW_X_LATCH 入栈
  48. buf_page_get_gen
  49. trx_undo_report_row_operation
  50. btr_cur_ins_lock_and_undo
  51. btr_cur_optimistic_insert
  52. row_ins_clust_index_entry_low
  53. trx_undo_page_report_insert(mtr_2) // undo log 记录 insert 操作
  54. trx_undo_report_row_operation
  55. btr_cur_ins_lock_and_undo
  56. btr_cur_optimistic_insert
  57. row_ins_clust_index_entry_low
  58. mtr_commit(mtr_2) // 提交 mtr_2
  59. trx_undo_report_row_operation
  60. btr_cur_ins_lock_and_undo
  61. btr_cur_optimistic_insert
  62. row_ins_clust_index_entry_low
  63. /*
  64. mtr_2 提交后开始执行 insert 操作
  65. page_cur_insert_rec_low 具体执行 insert 操作
  66. 在该函数末尾调用 page_cur_insert_rec_write_log 写 redo log
  67. */
  68. page_cur_insert_rec_write_log(mtr_1) // insert 操作写 redo log
  69. page_cur_insert_rec_lowpage_cur_tuple_insert
  70. btr_cur_optimistic_insert
  71. mtr_commit(mtr_1) // 提交 mtr_1
  72. row_ins_clust_index_entry_low

至此 insert 语句执行结束后

一条 insert 是一个单语句事务,事务提交时也会涉及 mini transaction

提交事务时,第一个 mtr 从 trx_prepare 开始

  1. mtr_start(mtr_4) // mtr_4 用于 prepare transaction
  2. trx_prepare
  3. trx_prepare_for_mysql
  4. innobase_xa_prepare
  5. ha_prepare_low
  6. MYSQL_BIN_LOG::prepare
  7. ha_commit_trans
  8. trans_commit_stmt
  9. mysql_execute_command
  10. mtr_memo_push(mtr_4) // undo page 加 RW_X_LATCH 入栈
  11. buf_page_get_gen
  12. trx_undo_page_get
  13. trx_undo_set_state_at_prepare
  14. trx_prepare
  15. mlog_write_ulint(seg_hdr + TRX_UNDO_STATE, undo->state, MLOG_2BYTES, mtr_4) 写入TRX_UNDO_STATE
  16. trx_undo_set_state_at_prepare
  17. trx_prepare
  18. mlog_write_ulint(undo_header + TRX_UNDO_XID_EXISTS, TRUE, MLOG_1BYTE, mtr_4) 写入 TRX_UNDO_XID_EXISTS
  19. trx_undo_set_state_at_prepare
  20. trx_prepare
  21. trx_undo_write_xid(undo_header, &undo->xid, mtr_4) undo 写入 xid
  22. trx_undo_set_state_at_prepare
  23. trx_prepare
  24. mtr_commit(mtr_4) // 提交 mtr_4
  25. trx_prepare
  26. mtr_start(mtr_5) // mtr_5 用于 commit transaction
  27. trx_commit
  28. trx_commit_for_mysql
  29. innobase_commit_low
  30. innobase_commit
  31. ha_commit_low
  32. MYSQL_BIN_LOG::process_commit_stage_queue
  33. MYSQL_BIN_LOG::ordered_commit
  34. MYSQL_BIN_LOG::commit
  35. ha_commit_trans
  36. trans_commit_stmt
  37. mysql_execute_command
  38. mtr_memo_push(mtr_5) // undo page 加 RW_X_LATCH 入栈
  39. buf_page_get_gen
  40. trx_undo_page_get
  41. trx_undo_set_state_at_finish
  42. trx_write_serialisation_history
  43. trx_commit_low
  44. trx_commit
  45. trx_undo_set_state_at_finish(mtr_5) // set undo state, 这里是 TRX_UNDO_CACHED
  46. trx_write_serialisation_history
  47. trx_commit_low
  48. trx_commit
  49. mtr_memo_push(mtr_5) // 系统表空间 transaction system header page 加 RW_X_LATCH 入栈
  50. buf_page_get_gen
  51. trx_sysf_get
  52. trx_sys_update_mysql_binlog_offset
  53. trx_write_serialisation_history
  54. trx_commit_low
  55. trx_commit
  56. trx_sys_update_mysql_binlog_offset // 更新偏移量信息到系统表空间
  57. trx_write_serialisation_history
  58. trx_commit_low
  59. trx_commit
  60. mtr_commit(mtr_5) // 提交 mtr_5
  61. trx_commit_low
  62. trx_commit

至此 insert 语句涉及的 mini transaction 全部结束


上面可以看到加锁、写日志到 mlog 等操作在 mini transaction 过程中进行

解锁、把日志刷盘等操作全部在 mtr_commit 中进行,和事务类似

mini transaction 没有回滚操作, 因为只有在 mtr_commit 才将修改落盘,如果宕机,内存丢失,无需回滚;如果落盘过程中宕机,崩溃恢复时可以看出落盘过程不完整,丢弃这部分修改

mtr_commit 主要包含以下步骤

  1. mlog 中日志刷盘
  2. 释放 mtr 持有的锁,锁信息保存在 memo 中,以栈形式保存,后加的锁先释放
  3. 清理 mtr 申请的内存空间,memo 和 log
  4. mtr—>state 设置为 MTR_COMMITTED

上面的步骤 1. 中,日志刷盘策略和 innodb_flush_log_at_trx_commit 有关

  • 当设置该值为1时,每次事务提交都要做一次fsync,这是最安全的配置,即使宕机也不会丢失事务
  • 当设置为2时,则在事务提交时只做write操作,只保证写到系统的page cache,因此实例crash不会丢失事务,但宕机则可能丢失事务
  • 当设置为0时,事务提交不会触发redo写操作,而是留给后台线程每秒一次的刷盘操作,因此实例crash将最多丢失1秒钟内的事务