Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
binary log と 2PC と Group Commit
Search
Sponsored
·
Ship Features Fearlessly
Turn features on and off without deploys. Used by thousands of Ruby developers.
→
Takanori Sejima
PRO
September 08, 2016
Technology
12
0
Share
binary log と 2PC と Group Commit
http://marv-tech.connpass.com/event/36743/
でお話させていただいた内容です。
Takanori Sejima
PRO
September 08, 2016
More Decks by Takanori Sejima
See All by Takanori Sejima
互換性のある(らしい)DBへの移行など考えるにあたってたいへんざっくり
sejima
PRO
0
600
NAND Flash から InnoDB にかけての話(仮)
sejima
PRO
0
17
InnoDBのすゝめ(仮)
sejima
PRO
0
10
さいきんのMySQLに関する取り組み(仮)
sejima
PRO
0
13
sysloadや監視などの話(仮)
sejima
PRO
0
11
さいきんの InnoDB Adaptive Flushing (仮)
sejima
PRO
0
11
TIME_WAITに関する話
sejima
PRO
0
19
MySQLやSSDとかの話 その後
sejima
PRO
0
13
MySQL5.7 GA の Multi-threaded slave
sejima
PRO
0
11
Other Decks in Technology
See All in Technology
最初の一歩を踏み出せなかった私が、誰かの背中を押したいと思うようになるまで / give someone a push
mii3king
0
140
JEDAI in Osaka 2026イントロ
taka_aki
0
210
Azure Static Web Apps の自動ビルドがタイムアウトしやすくなった状況に対応した件/global-azure2026
thara0402
0
270
申請待ちゼロへ!AWS × Entra IDで実現した「権限付与」のセルフサービス化
mhrtech
2
310
新メンバーのために、シニアエンジニアが環境を作る時代
puku0x
0
920
ふりかえりがなかった職能横断チームにふりかえりを導入してみて学んだこと 〜チームのふりかえりを「みんなで未来を考える場」にするプロローグ設計〜
masahiro1214shimokawa
0
410
Code Interpreter で、AIに安全に コードを書かせる。
yokomachi
0
6.1k
Eight Engineering Unit 紹介資料
sansan33
PRO
3
7.2k
"SQLは書けません"から始まる データドリブン
kubell_hr
2
430
Zero Data Loss Autonomous Recovery Service サービス概要
oracle4engineer
PRO
5
14k
Azure PortalなどにみるWebアクセシビリティ
tomokusaba
0
300
DevOpsDays Tokyo 2026 軽量な仕様書と新たなDORA AI ケイパビリティで実現する、動くソフトウェアを中心とした開発ライフサイクル / DevOpsDays Tokyo 2026
n11sh1
0
130
Featured
See All Featured
Breaking role norms: Why Content Design is so much more than writing copy - Taylor Woolridge
uxyall
0
250
[RailsConf 2023 Opening Keynote] The Magic of Rails
eileencodes
31
10k
Lessons Learnt from Crawling 1000+ Websites
charlesmeaden
PRO
1
1.2k
Future Trends and Review - Lecture 12 - Web Technologies (1019888BNR)
signer
PRO
0
3.5k
Why You Should Never Use an ORM
jnunemaker
PRO
61
9.8k
Highjacked: Video Game Concept Design
rkendrick25
PRO
1
340
Skip the Path - Find Your Career Trail
mkilby
1
100
ラッコキーワード サービス紹介資料
rakko
1
3M
Measuring & Analyzing Core Web Vitals
bluesmoon
9
810
I Don’t Have Time: Getting Over the Fear to Launch Your Podcast
jcasabona
34
2.7k
The Curious Case for Waylosing
cassininazir
0
300
My Coaching Mixtape
mlcsv
0
97
Transcript
binary log と 2PC と Group Commit 瀬島 貴則 瀬島
貴則
免責事項 - 本資料は個人の見解であり、私が所属する組 織の見解とは必ずしも一致しません。 - 内容の一部に偏ったものがあるかもしれません が、各自オトナの判断でよろしくお願いします。
自己紹介 - わりとMySQLでごはんたべてます - 一時期は Resource Monitoring もよくやってま した -
Twitter: @ts4th
ちょっと宣伝 - 最近はわりとスライドを公開してますので - よろしかったら参考までに - http://www.slideshare.net/takanorisejima
今日のお題 - 先日、 MySQL5.7 GA の Multi-threaded slave というお題目でお話させていただく機会があった のですが
- Multi-Threaded Slave 以外の部分、 Two-Phase Commit と Group Commit の部分 は、 5.7 も MTS も使わない人でも、知っといて 損はない内容なので、今日はそのお話を改めて させていただきます。
では、 はじめます
はじめに - そもそも、 slave の SQL_Thread がシングルス レッドのとき、どのようにして replication で
master と同じ状態が復元されるのか? - いたってシンプル - master が注意深く binlog 吐いてる
例えば InnoDB の場合 1. master で更新処理実行中の各スレッドが、そ れぞれ transaction cache に更新内容をため
ていく 2. InnoDB で PREPARE する(5.7.10 以降、 innodb_support_xa は常に true) 3. 1. の transaction cache から一連の更新処理 を BEGIN&COMMIT で挟んで binlogに書く 4. InnoDBで COMMIT する
Two-Phase Commit & Group Commit - MySQL の Replication 開発者であらせられる
Dr. Mats Kindahl の blog この記事がわかりや すいですが - Binary Log Group Commit in MySQL 5.6 - (この後の話に関連して)大事なところを二つだ けかいつまんで解説すると
Two-Phase Commit(2PC) - 参考になるのは ha_commit_trans() や MYSQL_BIN_LOG::ordered_commit() あたり - Binary
Log Group Commit in MySQL 5.6 の Figure.1 のとおり - storage engine(InnoDBなど)に prepare して - binlog に 書いて - binlog に COMMIT(fsync) してから - storage engineに COMMIT する
Transaction Coordinator Log - ソースコード中に tc_log ってのが出てきますが - Transaction の順序を管理するための
Log の 抽象クラスが TC_LOG であって、その実装の ひとつが MYSQL_BIN_LOG - MYSQL_BIN_LOG::prepare() や MYSQL_BIN_LOG::commit() が、 Two-Phase COMMIT を実現するために必要 な関数を呼んでる
innodb_support_xa=true と 2PC - innodb_support_xa=true だと、 prepare のと き undo
log に xid が書き込まれる(5.7.10以降 は常にそうなる) - undo log に xid 書き込まれた PREPARED な transaction は、 クラッシュ後の再起動時、 binlog から xid 読み込んだ後、その xid 使って innobase_commit_by_xid() で最終的に COMMIT される
なんかややこしいですが - クラッシュリカバリ時、xid のない PREPARED は rollback の 対象になるんですが、 xid
つき の PREPARED は binlog からその xid が取得 できれば COMMIT にできるようです。詳しくは - innobase_xa_prepare() - MYSQL_BIN_LOG::recover() - innobase_xa_recover() - innobase_commit_by_xid()
というわけで、 MySQL の 2PC は - InnoDB のクラッシュリカバリ機能単体では実現 できず、 InnoDB
のクラッシュリカバリ機能と binlog のクラッシュリカバリ機能とが組み合わ さって、実現されてるようです - binlog のヘッダには open するときに立てて close する ときにリセットするフラグがあるので、正常に close した か(クラッシュしてないか)は、フラグをみて判断してます
Group Commit - Binary Log Group Commit in MySQL 5.6
の Figure.5 を参照 - flush/sync/commit という stage がある - binlog へ書き出す のが flush stage - binlog に fsync() する のが sync stage - storage engine に commit するのが commit stage - flush stage に書きだした順序で、 commit stage で commit することが保証されている
ソースコード的にいうと - Group Commit はまさに MYSQL_BIN_LOG::ordered_commit() - flush/sync/commit の stage
を queue で管理 することによって、 fsync() の回数を減らして、 binlog に event 書き出す順番と storage engine に commit する順番を担保している - そして、 binlog に書くとき、各 Transaction を BEGIN - COMMIT でシリアライズしてる
だから binary log は読みやすいし - そして slave の SQL_Thread は性能がでない
- master は Transaction を並列実行しながらも、 それらをひとかたまりの BEGIN - COMMIT に まとめシリアライズして binlog に吐いている - master では並列実行してる Transaction が、 slave だと BEGIN - COMMIT のひとかたまり が、ひとつずつしか実行できない - まぁ SQL_Thread はシングルスレッドだしね
ではちょっとデモ 1. debug build した mysqld を用意します 2. お手元の gdb
で attach します 3. MYSQL_BIN_LOG::sync_binlog_file() あたり に break point 張って continue します 4. 適当に INSERT などします 5. binlog を fsync() させたら gdb から kill します 6. innobase_commit_by_xid() 実行されます
公式ドキュメントちょっと悩ましい - XA PREPARE なトランザクションはロールバッ クする とか sync_binlog=1 のときの挙動 を書
いてるんですが、現状の実装と噛み合ってない ところもある。 - このへんバグレポートしようかと思ったけど、い やーなんていうのがいいんだろうむずかしい
おわり