Upgrade to Pro — share decks privately, control downloads, hide ads and more …

OSC 2017 Osaka MySQL 落ちないDBサーバの作り方

OSC 2017 Osaka MySQL 落ちないDBサーバの作り方

Satoshi MITANI

June 28, 2017
Tweet

More Decks by Satoshi MITANI

Other Decks in Technology

Transcript

  1. 自己紹介 2 • 三谷 智史(Twitter: @mita2) • 日本MySQLユーザ会(MyNA) • OSCで講演は初めてです

    • Web系企業で、たくさんのMySQLを管理 • MySQLとの関わり 2002年~ 主に利用して開発する立場 2010年~ 主に管理する立場
  2. クラスタソフト クラスタソフト 共有ストレージ • DBの世界では伝統的な方法 • データファイルを共有ストレージ に置く • クラスタソフトでActive/Passive

    の切り替え 6 共有ストレージ (SAN/NAS) 共有ストレージ (SAN/NAS) DBサーバ DBサーバ DBサーバ (待機) DBサーバ (待機) ファイル ファイル ファイル ファイル ファイル ファイル mysqld mysqld VIP VIP iSCSI, NFS
  3. クラスターソフトウェア • 障害を検知し、リソースをスタンバイ機で立ち上げる • リソース=プロセスやIP • 代表的なソフトウェア • OSS: Pacemaker+Corosync

    (Heatbeat) • 商用:Veritas Cluster, SIOS Life Keeper, Oracle Clusterware, NEC CLUSERPRO etc… • 自作しようと思うと案外大変 • リソースの依存関係 • 排他制御 • 半死、スプリットブレインなど綺麗に落ちなかったときの考慮 etc… 7
  4. 共有ストレージ ところで、ストレージ落ちたらどうするん? 8 クラスタソフト クラスタソフト 共有ストレージ (SAN/NAS) 共有ストレージ (SAN/NAS) DBサーバ

    DBサーバ DBサーバ (待機) DBサーバ (待機) ファイル ファイル ファイル ファイル ファイル ファイル mysqld mysqld VIP VIP iSCSI, NFS
  5. 共有ストレージ SAN/NAS • 冗長性が担保されているエンタープ ライズ製品が前提 • NetApp, Dell EMC, HP,

    IBM etc… • エンタープライズと言っても、 比較的、安価なものもある • ブロックIOに強い製品を選ぶ – ファイルサーバ用途は不向き 9 たくさんの DISK たくさんの DISK コントローラ コントローラ コントローラ コントローラ たくさんの DISK たくさんの DISK スイッチ スイッチ スイッチ スイッチ DBサーバ DBサーバ DBサーバ DBサーバ ストレージの構成イメージ
  6. 共有ストレージ メリット • 障害時のデータロストのリスクがない • レプリケーション遅延の考慮が不要 • (商用ストレージ便利) 12 MySQL

    5.7でロスレス準 同期レプリの登場により 他の手段でもデータロス トなく運用可能に MySQL 5.7でロスレス準 同期レプリの登場により 他の手段でもデータロス トなく運用可能に
  7. DRBD+クラスターソフトウェア • DBサーバのディスクを他筐体にミラー 15 • Distributed Replicated Block Device •

    ブロックデバイス(ディスク)をネット ワークを通じて複製するOSS DBサーバ DBサーバ DBサーバ (待機) DBサーバ (待機) mysqld mysqld VIP VIP
  8. DRBD+クラスターソフトウェア • クラスタソフトでActive/Passive の切り替え • DRBD + Pacemaker/Corosync • Oracle

    も公式にサポート対象 16 https://dev.mysql.com/doc/refman/5.6/ja/ha-drbd.html より引用
  9. マスター・スレーブ • レプリケーション=複製を作る • マスター • 更新を受け付けるサーバ • スレーブ •

    コピー、読み取り専用 • 用途 • 読み取り性能のスケールアウト • バックアップ取得用など使い分け • マスター障害の際の切り替え先 • etc… 23 マスター マスター スレーブ スレーブ スレーブ スレーブ クライアント クライアント
  10. Global Transaction ID • トランザクションに一意のIDを付与 • サーバUUID + 連番 •

    08c8c338-f529-11e3-8182-fa163e64b6a2:1 • マスターは「更新内容+GTID」をログファイルに記録 • スレーブは「どのマスター」の「どのトランザクション」 までコピーしたかを識別できる 24
  11. 実際の更新ログの内容 # at 248449 #161202 14:46:59 server id 2759935033 end_log_pos

    248497 CRC32 0xc9775906 GTID [commit=yes] SET @@SESSION.GTID_NEXT= '8b4227e8-b841-11e6-845c-448a5bf50581:269'/*!*/; # at 248497 #161202 14:46:59 server id 2759935033 end_log_pos 248590 CRC32 0x0892442a Query thread_id=179 exec_time=0 error_code=0 SET TIMESTAMP=1480657619/*!*/; BEGIN /*!*/; # at 248590 #161202 14:46:59 server id 2759935033 end_log_pos 248740 CRC32 0x83437cc8 Query thread_id=179 exec_time=0 error_code=0 SET TIMESTAMP=1480657619/*!*/; insert into tbl(col1) values ('Fri Dec 2 14:46:59 2016') /*!*/; # at 248740 #161202 14:46:59 server id 2759935033 end_log_pos 248771 CRC32 0x132b63f8 Xid = 1051 COMMIT/*!*/; 25
  12. レプリケーションの流れ 26 • バイナリログ • 更新ログ • IOスレッド • 更新ログをマスターか

    ら受け取る • リレーログ • 受け取ったログ • SQLスレッド • リレーログからSQLを 読み出し、適用する ストレージ エンジン ストレージ エンジン バイナリ ログ バイナリ ログ コネクションスレッド コネクションスレッド I/O スレッド I/O スレッド リレー ログ リレー ログ ストレージ エンジン ストレージ エンジン SQL スレッド SQL スレッド マスター スレーブ Client Client
  13. スレーブを使ったフェイルオーバー マスター (a) マスター (a) スレーブ (b) スレーブ (b) スレーブ

    (c) スレーブ (c) aaa-aaa:1 aaa-aaa:2 aaa-aaa:3 aaa-aaa:1 aaa-aaa:2 aaa-aaa:3 aaa-aaa:1 aaa-aaa:2 aaa-aaa:3 aaa-aaa:1 aaa-aaa:2 aaa-aaa:3 aaa-aaa:1 aaa-aaa:2 aaa-aaa:1 aaa-aaa:2 クライアント クライアント 1. 一番進んでいるスレーブを探す – SHOW GLOBAL VARIABLES LIKE ‘GTID_EXECUTED’ – 新マスターとする 2. スレーブでCHANGE MASTER TO MASTER_HOST=‘<NEW_MASER>’を実行し、新マスターを向ける 3. read_only を解除し、クライアントからのアクセスを新マスターに向ける マスター (a) マスター (a) 新 マスター (b) 新 マスター (b) スレーブ (c) スレーブ (c) aaa-aaa:1 aaa-aaa:2 aaa-aaa:3 aaa-aaa:1 aaa-aaa:2 aaa-aaa:3 aaa-aaa:1 aaa-aaa:2 aaa-aaa:3 aaa-aaa:1 aaa-aaa:2 aaa-aaa:3 aaa-aaa:1 aaa-aaa:2 aaa-aaa:1 aaa-aaa:2 クライアント クライアント マスター (a) マスター (a) 新 マスター (b) 新 マスター (b) スレーブ (c) スレーブ (c) aaa-aaa:1 aaa-aaa:2 aaa-aaa:3 aaa-aaa:1 aaa-aaa:2 aaa-aaa:3 aaa-aaa:1 aaa-aaa:2 aaa-aaa:3 bbb-bbb:1 aaa-aaa:1 aaa-aaa:2 aaa-aaa:3 bbb-bbb:1 aaa-aaa:1 aaa-aaa:2 aaa-aaa:3 bbb-bbb:1 aaa-aaa:1 aaa-aaa:2 aaa-aaa:3 bbb-bbb:1 クライアント クライアント
  14. 一連の動作を自動で行うツールたち • ツール用のmanager サーバを別で用意 • MHA for MySQL • Master

    High Availability Manager and tools for MySQL • mysqlfailover • MySQL Utilities 28 マスター (a) マスター (a) スレーブ (b) スレーブ (b) スレーブ (c) スレーブ (c) aaa-aaa:1 aaa-aaa:2 aaa-aaa:3 aaa-aaa:1 aaa-aaa:2 aaa-aaa:3 aaa-aaa:1 aaa-aaa:2 aaa-aaa:3 aaa-aaa:1 aaa-aaa:2 aaa-aaa:3 aaa-aaa:1 aaa-aaa:2 aaa-aaa:1 aaa-aaa:2 Manager Manager
  15. 非同期レプリケーション 32 1. クライアントがCOMMIT 2. バイナリログに更新内容を記録 3. ストレージエンジンに更新内容 を記録 4.

    クライアントにACKを返す 5. リレーログに記録 ストレージ エンジン ストレージ エンジン バイナリ ログ バイナリ ログ コネクションスレッド コネクションスレッド I/O スレッド I/O スレッド リレー ログ リレー ログ ストレージ エンジン ストレージ エンジン SQL スレッド SQL スレッド マスター スレーブ Client Client
  16. 準同期レプリケーション 33 1. クライアントがCOMMIT 2. バイナリログに更新内容を記録 3. ストレージエンジンに更新内容 を記録 4.

    リレーログに記録 5. クライアントにACKを返す ストレージ エンジン ストレージ エンジン バイナリ ログ バイナリ ログ コネクションスレッド コネクションスレッド I/O スレッド I/O スレッド リレー ログ リレー ログ ストレージ エンジン ストレージ エンジン SQL スレッド SQL スレッド マスター スレーブ Client Client rpl_semi_sync_master_wait_point=AFTER_COMMIT 準同期する台数を 指定できる 準同期する台数を 指定できる
  17. ロスレス準同期レプリケーション 34 1. クライアントがCOMMIT 2. バイナリログに更新内容を記録 3. リレーログに記録 4. ストレージエンジンに更新内容

    を記録 5. クライアントにACKを返す ストレージ エンジン ストレージ エンジン バイナリ ログ バイナリ ログ コネクションスレッド コネクションスレッド I/O スレッド I/O スレッド リレー ログ リレー ログ ストレージ エンジン ストレージ エンジン SQL スレッド SQL スレッド マスター スレーブ Client Client rpl_semi_sync_master_wait_point=AFTER_SYNC 準同期する台数を 指定できる 準同期する台数を 指定できる
  18. 高可用性ソリューション • マルチライター構成が組める • 高可用性ソリューション • 性能向上を主目的としたものではない 41 Master Master

    Master Master Master Master Master Master Master Master UPDATE t SET col = ‘B’ WHERE pk = 2 UPDATE t SET col = ‘B’ WHERE pk = 2 UPDATE t SET col = ‘A’ WHERE pk = 1 UPDATE t SET col = ‘A’ WHERE pk = 1
  19. 高可用性ソリューション • マルチライター構成が組める • 高可用性ソリューション • 性能向上を主目的としたものではない 42 Master Master

    Master Master Master Master Master Master Master Master UPDATE t SET col = ‘B’ WHERE pk = 2 UPDATE t SET col = ‘B’ WHERE pk = 2 UPDATE t SET col = ‘A’ WHERE pk = 1 UPDATE t SET col = ‘A’ WHERE pk = 1
  20. マルチライター 43 マスター (a) マスター (a) スレーブ スレーブ スレーブ スレーブ

    マスター (a) マスター (a) マスター マスター マスター マスター Read Write Read Write Read Write Read Write Read Write Read Write これまでのレプリケーション Group Replication Write Write Read Read Read Read
  21. 障害検知の仕組みがビルドイン 44 Master Master Master Master Master Master Master Master

    Master Master • 障害を自動検知し、データ同期対象から切り離す • 復旧時には差分を自動的にリカバリ
  22. 非 Group Replication 構成の場合 46 時間 行の値 トランザクション1 トランザクション2 T1

    - mysql> BEGIN; Query OK, 0 rows affected (0.00 sec) mysql> UPDATE grplt.tbl SET col1 = 10, who_update = ‘A' WHERE pk = 1; Query OK, 1 row affected (0.00 sec) Rows matched: 1 Changed: 1 Warnings: 0 T2 - mysql> BEGIN; Query OK, 0 rows affected (0.00 sec) mysql> UPDATE grplt.tbl SET col1 = 10, who_update = ‘B' WHERE pk = 1; T3 - トランザクション1のロック開放待ち T4 A mysql> COMMIT; Query OK, 0 rows affected (0.00 sec) トランザクション1のロック開放待ち T5 A Query OK, 1 row affected (0.00 sec) Rows matched: 1 Changed: 1 Warnings: 0 T6 B mysql> COMMIT; Query OK, 0 rows affected (0.00 sec)
  23. 非 Group Replication 構成の場合 47 時間 行の値 トランザクション1 トランザクション2 T1

    - mysql> BEGIN; Query OK, 0 rows affected (0.00 sec) mysql> UPDATE grplt.tbl SET col1 = 10, who_update = ‘A' WHERE pk = 1; Query OK, 1 row affected (0.00 sec) Rows matched: 1 Changed: 1 Warnings: 0 T2 - mysql> BEGIN; Query OK, 0 rows affected (0.00 sec) mysql> UPDATE grplt.tbl SET col1 = 10, who_update = ‘B' WHERE pk = 1; T3 - トンラザクション1のロック開放待ち T4 A mysql> COMMIT; Query OK, 0 rows affected (0.00 sec) トランザクション1のロック開放待ち T5 A Query OK, 1 row affected (0.00 sec) Rows matched: 1 Changed: 1 Warnings: 0 T6 B mysql> COMMIT; Query OK, 0 rows affected (0.00 sec) • 更新は1ノード(マスター)に対してのみ実行可 • ロックが競合した場合、後続は「待つ」 • 更新は1ノード(マスター)に対してのみ実行可 • ロックが競合した場合、後続は「待つ」
  24. Group Replication 構成の場合 48 時間 行の値 トランザクション1 on ノード1 トランザクション2

    on ノード2 T1 - mysql> BEGIN; Query OK, 0 rows affected (0.00 sec) mysql> UPDATE grplt.tbl SET col1 = 10, who_update = ‘A' WHERE pk = 1; Query OK, 1 row affected (0.00 sec) Rows matched: 1 Changed: 1 Warnings: 0 T2 - mysql> BEGIN; Query OK, 0 rows affected (0.00 sec) mysql> UPDATE grplt.tbl SET col1 = 10, who_update = ‘B' WHERE pk = 1; Query OK, 1 row affected (0.00 sec) Rows matched: 1 Changed: 1 Warnings: 0 T3 A mysql> COMMIT; Query OK, 0 rows affected (0.00 sec) (ノード1の更新内容が伝わってくる) T4 A mysql> COMMIT; ERROR 1180 (HY000): Got error 149 during COMMIT
  25. Group Replication 構成の場合 49 時間 行の値 トランザクション1 on ノード1 トランザクション2

    on ノード2 T1 - mysql> BEGIN; Query OK, 0 rows affected (0.00 sec) mysql> UPDATE grplt.tbl SET col1 = 10, who_update = ‘A' WHERE pk = 1; Query OK, 1 row affected (0.00 sec) Rows matched: 1 Changed: 1 Warnings: 0 T2 - mysql> BEGIN; Query OK, 0 rows affected (0.00 sec) mysql> UPDATE grplt.tbl SET col1 = 10, who_update = ‘B' WHERE pk = 1; Query OK, 1 row affected (0.00 sec) Rows matched: 1 Changed: 1 Warnings: 0 T3 A mysql> COMMIT; Query OK, 0 rows affected (0.00 sec) T4 A mysql> COMMIT; ERROR 1180 (HY000): Got error 149 during COMMIT • 異なるノードでロックが競合した場合、「先取り」 • 更新量が少なければ多くはリトライで解決する • 同じノードであれば、非GR構成と同じ挙動 • 異なるノードでロックが競合した場合、「先取り」 • 更新量が少なければ多くはリトライで解決する • 同じノードであれば、非GR構成と同じ挙動
  26. 回避方法 50 Master Master Read only Master Read only Master

    Read only Master Read only Master Single Primary モード • 従来のマスター/スレーブに相当 • 任意の1台のみWriteが可能になる Master Master Master Master Master Master Multi Writer モード • 全部に読み書き • 最大限の可用性 group_replication_single_primary_mode=FALSE group_replication_single_primary_mode=TRUE
  27. 分散方法 • MySQL Router • Oracle 純正 • Version 2.1

    でサポートされる予定 • まだ正式リリースされてない • HA Proxy • OSSのソフトウェアロードバランサ • Group Replication 用の ヘルスチェックスクリプトがある • http://lefred.be/content/mysql-group-replication-as-ha- solution/ 51 マスター (a) マスター (a) マスター マスター マスター マスター Load Balancer Load Balancer Client Client
  28. flow control • ノード間の遅延を最小限にする仕組み • 遅れたノードがほかのノードに「待った」をかける • 閾値の設定 53 mysql>

    SHOW GLOBAL VARIABLES LIKE '%flow%threshold%'; +----------------------------------------------------+-------+ | Variable_name | Value | +----------------------------------------------------+-------+ | group_replication_flow_control_applier_threshold | 1000 | | group_replication_flow_control_certifier_threshold | 2000 | +----------------------------------------------------+-------+
  29. Certification と Apply 54 1 1 2 2 3 3

    UPDATE Certification Certification http://mysqlhighavailability.com/mysql-group-replication-transaction-life-cycle-explained/ Certification Certification Apply Apply OK OK 更新する内容 を伝える 更新する内容 を伝える Apply Apply Apply Apply
  30. テスト結果 56 0 50 100 150 200 250 1 3

    5 7 9 11 13 15 17 19 21 23 25 27 29 31 33 35 37 39 41 43 45 47 49 51 53 55 57 59 61 63 65 67 69 71 73 75 77 79 81 sysbench oltp TPS → 時間 IO制限
  31. テスト結果 57 0 50 100 150 200 250 1 3

    5 7 9 11 13 15 17 19 21 23 25 27 29 31 33 35 37 39 41 43 45 47 49 51 53 55 57 59 61 63 65 67 69 71 73 75 77 79 81 sysbench oltp TPS → 時間 キュー が閾値 に達す るまで の時間 キュー が閾値 に達す るまで の時間
  32. STEP2-1:レプリケーション設定 • GTID • log-slave-updates • {master,relay}-log-info-repository=TABLE • binlog-format=row 60

    server_id=1 gtid_mode=ON enforce_gtid_consistency=ON master_info_repository=TABLE relay_log_info_repository=TABLE binlog_checksum=NONE log_slave_updates=ON log_bin=binlog binlog_format=ROW
  33. STEP2-2:Group Replication 設定 61 # Group Replication の設定 transaction_write_set_extraction=XXHASH64 #

    SELECT UUID() で生成した任意のUUIDを指定 loose-group_replication_group_name="87e5ed8c-cd83-11e6-bc3c-fa163e83e8e7" loose-group_replication_start_on_boot=off # 自分のIPアドレス loose-group_replication_local_address= "172.21.134.26:24901" # すべてのサーバを並べる loose-group_replication_group_seeds= "172.21.134.26:24901,172.21.134.27:24901,172.21.134.28:24901" loose-group_replication_bootstrap_group= off loose-group_replication_single_primary_mode=FALSE loose-group_replication_enforce_update_everywhere_checks= TRUE # サーバ間の通信に利用するネットワークを許可する loose-group_replication_ip_whitelist = 172.21.134.0/23
  34. STEP3:Group Replication 開始 62 mysql> CHANGE MASTER TO MASTER_USER='rpl_user', MASTER_PASSWORD='rpl_pass'

    FOR CHANNEL 'group_replication_recovery'; Query OK, 0 rows affected, 2 warnings (0.02 sec) mysql> INSTALL PLUGIN group_replication SONAME 'group_replication.so'; Query OK, 0 rows affected (0,01 sec) mysql> SHOW PLUGINS; | group_replication | ACTIVE | GROUP REPLICATION | group_replication.so | | validate_password | ACTIVE | VALIDATE PASSWORD | validate_password.so | +--------------------+--------+-------------------+----------------------+ 46 rows in set (0.01 sec) • group_replication_recovery を設定
  35. STEP4:Group Replication 開始 63 mysql> SET GLOBAL group_replication_bootstrap_group=ON; Query OK,

    0 rows affected (0.00 sec) mysql> START GROUP_REPLICATION; Query OK, 0 rows affected (1.76 sec) mysql> SET GLOBAL group_replication_bootstrap_group=OFF; Query OK, 0 rows affected (0.00 sec) • group_replication_bootstrap_group=ON は最初の1台だけ
  36. STEP5:ステータス確認 64 mysql> SELECT * FROM performance_schema.replication_group_members; +---------------------------+----------------------+-------------+--------------+ | CHANNEL_NAME

    | MEMBER_ID | MEMBER_HOST | MEMBER_STATE | +---------------------------+----------------------+-------------+--------------+ | group_replication_applier | 0cdd0b6a-cd84-<snip> | gr02 | ONLINE | | group_replication_applier | 1edf2e1d-cd83-<snip> | gr01 | ONLINE | | group_replication_applier | a1c37edb-cd89-<snip> | gr03 | ONLINE | +---------------------------+----------------------+-------------+--------------+ 3 rows in set (0.00 sec)
  37. MGR 制限事項 • InnoDB のみサポート • PK or UNIQUE キーが必須

    • GTID + ROW ベースレプリケーション • トランザクション分離レベルはREAD-COMMITED • 複数の同じテーブルに対するDDLとDMLはサポート外 65 ERROR 3098 (HY000): The table does not comply with the requirements by an external plugin
  38. Group Replication メリット • 構成が最もシンプル • 物理サーバの役割が平等 • 障害検知の仕組みがビルドインされている •

    切り替わりが高速 • 切り離しだけ • 待機系のサーバを利用できる • レプリケーション遅延を最小限に抑えることが可能 67