DDIA Chapter 5

DDIA Chapter5. Replication 石飛、戸田

Table of contents 01 04 02 03 Leaders and Followers
Problems with Replication Lag Multi-Leader Replication Leaderless Replication

What is Replication? ネットワークで接続された複数のマシン（ノード）に同じデータを複製しておくこと。このChapterでは複製の方法論について考えていくことを目標にする。

Replication / Partitioning • 複数のマシンにデータのコピーを複製すること • 大規模データセットを複数マシンで分割して保持すること Replication
Partitioning ReplicationとPartitioningを組み合わせて、可用性・パフォーマンスを提供する製品も多数存在 (e.g. Apache Kafka)

Why Replication is essential? パフォーマンス（レイテンシ）パフォーマンス（スループット）可用性(耐障害性) マシンを地理的に分散させて、ユーザーとの距離を近くすることで、レイテンシを低減
マシンをスケールアウト（e.g. 読み取り専用レプリカ）することで、スループット向上一部にフォールトがあってもシステムが動作できるので、可用性向上

Leaders and Followers 01 リーダーとフォロワー

Leader / Follower • 書き込みクエリを受け付ける • 自分のストレージに適用後、全Followerにレプリケーションログを送信 • 読み込みクエリのみを受け付ける
• レプリケーションログを受信後、自分のストレージに適用しデータを最新化 Leader (Master/Primary) Follower (Slave/Secondary/Read Replica)

Sync / Async Replication • フォロワーの書き込みを同期的に行う（=待つ） • データは最新なのでL/F間で一貫性が保証 • レスポンスタイムの増大
• フォロワーの死活に大きく左右される • フォロワーに非同期で書き込み要求 • データの読み取り一貫性はない • レスポンスタイムの低減 • リーダーに障害が発生し、リカバリ不可能な場合データは失われる同期非同期同期的なレプリカ・非同期的なレプリカどちらも採用する準同期型も存在 ※ フォロワー1が同期、フォロワー2が非同期

Setting Up New Followers 一貫性のあるスナップショット追加分のログレプリケーション • リーダーから一貫性のあるスナップショットをとる。（DB 全体にロックを取らないとbetter） •
取得したスナップショットを新しいノードにレプリケーションする。 • スナップショットのレプリケーションログの位置（ログシーケンス番号）を保持。 • ログシーケンス番号以降のデータ変更のログをレプリケーションする。 • キャッチアップできたら、従来のレプリケーションを始める。 1 ２ 3 1 ２ 3 スナップショットからレプリケーション 1 ２ 3 4 5 4 5 1 ２ 3 追加ログのレプリケーション

Handling Node Outages - Follower 1 ２ 3 4 5
4 5 1 ２ 3 障害時以降ログのレプリケーションシステム内のノードは、想定内・想定外のダウンが生じる。想定内であればパッチ適用などの計画的メンテナンスがある。システム全体としてダウンタイムなしにノードを復旧できれば大きなメリットになる。フォロワーの障害はキャッチアップリカバリによって対処される。New Followerの対処の時と同様に、障害前最後のトランザクションをログから判断し、それ移行のデータ変更をリーダーに要求し適用。

Handling Node Outages - Leader フォロワーのキャッチアップリカバリと比べて複雑な対処が必要。フォロワーをリーダーに昇格させ、クライアントの書き込み要求先を新たなリーダーに変更させるフェイルオーバーで対応。管理者による手動で行うタイプと、障害検知をはじめ自動で行うタイプがある。障害検知新しいリーダーの選出
システムの再設定 • 障害の原因を特定するのではなく、検知する • タイムアウトを利用し、反応がなければダウンしていると判断 • コントローラーノードが選出したり、レプリカのうち一番追従しているものを選出したり、様々なプロセスがある • 新しいリーダーの選出はノードが合意形成する必要がある(Chapter 9.) • クライアントに新しいリーダーを知らせる（サービスディスカバリ） • 古いリーダーをフォロワーに降格させ、復帰時にリーダーだと認識させない F L F L Heartbeatが帰ってこない選挙後、リーダーに昇格 F L ルーティング層

Handling Node Outages - Leader - Problems • 非同期レプリケーションで、新しいリーダーが古いリーダーの全ての書き込みをキャッチアップできてい
ない場合 • 再度古いリーダーがクラスタに参加し、競合データを持っている場合 • 同時に2つのノードが自分をリーダーだと認識するスプリットブレイン • どちらも書き込みを受け付けるがデータ競合解決の仕組みがないのでデータの破損や損失が生じうる • 競合しているデータの書き込みを破棄し、外部データソースとの連携がうまくいかなくなる場合 • Heartbeatのタイムアウトに設定する時間の問題 • 長すぎるとリーダーが実際に障害にあった場合のリカバリの時間が長くなる • 短すぎると不要なフェイルオーバーが頻繁に発生する一見うまくいきそうなフェイルオーバーだが、問題点も多く抱えている。ノード障害時のレプリカの一貫性や永続性、レイテンシなどの問題は分散システムの基本的問題。

Implementation of Replication Logs レプリケーションログの実装は複数種類存在し、DBMSごとに実装が異なる。各方法にはメリット・デメリットがあることに留意。ステートメントベース WALの転送論理（行）ベーストリガベース
• SQLなどのクエリのステートメント（INSERT, UPDATE, DELETE）をそのまま転送。 • NOW()などの非決定的な関数は値に置き換える。 • 複数ステートメントの場合、リーダーと完全に同じ順序で実行する。 (INSERT→UPDATE WHEREなどの組み合わせでは適用順が大事) • エッジケースが多数存在するので他のレプリケーション方法が良い。 • 「ストレージエンジンでは全ての書き込みはログに追記されていく」ことを利用。 • リーダーはログを自身のディスクに書き込みつつフォロワーに高速に転送。 • フォロワーは受信後高速に適用していくことでデータを複製できる。 • 低レベルなバイナリログで柔軟性がないので、ストレージエンジンの種類やバージョンを同一のものにする必要有。 • PostgreSQLやOracleで利用。 • ストレージエンジン固有のログフォーマットではない論理ログを利用、表現力が高い。 • 挿入された行、削除された行、変更された行という様に行でログレコードを作成。 • 表現力が高く、パースも容易なのでCDC(Change Data Capture)に利用され、DWH 構築やインデックス構築など外部ソース連携可能。 • DynamoDB Streamsなどもこれにあたる。 • RDBMSのトリガやストアドプロシージャを利用してレプリケーションを行う。 • 異なるデータベース間でのレプリケーション、限定的な複製、複製ロジックなどアプリケーションレイヤに上がってきた時に利用。 • データの変更時に実行されるカスタムアプリケーションコードを登録できる。 • DBMSによって実装されないので柔軟性が高いが、オーバーヘッドが大きい、バグが生じやすい、制約が大きいなどのデメリットもある。

Problems with Replication Lag 02 レプリケーションラグにまつわる問題

What is Eventual Consistency? 読み取りスケーリングアーキテクチャで非同期レプリケーションを採用している場合(大半)、非一貫性の読み取りになる。このように遅延度合いに限界のないレプリケーションラグを持つ整合性を結果整合性という。特定のデータだけ古い

Read Your Own Writes read-after-write(read-your-write)一貫性は、自分で投入した更新は直後からその後のいつでも反映していることを保証する。他の人の更新は保証しないので古い値を見る可能性がある。基本的にはリーダーから最新の値を読み取ることができることに留意。 • 自分しか変更できないデータ(e.g. SNSにおけるプ
ロフィール(/me))を参照するときはリーダーから読みとる。 • クライアントが書き込んだタイムスタンプを持っておく。レプリカも更新したタイムスタンプを保持し、それらを比較することで一貫性を保証する。(論理タイムスタンプ) • クライアント側で書き込みタイムスタンプを保持し、 60秒以内の読み取りであればリーダーから、そうでなければフォロワーから読み取るようにする。 • クロスデバイスread-after-write一貫性は、タイムスタンプのようなメタデータの集中配置のケアが必要。実装方針

Monotonic Reads Monotonic Reads一貫性では、一度読み取った値が変わらないことを保証する。古いデータを読み取る可能性はあるが、連続して行った複数の(1ユーザーが行う)読み取りにおいて時間は巻き戻らない。強い一貫性ほどではないが結果整合性よりは強い。 • 各ユーザーが常に読み取りを同じレプリカから行うようにする。 •
ユーザーごとには異なる値を読んでしまうことには注意。 • 読み取りレプリカをランダムに決めるのではなく、ユーザーに基づく情報(e.g. ユーザーID)のハッシュで決める。 • レプリカに障害が起きたら、他のレプリカにルーティングする。実装方針

Consistent Prefix Reads 一貫性のあるプレフィックス読み取り一貫性では、因果律を保証する。因果律とは、例えばある順序で一連の書き込みが行われた場合、それらの書き込みを読み取るものには必ず書き込まれた際と同じ順序でそれらが見えること。 • 互いに因果関係を持つ書き込みを同じパーティションに書き込む。(因果関係を明示的に追跡できるアルゴリズムについては後述)
実装方針

Multi-Leader Replication 03 マルチリーダーレプリケーション

What is Multi-Leader Replication? マルチリーダー構成(マスター-マスター、アクティブ/アクティブ)シングルリーダーアプリケーションにおけるリーダーの単一障害点を克服するべく、複数のリーダーを用意し書き込みを受け付ける手法。レプリケーションの手法はこれまでと同じ。代表的なユースケースは以下。マルチデータセンターでの利用オフラインで運用されるクライアントコラボレーティブな編集
• 複数のデータセンターにリーダーを配置 • DC間では非同期に連携 • 障害にも対応可 • DC間の接続は公開ネットワークを使用 • 異なるDCで同じデータを書き換える衝突が起こる可能性がある • クライアントがインターネットに接続されていない時でもアプリケーションが動作されるユースケース • デバイス(クライアント)が次にオンラインになったらサーバーに同期 • このユースケースでは全てのデバイスはローカルDBを持つリーダーの役割 • 複数のユーザーがドキュメントを同時に編集するユースケース(Google Docs) • ユーザーのローカルにはすぐに反映されるべきで。他のユーザーには非同期で反映されるべき • 編集の衝突を避けるには変更している箇所のロックを取る • パフォーマンスを改善するならコミットする単位を小さくするとロックを回避できるが、衝突の完全な解決にはならない

Handling Write Conflicts マルチリーダーの最大の問題は書き込みの衝突が起きること。衝突の処理を4つ紹介。ドキュメント同時編集機能における衝突の例。各々ローカルには適用できるがオンラインになった時に衝突してしまう。 1. 衝突の検出 2.
衝突の回避 3. データの収束 4. カスタムの衝突解決ロジック

Handling with Conflicts 衝突の検出衝突の回避データの収束カスタムの衝突解決ロジック • 非同期検出 •
衝突しうる場合でも書き込みを成功させて、後に非同期的に衝突を検出する • この時点ではユーザーに解決を求めても遅すぎるかもしれない • 同期検出 • 書き込みが全てにレプリケーションされるのを待つ • この方法はマルチリーダーレプリケーションのメリットが失われる • 推奨されることが多いアプローチ • あるレコードに対する書き込みが同じリーダーに送られることを保証する • 書き込む個人から見ると、シングルリーダー構成と変わらない • フェイルオーバーなどで、ルーティングされるデータセンターが変わり得るなら、結局他の方法で対処しないといけない • マルチリーダーでは書き込みに定まった順序がないので、受け付けた順序で書き込むとレプリカ間で整合性が取れない • 書き込み or レプリカにユニークなIDを与えて、衝突時はIDの大きいもの以外は破棄する（LWW） • 何らかの方法で衝突した値をマージする • 全ての情報を保存し、ユーザーに後で解決してもらう • 書き込み時の解決 • 変更ログから衝突を検出した際に、衝突解決のハンドラを呼ぶ • ハンドラはバックグラウンドプロセス内で高速に動作する必要がある • 読み込み時の解決 • 衝突が検出された際に、全ての書き込みを保存し、アプリケーションに全て返す • アプリケーションが解決したり、ユーザーが解決したりする

Replication Topology あるノードからほかのノードへと書き込みを伝播する通信経路をレプリケーションのトポロジーという循環トポロジースタートポロジー • 書き込みが全てのレプリカに行き渡るまでに複数のノードを経由する • 無限ループ防止のため、各ノードに識
別子を与え、ログに識別子をタグ付けし、自身の識別子がタグづけされたログを無視する • 1つのノード障害が全てのレプリケーションを止めてしまう • ノード障害時のトポロジーの再構成は通常手作業で行う必要がある

Replication Topology All-to-all トポロジー • 単一障害点を持たないため耐障害性が高い • 一部のレプリケーションメッセージが他のメッセージを追い越すことで、因果律
の問題が起きる可能性がある • メッセージを正しく順序づけるには、後述のバージョンベクトルが利用できる

Leader-Less Replication 04 リーダーレスレプリケーション

What is Leader-Less Replication? どのレプリカもクライアントからの書き込みを受け付けるDB。Dynamoスタイルとも呼ばれ、 CassandraやRiak、Voldemortで採用されている。（DynamoDBはリーダーレスではない） • 書き込みリクエストを複数のレプリカに送信し、書き込みできなかったレプリカは無視する
• 読み取りリクエストも複数のノードに送信し、より新しいバージョンの値を真とする • 古いデータは新しいデータに更新する実装方針

Eventual Consistency Mechanisms 読み取り修復と反エントロピー処理読み書きのためのクオラム • 読み取り修復 • ノードから並列に読み取りを行った結果、古いレスポンスが返ってきた場合は、
新しい値を書き戻す • 反エントロピー処理 • バックグラウンドプロセスで、レプリカ間でデータの差異を探し、欠けて入るデータがあれば、他のレプリカへコピーする • n個のレプリカのうち、w個のノードで書き込みが成功し、読み取りの時にr個のノードにクエリしたとする時、w + r > nである限り最新の値が得られる • n = 5, w = 3, r = 3の時は以下の図のようになる

Limitation of Quorum Consistency 2つの書き込みが並行して行われる時読み取りと並行して書き込みが行われる時書き込みが部分的に失敗する時ノード障害からのリストアの時遅延のモニタリング並行の書き込みによる衝突は、マルチリーダーレプリケーションと同様に発生しうる
並行して書き込まれている新しい値が読み取られるかどうかがわからない部分的に書き込みが成功してしまっている時にロールバックされないので、そのデータがどうなるのかわからない古いデータを持つノードからリストアされることで、新しい値を持つレプリカの数がwを下回るかもしれないリーダーベースと違い、書き込みが適用される順序が決まっていないので、レプリカのデータの古さの計測が難しい

Sloppy Quorums and Hinted Handoff n = 6 個のノード障害解消時に転送
（ヒント付きのハンドオフ） n以外のノードで w = 3 を満たす • 障害により、一部のノードにしか接続できない時に、別の場所で書き込みを受けるけることでクオラムを満たしたとすることをいい加減なクオラムという • 障害が解消したときに、一時的に受けるけていた書き込みはホームノードに転送される（ヒント付きのハンドオフ） • 書き込みの可用性が高まる • ヒント付きのハンドオフが完了するまでは、r 個からの読み取りで最新の情報が読み取れる保証はない

Detecting Concurrent Writes 結果整合性を実現するためには、レプリカは同じ値に収束しなければならない。衝突したデータを失わないために、アプリケーション開発者は使用するデータベースの衝突に対する処理を知る必要がある。リーダーレスレプリケーションによる平行書き込みの例。順序は非決定的。

What is Concurrent? 並行とは2つの操作が依存関係にないことを意味し、時間的重なりの有無は関係ない。並行でない並行 • 操作Bは操作Aに依存しているので、操作B は操作Aに対して因果関係を持つ。 •
因果関係を持つ操作は並行でない。 • 操作Aと操作Bの関係を事前発生(happens- before)関係という。 • 操作Aと操作Bは、お互いに独立して行われるので、因果関係を持たない。 • 因果関係を持たない操作は並行。

Capturing the happens-before relationship サーバーはバージョン番号を見ることで事前発生関係(or 並行性)を検出できる。 1. S: 全てのキーに対してバージョンを管理
2. C: 書き込む前にキーを読み取る 3. S: 上書きされていない全ての値をバージョン番号を合わせて返す 4. C: 読み取ったバージョン番号と、マージ済みの値を書き込む。 5. S: 受信したバージョン以下の値を上書きするが、より大きいバージョンは上書きしない。 S: サーバー C: クライアントクライアントのsiblingなデータのマージは和集合を取るだけでなく、削除記録を残すためにtombstoneを残す必要があったり…(RiakはCRDTでサーバー側で解決するらしい) https://qiita.com/everpeace/items/bb73ec64d3e682279d26

Version vectors レプリカが複数ある、リーダーレス(マルチリーダー)の構成ではバージョンベクトルを使用する。参考 - https://docs.riak.com/riak/kv/2.2.3/learn/concepts/causal-context/index.html - https://github.com/ricardobcl/Dotted-Version-Vectors

DDIA Chapter 5

DDIA Chapter 5

tobi

More Decks by tobi

Featured

Transcript

DDIA Chapter5. Replication 石飛、戸田

Table of contents 01 04 02 03 Leaders and Followers

What is Replication? ネットワークで接続された複数のマシン（ノード）に同じデータを複製しておくこと。このChapterでは複製の方法論について考えていくことを目標にする。

Replication / Partitioning • 複数のマシンにデータのコピーを複製すること • 大規模データセットを複数マシンで分割して保持すること Replication

Why Replication is essential? パフォーマンス（レイテンシ）パフォーマンス（スループット）可用性(耐障害性) マシンを地理的に分散させて、ユーザーとの距離を近くすることで、レイテンシを低減

Leaders and Followers 01 リーダーとフォロワー

Leader / Follower • 書き込みクエリを受け付ける • 自分のストレージに適用後、全Followerにレプリケーションログを送信 • 読み込みクエリのみを受け付ける

Sync / Async Replication • フォロワーの書き込みを同期的に行う（=待つ） • データは最新なのでL/F間で一貫性が保証 • レスポンスタイムの増大

Setting Up New Followers 一貫性のあるスナップショット追加分のログレプリケーション • リーダーから一貫性のあるスナップショットをとる。（DB 全体にロックを取らないとbetter） •

Handling Node Outages - Follower 1 ２ 3 4 5

Handling Node Outages - Leader - Problems • 非同期レプリケーションで、新しいリーダーが古いリーダーの全ての書き込みをキャッチアップできてい

Implementation of Replication Logs レプリケーションログの実装は複数種類存在し、DBMSごとに実装が異なる。各方法にはメリット・デメリットがあることに留意。ステートメントベース WALの転送論理（行）ベーストリガベース

Problems with Replication Lag 02 レプリケーションラグにまつわる問題

Multi-Leader Replication 03 マルチリーダーレプリケーション

Handling with Conflicts 衝突の検出衝突の回避データの収束カスタムの衝突解決ロジック • 非同期検出 •

Replication Topology All-to-all トポロジー • 単一障害点を持たないため耐障害性が高い • 一部のレプリケーションメッセージが他のメッセージを追い越すことで、因果律

Leader-Less Replication 04 リーダーレスレプリケーション

Eventual Consistency Mechanisms 読み取り修復と反エントロピー処理読み書きのためのクオラム • 読み取り修復 • ノードから並列に読み取りを行った結果、古いレスポンスが返ってきた場合は、

Sloppy Quorums and Hinted Handoff n = 6 個のノード障害解消時に転送

What is Concurrent? 並行とは2つの操作が依存関係にないことを意味し、時間的重なりの有無は関係ない。並行でない並行 • 操作Bは操作Aに依存しているので、操作B は操作Aに対して因果関係を持つ。 •

Capturing the happens-before relationship サーバーはバージョン番号を見ることで事前発生関係(or 並行性)を検出できる。 1. S: 全てのキーに対してバージョンを管理

Version vectors レプリカが複数ある、リーダーレス(マルチリーダー)の構成ではバージョンベクトルを使用する。参考 - https://docs.riak.com/riak/kv/2.2.3/learn/concepts/causal-context/index.html - https://github.com/ricardobcl/Dotted-Version-Vectors