DMMプラットフォームにゼロベースでSLO導入している取り組み適切なSLI模索の軌跡

DMMプラットフォームにゼロベースでSLO導入している取り組み適切なSLI模索の軌跡 Jun Kudo ( @j_nk71 ) Cloud Operator
Days Tokyo 2023

Jun Kudo @j_nk71 東京大学大学院工学系研究科修了後、合同会社DMM.comに新卒入社(2021)。プラットフォーム事業本部にてSREとして各開発チームに向けたコンテナプラットフォームの提供や開発効率の向上施策を進めている。 2

DMMプラットフォームの利用時全体像 3 動画配信サービス End User 電子書籍サービス End User
API Gateway 認証系サービス会員系サービス DMM プラットフォーム DMM.comのサービス主にプラットフォーム的機能を管轄するバックエンドサーバーが含まれる ex.ログインや退会など

DMMプラットフォームの状態 4 Login API 認証 API 認証系サービス API Gateway
会員系サービス SREチーム会員チーム認証チームクラスタや各種オペレータを管理 ex.会員チームはクラスタ内でログインといった機能を持つAPIサーバーを管理

DMMプラットフォームの状態 5 クラスタを運用するSREと、クラスタにサービスを乗せる各チームのマイクロサービス構成である。クラスタ利用者は自チームのアプリケーションにオーナーシップをもつ。 Kubernetesクラスタ（GKE,EKS） Kubernetesクラスタ上のオペレータ（Argo CD, Datadog
Agentなど）コンテナイメージの配置場所 Kubernetesマニフェストを管理するモノレポ … アプリケーションコードアプリケーションのコンテナイメージ自チームのKubernetesマニフェスト（マニフェストは基本自由に変更可能）アプリケーションで利用するDBやS3 … SREチームの管理物 SREチーム以外クラスタ利用者の管理物

おさらい① User Journey: ユーザーがサービスと行う一連の対話・体験  ex. 商品を購入するためにカート内商品の購入を確定する SLI: サービスの信頼性を測るための指標 ex. 購入時のAPIについて5xx以外のHTTPコードのレスポンス数
/ 全体のリクエスト数 SLO: SLIに対してどの程度の値を目指すかを定義したもの ex. 過去28日間で5xx以外のレスポンス数の割合が99.5% 6 SLIを考える前段となる。実質 SLIを自然言語で表したものに近い

おさらい② Error Budget: SLOを元に算出される損失可能な信頼性の量 ex. 50件 (全体のリクエスト件数が10000件でSLOが99.5%の場合) Burn Rate: 特定の期間でError
Budgetを消費する速度 ex. 1時間でError Budgetを2%消費する Error Budget Policy: Error Budgetの消費状態に対してどう対応するか取り決めたもの ex. Error Budgetを使い切ったら、30%に回復するまでリリースを停止する。 7 これをモニターで監視することでエラーバジェットを消費し切る前に対応を実施する、といったことができる

SLOへの理解度が足りないので調査しゼロから考えた SLOは何のためにあるのだろうか？適切なSLIはどう設計するのか？ Error Budgetはどう運用するべきか？ 8

SLOの役割 9 サービスの信頼性について「何をどの程度目指すのか」という線引きを明確にすることで意思決定をサポートする。

SLOはなぜ必要？ - 過剰要求からの防衛 10 過剰な要求から自チームの持つサービスを守れる。昨晩、利用しているAPIでエラーが増加したんですが調査or対応してもらえますか？他チーム向けAPIを提供するチーム
提供されているAPIを利用しているチーム増加とはどれぐらいですか？ 100件程度の増加であれば SLOとして問題ない範囲です。

SLOはなぜ必要？ - 信頼性への投資検討 11 自チームとして信頼性にどの程度投資するかが明確にできる。 ▪ SLOを99.99%に引き上げると、どの程度機会損失額が減るのか？その場合どの程度の開発・運用工数がかかるのか？それらをふまえて、これに投資するべきか？ ▪
機能追加をすることでセキュリティ性は向上するがレイテンシが20ms悪化する。これは許容していいのだろうか？

SLOはなぜ必要？ - 挑戦的な施策 12 エラーバジェットがあることで保守的な運用だと実施しづらい挑戦的な施策を検討できる。 ▪ ダウンタイムを伴うメンテナンスを実施したい。 ▪ カオスエンジニアリングを実施したい。
▪ 特定オペレーションを自動化し人間のレビューを不要にしたい。

SLO設計の大前提 13 運用してみないと分からない側面: ▪ SLIに使おうとしたメトリクスが実は不安定だった ▪ SLIでは拾いきれないシナリオが実は存在した ▪ … コンテキストの変化の側面:
▪ ビジネス要件が変化した ▪ アーキテクチャの変更があった ▪ チームの人員が増減して割ける工数が変化した ▪ … 運用し続ける前提で考える。最初から完璧なSLOは作れないし加えてコンテキストの変化に合わせて調整・運用し続ける必要がある

今回の話 14 Login API 認証 API 認証系サービス API Gateway
会員系サービス SREチーム会員チーム認証チームクラスタや各種オペレータを管理今回はSREチームの提供するクラスタ周りのSLOを決めた話

15 User Journeyの設定 SLIの設計 SLOの設定 Error Budget Policyの設定 Burn Rate
Alertの設定 Burn Rate Alertの設定 SLO Documentの作成 SLO構築の流れ

User Journeyの設定① ユーザーをKubernetes Clusterを利用する DMMプラットフォーム内の各チームと定義した。 16 動画配信サービス電子書籍サービス
API Gateway 認証系サービス会員系サービス DMMプラットフォームを利用する事業部 End User クラスタ運用側として一番距離の近いクラスタを利用する各チームを今回のユーザーとしたクラスタ利用チーム

User Journeyの設定② 「クラスタ上にデプロイしてあるサービスが他サービスと通信したりバッチ処理を行う。」をUser Journeyとした。 17 動画配信サービス電子書籍サービス
API Gateway 認証系サービス会員系サービス DMMプラットフォームを利用する事業部 End User クラスタ利用チーム

SLIの設計ユーザージャーニーをSLIに落とし込むように設計した。（これが一番むずかしい） 18 おおまかな設計方針 ▪ 理解しやすい程度にはシンプルであること ▪ メトリクスとしてノイズが少ないこと ▪
可能な限りユーザー体験を直接表現していること ▪ あまりSLIの数が多くなりすぎないこと（運用できない＋意思決定に使いづらくなる）

設計したSLI クラスタ運用側として、マニフェストやコンテナがちゃんとしてればサービスがしっかり動くことを保証するために以下を設定した。アプリケーション自体の挙動は追わない。 19 ▪ クラスタ内のPendingである状態のPodが N 個以下である時間長例えばCluster
Autoscalerが壊れていてノードがスケールしないといったケースが拾える ▪ 各ReplicasetがDesired Podの個数通りに動作している時間長例えばネットワークや認証情報が壊れてコンテナイメージを配置場所からPullできないといったケースが拾える  

SLIに採用しなかった例 20 ▪ クラスタ内のアプリケーションのログが正常に保存されている割合そもそもUser Journeyとは異なってしまう。本来はサポートするべきかもしれないが別のUser Journeyで考えるべき。 ▪ クラスタ上でPodがErrorの状態である時間長
実績的にPodがエラーになるかどうかはクラスタ自身以外の原因がほとんどだったので対象外とした。 ex.) Podの通信先がダウンしていることによってPodが終了マニフェストの設定ミスによってうまく起動せずエラー ※今後クラスタのネットワーク起因でのエラーなどが  　起こる場合には検討する 

SLOの設計過去に達成できている&現実的に達成可能な値をベースに決定した。現時点ではそれぞれのSLIは99.9%を目標としている。   21 ex.) 時間ベースのSLO（28 days window）の場合…  
障害発生時、現実的に対応完了までにかかる時間は？現時点ではオンコールを受けて調査開始までに現実的に5分以上かかるよって少なくとも99.99%のSLOは達成できない(28日間の0.01%は4.032分) 問題を検知する→ 人間がオンコールを受ける → 調査する → 対応する

Error Budget Policyの設定 22 達成不可能な強い制約はかけず議論の出発点としての機会を用意するようにして柔軟なポリシーを設定している。条件対応エラーバジェットが  50%を切った場合 
チームでMTGを実施し対応可否に加え  対応内容を検討する。  エラーバジェットを完全に使い切った場合  チームの少なくとも１人を最優先で信頼性向上の  タスクにアサインする。対応完了後に利用チームに  対応結果を共有する。 

Burn Rate Alertの設定 23 最初は決め打ちでDatadog社やSRE本の推奨値を利用し課題感が出たら都度調整する運用にしている。 SLO策定前にあった各種ユーザー体験を間接的に表現するモニターは（ex. ノードのCPU使用率が90%以上になっている）などは置き換え可能と判断したらこちらのアラートに乗り換えていく予定
ウィンドウ  消費量  対応  1時間  2%  オンコールで即時対応する。  6時間  5%  オンコールで即時対応する。 

SLOドキュメント 24 最終的には他チームや時チームの意思決定に使うという特性上プラクティスに習い、Single Source of TruthとしてSLOドキュメントを用意（現在はDatadog Dashboard上で管理できないか模索中) 実際のものを一部記載
実際のものを一部記載目次

アプリケーション運用チームへの展開 25 Login API 認証 API API Gateway 会員系サービス
SREチーム会員チーム認証チーム認証系サービス今後は他チームへもSLO導入の流れを展開をする予定である。 SREチームだけではアプリケーションに対するSLOの運用知見は貯まらないので一部クラスタ利用チームに依頼して先行的に導入を進めている。基本はAPI別でエラー率・レイテンシの SLI/SLOを用意している

SLOを作り込もうとしたときこれ難しいな…と思ったことを紹介します 26

User Journey 多すぎ問題そもそもサポートすべき機能が多すぎてユーザージャーニーが大量に…。 27 ユーザージャーニーの実例 ▪ クラスタ上にデプロイしてあるサービスが他サービスと通信したりバッチ処理を行う。 ▪
クラスタにデプロイしているサービスをDatadogで監視する。 ▪ k8sリソースの設定をモノレポのマニフェストを変更してリリースする。 ▪ kubectlを叩いてリソースの操作をする。 ▪ … 今はSLO導入初期なことから運用負荷を軽減すべく、まずはできる限りユーザージャーニーをまとめる＋重要度の高いものに絞って運用している。

ユーザー体験に対するSLIの距離問題ユーザー体験にSLIを寄せすぎると逆にノイズが増えて機能しないケースがあり必ずしもユーザー体験に近いほど良いというものでもない。 28 SLIのユーザー体験との距離ユーザー体
験の表現度ノイズの混じりにくさ (近い) (遠い) 適度にノイズが混じらない程度にユーザー体験を表現する落とし所を見つける必要がある…。 ▪ ex. ユーザーのブラウザ上のページの描画時間（Webフロントページを提供するサービスのSLIとして）体験としては近いが、マシンスペックに影響される。おそらくロードバランサから取れるレスポンスタイム等を計測したほうがノイズが少ないのでは？

ユーザー体験に対するSLIの距離問題 - 対応策対応策は色々あるが、現実的に割ける工数を考え現状は仕方なくユーザーの不備起因のものは手動で除外している。 29 1. CIなどを作り込んでそもそもクライアント起因の問題が起きないようにする → クライアントの失敗を運用側の責務に取り込む。工数がかかる。
2. 代わりのSLIを用意する → 理想はこれだが現実問題見つからない 3. ユーザーの不備によるエラーバジェット消費はSLO計算から手動で除外する → 現状は手動オペレーションは月1,2回程度、Datadogの機能でできる。　発生頻度が高すぎる場合はSLI見直す必要がある。　今は基本この方針で対応している。

ユーザー体験に対するSLIの距離問題 - 対策ユーザー不備の計算除外はDatadogのCorrect Statusという機能で実施している。 30

SLIで依存をどこまで取り込むか問題 SLOは自チームで運用する信頼性の目標となる。依存先（ex.SaaS,DB,他チームのサービス等)によってエラーバジェットが消費される状態は健全なのか…？ユーザー体験視点のサービスの信頼性を正確に表すために依存は取り込みたい ex.依存先を自サービスの考慮項目として取り込める自サービスの信頼性が依存先によって低下していると判断して依存先を変える 31 依存を取り込むと運用負荷が高くなるケースがあるしかし…

SLIで依存をどこまで取り込むか問題 - 例 32 API Gateway Service A Service B
Service C API Gatewayを運用するチームが SLOを決めたいケース後続のサービスは、別々のチームが管轄しエラー率もレイテンシもサービスによって全然異なるユーザーをAPI Gatewayを叩くクライアントとするユーザー

Service C ユーザー体験を表現するSLIを作ろうとして、後続サービスの状態を取り込むと、当然その後続サービスの信頼性にSLIが影響される Latency 80ms Latency 20ms Latency 50ms レイテンシは各サービスごとに違う。API Gateway自身がレイテンシの SLIを作るとき後続のサービスごとのレイテンシのSLIを用意するべきなのか？ API Gatewayの後続にサービスが増えるほど、API GatewayのSLIも増える Latency 25ms 合計 105ms

Service C 後続のサービスが障害を起こしたときはAPI Gateway自身の SLIの値も低下する（個別のServiceごとにSLIを作ってもこの問題は発生する) Service Aがダウンしたときユーザー体験をSLIは適切に表現しているが API Gateway自身に問題はなくてもAPI GatewayのBurn Rate Alertが発火する API Gatewayの後続にサービスが増えるほど発火する機会も増える正常に稼働しているがエラー率が高くなるエラー率が高くなる

SLIで依存をどこまで取り込むか問題 - 対策 35 API Gateway Service A Service B
Service C 現実的に後続のサービスを取り込むと運用しきれないのでこのようなケースは後続サービスの影響を除外するような方針にしている。ただ影響を除外するのにも手間がかかる..。 ex. 後続サービスによるレイテンシ影響を減算、他サービス起因のエラーを除外 Latency 25ms Latency 80ms Latency 20ms Latency 50ms

まとめ ▪ Kubernetesクラスタを社内に提供しており運用と見直しを前提としてスモールスタートでSLO運用を始めた。 ▪ SLOドキュメントまで作成後運用しており、知見・プラクティスを蓄積させている。（並行でアプリケーションを運用している一部チームにも先行的にSLO導入を依頼） ▪ クラスタ運用側としては、SLIとして一般的なAPIのレイテンシやエラー率といった一般的な指標がないのでなおさらSLI設計が難しい。
▪ SLIを作り込むのはとても難しい。依存を取り込むべきか、ユーザー起因のノイズ等に検討考え対応しているがキレイな解決方法は現状見つかっていない。 36

DMMプラットフォームにゼロベースでSLO導入している取り組み適切なSLI模索の軌跡

DMMプラットフォームにゼロベースでSLO導入している取り組み適切なSLI模索の軌跡

Jun Kudo

More Decks by Jun Kudo

Other Decks in Technology

Featured

Transcript