20240119_KEDAでスパイク負荷を迎え撃つ。メトリクスとスケジュールドリブンなオートスケールでKubernetes上のプロダクトの信頼性を高めよう/lets_use_keda_for_reliability

KEDAでスパイク負荷を迎え撃つメトリクスとスケジュールドリブンなオートスケールでKubernetes上のプロダクトの信頼性を高めよう株式会社マネーフォワード MFBC-CTO室 SRE部 HRソリューショングループ佐々木優太成長を続けるfreeeとマネーフォワードはサービスの信頼性をどう担保しているのか？ #sre_fxm

#sre_fxm 自己紹介佐々木優太（ゴンくん）株式会社マネーフォワード MFBC-CTO室 > SRE部 > HRソリューショングループ
@gogogonkun https://gonkunblog.com/

#sre_fxm メトリクスかつスケジュールドリブンなオートスケールでスケーラビリティを確保しつつKubernetes上のリソースコストを35%削減した話本発表の概要

#sre_fxm こんな経験はありませんか？サービスの信頼性確保大変じゃないですか？

#sre_fxm こんな経験はありませんか？品質をお金で解決することも

#sre_fxm こんな経験はありませんか？プロダクトや組織が成長すると品質とコストの両輪がより重要に

#sre_fxm コスト削減までの思考の過程を経験談を踏まえてお伝えいたします

本発表の対象者プロダクトの成長に応じて発生する負荷の増加への対応に困っている人これからサービスリソースのチューニングを試みようとしている方

プロダクトの負荷特性を考慮しつつ、リソースのチューニングができるように - 具体的に何をすべきかが分かる - 気を付けるポイントが分かる ※ KEDAの導入方法には触れません持ち帰れること

#sre_fxm 今回は勤怠管理システムを例に一緒に考えてみましょう

#sre_fxm 置かれている状況 - 想像以上のユーザ数の増加 1年前と比較してn倍になっている。という状況 - ヤバそうだったらインフラ側のリソース増強 - 気付けばk8sのリソース使用率が社内でもトップクラスに

#sre_fxm リクエスト数ピーク時の負荷に合わせて、リソースを確保し続けている状態 Podの数は一定のまま

#sre_fxm 明らかにリソースが有り余っている箇所もある WebサーバのPodの平均CPU使用率

#sre_fxm 理想を言うならば... - リソースを使わない時間帯Podを減らす - でも1日の負荷には耐えられること

#sre_fxm まずは1日のCPU使用率やリクエスト数の推移を見てみる

#sre_fxm WebサーバのPodの平均CPU使用率リクエスト数

#sre_fxm リクエスト数 Q. HPA（Horizontal Pod Autoscaler）に任せれば...？こういうイメージリクエスト数 Pod数（理想）

#sre_fxm リクエスト数 A. 出勤、退勤時間帯のスパイクでGame Over リクエスト数

#sre_fxm 詳細な時間軸でリクエスト数の推移を見てみる 20secで 2~3倍のスパイクリクエスト数リクエスト数

#sre_fxm 20secで 2~3倍のスパイクメトリクス（CPU）ベースのオートスケールの場合、CPU使用率が100%に達したらほぼOUT HPAだとスパイク時のスケールアウトが間に合わないリクエスト数

#sre_fxm リクエスト数ポイント - スパイクだとHPAのオートスケールは間に合わない - スパイク以外の負荷はHPAでカバーできそうリクエスト数 HPA HPA
HPA

#sre_fxm KEDAの導入を考える

#sre_fxm リクエスト数 Q. 特定の時間帯だけオートスケールさせられないものか？リクエスト数

#sre_fxm リクエスト数 A. KEDAを使えば出来るんです。リクエスト数

#sre_fxm KEDAとは？ - イベントドリブンでのオートスケールを可能とする - 多様なイベントに対応 - 今回はCron（スケジュール）イベントをトリガーにスケールア
ウトさせる

#sre_fxm リクエスト数 KEDA (Cron) KEDA (Cron) 出勤と退勤のピーク時間帯にスケールアウトさせる KEDA用のリソースの中で HPAとスケジュールのオートスケール設定、両方を定義できる

#sre_fxm KEDA (Cron) （導入後）出勤時のスパイクの様子 → スパイクを迎え撃った後は　緩やかにスケールダウンさせて、 HPAに任せている →⭕スパイクにも対応
リクエスト数 Pod数平均CPU使用率

#sre_fxm KEDAとHPAのチューニングの失敗

#sre_fxm 残るは最低Pod数のラインを下げてコストを減らすだけ...

#sre_fxm その時事件は起こるのでした...

#sre_fxm KEDA (Cron) CPU使用率が急騰しPodがダウンリクエスト数 Pod数を減らして調整していたところ ... CPU ↗ Pod
↘ Pod数平均CPU使用率

#sre_fxm まだ退勤ピークではないはず... なぜ起きた？？？

#sre_fxm もう一度リクエスト数の推移を見てみるリクエスト数 KEDA (Cron) KEDA (Cron) 出勤、退勤時の大きなスパイクはカバーできているが...

#sre_fxm 大きなスパイクに気を取られ、他のスパイクを見落としていたリクエスト数

#sre_fxm 詳細な時間軸でリクエスト数の推移を見てみるリクエスト数 20secで 1.5倍のスパイクリクエスト数思ったよりも大したことがない... 直前のPodのCPU使用率が40%程度だったため、 2.5倍のスパイクまでは耐えられる想定

#sre_fxm なんだか腑に落ちない... もう少しアプリケーションの特性に踏み込んでみる

#sre_fxm 退勤時に叩かれるかつ重めのAPIに絞って抽出してみる 20secで 3倍のスパイクリクエスト数（退勤時に叩かれる重めの API）これならPod側も耐えられそうにない...
ようやく納得

#sre_fxm 20secで 3倍のスパイクリクエスト数（退勤時に叩かれる重めの API）学び - スパイクは大きな山だけ見るのではなく、変化率を注視 -
マクロとミクロの両方の観点で負荷を分析すること反省点 - もっと慎重に、1日に少しずつチューニングしていく（負荷特性を分析しきれていないなら尚更慎重に）

#sre_fxm 改善: スパイクはスケジュールで丸ごと迎え撃つリクエスト数（退勤時に叩かれる重めの API） KEDA (Cron) リクエスト数

#sre_fxm リクエスト数メトリクスベース（HPA）とスケジュールベース（Cron）を組み合わせて負荷の増減とスパイクに対処することに成功リクエスト数 HPA HPA HPA KEDA (Cron)
KEDA (Cron)

#sre_fxm Pod数リクエスト数その後、約1ヶ月、毎日少しずつチューニングを行い最終的には35％のリソースを削減実はKEDA(cron)とHPAが良い感じに両方効いている

#sre_fxm Pod数平均CPU使用率平均CPU使用率も無理の無い範囲に収まっている（まだまだ見直せそう...）

#sre_fxm まとめ - メトリクスベースのオートスケール時にはスパイクに注意！ - スパイクにはスケジュールベースのオートスケールが有効!! KEDAを活用すべし！ - アプリケーションの特性の理解しつつ、慎重にチューニング

#sre_fxm まとめその他補足 - HPAの感度を調整することで、更に柔軟に負荷に対応できる参考: k8s - HPAを設定してチューニングする上で気をつけていること -
KEDAのマニフェスト（scaledObject）適用時には、deploymentのreplicaが1（デフォルト値）を経由しないように注意 - 障害に発展する可能性がある - 詳しくは以下の記事が大変参考になりました Kubernetesの既存DeploymentにHPAを導入する際の注意点

ご清聴ありがとうございました

20240119_KEDAでスパイク負荷を迎え撃つ。メトリクスとスケジュールドリブンなオートス...

20240119_KEDAでスパイク負荷を迎え撃つ。メトリクスとスケジュールドリブンなオートスケールでKubernetes上のプロダクトの信頼性を高めよう/lets_use_keda_for_reliability

More Decks by gonkun

Featured

Transcript