SRE不在のチームに入って2ヶ月でやったこと - 負荷試験ツールからはじめるSREプラクティスの導入

SRE不在のチームに入って2ヶ月でやったこと負荷試験ツールからはじめるSREプラクティスの導入 2023.04.26 TechFeed Experts Night#17 @fujiwara

@fujiwara 面白法人カヤック SREチーム github.com/kayac/ecspresso Amazon ECS デプロイツール github.com/fujiwara/lambroll AWS Lambda
デプロイツール

(専任)SRE不在のチームとサービス - SMOUT 2018年リリース

SREとしてチームに加わった背景きっかけはEoL ElastiCache Redis 3 - 2023年7月31日 RDS for PostgreSQL
10 - 2023年7月18日強制アップデートを伴うEoLがあるが手が回らない…他にもサーバーコストを削減したい CIに強すぎる権限がついているので絞りたいサービスの安定性を高めたい、監視を整備したい 1億行のテーブルから9000万行消してALTERしたい (とりあえず期間限定で) SREの手助けが欲しい

(専任)SRE不在だが、よくメンテされている Rails 5.1 → 6.1 Dependabotによる定期的なアップデート ElasticBeanstalk → ECS 手作業でのインフラ管理
→ Terraform デプロイ → CircleCI やる気も能力もある。DevOpsできている (自分は期間限定なので) 今後も使える考え方や手法を導入するのがよさそう単に「作業を代わりにやりました」で終わらないように

最初にやったこと - Grafana k6 による負荷テストシナリオ Grafana k6 is an open-source
load testing tool that makes performance testing easy and productive for engineering teams. k6 is free, developer-centric, and extensible. OSSの負荷試験ツール JavaScriptでシナリオを記述できる import http from 'k6/http' import { check, sleep } from 'k6' export default function () { const data = { username: 'username', password: 'password' } let res = http.post('https://myapi.com/login/', data) check(res, { 'success login': (r) => r.status === 200 }) sleep(0.3) }

なぜ負荷試験ツールを最初に用意したか PRコメント引用 ElastiCacheのバージョンアップ時のRailsアプリケーション挙動チェックのため、継続的にアクセスがある状態でFailoverを発生させたい。ついでなので、簡単な負荷テストに使える仕組みを整備しました。以下のような用途にも使えるので便利です。ミドルウェアのバージョンアップ(Failover)時の挙動を確認するアプリケーションのパフォーマンス改善時の性能向上を確認するモニタリング整備時に必要な値が取れているかを確認するいろいろ使えて便利だが、知見がないと取っつきづらい
簡単なサンプルを最初に書いて、誰でもいじれるようにしておく

用意したシナリオ 1. トップページにアクセス 2. トップページから呼ばれるAPI(認証なし)を複数並列で叩く 3. ログインフォームにアクセス 4. ユーザー名とパスワードをPOSTしてログインする 5.
ログインセッションが必要なAPI(要認証)を叩くコンポーネント(CDN, LB, WebApp, MySQL, Redis)を一通り通過するストレージからの読み込み、書き込み処理が両方あるこれを回しながら作業すると、各コンポーネントのエラーの発生と回復が検知できる

「不安だからメンテ入れましょう」からの脱却どれぐらいエラーが起きるか分からないどれぐらい復旧に時間が掛かるか分からない「怖いので」サービス停止メンテナンスを入れてやりたい知らない＝怖いだけなので、試せばよい (検証環境で)負荷を掛けた状態でバージョンアップ(Failover)する実際にどれぐらいのエラーが発生して、回復するか観察する
普段発生しているエラー数、頻度と比較してメンテナンスの必要性を考える → 「エラーバジェット」「SLO」の考え方に繋がる

結果的には k6で負荷を掛けながらノーメンテでいろいろできた ElastiCache Redis のバージョンアップ RDS Blue/Green Deployments の昇格切り替え時の接続エラーを踏む役目をk6が肩代わりしてくれる(再接続される)
ため、実際の利用者が目にしたエラーは数件程度今後も使える手法を導入できた

他にもやったことはいろいろ(略) Cache専用Memcached廃止 → Redisに統合 1億行のテーブルから9000万行削除してALTER 出たばかりの RDS Blue/Gren Deployments を使ってノーメンテで
MySQL DBのインデックス最適化インデックスショットガン状態で書き込み負荷が高かった sys.schema_unused_indexes を見て不要なインデックス削除最適な複合インデックス作成インスタンスサイズ半分のRI購入でコスト大幅削減 Redash 5(EC2) → 10(ECS) CircleCI OIDC化 Mackerel導入

まとめチームに「エラーバジェット」「SLO」の考え方を導入するため負荷試験ツールをまず入れてみた SREは「エンジニアリング」の手法専任のSREエンジニアだけがやるものではないソフトウェアで扱える手法から導入していくとよいのでは

SRE不在のチームに入って2ヶ月でやったこと - 負荷試験ツールからはじめるSREプラクティスの導入

SRE不在のチームに入って2ヶ月でやったこと - 負荷試験ツールからはじめるSREプラクティスの導入

FUJIWARA Shunichiro

More Decks by FUJIWARA Shunichiro

Other Decks in Technology

Featured

Transcript

SRE不在のチームに入って2ヶ月でやったこと負荷試験ツールからはじめるSREプラクティスの導入 2023.04.26 TechFeed Experts Night#17 @fujiwara

@fujiwara 面白法人カヤック SREチーム github.com/kayac/ecspresso Amazon ECS デプロイツール github.com/fujiwara/lambroll AWS Lambda

(専任)SRE不在のチームとサービス - SMOUT 2018年リリース

SREとしてチームに加わった背景きっかけはEoL ElastiCache Redis 3 - 2023年7月31日 RDS for PostgreSQL

(専任)SRE不在だが、よくメンテされている Rails 5.1 → 6.1 Dependabotによる定期的なアップデート ElasticBeanstalk → ECS 手作業でのインフラ管理

最初にやったこと - Grafana k6 による負荷テストシナリオ Grafana k6 is an open-source

用意したシナリオ 1. トップページにアクセス 2. トップページから呼ばれるAPI(認証なし)を複数並列で叩く 3. ログインフォームにアクセス 4. ユーザー名とパスワードをPOSTしてログインする 5.

結果的には k6で負荷を掛けながらノーメンテでいろいろできた ElastiCache Redis のバージョンアップ RDS Blue/Green Deployments の昇格切り替え時の接続エラーを踏む役目をk6が肩代わりしてくれる(再接続される)

他にもやったことはいろいろ(略) Cache専用Memcached廃止 → Redisに統合 1億行のテーブルから9000万行削除してALTER 出たばかりの RDS Blue/Gren Deployments を使ってノーメンテで