Upgrade to Pro — share decks privately, control downloads, hide ads and more …

カナリアリリースの異常検知を SLOバーンレートを用いて実装した話

カナリアリリースの異常検知を SLOバーンレートを用いて実装した話

【8社共催】After SRE NEXT 2025 LT&交流 Night
2025/7/29
https://timeedev.connpass.com/event/359985/

カナリアリリースの異常検知を SLOバーンレートを用いて実装した話
株式会社hacomono SRE部 SREグループ 岩本大樹

Avatar for hacomono Inc.

hacomono Inc. PRO

July 29, 2025

More Decks by hacomono Inc.

Other Decks in Technology

Transcript

  1. 2 自己紹介 
 ▪ 名前:岩本 大樹(いわもとだいき)
 
 ▪ 年齢:27
 


    ▪ 経歴:新卒から2社を経由して2024年1月にhacomonoに入社
 
 ▪ 推しのAIエージェント:kiro
 
 ▪ 特徴:インコを肩に乗せ、自作キーボードで仕事をしている。 
     自作キーボード語れる方いたら是非喋りましょう 

  2. 3 ▪ 初参加、良い刺激
 
 ▪ 懇親会で配ったウコンがまさかの開始 3分で売り切れ
 
 
 


    
 
 
 
 ▪ 今年のSRE Nextのテーマが “Talk Next”→ hacomonoの “Next”の話をします
 SRE Nextお疲れ様でした! 

  3. 5 ▪ “infra v2”という名の次期基盤を構築中 
 
 ▪ 現行の二つのプラットフォーム ※ を統合した共通のECS基盤


    hacomonoにおける “Next”
 ※hacomonoのプラットフォームの変遷については弊社 VPoPEが書いたブログ (https://techblog.hacomono.jp/entry/2022/12/20/070000)をご覧ください
  4. 12 カナリアリリースを導入する 
 ▪カナリアリリースによって...
 - 全ユーザーに展開する前に小規模なユーザーグループで問題を検出できるため、大規模な障害を防げる 
 - 問題が発生した場合、影響範囲が限定的なため素早く元のバージョンに戻すことが可能 


    
 ▪ カナリアリリース中の異変について、すぐに検知したい 
 
 → SLO使えるのでは?
 
 ▪ hacomonoでは既にdatadogにてSLOを導入しているので、その仕組みを流用すればできそう ※ 
 ※hacomonoにおけるSLO運用に関しては私が書いたブログ (https://techblog.hacomono.jp/entry/2024/10/08/1100)をご覧ください
  5. 13 ▪ infra v2におけるデプロイフローの CUJを「リリースが正常に完了すること 」と定義
 
 ▪ CUJを担保するためのSLIを下記の通り定義
  1.

    リリース後のターゲットグループに来るリクエストの可用性 (エラーレート)
  2. リリース後のターゲットグループに来るリクエストのレイテンシ (p99.5)
 
 ▪ SLIに対するSLOを設定
  1. の可用性が99.5%
  2. のレイテンシが0.5秒以下であること
 
 ▪ 異常検知アラートの発火条件 
  1. プライマリ/セカンダリ両方のターゲットグループでインスタンスが稼働中 
  2. プライマリターゲットグループでバーンレートアラートが鳴動していない 
  3. セカンダリターゲットグループでバーンレートアラートが鳴動した 
 
 → 上記三つの条件のComposite Monitorを設定することで実現
 
 カナリアリリースの信頼性を SLOを使って担保してみる 

  6. 24 まとめ
 ▪ hacomonoの”Next”である次期基盤作ってます 
 
 
 ▪ 次期基盤ではカナリアリリースを採用し、 SLOのバーンレートを用いて信頼性の担保を行います

    
 
 
 ▪ ECSネイティブのBlue/Green はカナリアリリースが含まれ次第対応予定 
 
 
 ▪ 最終的な成果に関してはブログ書きます 🙏