デプロイを恐れていたSpringチームが、月200回リリースするまで〜真のリスクは停滞だった〜

本番デプロイ作業好きですか？ちょっと聞いてみたい

どちらかと⾔えば嫌いですか？ちょっと聞いてみたい

私は少なくとも好きな仕事ではないですちょっと聞いてみたい 👉 本番デプロイ直後に、アラート通知が⾶んでこようもんなら。。。

もう１つ聞かせてくださいもう１つ聞かせてください

「とりあえずIssueに...」ってそのまま放置している Issueあります？もう１つだけ聞いてみたい

私はありますフレッシュなものから熟成されたものまで品揃えは豊富に。。。もう１つだけ聞いてみたい 👉 他にもソースのTODO、バックログ、JIRAチケットと幅広く☺

私はあります品揃えは豊富でフレッシュなものから熟成されたものまでもう１つだけ聞いてみたいちなみに⼀番古いのは、2023年のもので「DomaのDaoのInterfaceにNullabilityのアノテーションを付与したい #380」

そうした、お悩みもしかしたら … もしかしたら…

今⽇のセッションを聞いたら解消できるかも。

今⽇話すこと⾯倒だった本番デプロイから解放された話本番デプロイをスムーズにしたらチームのIssueが少なくなりチームの開発サイクルが早くなった話 👉 少しでもタメになれば幸いです m(_ _)m

⾃⼰紹介名前：igu 所属：株式会社ZOZO Ｘ： https://x.com/Zntig

⾃⼰紹介名前：igu 所属：株式会社ZOZO 【Attention】今⽇の話は、ZOZOでの話ではないです。以前の６年ほど働いていた某事業会社の検索広告システムのDevOpsチームでの話です

あとは"本番リリース" ボタンを押すだけなのに… 第１章

とにかくデプロイが⾯倒第１章

なぜか？第１章

【その１】システム構成が複雑で難解で量が多い第１章

アーキテクチャ概要

アーキテクチャ概要 CI/CDの構成要素がなんか多い。。。複雑

アーキテクチャ概要独⾃技術（のクセ）が強い。。。難解

アーキテクチャ概要 Regionが多い。Serverが多い。アプリ内でも異なるRegion使っている。総VMサーバ数 400台量が多い

アーキテクチャ概要 Regionが多い。Serverが多い。アプリ内でも異なるRegion使っている。総VMサーバ数 400台理解できない

【その２】デプロイ⼿順が複雑で多い第１章

デプロイパイプラインのジョブを可視化するとこんな感じです第１章

当時のデプロイ⼿順の”簡易”図 ※本物でなくイメージですが、こんな感じです

当時のデプロイ⼿順の”簡易”図 ※本物でなくイメージですが、こんな感じですごちゃごちゃ

これを簡単に説明すると第１章

当時のデプロイ⼿順の”簡易”図

当時のデプロイ⼿順の”簡易”図 jar作成

当時のデプロイ⼿順の”簡易”図デプロイjar指定

当時のデプロイ⼿順の”簡易”図 chef CookBook配る

当時のデプロイ⼿順の”簡易”図総VMサーバ数 200台に curlとtailを実行手動E2Eテスト？待機系デプロイ

当時のデプロイ⼿順の”簡易”図稼働系切り替え

当時のデプロイ⼿順の”簡易”図１０工程うまくいかないと半日潰れる

複雑かつ難解で、量が多いデプロイ⼯程の弊害第１章

第１章デプロイ作業が複雑で量が多い →作業や確認の⼿順多くなる →⼿順が多いとやり忘れ「やり忘れてないかな」⼿順ミス「あれちゃんとやったっけ？」不安要素が増える 👉 すべてのやった作業を覚えてるわけもなく。。。

第１章ジョブが失敗 →よくわからない技術が原因 →トライアンドエラーでなんとか直すも「本当に直ったのだろうか？」不安要素が増える 👉 なんでも知っているわけじゃない。

不安要素が増えると最後のボタンを押すのが怖い第１章

第１章リリースが怖いデプロイはシステムを効率的に安全かつ確実にリリースする、いい仕組み。それが複雑化していくことで⼼理的負担のかかる、嫌で⾯倒な作業になっていた。

第１章 👉デプロイの負のスパイラル。これが停滞の正体。不安が⼤きくなる = 最後のボタンを押すのが怖い → 不安だから、できるだけリリースしたくない →リリース頻度が減る →ビッグバンリリースが増え →さらに不安が増える

【第１章の課題】デプロイが怖くてあまりデプロイ出来ない第１章

Issueが無くならないことが"Issue" 第２章

過去にPHPからJavaのリライト∕マイグレーションを透過リプレイスで実施第２章

無理な変換や実装バグなどもそのまま第２章

問題点はIssueになっているのだが… 第２章

いくらやっても Issueを棚卸しできない第２章

当時の現場の様⼦ 1. 毎週Issueの棚卸しをするけど、⼀向に減らない 2. 古いIssueはソースコードの調査ではわからず。昔の資料やヒューマンナレッジなど、地道な(刑事)調査が必要なので、後回しになる。 3. そうこうしているうちに、次のIssueが溜まる。 4. 未解決のIssueが溜まるほど『管理コスト（Issue税）』が増え、Issue棚
卸しの効率が悪化する。ここでも負のスパイラルが… 👉 Issueを残しておくこと⾃体は悪くない。ただ、管理限度がある

Issue、Issue、Issueと Issueを考えすぎて Issueがなんだかわからなくなってきた第２章

Geminiに「Issueとは？」聞いてみた AIに聞いてみた

こう定義してみます Issue ＝未確定の意思決定 Issueとは

【第２章の課題】⼀向に減らない Issue(未確定の意思決定) 第２章

変化の兆し、モダン化第３章

変化のきっかけモダン化して、イケてるDevOpsを⽬指せとの号令あわせて、SREに取り組めとの号令 👉 これを機に「ぼくらの考える理想のシステム」を考え始める → 仮想サーバから、KaaSのCloudService移⾏ → 独⾃監視システムから⼀般的なObservability システムに移⾏

変化のきっかけモダン化して、イケてるDevOpsを⽬指せとの号令あわせて、SREに取り組めとの号令 👉 これを機に「ぼくらの考える理想のシステム」を考え始める → 仮想サーバから、KaaSのCloudService移⾏ → 独⾃監視システムから⼀般的なObservability システムに移⾏
KaaSとは KaaS（Kubernetes as a Service、マネージドKubernetes）複雑なKubernetes環境の構築やインフラの運⽤管理をクラウド事業者がフルマネージドで代⾏してくれるサービス。開発者はクラスターの保守から解放され、コンテナアプリのデプロイやスケーリングといった本来の開発業務に専念できるようになります。

モダン化の課題第３章

現状の課題の整理 1. 本番に出して問題ないことを担保するテストが不⼗分 2. デプロイの⼿順が多すぎる＆複雑すぎる 3. リリース後のアラート監視が不⼗分＆⾯倒 4. 切り戻し⼿順に⼿動オペレーションが多い＆状況によってやり⽅が変わる
モダン化の課題

理想のデプロイ設計を考えてみた第３章

テストの強化と⾃動化デプロイ前に担保。「出していい状態」を機械が判断する Image作成の⾃動化 build → push → deployの⼿動作業を完全に排除
監視の組み込みデプロイ後すぐ検知できるようにし、フィードバックを⾼速化。切り戻しの標準化以前のImageを即再デプロイ可能にし、複雑な⼿動⼿順を不要に課題解決のデプロイパイプライン設計

理想のデプロイパイプライン第３章

当時のデプロイ⼿順の”簡易”図１０工程うまくいかないと半日潰れる

KaaSの理想のデプロイ⼿順の図すっきり！

デプロイ⼿順 1. Image作成 2. デプロイTag指定 3. デプロイ実⾏ 4. モニタリング監視第３章
１０工程４工程

改善したデプロイパイプライン KaaS（k8s Deploy）第３章

KaaSデプロイフロー

KaaSデプロイフロー tar作成

KaaSデプロイフローデプロイバージョン指定とデプロイは、同一 PRでトリガー実行できた１工程減った。デプロイ

KaaSデプロイフロー「E2Eテスト」を追加・API仕様網羅テスト・本番データでテストデプロイ

KaaSデプロイフロー切り戻し

改善したシステム構成第３章

アーキテクチャ概要 CI/CDの構成要素がすっきり！

アーキテクチャ概要さよなら独⾃技術。はじめまして⼀般技術（OSS、メジャー機能）。

アーキテクチャ概要⾯倒なVMインフラ構築から、コードベースインフラに！

以上がモダン化対応第３章

SRE対応の課題第３章

SREってなんぞ？（SREがわからない）第３章

Site Reliability Engineering サイト‧リライアビリティ‧エンジニアリング SREとは

計測と⾃動化により信頼性と開発速度を両⽴する SREを極めて簡潔に⾔うと

計測ってなにを測るの？ SRE取り込み

計測ってなにを測るの？ SRE取り込み売上サービス利用率エラー数 APIレイテンシーリクエスト数レポート作成数障害件数
損失金額インフラコスト

SRE取り込み SLO（測る対象）を策定 API 成功率とレイテンシー。レポート作成数と作成時間。 SLOを決めるには、SLA‧SLI‧ユーザ影響などが⼤事 SLAが古くて現状のサービスに合っていない１つ問題が

SLAを改正したサービスの事故基準の確認 1. SLAの根拠となる条件や背景の理解 2. 売上影響のある事故/ない事故の違いと背景 3. 実は1⽇ぐらいサービスが⽌まっていても事故にならないサービス 4.
SLA基準、SLO基準、チーム基準の事故定義の違い

SLA,SLO策定業務の中でサービスの理解度が⼤きく増した SRE取り込み 👉SLA、SLOを⾼い解像度で理解したことが、デプロイ200回の鍵

改善した監視システム第３章

オブザーバビリティ (Observability) 構築メトリクス計測とアラートのシステム構成

メトリクス計測とアラートのシステム構成以下、3点が自由にカスタマイズできるのがよかった・メトリクス取得・アラート条件設定と・表示UI メトリクスメトリクスメトリクス

メトリクス計測とアラートのシステム構成以下、3点が自由にカスタマイズできるのがよかった・メトリクス取得・アラート条件設定と・表示UI メトリクスメトリクスメトリクス独自実装が廃され
開発者がいじれる

メトリクス計測とアラートのシステム構成以下、3点が自由にカスタマイズできるのがよかった・メトリクス取得・アラート条件設定と・表示UI メトリクスメトリクスメトリクスチームで運用業務を
磨き込みが出来る

Grafana UIイメージ理想の運用が作れる基盤構築

• 自分たちで運用を磨き込める基盤が出来た • 足掛け１〜２年はかかったと思います • デプロイ作業のコストは大幅に下がりました。 • 心理不安は、ほぼ解消されました。モダン化の結果
デプロイが億劫でなくなり、週1,2回程度の定常業務に 👉モダン化って、素晴らしい。

• 事故基準で構築された E2Eテスト • 事故基準で構築されたモニタリングシステム SRE対応の結果メトリクス測定の開発と運⽤がもたらしたもの

事故基準て具体的には？ SRE対応の結果

1⽇の許容エラー率 = 0.00001 SRE対応の結果

1⽇の許容エラー率＝１⽇起こしていいエラー率上限 SRE対応の結果

そして、エンジニアの意識が変わった SRE対応の結果

テストが通れば問題なし SRE対応の結果

アラートが鳴らなければ問題なし SRE対応の結果

エラーが出ても事故(SLO違反)以外はかすり傷 SRE対応の結果

ポイントとかくシステム開発運⽤は、考えることが多いこの時期の対応で、役立ったのがサービスの SLOの理解。どこまでやるか、やらないか？そうした議論の際に「 SLOで範囲内なのか」「 SLOに影響するのか」その上で「必要か」「不要か」が話し合えた。運用判断は
SLOを羅針盤と捉えたのが、よかったのかもしれません。

加速する世界第４章

もっと、早くできないか本番デプロイが安定し、監視も安定してくると欲がでる本番デプロイ作業は、誰がやっても⼀緒。コレ⾃動化できるんじゃないか？

PRをmainマージしたら本番デプロイするパイプラインやってみよう、つくってみよう

やってみたやってみよう、つくってみよう

KaaSデプロイフロー PRマージ&デプロイ PRマージと既存デプロイを直結する PRマージ単位で Imageを作成、日付とコミットログ

問題なく出来た運⽤も問題なかったやってみよう、つくってみよう

１PRマージ＝１デプロイやってみよう、つくってみよう

なぜ出来たか？やってみよう、つくってみよう

なぜ出来たか？ SLO基準で監視条件を磨き込んだアラートが鳴らない限り前に進めた。アラート発⽣しても、すぐに戻せば事故じゃないという安⼼感。 E2Eテストを磨き込んだ E2Eテストには、通常ケースはもちろん。過去に起きた特殊な事故ケースなどが網羅されており。信頼度の⾼いE2Eがあったこと。

そして起こった事やってみよう、つくってみよう

ボトルネックの変化 👉 ボトルネックが移動していく磨き込みのため、PRを出す必要がある →PR差分が多いとレビューに時間がかかる → どんどんPRサイズは⼩さくして、マージを優先 PRのレビューを安全かつ、⾼速で回す必要が出てきた →SlackでPRレビュー待ち⼀覧を通知し、PRレビューのサイクルを上げる PRが増えて、開発環境が利⽤待ちが増えた
→簡易に開発環境を作成するジョブを追加

ボトルネックが移っていくなにか聞いたことあるぞ第４章

•ハービーのエピソードボーイスカウトの遠⾜の隊列全体の速さは、歩くのが⼀番遅い「ハービー」が決める。では、彼の荷物を減らしてスピードを上げると、どうなるか？今度は「2番⽬に遅かった⼦供」が、新たなハービーになる。 ――これは、私たちの仕事でも全く同じです。ひとつの制約（ボトルネック）を解消すると、制約は必ず次の場所へと移動する。
「ザ‧ゴール」の制約条件の理論（TOC） ※本のイメージ

パイプラインがもたらした世界 👉 ⼈が判断する⼯程が削られ、「出すこと」が怖くなくなった。⾃動化の結果⾏動の変化 (After) いつでも出せるすぐ戻せる状態が常に分かるとりあえず出す
実際に本番環境で確認するダメならすぐ戻す

チームで1⽇平均１０PRマージ⽉間２００回デプロイ気付いたら、結果として ( 10PR × 20営業⽇ = 200PR =
200deploy )

消えた、Issue 第５章

モダン化、SRE活動の結果第５章

Issueどんどん減っていった第５章

残るのはフレッシュなIssueだけ第５章

Issue棚卸し定例もやめた第５章

なぜか？第５章

Issueはなぜなくなったモダン化により、レガシーなIssueの廃棄 →レガシー技術のIssueが多かった。それが無くなった。モダン化以降は、技術Issueが減った。 →とりあえず出して、だめなら引っ込めるのサイクルが早くなった SRE活動で得たサービス理解により、不明な問題が減った → サービス基準で考えて、対応すべきか否かがチームで判断できるサービス関連のIssueが減った。

Issue ＝未確定の意思決定 Issueとは

SRE活動を経てサービス知識が増えて判断できる事が増えた（未確定の減少）第５章

デプロイのコストが減ってとりあえずやってみてだめならNG、問題ないならOK 容易に出来る (未確定が容易に決定できる) 第５章

気付いたら、結果として「Issueを解決した」のではなくそもそも「Issueが発⽣しなくなった」 👉 良いCI/CDシステムは「チームの意思決定のインフラ」とも⾔えるのではないか。

まとめ第６章

本番デプロイが簡単になったら決めるの簡単になり Issueが減ったまとめ

停滞とは気づきリリースは「怖いもの」だと思っていた。しかし、本当に怖いのは「停滞（決められない状態）」だった。 • 出せない • 決まらない（判断できない）
• 進まないなぜ停滞するのか？分散したリポジトリ、⼿動⼿順、不確実性、レガシーなど、⼈やチームの認知負荷が限界突破し、それが決められないこととして、Issueに現れる。

まとめ認知負荷が許容量を超えると停滞し始める

真のリスクは、停滞である。 Issueが多いチームは忙しいのではなく「停滞している」リリースできない状態は、チームの「決断」を停滞させ、 Issueの⼭を作ります。だからこそ、デプロイの恐怖を取り除き迷わず前に進める仕組みを作ること。それが、変化に強いチーム（真のアジリティ）
への第⼀歩です。

停滞チェックリストデプロイは「祈り」の儀式になっていないか？「熟成されたIssue」が放置されていないか？サービスの「許容エラー率（SLO）」をチームで合意しているか？「とりあえず出して、ダメならすぐ戻す」が簡単にできるか？ボタンを押すのが怖いなら、⾃動化とテスト強化に着⼿するサインです。未確定の意思決定が溜まると、チームの認知負荷が限界を超え「停滞」を⽣みます。どこまでやるか‧やらないかを決める「運⽤判断の羅針盤」が必要です。このサイクルが回せるCI/CDこそが、チームの意思決定を加速させるインフラです。１つでも気になったら、まずは「デプロイ⼿順を１つ削る」ことから始めてみませんか

ご清聴ありがとうございましたおわり

デプロイを恐れていたSpringチームが、月200回リリースするまで 〜真のリスクは停滞だった〜

デプロイを恐れていたSpringチームが、月200回リリースするまで 〜真のリスクは停滞だった〜

More Decks by igu

Other Decks in Technology

Featured

Transcript

デプロイを恐れていたSpringチームが、月200回リリースするまで〜真のリスクは停滞だった〜

デプロイを恐れていたSpringチームが、月200回リリースするまで〜真のリスクは停滞だった〜