Upgrade to Pro — share decks privately, control downloads, hide ads and more …

予期せぬコストの急増を障害のように扱う――「コスト版ポストモーテム」の導入とその後の改善

 予期せぬコストの急増を障害のように扱う――「コスト版ポストモーテム」の導入とその後の改善

2026年1月31日に開催された SRE Kaigi 2026 の発表資料です。

SRE Kaigi 2026
https://2026.srekaigi.net/

スライド内で紹介した過去の発表資料:

SREとソフトウェア開発者を集めた専門チームによる、開発組織全体を巻き込んだコスト削減の取り組み
https://tech.andpad.co.jp/entry/2025/07/09/100000

SREとソフトウェア開発者の合同チームはどのようにS3のコストを削減したか? - Speaker Deck
https://speakerdeck.com/muziyoshiz/tamachi-sre-1

SRE じゃなくてもできる! インシデント対応で鍛えた CRE チームの5年史
https://speakerdeck.com/mayuzo/five-year-history-of-cres-hard-work-in-incident-response

Avatar for Masahiro Yoshizawa

Masahiro Yoshizawa

January 31, 2026
Tweet

More Decks by Masahiro Yoshizawa

Other Decks in Technology

Transcript

  1. Copyright © 2026 ANDPAD Inc. All Rights Reserved. 予期せぬコストの急増を障害のように扱う ――「コスト版ポストモーテム」の導入とその後の改善

    株式会社アンドパッド 開発本部 横断開発部2部 FinOpsチーム Tech Lead 吉澤 政洋 2026/01/31 SRE Kaigi 2026
  2. Copyright © 2026 ANDPAD Inc. All Rights Reserved. 自己紹介 吉澤

    政洋 @muziyoshiz • シニアなSRE(2017年8月〜) ◦ SREになる前は研究者やソフトウェア開発者 • 2023年3月にアンドパッドへ入社し、 SREチームに所属 • 2026年1月からFinOpsチーム Tech Lead • SREコミュニティのスタッフ経験あり ◦ SRE NEXT(2020〜2023)のコアスタッフ ◦ Tamachi.sreのスタッフ • 趣味はボルダリング 2
  3. Copyright © 2026 ANDPAD Inc. All Rights Reserved. アジェンダ •

    背景:なぜ「コスト版ポストモーテム」が必要と考えるに至ったか • コスト版ポストモーテム • コスト版ポストモーテムの導入後に気づいた課題 • 予期せぬコストの急増を障害のように扱うワークフロー 3
  4. Copyright © 2026 ANDPAD Inc. All Rights Reserved. この発表の背景 •

    発表者は、SaaS企業のSREとして、2024年6月(約1年半前)から インフラコスト削減に取り組み始めた (※この発表でのインフラコスト=AWSなどのクラウドインフラのコスト) • インフラコスト削減の実績を積み重ねていくうちに、 コスト版の「ポストモーテム」のようなものが必要と考えるに至った 5
  5. Copyright © 2026 ANDPAD Inc. All Rights Reserved. 建設業界のニーズを満たす幅広いプロダクト 7

    現場管理を効率化したい 工事写真の撮影・整理・台帳作成を効率化したい 顧客と円滑にコミュニケーションしたい ・ 顧客への提出物をスムーズに作成したい 工程管理の手間を 減らしたい 円滑にコミュニケーショ ンしたい 検査や是正指示を 効率化したい 経営・営業データを 可視化したい 受発注・請求書受領を 効率化したい z 社内での承認フローを 効率化したい 断熱リフォームの効果を 可視化したい 現地調査を効率化したい 現場訪問の回数を 減らしたい 安全衛生管理を 徹底したい 社外リソースを 活用したい システム連携で効率性を 上げたい 施工管理 案件概要 資料 ボード 写真 写真台帳 黒板 黒板 AI作成 豆図AI キャプチャー デジタル サイン 報告出力 レイアウト 電子納品 おうちノート 工程表 横断 マイルストーン チャット 報告 図面 検査 Analytics 引合粗利管理 受発注 請求管理 資料承認 サーモ 3Dスキャン 遠隔臨場 入退場管理 BPO API連携 アプリ マーケット
  6. Copyright © 2026 ANDPAD Inc. All Rights Reserved. マルチプロダクト戦略、多数の開発チーム 8

    Frontend Backend Native App QA Frontend Backend QA Frontend Backend Native App 開発チームA 開発チームB 開発チームC Frontend Backend 開発チームD 横断的な関心事を扱うチーム (SRE, DBRE, CRE, セキュリティ, FinOpsなど)
  7. Copyright © 2026 ANDPAD Inc. All Rights Reserved. マルチプロダクト戦略とインフラコスト •

    プロダクトの増加に伴い、売上とともにインフラコストも増加しがち • プロダクトが増加しても、売上に対するインフラコストの比率は一定以下に 抑えることが望ましい 9
  8. Copyright © 2026 ANDPAD Inc. All Rights Reserved. アンドパッドでのインフラコスト削減の取り組み •

    2024年6月にSREとソフトウェア開発者の合同チームを結成し、 「インフラコストマネジメントプロジェクト」を開始 (現:FinOpsチーム) • 合同チーム結成の理由: インフラ側の変更のみで可能なコスト削減はすでにSREチームが推進しており、 これ以上はアーキテクチャ改善が必要という課題意識があった 10
  9. Copyright © 2026 ANDPAD Inc. All Rights Reserved. 2024〜2025年の活動 11

    2024 2025 2026 チーム メンバー 活動 定期的なコストの確認 (主にAWS) インフラコストマネジメントPJ SRE 1名(発表者、SREチームと兼務) ソフトウェア開発者1〜2名 コスト削減施策の実施 (主にAWS)
  10. Copyright © 2026 ANDPAD Inc. All Rights Reserved. 主なコスト削減施策(1) •

    サムネイル画像に関するアーキテクチャ改善 ◦ 写真およびサムネイル画像の配布を、CloudFront経由に変更 ◦ 8種類のサムネイル画像のうち、2種類を廃止し、S3バケットから削除 ◦ 8種類のサムネイル画像のうち、アクセス頻度が低い2種類をオンデマンド生成 (Lambda@Edge)に変更し、過去分をS3バケットから削除 ◦ 上記のオンデマンド生成の仕組みの、他プロダクトへの横展開 12 バケットA アプリケーショ ンサーバ (Rails) ジョブサーバ (Sidekiq) 写真 アップロード ユーザー 写真 ダウンロード・ サムネイル生成 ジョブ登録
  11. Copyright © 2026 ANDPAD Inc. All Rights Reserved. 主なコスト削減施策(2) •

    S3のコスト削減 ◦ S3バケット上の不要なファイルの削除、およびライフサイクルルールの設定 ◦ 過去に付与された、不要なS3オブジェクトタグの削除 • Auroraのコスト削減 ◦ Aurora MySQLクラスタのI/O料金の削減(インスタンスタイプの見直し、または I/O-Optimizedの導入) ◦ Aurora MySQLクラスタの監査ログの取得量の調整 • ボリュームディスカウント契約の見直し ◦ Savings Plansの最適化など 13
  12. Copyright © 2026 ANDPAD Inc. All Rights Reserved. ブログ記事(2025/07/09) SREとソフトウェア開発者を集めた専門チームによる、

    開発組織全体を巻き込んだコスト削減の取り組み https://tech.andpad.co.jp/entry/2025/07/09/100000 インフラコスト削減に関する過去の発表 14 Tamachi.sre#1での発表(2025/10/02) SREとソフトウェア開発者の合同チームはどのように S3のコストを削減したか? https://speakerdeck.com/muziyoshiz/tamachi-sre-1
  13. Copyright © 2026 ANDPAD Inc. All Rights Reserved. 2024〜2025年の活動 15

    2024 2025 2026 チーム メンバー 活動 定期的なコストの確認 (主にAWS) インフラコストマネジメントPJ SRE 1名(発表者、SREチームと兼務) ソフトウェア開発者1〜2名 コスト削減施策の実施 (主にAWS) 2025年3月時点で 当初のコスト削減目標を達成 これ以降は更なる インフラコスト最適化を目指す
  14. Copyright © 2026 ANDPAD Inc. All Rights Reserved. 2024〜2025年の活動 16

    2024 2025 2026 チーム メンバー 活動 定期的なコストの確認 (主にAWS) インフラコストマネジメントPJ SRE 1名(発表者、SREチームと兼務) ソフトウェア開発者1〜2名 コスト削減施策の実施 (主にAWS) コスト版ポスト モーテムの導入 この発表の テーマ
  15. Copyright © 2026 ANDPAD Inc. All Rights Reserved. コスト削減を進めて実感したこと •

    不必要なコスト(※)を発生させる問題の見つけにくさ ◦ プロダクト開発初期は、問題があってもコスト影響(金額)が小さい ◦ 突発的な増加ではなく、プロダクト成長に伴って徐々に増えるため、発見が難しい • 開発チームのインフラコストに関するナレッジ不足 ◦ 不必要なコストを未然に防ぐためには、プロダクト開発初期からインフラコストを意 識することが必要(シフトレフト) ◦ インフラコストに関するナレッジは、これまでSREチームや一部のエンジニアに閉じ ていた ※ここでは「そのコストを発生させる原因を除いてもサービス提供を継続できるようなコスト」 を不必要なコストと定義する。プロダクト成長に伴って必然的に発生するコストは含まない。 17
  16. Copyright © 2026 ANDPAD Inc. All Rights Reserved. コスト版のポストモーテムの必要性 •

    不必要なコストを未然に防ぐためには、過去に起こった問題を分析して、組織 のナレッジにすることが重要 • SREの世界には、まさにナレッジ化を目的とした「ポストモーテム」というプラ クティスがある • インフラコストのナレッジを持つエンジニアが開発チームと協力して、コスト 版のポストモーテム(以下、コスト版ポストモーテム)を作成し、開発組織内 で共有することで、類似の問題の再発防止に繋がるのではないか? 18
  17. Copyright © 2026 ANDPAD Inc. All Rights Reserved. ミッションの拡大と現在のチーム名 •

    ミッションが当初の「インフラコスト削減」から広がったことを受けて、 2026年1月から「FinOpsチーム」に改名 ◦ 発表者も、SREチーム兼務からFinOpsチーム専任に • 以降のスライドでは、2025年以前の出来事も含めて、私たちのチーム名の記載 を「FinOpsチーム」に揃えている 19
  18. Copyright © 2026 ANDPAD Inc. All Rights Reserved. ポストモーテム(ポストインシデントレビュー)とは •

    いわゆるSRE本で紹介された、SREの間で広く知られるプラクティス 21 ポストモーテムは、インシデントとそのインパクト、その緩和や 解消のために行われたアクション、根本原因(群)、インシデン トの再発を避けるためのフォローアップのアクションを記録する ために書かれるものです。 「SRE サイトリライアビリティエンジニアリング」、玉川竜司 訳、 株式会社オライリー・ジャパン、2017年 • SRE本には、ポストモーテムを有意義にするための方法として、非難のないこ と、正式なレビューと公開を伴うこと、およびポストモーテムを広める活動を 行うことについて書かれている
  19. Copyright © 2026 ANDPAD Inc. All Rights Reserved. アンドパッドでのポストモーテムの実践 •

    アンドパッドではCREチームが中心となり、インシデント対応とポストモーテム レビューを行っている • 月1回、開発本部全員が集まる定例で「ポストモーテムから学ぶ会」を開催し、 前月の主要なポストモーテムを紹介している 22 参考:SRE Kaigi 2025での発表(2025/01/26) SREじゃなくてもできる! インシデント対応で鍛えたCREチームの5年史 https://speakerdeck.com/mayuzo/five-year-history-of- cres-hard-work-in-incident-response
  20. Copyright © 2026 ANDPAD Inc. All Rights Reserved. コスト版ポストモーテムとは •

    不必要なコストの増加(「コスト障害」と定義)を対象としたポストモーテム • 非難のないことなど、従来のポストモーテムと同じ特徴を持つ • ポストモーテムに馴染みのあるアンドパッド社員にとって理解しやすく、かつ 従来のポストモーテムと区別できるよう、この名称を選んだ 23 コスト版ポストモーテムは、コスト障害とそのインパクト、その 緩和や解消のために行われたアクション、根本原因(群)、コス ト障害の再発を避けるためのフォローアップのアクションを記録 するために書かれるものです。
  21. Copyright © 2026 ANDPAD Inc. All Rights Reserved. 新たに定義した用語 24

    コスト異常 コスト障害 原因分析・影響分析 の結果次第 すぐには原因がわからない、 予期せぬコストの増加のこと アプリケーションの不具合や、 クラウドサービス(AWSなど)の 設定ミスによって発生した、 不必要なコストの増加のこと
  22. Copyright © 2026 ANDPAD Inc. All Rights Reserved. コスト版ポストモーテムの構成 アンドパッドの従来のポストモーテムを

    参考にしたフォーマット • 概要 • 不必要なコストの発生期間 • 対応者 • タイムライン • 不必要なコストの試算 (コスト影響) • 対応 • 原因 • 再発防止策 • 今回の学び 25
  23. Copyright © 2026 ANDPAD Inc. All Rights Reserved. コスト版ポストモーテムの導入までのステップ 1.

    実例に基づくトライアル版の作成 2. 説明会およびアンケートの実施 3. アンケート結果に基づく見直し 4. 新たに発生したコスト障害への適用 26
  24. Copyright © 2026 ANDPAD Inc. All Rights Reserved. ステップ1. 実例に基づくトライアル版の作成

    • FinOpsチームが対応した実例に基づいて作成 • アーキテクチャ上の問題が、時間経過によって顕在化した事例を選択 • インフラコストに詳しくないエンジニア向けの前提知識を、付録に記載 27
  25. Copyright © 2026 ANDPAD Inc. All Rights Reserved. 実例:参照されていないサムネイル2種類の廃止 28

    • アンドパッドでは多数のプロダクトのニーズに対応するため、写真1枚に対し て、8種類のサムネイルを非同期ジョブ(Sidekiq)で自動生成していた • FinOpsチームの調査で、そのうち2種類は、生成開始した2015年から約10年間 ほぼ参照されていなかったことがわかった。この2種類の生成を停止し、生成済 みのサムネイル画像をS3バケットから削除した バケットA アプリケーショ ンサーバ (Rails) ジョブサーバ (Sidekiq) 写真 アップロード ユーザー 写真 ダウンロード・ サムネイル生成 ジョブ登録
  26. Copyright © 2026 ANDPAD Inc. All Rights Reserved. 実例での不必要なコストの試算 •

    最初は金額が小さかったが、約10年間で無視できない大きさになっていた • サムネイルの保存に伴うコスト(ストレージ料金)に加えて、生成に伴うコス ト(PUTリクエストやCloudTrail、GuardDutyの料金)も大きかった 29 イメージ図
  27. Copyright © 2026 ANDPAD Inc. All Rights Reserved. ステップ2. 説明会およびアンケートの実施

    • 全開発者が参加する定例(開発本部会)での説明 ◦ 前半:「コスト版ポストモーテム」が必要な理由 ◦ 後半:「コスト版ポストモーテム」の実例 ◦ さいごに:アンケートへのご協力のお願い • アンケート ◦ 開発本部会での説明について ◦ コスト版ポストモーテムについて ◦ コスト版ポストモーテムのトライアル版について ◦ 現在のチームでのインフラコストへの関わりについて 30
  28. Copyright © 2026 ANDPAD Inc. All Rights Reserved. ステップ3. アンケート結果に基づく見直し

    • アンケートの集計 • コスト版ポストモーテムの導入方法の見直し 31
  29. Copyright © 2026 ANDPAD Inc. All Rights Reserved. アンケートの集計 •

    アンケート回答者は、説明会参加者の2〜3割程度 ◦ 回答者は関心の高い人に偏っている可能性あり • コスト版ポストモーテムの必要性については高評価 ◦ 自分のチームにとっては必要:回答者の約8割(77.8%) ◦ 他のチームの事例が自分のチームの参考になる:回答者の約9割(88.9%) • 一方、コスト版ポストモーテムを読むのも書くのも難しそうという懸念も ◦ 自分たちで書くのは難しい:回答者の3分の1(33.3%) ◦ 難しい理由は「知識や経験が必要」という回答が最も多く、「記載が必要な量が多 い」、「必要な質や量を満たせるか不安」という意見も 32
  30. Copyright © 2026 ANDPAD Inc. All Rights Reserved. コスト版ポストモーテムの導入方法の見直し •

    導入初期の執筆サポートを手厚くする ◦ 導入初期の分担を明確化 ▪ FinOpsチームが主に執筆 ▪ 開発チームはタイムラインや技術的な問題について執筆・深堀り ◦ 特に、インフラコストの知識が必要な「不必要なコストの試算(コスト影響)」は FinOpsチームが担当 • コスト版ポストモーテムの理解を手助けする ◦ 注目すべきコスト障害の要点をまとめた資料を、コスト版ポストモーテムとは別に作 り、「ポストモーテムから学ぶ会」のような場で共有 (この発表時点では未実施) 33
  31. Copyright © 2026 ANDPAD Inc. All Rights Reserved. ステップ4. 新たに発生したコスト障害への適用

    • 新たに発生したコスト障害にコスト版ポストモーテムを適用する • 実際に適用してみて問題を洗い出し、ワークフローを改善する 34
  32. Copyright © 2026 ANDPAD Inc. All Rights Reserved. コスト版ポストモーテムを書く2つのパターン 1.

    FinOpsチームによるコスト削減後 ◦ 過去に起こったコスト障害を分析し、コスト版ポストモーテムにまとめる ◦ パイロット版はこのパターン 2. 新たに発生したコスト障害への対応中〜対応後 ◦ 提案時点では、このパターンの発生頻度は低いと予想していた ◦ コスト版ポストモーテム導入後の初事例はこのパターン 36
  33. Copyright © 2026 ANDPAD Inc. All Rights Reserved. コスト版ポストモーテム導入後の初事例 ※実際に発生した事例。今回の発表テーマに関係しない詳細は省いた

    • プロダクトAには実装初期から、Amazon STS (Security Token Service) に過剰 アクセスする不具合があったが、ユーザーが少ないうちは顕在化しなかった ◦ SQSキューからのメッセージ受信ごとに、STSから新しいトークンを取得していた • プロダクトAのある定期リリースに、Amazon SQS (Simple Queue Service) の メッセージ受信を過剰に発生させる不具合が含まれていた • この2つの不具合が組み合わさり、約2ヶ月間、STS/SQSの過剰アクセスが発生 し、不必要なコストが急増した • 特に急増したのは、プロダクトAには一見関係なさそうな、Detective、NAT Gateway、CloudWatchのコストだった 37
  34. Copyright © 2026 ANDPAD Inc. All Rights Reserved. 悪化させる 急増したコスト

    Top 3 38 原因 中間要因 急増したコスト 不具合1. STSへの 過剰アクセス 不具合2. SQSへの 過剰アクセス CloudTrailログの 数 VPCのトラフィッ ク量 Detectiveの取り込 むデータ(GB)あ たりの料金 NAT Gatewayの処 理データ(GB)あ たりの料金 VPCフローログの S3バケットへの アップロード料金 増やす 増やす
  35. Copyright © 2026 ANDPAD Inc. All Rights Reserved. コスト版ポストモーテムの導入結果 •

    調査しながらコスト版ポストモーテムを執筆することで、タイムラインやコス ト影響などを整理できた • コスト影響を試算することで、上長への問題のエスカレーションに役立った。 その結果、問題解決のための緊急リリースを実施できた • メリットを感じた一方で、コスト障害の検知から解決までのリードタイムを もっと短縮できる余地も見つかった 39
  36. Copyright © 2026 ANDPAD Inc. All Rights Reserved. タイムライン 40

    発生 悪化 検知 解決策の特定 解決 15日 20日(連休含む) 11日 59日 13日
  37. Copyright © 2026 ANDPAD Inc. All Rights Reserved. タイムライン 41

    発生 悪化 検知 解決策の特定 解決 15日 13日 SQS過剰アクセスを 発生させる変更を 含む定期リリース SQS過剰アクセスを 悪化させる変更を 含む定期リリース FinOpsチームが NAT Gatewayの コスト増を発見
  38. Copyright © 2026 ANDPAD Inc. All Rights Reserved. タイムライン 42

    発生 悪化 検知 解決策の特定 解決 20日(連休含む) FinOpsチームからプロダ クトAの開発チームに連絡 したが、思い当たる原因が ないとの回答 FinOpsチームが CloudTrailログとソース コードを調査し、原因を 特定 FinOpsチームが Detectiveの コスト増を発見
  39. Copyright © 2026 ANDPAD Inc. All Rights Reserved. タイムライン 43

    発生 悪化 検知 解決策の特定 解決 11日 特定から2日後の定期リ リースで解決しようとした が、別の部分で問題が発生 して、切り戻し このコスト障害への 対応のみを含む緊急 リリースを実施し、 解決
  40. Copyright © 2026 ANDPAD Inc. All Rights Reserved. この事例で一次対応が遅れた原因 44

    発生 悪化 検知 解決策の特定 解決 28日 20日(連休含む) 11日 ① 検知の遅れ コストが段階的に増加したことや、 月をまたいでいたことで、FinOps チームが問題に気づくのが遅れた
  41. Copyright © 2026 ANDPAD Inc. All Rights Reserved. この事例で一次対応が遅れた原因 45

    発生 悪化 検知 解決策の特定 解決 28日 20日(連休含む) 11日 ② 調査の遅れ 開発チームは新機能のリリースを優先して いた。そのため、FinOpsチームがソース コードレベルで原因を特定するまで、調査 の優先度が低かった
  42. Copyright © 2026 ANDPAD Inc. All Rights Reserved. この事例で一次対応が遅れた原因 46

    発生 悪化 検知 解決策の特定 解決 28日 20日(連休含む) 11日 ③ リリースの遅れ 新機能のリリース優先のため、FinOps チームが上長にエスカレーションするま で、問題解決のためのリリースが先送りさ れていた
  43. Copyright © 2026 ANDPAD Inc. All Rights Reserved. コスト版ポストモーテムの振り返りでのフィードバック •

    今回は暫定的な対応としてFinOpsチームから上長にエスカレーションし、緊急 リリースを実施した。これをコスト影響が大きい際のワークフローとして整備 してはどうか • インシデント対応と同様に、コスト異常の発生時に、専用のSlackチャンネルを 作ってはどうか • インシデント対応の場合は、CREチームが再発防止策をリマインドしてくれてい る。コスト版ポストモーテムの場合も、誰かが再発防止策をリマインドしてく れたほうがいい 47
  44. Copyright © 2026 ANDPAD Inc. All Rights Reserved. この事例を通じて気づいたこと •

    インシデント対応のワークフローが必要なように、コスト異常(予期せぬコス トの急増)にもそのためのワークフローが必要 • インシデント対応に責任を持つチーム(アンドパッドの場合はCREチーム)が必 要なように、コスト異常にもそれに責任を持つチームが必要 • つまり「予期せぬコストの急増を障害のように扱う」必要があり、そのための 合意を開発組織内で事前に得る必要がある 48
  45. Copyright © 2026 ANDPAD Inc. All Rights Reserved. コスト異常発生時のワークフローの導入 •

    従来のインシデント対応のワークフローについて、CREチームのマネージャーか らヒアリング • なるべく従来のワークフローを踏襲する形で提案を作成 • 開発本部内のレビューおよび関係者との調整を経て、2025年10月から導入 50
  46. Copyright © 2026 ANDPAD Inc. All Rights Reserved. フローチャート(1) 51

    開始 コスト障害である ことが明らか コスト緊急調査チャンネルの作成 緊急調査の実施 対応が必要と判断 チャンネル名の変更 (コスト緊急調査→コスト障害) コスト障害チャンネルの作成 YES NO YES 完了 NO Slackチャンネル名: コスト緊急調査_{プロダクト名} _{障害内容} FinOpsチームまたは開発 チームがコスト異常を発見 したら開始
  47. Copyright © 2026 ANDPAD Inc. All Rights Reserved. フローチャート(2) 52

    一次対応/恒久対応の実施 コスト版ポストモーテムの執筆 振り返り 再発防止策の実施 完了 フローチャート(1) より
  48. Copyright © 2026 ANDPAD Inc. All Rights Reserved. 各チームの責任範囲 53

    FinOpsチーム • Slackチャンネルの作成や メンバーの招待 • インシデントコマンダーま たはその補佐 • コスト影響の調査 • コスト版ポストモーテムの 作成と記載(主にコストの 理解が必要な箇所) • 振り返りの開催 • 再発防止策のリマインド • Slackチャンネルのアーカ イブ 開発チーム (アプリやインフラを変更する チーム全般。SRE等も含む) • コスト異常を発見した際の FinOpsチームへの連絡 • 緊急調査 • 緊急リリースを含む一次対 応・恒久対応 • コスト版ポストモーテムの 記載(主にコスト障害の原 因や発生時期) • 振り返りへの参加 • 再発防止策の実施 FinOpsチームおよび 開発チームの部長 • 一次対応・恒久 対応の要否の判 断 (コスト影響の 大小を元に判断 する)
  49. Copyright © 2026 ANDPAD Inc. All Rights Reserved. インシデント対応との比較 54

    タスク コスト異常 インシデント 関係者の招集 FinOpsチーム CREチーム 総括 (インシデントコマンダー) FinOpsチームまたは開発 チーム(FinOpsが補佐) プロダクトマネージャー (CREが補佐) 原因分析 開発チーム 開発チーム 影響分析 FinOpsチーム CREチーム クライアント広報 なし CXチーム 一次対応・恒久対応 開発チーム 開発チーム ポストモーテムの振り返り開 催〜再発防止策の完了確認 FinOpsチーム CREチーム
  50. Copyright © 2026 ANDPAD Inc. All Rights Reserved. 開発チームの負荷を下げるために意識した点 •

    ワークフローの開始・完了に必要なタスクは、FinOpsチームが担当する ◦ Slackチャンネルの作成とメンバーの招待、コスト版ポストモーテムの振り返り開催、 再発防止策のチケット管理やリマインダーの設定 • コストに関する知識が必要なタスクは、FinOpsチームが担当する ◦ インシデントコマンダー、コスト影響の調査 ◦ コスト版ポストモーテムのうち、コストに関する知識(AWSの課金体系やCost Explorerの理解)が必要な部分の執筆 • 一次対応/恒久対応に関する判断のエスカレーション先を明確化する ◦ インシデント対応との大きな違い:通常のリリースを一律で禁止しない ◦ FinOpsチームの部長と開発チームの部長の間で、コスト影響の大小を元に、対応の要 否と対応時期を判断 55
  51. Copyright © 2026 ANDPAD Inc. All Rights Reserved. ワークフロー導入後の適用事例 •

    2025年10月以降、2件のコスト異常に適用済み • 事例1:CI(GitHub Actions、CircleCI)の自動実行の増加 ◦ コスト障害と判断し、コスト版ポストモーテムの振り返りまで完了。現在は再発防止 策の実施中 • 事例2:Datadogのログの増加 ◦ 緊急調査の完了時点で、コスト障害ではないと判断し、対応終了 56
  52. Copyright © 2026 ANDPAD Inc. All Rights Reserved. 実際に適用してわかったこと(よかった点) •

    リードタイムの短縮 ◦ 事前の合意により関係者を素早く招集でき、調査や一次対応の着手が早まった ◦ 役割分担が明確になり、迅速に動けるようになった • 対応状況の可視化 ◦ 対応チャンネルやポストモーテムに情報が集まり、第三者からわかりやすくなった ◦ これまではプロダクトチームのSlackチャンネルの1スレッドでやり取りされ、スレッ ドが長くなって、第三者からは状況がわかりづらい、ということがあった • 再発防止策のフォローアップ ◦ 再発防止策の担当者を明確にし、FinOpsチームからリマインドすることで、再発防止 策が実施されやすくなった 57
  53. Copyright © 2026 ANDPAD Inc. All Rights Reserved. 実際に適用してわかったこと(難しかった点) •

    対応すべきクラウドサービスのスコープ ◦ ワークフローが整備されたことで、AWS以外のクラウドサービスについても、コスト 異常が報告されるようになった • クラウドサービスが提供するコストダッシュボードの機能不足 ◦ AWSでは、Cost Explorerを用いて、日単位・時間単位のコストを、複数のディメン ションで集計できる ◦ クラウドサービスによっては、Webブラウザ上の管理画面でコストの詳細を確認でき ない。API経由で取り込んだデータを自分で集計する必要がある • FinOpsチームの負荷の高さ ◦ インシデントコマンダーとコスト影響の調査役を兼務するのは、実際にやってみると 負荷が高かった 58
  54. Copyright © 2026 ANDPAD Inc. All Rights Reserved. 今後の課題 •

    コスト障害発生時のワークフローの定着 ◦ 注目すべきコスト障害の要点をまとめた資料を、コスト版ポストモーテムとは別に作 り、「ポストモーテムから学ぶ会」のような場で共有する • コストダッシュボードの整備 ◦ 開発チームにとってアクセスしやすく、タイムリーなデータ提供を実現する ◦ 複数のクラウドサービスのコストデータを、日単位で取り込んで自動集計する ◦ 影響分析を迅速化するために、コストが大きいクラウドサービスから対応する • 生成AIの活用 ◦ コストデータを一箇所に集約することで生成AIでの分析が可能になり、原因分析や影 響分析を自動化できる可能性がある 59
  55. Copyright © 2026 ANDPAD Inc. All Rights Reserved. 2026年以降の活動予定 60

    2024 2025 2026 チーム メンバー 活動 定期的なコストの確認 (主にAWS) インフラコストマネジメントPJ FinOpsチーム SRE 1名(発表者、SREチームと兼務) ソフトウェア開発者1〜2名 SRE 1名(発表者、専任) ソフトウェア開発者2名 コスト削減施策の実施 (主にAWS) コスト削減施策の実施 (スコープの拡大) コストダッシュボードの 整備 コスト版ポスト モーテムの導入 定期的なコストの確認 (スコープの拡大)
  56. Copyright © 2026 ANDPAD Inc. All Rights Reserved. まとめ •

    アンドパッドでは、コスト削減に取り組む中で、コストに関する過去の問題を ナレッジ化する「コスト版ポストモーテム」の必要性に気づいた • コスト版ポストモーテムを作成するタイミングには、「コスト削減後」と 「新たに発生したコスト障害への対応中〜対応後」がある • 後者でコスト版ポストモーテムを活用するためには、インシデント対応のワー クフローに似た、コスト異常発生時のワークフローの導入が有効だった 62
  57. Copyright © 2026 ANDPAD Inc. All Rights Reserved. We are

    hiring! 63 https://engineer.andpad.co.jp/ 技術スタックや募集ポジションを 掲載してます!