Upgrade to Pro — share decks privately, control downloads, hide ads and more …

AI時代のインシデント対応 〜時代を切り抜ける、組織アーキテクチャ〜

AI時代のインシデント対応 〜時代を切り抜ける、組織アーキテクチャ〜

アーキテクチャConference 2025で登壇した資料です。AI時代、増え続けるインシデントに対して、AIを活用すれば良い感じになるのでは?って安直に考えたりしていませんか?でもそれは「甘え」です。それよりも先にやるべきこと。それは「組織アーキテクチャ」の見直しです。

Avatar for Kazuto Kusama

Kazuto Kusama

November 25, 2025
Tweet

More Decks by Kazuto Kusama

Other Decks in Technology

Transcript

  1. Kazuto Kusama @jacopen Product Evangelist @PagerDuty Japan Organizer @Platform Engineering

    Meetup Founder @Cloud Native Innovators Association アーキテクチャConference登壇時に口頭で補足した内 容を、ここの枠に書いていきます
  2. 少数精鋭のチーム構成に アプリケーション開発に必要な人数が減少、 少数精鋭によるチーム構成に これまでは7〜8人程度のチームで開発に当 たるのが最も効率が良いとされてきた (Two-pizza rule) AIエージェントがコーディングを担うことで、AI に適切な指示を下せる2, 3人のチームになっ

    ていく可能性 ⇨ 多数のチームに分割され、多くのアプリ ケーションが開発されるようになる こういう組織も出ているようです。人材育成などの課題 はあれど、アウトプットを最大化するなら熟練エンジニ アがAIしばきまくったほうが速い
  3. アプリケーション開発の民主化 知識を持つ人に限られていたアプリケーショ ン開発 ノーコード・ローコードツールも多数存在した が、ツールの枠は超えられず、自由度は低 かった。 AIエージェントによって、作りたいものの概要 を伝えるだけで、自律的に開発が進むよう に。 ⇨

    アプリケーションの作り手が 非エンジニアまで拡大する たとえばプロダクトマネージャーのような役割の人も、 AIを活用して開発に参加したり、プロトタイプを自身で 開発したりというケースが増えてきていますね。
  4. 「システム障害で 混乱がおきる ので、AIで何とかしよう 」 (インシデントの元となる) システム障害が起きると社内に混乱が起きるから、それを防ぐ為に AIを活用したい。 =技術的な問題だから、技術で対応しようとしている CIO 一体

    どうなってるんだ! 現状を 教えてください! 今何が起きてるの! スココン スココン アラート 動かない! ユーザー担当 別チーム ユーザー システム障害で社内に混乱が起きている様子
  5. 「システム障害で 混乱がおきる ので、AIで何とかしよう 」 (インシデントの元となる) システム障害が起きると社内に混乱が起きるから、それを防ぐ為に AIを活用したい =技術的な問題だから、技術で対応しようとしている CIO 一体

    どうなってるんだ! 現状を 教えてください! 今何が起きてるの! スココン スココン アラート 動かない! ユーザー担当 別チーム ユーザー システム障害で社内に混乱が起きている様子 混乱を起こしているのは誰? 確かにシステム障害がキッカケになっています が、混乱を引き起こしているのは誰なんでしょう。 そう、混乱を起こしているのは人間なんですよね
  6. 障害は技術的に、混乱は 構造的に生まれる • 技術的な障害(Failure)はシステムの 設計不備や未知の条件から発生 する。 • しかし“混乱”(Chaos)は、情報の流れ・ 意思決定の経路・責任の所在が曖昧な 組織アーキテクチャから生じる

    。 • つまり障害そのものよりも対応中の構造 が 組織全体を危機に陥れる。 CIO 一体 どうなってるんだ! 現状を 教えてください! 今何が起きてるの! スココン スココン アラート 動かない! ユーザー担当 別チーム ユーザー 障害 = 技術の問題 混乱 = 組織アーキテクチャの問題
  7. 障害は技術的に、混乱は 構造的に生まれる • 技術的な障害(Failure)はシステムの 設計不備や未知の条件から発生 する。 • しかし“混乱”(Chaos)は、情報の流れ ・ 意思決定の経路

    ・責任の所在 が曖昧な 組織アーキテクチャから生じる。 • つまり障害そのものよりも対応中の構造 が 組織全体を危機に陥れる。 CIO 一体 どうなってるんだ! 現状を 教えてください! 今何が起きてるの! スココン スココン アラート 動かない! ユーザー担当 別チーム ユーザー 障害 = 技術の問題 混乱 = 組織アーキテクチャの問題
  8. 先人から学ぶ 災害対応の現場において • 人命や財産に重大な危機 • パニックになる住民 • 多くの関係者(行政、消防、救急、警察) • 多くの情報発信手段(防災無線、マスコミ、自治

    体の掲示板etc) これらを適切に制御し、市民の安全を守らなければ いけない https://commons.wikimedia.org/wiki/File:%E5%AE%B6%E5%B1%8B%E7%81%AB%E7%81%BDP6014960.jpg この混乱への対処方法は、先人に学ぶのが良いでしょ う。インシデント対応については、災害対応が先行して きました。
  9. Incident Command System (ICS) • 1970年代に米国の消防によって確立された、災害対応時に統制を取るための 方法論 • 米国は山火事が多く発生する地域。ひとたび発生すると大きな影響が及ぶた め、行政や報道機関と連携して対応していく必要性がうまれた

    • 標準化された組織構造、統一された指揮 • スパンオブコントロール • 柔軟性と拡張性 • 機能別の部門編成 • インシデントアクションプラン(IAP) • リソース管理 • 安全管理 • 文書化と記録 災害対応から生まれたICSは、ITシステムの運用にお いても取り入れられつつあります。
  10. ICSを取り込む考え方 — 組織を “分散システム ” と捉え、設計する 分散システムの文脈だと・・・ CAP定理 • 一貫性(Consistency)

    • 可用性(Availability) • 分断耐性(Partition Tolerance) 実装・設計の観点 • 障害検知とリカバリ機構 • 同期戦略 • 分散トランザクション • リーダー選出 組織アーキテクチャにこの考えを 直接適用することはできないが、 思考のフレームワークとしては有用 アーキテクチャConferenceの参加者向けに表現したも のがこれです。 組織はナマモノなので、分散システムの考え方がその まま使えるわけではないですが、思考のフレームワー クとして取り入れるのはどうでしょう
  11. ICSを取り込む考え方 — 組織を “分散システム ” と捉え、設計する 責任の所在 と 意思決定の経路 を明確にし

    情報の流れ をコントロールする =一貫性の担保 インシデントコマンダー (IC)を 中心とした命令指揮系統を構築 ICはインシデント対応の指揮者。 重大インシデントを解決に導く ことを目的と し、意思決定を行う。 インシデントコマンダー 作業担当 CIO ユーザー担 当 別チーム ユーザー
  12. コントロールプレーンとデータプレーンを分離 インシデントコマンダー コントロールプレーン: ICを中心とした、意思決定と指揮を 行う密な連携 レスポンダー 書記 リエゾン データプレーン: ステークホルダーとのコミュニケーションパス

    CIO Dev Support Sales コミュニケーション超大事。でも、 あるべきコミュニケーションの形 は、相手によって変わります。イ ンシデントに直接対応する人た ちと、ステークホルダーは分けて 考えなくてはいけません。
  13. コントロールプレーン内のコミュニケーション インシデントコマンダー レスポンダー 書記 リエゾン War Room 重大インシデント発生時に、集中的に問題解 決にあたる専用の対応拠点 物理的な会議室

    もしくは バーチャル (Zoom, Teams等) リアルタイムで一元的なコミュニケーションに より、迅速な意思決定と集中的な問題解決を 可能にする
  14. データプレーンのコミュニケーション 経営的な意思決定、対外的な情報発信のため に重要。3つの「適切」を意識 • 適切な粒度 • 技術的な詳細までは不要 • 何が起きているか 、今何をしているか

    、 今後の見通し  を伝える • 適切な方法 • ブロードキャスト型 を徹底 • 戦時における1:1のコミュニケーション は、取り返しの付かない遅延を招く • 適切なタイミング • 定期的 (1時間おき、など) • ステータスに変化があったとき CIO Dev Support Sales
  15. 例 クレームがき てます 確かに何か おかしい DBへのクエリ が通らない Xさんを 呼ぼう メタデータロッ

    クだね リリースプロセ ス見直す 調査開始 復旧対応 シナリオ: 障害によりユーザーからクレーム。最初に対応したエンジニアは、ログやメトリクス を見て「何かがおかしい」と感じました。調査を進めると、どうやら DBがおかしいようです。そ こで、DBAであるXさんを呼ぶことにしました。 Xさんはメタデータロックによるロック解放待ち が原因になっていることを突き止め、対処を行い問題は解消しました。リリース時の ALTER TABLEが原因となったため、ポストインシデントレビューを通じてリリースプロセスを見直すこ とにしました。
  16. インタビュー『なぜあのとき Xさんを呼びましたか?』 • 組織を跨いでいるにも関わらず、Xさんを呼べばいいとすぐに思いついた & すぐに連絡が付いた ということは良いこと • 上手くいっていない組織だとこれすら難しい • これをより広く共有できれば、さらなる学びに繋がる

    • 一方で、今後もXさんに依存してしまうのはリスク • DBエンジニアへのエスカレーションプロセスを確立する必要があるかも • 経験がまだ浅いエンジニアをどのように巻き込んでいくか このXさんを呼んだ流れ、良いことと言えるんですよね。 DBの問題はこ の人に聞けば良いという知識が組織にあるからこそ、これができた。上 手くいっていない組織はこれすらできない。良いところもしっかり理解し、 維持していきましょう。 改善点があるとすると、Xさんが単一障害点になり得るという点でしょう か。ここは、DBA側で組織的に対応できるようにフォーメーションを組む のが改善策になりそうです。
  17. 「開発者に運用もやらせる」ではなく 「ライフサイクルに責任を持たせる」 Build Test Ship Run スケールアウトがしやすい実装 (コンテナオーケストレーターの自 律復旧に委ねる) ビルドやパッケージングの自

    動化 素早いビルドの工夫 実行パラメータの外部 注入(環境依存の排除) トラブルシュートしやす いログの工夫 インフラのコード化 フィードバックループで改善を続け、呼び出しの頻度を減らす
  18. 構造設計をせず、安易な AI活用によって起こる弊害 システム運用には、必ず「責任」が伴う。 AIに大いなる力を持たせることは可能だが、大いなる責任は引き受けてくれない あなたはシステム管理者から通常の講習を受けたは ずです。 これは通常、以下の3点に要約されます: #1) 他人のプライバシーを尊重すること。 #2)

    タイプする前に考えること。 #3) 大いなる力には大いなる責任が伴うこと。 今現在のAIは、考えるより先にタイプする (実行する) 感がある AIにシステム運用させるには大いなる力 も必要 しかし責任は取ってくれない
  19. PagerDuty AI エージェント - インサイトからアクションまで - エージェントがより良く、早く、スマートに業務を⽀援 SRE エージェント 運⽤上の問題を特定して

    分類し、関連する過去の インシデントなどの重要 なコンテキストを浮き彫 りにし、対応者に解決を 早めるための推奨事項を 提⽰することにより、業 務の中断によって引き起 こされるビジネスリスク を軽減し、顧客体験を向 上 Insight エージェント 組織内で使われているツー ル全体のデータを分析し、 戦略的な運⽤判断に必要な 情報を特定し、運⽤⼿順と ビジネスの効率を継続的に 改善 Shift エージェント オンコールシフトを動的 に調整して、スケジュー ルや空き時間の競合を未 然に防ぎ、インシデント 担当者のカバレッジを確 保することで、迅速なイ ンシデント解決を促進 し、運⽤コストの削減と 顧客影響の最⼩化を図る Scribe エージェント Web 会議での会話内容を リアルタイムに整理、分析 し、必要なアクションを特 定し、内容をサマリーし て提供することにより、イ ンシデント解決の迅速化 と関係者への情報共有を 促進 インシデント 対応プロセスの改善 On-call 対応 スケジュールの調整 インシデント 対応中の右腕役 インシデント対応の 筆記担当者