Upgrade to Pro — share decks privately, control downloads, hide ads and more …

やさしい障害対応

Avatar for hiro_shi hiro_shi
January 14, 2026
3

 やさしい障害対応

社内勉強会で発表したスライドです。
題材にした書籍はこちらです。
システム障害対応の教科書(https://gihyo.jp/book/2024/978-4-297-14012-0)

Avatar for hiro_shi

hiro_shi

January 14, 2026
Tweet

Transcript

  1. ©tete marche CO., LTD. 自己紹介 2 • 所属:テテマーチ株式会社 • お仕事:プロダクトエンジニア

    • ヒロシマ ダイスケ • 大阪在住 • X(旧Twitter): @164fm • 趣味でカメラやってます
  2. ©tete marche CO., LTD. 10 暗黙知であることのデメリット 1. 属人化によるリスク 2. チーム内での認識齟齬

    3. ドキュメント・設計書に反映されない 4. 再利用性・保守性の低下
  3. ©tete marche CO., LTD. 19 システム障害の定義を話す前に 障害対応はなんのためにやるんだっけ ↓ ユーザの業務に支障を出さない状態にすることが目的 開発者はついついシステムを直すことに

    目がいきがちであるが、極論ユーザの業務に影響がなければそれでいい。 ということを念頭に置く。 (最終的には恒久対応で直す必要はあるが)
  4. ©tete marche CO., LTD. 20 システム障害の定義 障害対応を開始するトリガー(引き金)の見極めで必要になってくる 定義を決めておかないと ??「これ ◦◦課に連絡したほうがいいのか」

    ??「深夜に連絡したら迷惑かも、、、」 と対応のスタートがあやふやになってしまう。 定義が曖昧だと対応の遅れにつながることもある 以前複数アカウントの画面が固まってしまう問題を開発が対応したことがあった。 が、実はCSはその問題を開発対応の前日に知っていたことがあった。
  5. ©tete marche CO., LTD. 21 定義の決め方 ・ユーザ視点に立って定義することが重要  ・サーバが、、、  ・アプリケーションが、、、  のような非機能要件ではなく、この機能が利用できていないなどで定義するのが 望

    ましい。 ・なるべく広範囲で定義したほうがよい  ・範囲を限定しすぎると、逆にトリガーの網羅性を欠いてしまう ・決めたらドキュメントを残すなどして、ステークホルダに展開するのが望ましい
  6. ©tete marche CO., LTD. 30 ユーザ担当・ CIO ・ユーザ担当  ・ユーザの窓口になって一時的に情報を受け、インシデントコマンダー、ないしは  社 内に連携する人

    ・CIO(Chief Information Officer)  ・最高情報責任者。とても偉い人。  ・IT戦略の立案と実行・情報システムを管理する立場で、   重大インシデントが発生した時には意思決定をすることもある。
  7. ©tete marche CO., LTD. 33 イベントの確認 - 1 ・ 前述のように何をトリガーにして障害の対応をスタートとするか

     ・対応窓口からの通知  ・Sentryからの通知  ・アラート ・イベントの分類分けをおこなう  ・エスカレーション  ・静観 ・ロギングの分類わけもしておこう  ・info, error, warning, alert
  8. ©tete marche CO., LTD. 34 イベントの確認 - 2 ・ ロギング、アラートの注意点

     ・なんでもかんでも通知しない   ・オオカミ少年になってしまい、本当にやばい通知を見逃してしまう   ・監視者が疲弊する  ・自動で復旧する仕組みが使えるなら積極的に利用する
  9. ©tete marche CO., LTD. 36 業務調査 ・ユーザ視点での業務影響を調査する  例)管理画面の ◦◦でデータの更新に失敗する、 ◦◦の帳票が破損している

    ・業務影響によって更なる影響がないかリレーションを確認する ・障害レベルを更新する(あとで話します) tips 影響あり、なし、調査中のような ステータスを付与する
  10. ©tete marche CO., LTD. 43 振り返り手法 ・ポストモーテム(レトロスペクティブ) ・決して非難をおこなわない  ・ポジティブな空間をつくろう ・時間をあけずにおこなう

    ・障害対応中にまよったことも言語化する ・あくまで内部向けに振り返る 引用: システム障害対応の教科書 https://gihyo.jp/book/2024/978-4-297-14012-0
  11. ©tete marche CO., LTD. 49 教育方法 ・システム・マネジメントの網羅的なレクチャー ・ローテーション教育  ・作業者とインシデントコマンダーをローテしてみたりなど  ・または持ち回り

    ・シャドーイング  ・俺の背中を見ておけ(ベテランと新人が一緒に対応、または新人が見守る) ・カオスエンジニアリング(教育というよりは訓練)
  12. ©tete marche CO., LTD. 52 障害対応時の体制づくり ・ハイブリッド勤務で情報格差を作らない  ・利用するツールを事前に明らかにし、   なるべく情報を集約し格差を発生させない  ・我々でいうと

    SlackかNotionに集約させるのがよい ・ただなんでも集約させるのは一部ノイズになるので、  ユーザの意見、技術的事象はカテゴライズして集約したほうがよい ・重大インシデントの場合の集合場所はちゃんと決めておく  (会議室、仮想であれば Slackチャンネル)
  13. ©tete marche CO., LTD. 61 まとめ - 1 ・今で言う SREの側面が大きいおおきい分野なのかなと感じた

    ・ユーザの業務に支障を出さない、早期回復を最優先にする ・手段は問わない ・インシデントコマンダーと作業者は適性の観点・役割の観点からも分けるべきと ある が、組織の規模と障害を見てのトレードオフなのかなと思う  ・要はバランス  ・重大障害の発生に備えて組織する準備はあってもいいかも ・なによりも回答の速度は早いほうがいい  ・不明点は不明でもいい。デマを流すよりかはマシ
  14. ©tete marche CO., LTD. 62 まとめ - 2 ・自動化は正義 ・ドキュメントは正義

     ・対応プロセス、システムの構成図  ・メンテはちゃんとしよう