Upgrade to PRO for Only $50/Year—Limited-Time Offer! 🔥

インシデントマネジメントとエンジニアリングのかけ算

Hiroya Ito
February 19, 2024

 インシデントマネジメントとエンジニアリングのかけ算

インシデントマネジメントとエンジニアリングのかけ算 - 自動化でプロセスを駆動する
伊藤洋也 / GMO PEPABO inc.
2024.02.21 Findy - インシデントマネジメント 事態収拾のための取り組みに迫る Lunch LT

Hiroya Ito

February 19, 2024
Tweet

More Decks by Hiroya Ito

Other Decks in Technology

Transcript

  1. 伊藤洋也 / GMO PEPABO inc. 2024.02.21 Findy - インシデントマネジメント 事態収拾のための取り組みに迫る

    Lunch LT 1 インシデントマネジメントと エンジニアリングのかけ算 自動化でプロセスを駆動する
  2. 2 自己紹介 GMOペパボ セキュリティ対策室 2007年 入社 伊藤 洋也 Hiroya Ito

    ホスティング事業や基盤開発チームを経て 現在セキュリティ対策室に所属。 栃木県 那須塩原市 在住 🍆🧂🌹 • X (Twitter): @hiboma • https://hiboma.hatenadiary.jp/ • https://github.com/hiboma
  3. 3

  4. 前置き 4 GMOペパボ社内では インシデント を下記の通りに定義します 本スライドでの インシデント の記述も、この定義に準じます 本スライドでの「インシデント」の定義 •

    情報資産のうち重要性1、2に属するものについて、アクセス権限がない人が閲覧することができた • (機密性の問題) • 情報資産全てを対象にして、なくなってしまった • (完全性の問題) • 情報資産全てを対象に、改ざんされてしまった • (完全性の問題) • 情報資産全てを対象に、一時的に利用できない状態が発生しお客様に影響が発生した • (可用性の問題)
  5. 5 • チャットがごちゃごちゃする • 大量のアラートにで人間の会話が流される、対応チャンネル / スレッド がどこか分からない ... •

    一部の人だけで対応を続けてしまう • エンジニア職しか状況を把握してない ... 社内外の連絡やお客様の対応が後回し ... • マニュアルやフローが活用されない • 手順は逸脱されがち ... そもそも存在を忘れられがち ... • 事後の対応がごちゃ • 過去ログ どこだっけ? ... 再発防止を出せなくて放置される .... インシデント対応 = ごちゃごちゃ 🔥🔥🔥 しがち インシデントあるある 本スライドではいわゆる ITエンジニア = 「Information Technology(情報技術)」を扱う技術者の総称を指す
  6. 6 • チャットがごちゃごちゃする • アラートに記録が埋もれる、対応チャンネルがどこか分からない ... • 一部の人だけで対応を続けてしまう • エンジニア職しか把握してない

    ... 社内外の連絡やお客様の対応が後手に回る ... • マニュアルやフローが活用されない • 決められた手順は逸脱されがち ... そもそも存在を忘れられがち ... • 事後の対応もたいへん • 過去ログ どこだっけ? ... 再発防止を出せなくて放置される .... インシデント対応 = コミュニケーションがごちゃごちゃ 🔥🔥🔥 しがち インシデントあるある 本スライドではいわゆる ITエンジニア = 「Information Technology(情報技術)」を扱う技術者の総称を指す みなさんも 心当たりありますよね ... きっと? 🌚
  7. 8 インシデントマネジメント at GMO ペパボ 下記の取り組みを総称してインシデントマネジメントとします • 準備フェーズ • インシデント対応マニュアルの策定

    • 演習・訓練 の実施 • 対応フェーズ • Slack bot の自動化で支援 (チャンネル作成、コミュニケーション支援、対応の記録 ) • 事後対応フェーズ • ポストモーテムの実施、ドキュメントのベクトルデータベース化 • CSIRT でトラッキング
  8. https:LFI Conf 23 | Brent Chapman | Incident Response and

    Incident Analysis: Two Great Tastes https://www.youtube.com/watch?v=QAl3tF9eZek 9 モデル図は Brent Chapman さんの発表を元に、発表者が GMOペパボの実情に合わせて 改変・解釈した図です インシデントマネジメントのプロセス 🛠準備 🚒対応 🔍事後対応 Peacetime (平時) と Wartime (戦時) でインシデントマネジメントを考える Peacetime 🍵 Wartime 🔥
  9. https:LFI Conf 23 | Brent Chapman | Incident Response and

    Incident Analysis: Two Great Tastes https://www.youtube.com/watch?v=QAl3tF9eZek 10 モデル図は Brent Chapman さんの発表を元に、発表者が GMOペパボの実情に合わせて 改変・解釈した図です インシデントマネジメントのプロセス 🛠準備 🚒対応 🔍事後対応 インシデント対応マニュアルをつくる • 📕 対応マニュアル
  10. Peacetime 平時のマネジメント - 準備フェーズ 🛠 11 インシデント対応マニュアル (非公開) の策定 •

    インシデントの定義 (冒頭で紹介) • インシデントの対応フロー • 事象レベル(深刻度 5段階) の定義 • 社内/社外報告のフロー 文言テンプレート • ... etc いろいろ機微な情報が多いのでサンプルをおみせできず 🙏
  11. Peacetime 平時のマネジメント - 準備フェーズ 🛠 12 インシデント対応マニュアルの現実 ... あんまりうまいこといかない 🌚

    ペパボではサービスを複数展開しており、技術スタックやチームの文化も色とりどり。 異動・新卒・中途入社や離職もあり、組織は常に流動的である。 実戦では不確実な状況下で、様々な職種が関わり コミュニケーションをひろげる。 マニュアルだけで組織全体のインシデント対応レベルを「いい感じに」するのは ... 大変
  12. Peacetime 平時のマネジメント - 準備フェーズ 🛠 13 インシデント対応マニュアルの現実 ... あんまりうまいこといかない 🌚

    サービスが複数展開しており技術スタックやチームの文化も色とりどり。異動・新卒・中途入社の離職もあり組織は常に流動的 である。対応時にはエンジニア職以外にも、様々な職種が関わりコミュニケーションが輻輳する。 マニュアル読んでもらうだけで、社全体のインシデント対応を「いい感じに」してくのは大変 ... みなさんも 心当たりありますよね ... きっと? 🌚
  13. • 📕 対応マニュアル https:LFI Conf 23 | Brent Chapman |

    Incident Response and Incident Analysis: Two Great Tastes https://www.youtube.com/watch?v=QAl3tF9eZek 14 モデル図は Brent Chapman さんの発表を元に、発表者が GMOペパボの実情に合わせて 改変・解釈した図です インシデントマネジメントのプロセス 対応フェーズを自動化でテコ入れする • チャンネルセットアップ • コミュニケーション支援 • 対応の記録 🛠準備 🚒対応 🔍事後対応
  14. 15 インシデント対応の進行を自動化 ( Slack Bot) で支援する 💡 2024年2月時点では インシデントレスポンスの SaaS

    や OSS も充実していますね。組織にフィットしたソリューションを選択すると良いでしょう コミュニケーションロスを bot で解決する!!!! • 対応チャンネルのセットアップ • コミュニケーションの誘導 • データの記録 • 関連チャンネルへの通知 • .... etc 世に出回っているインシデントのプラクティス、書籍、テックブログを指針として実装 Wartime 戦時のマネジメント - 対応フェーズ 🔥
  15. 16 モデル図は Brent Chapman さんの発表を元に、発表者が GMOペパボの実情に合わせて 改変・解釈した図です 時間
 会社への影響
 ユーザへの影響


    インシデントマネジメント 
 監視 | アラート | 対応
 発生
 検知 
 アラート
 対応
 組織への影響
 ユーザへの影響 
 インシデントマネジメント 
 監視 | アラート | 初動
 検知 
 アラート
 対応
 復旧
 解決
 Incident Command for IT: What We’ve Learned from the Fire Department https://www.usenix.org/sites/default/files/conference/protected-files/srecon18americas_slides_chapman.pdf Wartime 戦時のマネジメント - 対応フェーズ 🔥
  16. スクリーンショットは Salesforce Collective: Collection Preview https://salesforce.widencollective.com/c/raqrnql6 17 初動対応チーム
 セキュリティ対策チーム 


    チャンネルセットアップ、コミュニケーションを誘導 フローや UI の統一 CTO, VPoE, ...
 招集! 💡 サービス、部門ごとに初動対応チームを編成しています。技術職、カスタマーサポート職、マネージャー職などが含まれた Slack グループです。 Wartime 戦時のマネジメント - 対応フェーズ 🔥
  17. 19 インシデント対応の記録 1インシデント = 1サービス, 1チャンネル • 組織構造 (サービス、事業部) を反映した粒度

    * とした • 記録をとり自動化で処理しやすい単位にもなる #サービスA-20240101i-DB障害 #サービスB-20240101i-決済で503 #サービスC-20240101i-不正ログインの検知 🔥 🔥 🔥 💡「うちは対応チャンネルは分割せず 1チャンネルやってる」と社外からフィードバックを受けたことがあります 。組織にフィットしたやり方と思います ! Wartime 戦時のマネジメント - 対応フェーズ 🔥
  18. • 👀 CSIRT トラッキング • 📘ポストモーテム • ❓ドキュメント検索 • 📕

    対応マニュアル https:LFI Conf 23 | Brent Chapman | Incident Response and Incident Analysis: Two Great Tastes https://www.youtube.com/watch?v=QAl3tF9eZek 20 モデル図は Brent Chapman さんの発表を元に、発表者が GMOペパボの実情に合わせて 改変・解釈した図です インシデントマネジメントのプロセス 対応フェーズの自動化が事後対応へと繋がる • チャンネルセットアップ • コミュニケーション支援 • 対応の記録 🛠準備 🚒対応 🔍事後対応
  19. 21 CSIRT の定例MTG で bot が記録したインシデントを議題に上げる • インシデントのリスク分析・評価 • 事後対応ができていないチームをフォロー

    • 例) ポストモーテムの促しや再発防止案の提案 対応完了まであと一歩 ... だけど手が止まってしまった ... を後押しする フォローのメッセージ出し bot にやらせてみたが、レスポンスがないことも多かった ... 🤖 人間がつっつくのが効く 🙎🤞 社内 CSIRT によるトラッキング・フォローアップ Peacetime 平時のマネジメント - 事後対応フェーズ 🛠 CSIRT = Computer Security Incident Response Team 。GMO ペパボの CSIRT は CTO、VPoE、セキュリティ対策チーム、法務で構成される
  20. • ポストモーテムのドキュメント作成も半自動化で生成する • ドキュメントは OpenAI + RAG + ベクトルデータベース で検索可能

    (作者@k1LoW++) ポストモーテム作成を自動化で支援 Peacetime 平時のマネジメント - 事後対応フェーズ 🛠
  21. • 👀 CSIRT トラッキング • 📘ポストモーテム • ❓ドキュメント検索 • 📕

    対応マニュアル https:LFI Conf 23 | Brent Chapman | Incident Response and Incident Analysis: Two Great Tastes https://www.youtube.com/watch?v=QAl3tF9eZek 23 モデル図は Brent Chapman さんの発表を元に、発表者が GMOペパボの実情に合わせて 改変・解釈した図です インシデントマネジメントのプロセス 一周して準備フェーズ • チャンネルセットアップ • コミュニケーション支援 • 対応の記録 🛠準備 🚒対応 🔍事後対応 • 📕 対応マニュアル • 💪訓練・演習
  22. 24 社内規程で訓練と演習の実施を義務付ける (年次でサービスごとに実施 ) 訓練 • 経験の浅いメンバーを対象に、 bot の使い方や手順を習熟する目的で実施 •

    中途や新卒でジョインされた社員さん、カスタマーサポートやディレクター職なども参加する 演習 • 世間や社内の過去インシデントを模したシナリオで実施する • 例) 「委託先の社員が顧客情報を売っている可能性があると連絡を受けた」 • 例) 「プライベートクラウドでハードウェア障害が発生。複数サービスに影響が出いてる」 インシデント対応 訓練・演習の実施 💡 演習と訓練の定義分けは “「演習」と「訓練」は使い分けるべき | Office SRC https://office-src.com/archives/854” を参考にしました Peacetime 平時のマネジメント - 準備フェーズ 🛠
  23. 25 自動化によって 訓練・演習のハードルが下がった (特に訓練* ) 職種を問わず社内全体で、繰り返し実施してもらえている 訓練・演習でも bot を活用 Peacetime

    平時のマネジメント - 準備フェーズ 🛠 💡 bot を呼び出してインシデント対応の初動形成に慣れるのを目的とする訓練はいつでもできる。実施にはそれなりの人的リソースに負担がかかりますね。 example #example-20240101i-障害問い合わせ
  24. • 👀 CSIRT トラッキング • 📘ポストモーテム • ❓ドキュメント検索 • 📕

    対応マニュアル • 💪訓練・演習 https:LFI Conf 23 | Brent Chapman | Incident Response and Incident Analysis: Two Great Tastes https://www.youtube.com/watch?v=QAl3tF9eZek 26 モデル図は Brent Chapman さんの発表を元に、発表者が GMOペパボの実情に合わせて 改変・解釈した図です インシデントマネジメントのプロセス 自動化がマネジメントプロセス全体を駆動する • チャンネルセットアップ • コミュニケーション支援 • 対応の記録 🛠準備 🚒対応 🔍事後対応
  25. 31 本スライドでスクリーンショットの引用、図画を参考としたサイトや書籍の一覧です • Incident Command for IT—What We've Learned from

    the Fire Department https://www.usenix.org/conference/srecon18americas/presentation/chapman • SRE サイトリライアビリティエンジニアリング  https://www.oreilly.co.jp/books/9784873117911/ • システム障害対応の教科書 https://gihyo.jp/book/2020/978-4-297-11265-3 • Blameless https://www.blameless.com/ • PagerDuty Incident Response https://response.pagerduty.com/ • システム障害対応 実践ガイド https://www.shoeisha.co.jp/book/detail/9784798178912 • Incident Management For Operations https://www.oreilly.com/library/view/incident-management-for/9781491917619/ • Waroom https://waroom.com/ • Software Design 2022年5月号 https://gihyo.jp/magazine/SD/archive/2022/202205 • はてなブログでの情報漏洩に備えてセキュリティインシデント対応演習を実施しました https://developer.hatenastaff.com/entry/2024/01/30/175717 • 障害対応プロセスを改善してきた話 https://product.10x.co.jp/entry/2023/06/12/171003 • LFI Conf 23 | Incident Command for IT: What We’ve Learned from the Fire Department https://www.usenix.org/sites/default/files/conference/protected-files/srecon18americas_slides_chapman.pdf • Brent Chapman | Incident Response and Incident Analysis: Two Great Tastes https://www.youtube.com/watch?v=QAl3tF9eZek • 演習」と「訓練」は使い分けるべき | Office SRC https://office-src.com/archives/854 Appendix