Slide 1

Slide 1 text

伊藤洋也 / GMO PEPABO inc. 2024.02.21 Findy - インシデントマネジメント 事態収拾のための取り組みに迫る Lunch LT 1 インシデントマネジメントと エンジニアリングのかけ算 自動化でプロセスを駆動する

Slide 2

Slide 2 text

2 自己紹介 GMOペパボ セキュリティ対策室 2007年 入社 伊藤 洋也 Hiroya Ito ホスティング事業や基盤開発チームを経て 現在セキュリティ対策室に所属。 栃木県 那須塩原市 在住 🍆🧂🌹 ● X (Twitter): @hiboma ● https://hiboma.hatenadiary.jp/ ● https://github.com/hiboma

Slide 3

Slide 3 text

3

Slide 4

Slide 4 text

前置き 4 GMOペパボ社内では インシデント を下記の通りに定義します 本スライドでの インシデント の記述も、この定義に準じます 本スライドでの「インシデント」の定義 • 情報資産のうち重要性1、2に属するものについて、アクセス権限がない人が閲覧することができた • (機密性の問題) • 情報資産全てを対象にして、なくなってしまった • (完全性の問題) • 情報資産全てを対象に、改ざんされてしまった • (完全性の問題) • 情報資産全てを対象に、一時的に利用できない状態が発生しお客様に影響が発生した • (可用性の問題)

Slide 5

Slide 5 text

5 • チャットがごちゃごちゃする • 大量のアラートにで人間の会話が流される、対応チャンネル / スレッド がどこか分からない ... • 一部の人だけで対応を続けてしまう • エンジニア職しか状況を把握してない ... 社内外の連絡やお客様の対応が後回し ... • マニュアルやフローが活用されない • 手順は逸脱されがち ... そもそも存在を忘れられがち ... • 事後の対応がごちゃ • 過去ログ どこだっけ? ... 再発防止を出せなくて放置される .... インシデント対応 = ごちゃごちゃ 🔥🔥🔥 しがち インシデントあるある 本スライドではいわゆる ITエンジニア = 「Information Technology(情報技術)」を扱う技術者の総称を指す

Slide 6

Slide 6 text

6 • チャットがごちゃごちゃする • アラートに記録が埋もれる、対応チャンネルがどこか分からない ... • 一部の人だけで対応を続けてしまう • エンジニア職しか把握してない ... 社内外の連絡やお客様の対応が後手に回る ... • マニュアルやフローが活用されない • 決められた手順は逸脱されがち ... そもそも存在を忘れられがち ... • 事後の対応もたいへん • 過去ログ どこだっけ? ... 再発防止を出せなくて放置される .... インシデント対応 = コミュニケーションがごちゃごちゃ 🔥🔥🔥 しがち インシデントあるある 本スライドではいわゆる ITエンジニア = 「Information Technology(情報技術)」を扱う技術者の総称を指す みなさんも 心当たりありますよね ... きっと? 🌚

Slide 7

Slide 7 text

インシデントマネジメントをテーマにした発信 7 “インシデントをマネジメントだ! “ 紹介したいサイト、書籍、サービスは他にも多々ありますが 発表者の独断で選択させていただいております 🙏

Slide 8

Slide 8 text

8 インシデントマネジメント at GMO ペパボ 下記の取り組みを総称してインシデントマネジメントとします • 準備フェーズ • インシデント対応マニュアルの策定 • 演習・訓練 の実施 • 対応フェーズ • Slack bot の自動化で支援 (チャンネル作成、コミュニケーション支援、対応の記録 ) • 事後対応フェーズ • ポストモーテムの実施、ドキュメントのベクトルデータベース化 • CSIRT でトラッキング

Slide 9

Slide 9 text

https:LFI Conf 23 | Brent Chapman | Incident Response and Incident Analysis: Two Great Tastes https://www.youtube.com/watch?v=QAl3tF9eZek 9 モデル図は Brent Chapman さんの発表を元に、発表者が GMOペパボの実情に合わせて 改変・解釈した図です インシデントマネジメントのプロセス 🛠準備 🚒対応 🔍事後対応 Peacetime (平時) と Wartime (戦時) でインシデントマネジメントを考える Peacetime 🍵 Wartime 🔥

Slide 10

Slide 10 text

https:LFI Conf 23 | Brent Chapman | Incident Response and Incident Analysis: Two Great Tastes https://www.youtube.com/watch?v=QAl3tF9eZek 10 モデル図は Brent Chapman さんの発表を元に、発表者が GMOペパボの実情に合わせて 改変・解釈した図です インシデントマネジメントのプロセス 🛠準備 🚒対応 🔍事後対応 インシデント対応マニュアルをつくる ● 📕 対応マニュアル

Slide 11

Slide 11 text

Peacetime 平時のマネジメント - 準備フェーズ 🛠 11 インシデント対応マニュアル (非公開) の策定 • インシデントの定義 (冒頭で紹介) • インシデントの対応フロー • 事象レベル(深刻度 5段階) の定義 • 社内/社外報告のフロー 文言テンプレート • ... etc いろいろ機微な情報が多いのでサンプルをおみせできず 🙏

Slide 12

Slide 12 text

Peacetime 平時のマネジメント - 準備フェーズ 🛠 12 インシデント対応マニュアルの現実 ... あんまりうまいこといかない 🌚 ペパボではサービスを複数展開しており、技術スタックやチームの文化も色とりどり。 異動・新卒・中途入社や離職もあり、組織は常に流動的である。 実戦では不確実な状況下で、様々な職種が関わり コミュニケーションをひろげる。 マニュアルだけで組織全体のインシデント対応レベルを「いい感じに」するのは ... 大変

Slide 13

Slide 13 text

Peacetime 平時のマネジメント - 準備フェーズ 🛠 13 インシデント対応マニュアルの現実 ... あんまりうまいこといかない 🌚 サービスが複数展開しており技術スタックやチームの文化も色とりどり。異動・新卒・中途入社の離職もあり組織は常に流動的 である。対応時にはエンジニア職以外にも、様々な職種が関わりコミュニケーションが輻輳する。 マニュアル読んでもらうだけで、社全体のインシデント対応を「いい感じに」してくのは大変 ... みなさんも 心当たりありますよね ... きっと? 🌚

Slide 14

Slide 14 text

● 📕 対応マニュアル https:LFI Conf 23 | Brent Chapman | Incident Response and Incident Analysis: Two Great Tastes https://www.youtube.com/watch?v=QAl3tF9eZek 14 モデル図は Brent Chapman さんの発表を元に、発表者が GMOペパボの実情に合わせて 改変・解釈した図です インシデントマネジメントのプロセス 対応フェーズを自動化でテコ入れする ● チャンネルセットアップ ● コミュニケーション支援 ● 対応の記録 🛠準備 🚒対応 🔍事後対応

Slide 15

Slide 15 text

15 インシデント対応の進行を自動化 ( Slack Bot) で支援する 💡 2024年2月時点では インシデントレスポンスの SaaS や OSS も充実していますね。組織にフィットしたソリューションを選択すると良いでしょう コミュニケーションロスを bot で解決する!!!! • 対応チャンネルのセットアップ • コミュニケーションの誘導 • データの記録 • 関連チャンネルへの通知 • .... etc 世に出回っているインシデントのプラクティス、書籍、テックブログを指針として実装 Wartime 戦時のマネジメント - 対応フェーズ 🔥

Slide 16

Slide 16 text

16 モデル図は Brent Chapman さんの発表を元に、発表者が GMOペパボの実情に合わせて 改変・解釈した図です 時間
 会社への影響
 ユーザへの影響
 インシデントマネジメント 
 監視 | アラート | 対応
 発生
 検知 
 アラート
 対応
 組織への影響
 ユーザへの影響 
 インシデントマネジメント 
 監視 | アラート | 初動
 検知 
 アラート
 対応
 復旧
 解決
 Incident Command for IT: What We’ve Learned from the Fire Department https://www.usenix.org/sites/default/files/conference/protected-files/srecon18americas_slides_chapman.pdf Wartime 戦時のマネジメント - 対応フェーズ 🔥

Slide 17

Slide 17 text

スクリーンショットは Salesforce Collective: Collection Preview https://salesforce.widencollective.com/c/raqrnql6 17 初動対応チーム
 セキュリティ対策チーム 
 チャンネルセットアップ、コミュニケーションを誘導 フローや UI の統一 CTO, VPoE, ...
 招集! 💡 サービス、部門ごとに初動対応チームを編成しています。技術職、カスタマーサポート職、マネージャー職などが含まれた Slack グループです。 Wartime 戦時のマネジメント - 対応フェーズ 🔥

Slide 18

Slide 18 text

コミュニケーション誘導のメッセージ例 18 Wartime 戦時のマネジメント - 対応フェーズ 🔥 復旧作業を始める前に みんなで状況確認

Slide 19

Slide 19 text

19 インシデント対応の記録 1インシデント = 1サービス, 1チャンネル ● 組織構造 (サービス、事業部) を反映した粒度 * とした ● 記録をとり自動化で処理しやすい単位にもなる #サービスA-20240101i-DB障害 #サービスB-20240101i-決済で503 #サービスC-20240101i-不正ログインの検知 🔥 🔥 🔥 💡「うちは対応チャンネルは分割せず 1チャンネルやってる」と社外からフィードバックを受けたことがあります 。組織にフィットしたやり方と思います ! Wartime 戦時のマネジメント - 対応フェーズ 🔥

Slide 20

Slide 20 text

● 👀 CSIRT トラッキング ● 📘ポストモーテム ● ❓ドキュメント検索 ● 📕 対応マニュアル https:LFI Conf 23 | Brent Chapman | Incident Response and Incident Analysis: Two Great Tastes https://www.youtube.com/watch?v=QAl3tF9eZek 20 モデル図は Brent Chapman さんの発表を元に、発表者が GMOペパボの実情に合わせて 改変・解釈した図です インシデントマネジメントのプロセス 対応フェーズの自動化が事後対応へと繋がる ● チャンネルセットアップ ● コミュニケーション支援 ● 対応の記録 🛠準備 🚒対応 🔍事後対応

Slide 21

Slide 21 text

21 CSIRT の定例MTG で bot が記録したインシデントを議題に上げる • インシデントのリスク分析・評価 • 事後対応ができていないチームをフォロー • 例) ポストモーテムの促しや再発防止案の提案 対応完了まであと一歩 ... だけど手が止まってしまった ... を後押しする フォローのメッセージ出し bot にやらせてみたが、レスポンスがないことも多かった ... 🤖 人間がつっつくのが効く 🙎🤞 社内 CSIRT によるトラッキング・フォローアップ Peacetime 平時のマネジメント - 事後対応フェーズ 🛠 CSIRT = Computer Security Incident Response Team 。GMO ペパボの CSIRT は CTO、VPoE、セキュリティ対策チーム、法務で構成される

Slide 22

Slide 22 text

• ポストモーテムのドキュメント作成も半自動化で生成する • ドキュメントは OpenAI + RAG + ベクトルデータベース で検索可能 (作者@k1LoW++) ポストモーテム作成を自動化で支援 Peacetime 平時のマネジメント - 事後対応フェーズ 🛠

Slide 23

Slide 23 text

● 👀 CSIRT トラッキング ● 📘ポストモーテム ● ❓ドキュメント検索 ● 📕 対応マニュアル https:LFI Conf 23 | Brent Chapman | Incident Response and Incident Analysis: Two Great Tastes https://www.youtube.com/watch?v=QAl3tF9eZek 23 モデル図は Brent Chapman さんの発表を元に、発表者が GMOペパボの実情に合わせて 改変・解釈した図です インシデントマネジメントのプロセス 一周して準備フェーズ ● チャンネルセットアップ ● コミュニケーション支援 ● 対応の記録 🛠準備 🚒対応 🔍事後対応 ● 📕 対応マニュアル ● 💪訓練・演習

Slide 24

Slide 24 text

24 社内規程で訓練と演習の実施を義務付ける (年次でサービスごとに実施 ) 訓練 • 経験の浅いメンバーを対象に、 bot の使い方や手順を習熟する目的で実施 • 中途や新卒でジョインされた社員さん、カスタマーサポートやディレクター職なども参加する 演習 • 世間や社内の過去インシデントを模したシナリオで実施する • 例) 「委託先の社員が顧客情報を売っている可能性があると連絡を受けた」 • 例) 「プライベートクラウドでハードウェア障害が発生。複数サービスに影響が出いてる」 インシデント対応 訓練・演習の実施 💡 演習と訓練の定義分けは “「演習」と「訓練」は使い分けるべき | Office SRC https://office-src.com/archives/854” を参考にしました Peacetime 平時のマネジメント - 準備フェーズ 🛠

Slide 25

Slide 25 text

25 自動化によって 訓練・演習のハードルが下がった (特に訓練* ) 職種を問わず社内全体で、繰り返し実施してもらえている 訓練・演習でも bot を活用 Peacetime 平時のマネジメント - 準備フェーズ 🛠 💡 bot を呼び出してインシデント対応の初動形成に慣れるのを目的とする訓練はいつでもできる。実施にはそれなりの人的リソースに負担がかかりますね。 example #example-20240101i-障害問い合わせ

Slide 26

Slide 26 text

● 👀 CSIRT トラッキング ● 📘ポストモーテム ● ❓ドキュメント検索 ● 📕 対応マニュアル ● 💪訓練・演習 https:LFI Conf 23 | Brent Chapman | Incident Response and Incident Analysis: Two Great Tastes https://www.youtube.com/watch?v=QAl3tF9eZek 26 モデル図は Brent Chapman さんの発表を元に、発表者が GMOペパボの実情に合わせて 改変・解釈した図です インシデントマネジメントのプロセス 自動化がマネジメントプロセス全体を駆動する ● チャンネルセットアップ ● コミュニケーション支援 ● 対応の記録 🛠準備 🚒対応 🔍事後対応

Slide 27

Slide 27 text

27 2024年時点での GMOペパボのインシデントマネジメントいまここ 自動化で監視できてない項目を受けてインシデントになるケースなので、これはこれで課題。精進 🌚 • ちょっとした事象でもチャンネルを立て対応する 文化が醸成した感 • 取り扱うインシデント件数が多くなってもいて、プロセスをどう高速に回すのかが課題 🤔 • カスタマーサポート職から初動をとり始めるケースも多い • お問い合わせで障害やセキュリティインシデントの兆候がある時に bot でエスカレ*

Slide 28

Slide 28 text

28 2024年時点での GMOペパボのインシデントマネジメントいまここ • インシデント対応に関心をもつ同僚も増えてる • 社外の事例をみて「うちとおんなじだ」「うちも もっとよくできそう」とモチベ上げてくれる • 外からうける刺激、影響は大きい !

Slide 29

Slide 29 text

29 10分 LT に盛り込めなかった内容が多々あります。過去の発表資料もご参照ください 過去の発表もぜひ! ● インシデントレスポンスを自動化で支援する Slack Bot で人機一体なセキュリティ対策を実現する - Speaker Deck ● インシデントレスポンスを自動化で支援する Slack Bot で人機一体なセキュリティ対策を実現する - SEASON2 - Speaker Deck

Slide 30

Slide 30 text

30 Thank You! Thank You!

Slide 31

Slide 31 text

31 本スライドでスクリーンショットの引用、図画を参考としたサイトや書籍の一覧です • Incident Command for IT—What We've Learned from the Fire Department https://www.usenix.org/conference/srecon18americas/presentation/chapman • SRE サイトリライアビリティエンジニアリング  https://www.oreilly.co.jp/books/9784873117911/ • システム障害対応の教科書 https://gihyo.jp/book/2020/978-4-297-11265-3 • Blameless https://www.blameless.com/ • PagerDuty Incident Response https://response.pagerduty.com/ • システム障害対応 実践ガイド https://www.shoeisha.co.jp/book/detail/9784798178912 • Incident Management For Operations https://www.oreilly.com/library/view/incident-management-for/9781491917619/ • Waroom https://waroom.com/ • Software Design 2022年5月号 https://gihyo.jp/magazine/SD/archive/2022/202205 • はてなブログでの情報漏洩に備えてセキュリティインシデント対応演習を実施しました https://developer.hatenastaff.com/entry/2024/01/30/175717 • 障害対応プロセスを改善してきた話 https://product.10x.co.jp/entry/2023/06/12/171003 • LFI Conf 23 | Incident Command for IT: What We’ve Learned from the Fire Department https://www.usenix.org/sites/default/files/conference/protected-files/srecon18americas_slides_chapman.pdf • Brent Chapman | Incident Response and Incident Analysis: Two Great Tastes https://www.youtube.com/watch?v=QAl3tF9eZek • 演習」と「訓練」は使い分けるべき | Office SRC https://office-src.com/archives/854 Appendix