"君は見ているが観察していない"で考えるインシデントマネジメント
by
gr1m0h
×
Copy
Open
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
Slide 1
Slide 1 text
機密・専有情報 株式会社Luupによる個別の明示的な承諾を得ることなく、この資料を使用することを固く禁じます。 Wataru Tsuda / gr1m0h 2024.11.09 オープンセミナー2024@広島 “君は見ているが観察していない” で考えるインシデントマネジメント
Slide 2
Slide 2 text
Luup, Inc. - Confidential and Proprietary 2 whoami Wataru Tsuda / gr1m0h SWE / Reliability Engineer @Luup,inc. 担当領域:SLO, Incident Management 広島商船高専→東京で6年くらい→Luup SRE歴: 5年弱 SRE, Platform Engineeringの勉強会/カン ファレンスの運営をやってます(した)
Slide 3
Slide 3 text
Luup, Inc. - Confidential and Proprietary 3 #OSH2024
Slide 4
Slide 4 text
Luup, Inc. - Confidential and Proprietary 4 1. “君は見ているが観察していない” 2. SREとインシデントマネジメント 3. “観察” の難しさ 4. “観察眼” が無いので道具に頼る 5. “観察眼” を鍛える取り組み 6. まとめ
Slide 5
Slide 5 text
Luup, Inc. - Confidential and Proprietary 5 1. “君は見ているが観察していない” 2. SREとインシデントマネジメント 3. “観察” の難しさ 4. “観察眼” が無いので道具に頼る 5. “観察眼” を鍛える取り組み 6. まとめ
Slide 6
Slide 6 text
機密・専有情報 株式会社Luupによる個別の明示的な承諾を得ることなく、この資料を使用することを固く禁じます。 Wataru Tsuda / gr1m0h 2024.11.09 オープンセミナー2024@広島 “君は見ているが観察していない” で考えるインシデントマネジメント
Slide 7
Slide 7 text
Luup, Inc. - Confidential and Proprietary 7 “君は見ているが観察していない” 「きみは確かに見てはいる。だが観察はしない。見るのと観察するのとでは、大違いなんだ。たとえばの 話、この家の玄関からこの部屋まで上がってくる階段、きみは何度も見ているだろう」 アーサー・コナン・ドイル、ボヘミアの醜聞 https://www.tsogen.co.jp/np/isbn/9784488101169
Slide 8
Slide 8 text
Luup, Inc. - Confidential and Proprietary 8 “君は見ているが観察していない” → 表面的な事実をただ見るだけではなく、深く観察し、本質や隠れた意味を理解すること この考え方は、ソフトウェアエンジニアとして以下のような場面で活きてきた - インシデントレスポンス、ソフトウェアやコードのエラー解決 - コード・アーキテクチャレビュー - キャパシティプランニングとスケーリング - パフォーマンスチューニング → “インシデントマネジメント” においても重要! 「きみは確かに見てはいる。だが観察はしない。見るのと観察するのとでは、大違いなんだ。たとえばの 話、この家の玄関からこの部屋まで上がってくる階段、きみは何度も見ているだろう」 アーサー・コナン・ドイル、ボヘミアの醜聞 https://www.tsogen.co.jp/np/isbn/9784488101169
Slide 9
Slide 9 text
Luup, Inc. - Confidential and Proprietary 9 インシデントマネジメントとは? インシデントマネジメントとは? - 予期せぬサービスの中断や品質低下といったインシデントが発生した場合に、迅速かつ効果的に対応 するためのプロセスと体制 - 「インシデントの速やかな解決、システムやサービスを運用する担当者の負担軽減、今後のインシデ ント抑制」につながる インシデントレスポンスとは? - インシデントが発生した際、システムやサービスを迅速に復旧させるための取り組み https://www.pagerduty.co.jp/blog/what-is-incident-response https://www.pagerduty.co.jp/blog/ideal-way-to-respond-to-incidents
Slide 10
Slide 10 text
Luup, Inc. - Confidential and Proprietary 10 インシデントマネジメントとインシデントレスポンス
Slide 11
Slide 11 text
Luup, Inc. - Confidential and Proprietary 11 1. “君は見ているが観察していない” 2. SREとインシデントマネジメント 3. “観察” の難しさ 4. “観察眼” が無いので道具に頼る 5. “観察眼” を鍛える取り組み 6. まとめ
Slide 12
Slide 12 text
Luup, Inc. - Confidential and Proprietary 12 SREとは? rrreeeyyy SREの歩き方・進め方 https://speakerdeck.com/rrreeeyyy/sre-walk-through-procedure
Slide 13
Slide 13 text
Luup, Inc. - Confidential and Proprietary 13 SREにとってのインシデントマネジメント SREが実現したいのは、データドリブンな信頼性のコントロールを実現すること →インシデントがSREから一時的に信頼性のコントロールを奪う インシデントマネジメントの効果 - 信頼性の向上と再構築 - インシデントを通じてシステムを改善、信頼性やサービスの安全性を強化 - ユーザー体験とビジネス価値の向上 - 迅速な対応と学びの活用でユーザー体験を改善し、ビジネス価値を最大化
Slide 14
Slide 14 text
Luup, Inc. - Confidential and Proprietary 14 1. “君は見ているが観察していない” 2. SREとインシデントマネジメント 3. “観察” の難しさ 4. “観察眼” が無いので道具に頼る 5. “観察眼” を鍛える取り組み 6. まとめ
Slide 15
Slide 15 text
Luup, Inc. - Confidential and Proprietary 15 “観察” の難しさ インシデントマネジメントにおいて ”君は見ているが観察していない” を実践するのは容易ではない ワトスンとホームズというキャラクターを使って実践の難しさを考える - ワトスン:”観察眼” を発揮できていない人 - ホームズ:”観察眼” を発揮できている人
Slide 16
Slide 16 text
Luup, Inc. - Confidential and Proprietary 16 インシデントレスポンスにおける難しさ ワトスンのケース - 監視システムからのアラートやエラーメッセージを ”見て” います ホームズのケース - アラートだけでなく、システム全体のメトリクス、ログ、デプロイ情報など、 多角的に情報を ”観察” します
Slide 17
Slide 17 text
Luup, Inc. - Confidential and Proprietary 17 “観察”の難しさの要素分解 1. 経験と勘所の必要性 システム挙動の理解には経験と勘所が必要 2. 深いドメイン知識の必要性 システム固有の構成や依存関係、ビジネスロジックの理解が必要 3. システムの複雑性とスケールの増大 マイクロサービス化、クラウドネイティブ等によってシステムが複雑化 4. 時間とリソースの制約 インシデント対応や分析に十分な時間を割けない
Slide 18
Slide 18 text
Luup, Inc. - Confidential and Proprietary 18 “観察”の難しさの要素分解 1. 経験と勘所の必要性 システム挙動の理解には経験と勘所が必要 2. 深いドメイン知識の必要性 システム固有の構成や依存関係、ビジネスロジックの理解が必要 3. システムの複雑性とスケールの増大 マイクロサービス化、クラウドネイティブ等によってシステムが複雑化 4. 時間とリソースの制約 インシデント対応や分析に十分な時間を割けない ワトスンはシャーロック・ホームズに (簡単には)なれない
Slide 19
Slide 19 text
Luup, Inc. - Confidential and Proprietary 19 1. “君は見ているが観察していない” 2. SREとインシデントマネジメント 3. “観察” の難しさ 4. “観察眼” が無いので道具に頼る 5. “観察眼” を鍛える取り組み 6. まとめ
Slide 20
Slide 20 text
Luup, Inc. - Confidential and Proprietary 20 ”観察眼”がないワトスン
Slide 21
Slide 21 text
Luup, Inc. - Confidential and Proprietary 21 利用ツール紹介 Luupで利用している以下のツールを例として、どんな工夫ができるか紹介します - Datadog - クラウドアプリケーション向けのモニタリングと分析プラットフォーム - インフラやアプリケーションのメトリクス、ログ、トレースを一元的に可 視化できる - リアルタイムのダッシュボードやアラート機能で、システムの状況を素早 く把握できる - Waroom - インシデント管理と振り返りを支援するサービス - インシデント発生時の情報共有や対応プロセスの効率化をサポート https://www.datadoghq.com/ja/ https://waroom.com/
Slide 22
Slide 22 text
Luup, Inc. - Confidential and Proprietary 22 “観察眼”を代替する工夫 1. オブザーバビリティ(可観測性) • オブザーバビリティを導入していない状態 • ただデータを見る、どのデータを見るかは気づいたタイミング • オブザーバビリティを導入した状態 • データの関連が見れるので解釈しやすくなる、データを多角的に確認できる 2. ランブック • ランブックを導入していない状態 • 属人的かつ、場当たり的なインシデント対応 • 重篤度・影響を判断できない、関係者への連携が漏れる、意思決定が遅れる等 • ランブックを導入した状態 • チェックリスト的なインシデント対応 • ネクストアクションがわかりやすく、スムーズな対応ができる
Slide 23
Slide 23 text
Luup, Inc. - Confidential and Proprietary 23 オブザーバビリティ:LogとTraceの紐づけ https://docs.datadoghq.com/tracing/other_telemetry/connect_logs_and_traces/
Slide 24
Slide 24 text
Luup, Inc. - Confidential and Proprietary 24 オブザーバビリティ:Deploy Metrics Cloud Run Functions, Firestore, Firebase hostingのデプロイ情報を表現 エラー率やレイテンシー等を見ながら、デプロイ情報を確認できる インシデントがあった際、直前のデプロイ状況に気付ける
Slide 25
Slide 25 text
Luup, Inc. - Confidential and Proprietary 25 オブザーバビリティ: Deploy Metrics Waroomのインシデントページやインサイトでも直前のデプロイ状況を確認できる デプロイ毎のインシデント率等を確認できる https://docs.waroom.com/deploy_tracking_integration
Slide 26
Slide 26 text
Luup, Inc. - Confidential and Proprietary 26 ランブック インシデント対応の手順やチェックリストをまとめたドキュメント 対応者に必要な「観察」の視点を提供する https://docs.waroom.com/create_runbook
Slide 27
Slide 27 text
Luup, Inc. - Confidential and Proprietary 27 インシデント対応時にランブックの手順に沿って対応を進められる - 対応者に対して対応をガイドできる - 対応状況・ステータスが第三者から見てわかりやすい Waroom - インシデントページ Slack - 対応専用チャンネル ランブック
Slide 28
Slide 28 text
Luup, Inc. - Confidential and Proprietary 28 ”観察眼”の代替を得たワトスン
Slide 29
Slide 29 text
Luup, Inc. - Confidential and Proprietary 29 1. “君は見ているが観察していない” 2. SREとインシデントマネジメント 3. “観察” の難しさ 4. “観察眼” が無いので道具に頼る 5. “観察眼” を鍛える取り組み 6. まとめ
Slide 30
Slide 30 text
Luup, Inc. - Confidential and Proprietary 30 “観察眼”を鍛える取り組み 1. ポストモーテム • ポストモーテムを導入していない状態 • ただ振り返りを実施する • レポートが作成されなかったり、個人のミスに着目する可能性がある • ポストモーテムを導入した状態 • 責任追及ではなく、システムやプロセスの改善に焦点を当てた振り返り 2. インシデント対応訓練 • インシデント対応訓練を導入していない状態 • インシデント対応の属人化 • インシデント対応訓練を導入した状態 • インシデント対応の属人化解消 • ランブック等の検証
Slide 31
Slide 31 text
Luup, Inc. - Confidential and Proprietary 31 非難なきポストモーテム
Slide 32
Slide 32 text
Luup, Inc. - Confidential and Proprietary 32 非難なきポストモーテム ポストモーテムは、単なる形式的な振り返りではない 原因を分析し、再発防止策を検討するための重要なプロセス Blameless Postmortem (非難なきポストモーテム) - 責任追及ではなく、システムやプロセスの改善に焦点を当てる - メンバーが正直な情報を共有できるような心理的安全性が必要 - 事実に基づく分析を行う レビューや公表を行う - レビューを通じて知識の共有を行う - 公表することで組織全体が失敗から学べる
Slide 33
Slide 33 text
Luup, Inc. - Confidential and Proprietary 33 ポストモーテムテンプレート https://docs.waroom.com/create_postmortem ポストモーテムテンプレートを工夫することで、多角的な分析が可能になる
Slide 34
Slide 34 text
Luup, Inc. - Confidential and Proprietary 34 再発防止策 ポストモーテムのアウトプットとして、再発防止策を考える 再発防止策例 - 自動テストの拡充 - 類似のバグを早期発見するためにテストケースを追加する - モニタリングの強化 - 新たにメトリクスを追加し、問題の予兆を早期発見できるようにする - ドキュメンテーションの改善 - プロセスの問題などの改善のために、ランブックなどの改善を行う
Slide 35
Slide 35 text
Luup, Inc. - Confidential and Proprietary 35 インシデント対応訓練 https://docs.waroom.com/incident_training 実際のインシデント状況を再現し、チームが迅速かつ的確に対応するスキルを向上 させるシミュレーション 期待される効果 - 経験の蓄積 - ドメイン知識の強化 - コミュニケーションの向上 Waroomでもβ機能で公開中 - サービスコンテキストを入力し、これを基にAIが自動でシナリオを作成できる - Slackを使って実際のインシデント対応のように訓練を実施できる
Slide 36
Slide 36 text
Luup, Inc. - Confidential and Proprietary 36 ”観察眼”を鍛える取り組みを行っているワトスン
Slide 37
Slide 37 text
Luup, Inc. - Confidential and Proprietary 37 1. “君は見ているが観察していない” 2. SREとインシデントマネジメント 3. “観察” の難しさ 4. “観察眼” が無いので道具に頼る 5. “観察眼” を鍛える取り組み 6. まとめ
Slide 38
Slide 38 text
Luup, Inc. - Confidential and Proprietary 38 “観察眼”がある人とない人の差
Slide 39
Slide 39 text
Luup, Inc. - Confidential and Proprietary 39 まとめ - ”君は見ているが観察していない” を体現するのは難しい - 経験と勘所の必要性 - 深いドメイン知識の必要性 - システムの複雑性とスケールの増大 - 時間とリソースの制約 - ”観察眼” を身につけるためのサポートや工夫 - オブザーバビリティ - ランブック - ポストモーテム - インシデント対応訓練 - インシデントマネジメント上の課題やプラクティスについて語りましょう! - #OSH2024, @gr1m0h, 懇親会 等で!
Slide 40
Slide 40 text
Luup, Inc. - Confidential and Proprietary 40 Ref. - シャーロック・ホームズの冒険 - アーサー・コナン・ドイル - https://www.tsogen.co.jp/np/isbn/9784488101169 - PagerDuty Blog - https://www.pagerduty.co.jp/blog/what-is-incident-response - https://www.pagerduty.co.jp/blog/ideal-way-to-respond-to-incidents - https://www.pagerduty.co.jp/blog/postmortems-vs-retrospectives/ - Datadog Document - https://www.datadoghq.com/ja/ - https://docs.datadoghq.com/tracing/other_telemetry/connect_logs_and_traces/ - Waroom Document - https://waroom.com/ - https://docs.waroom.com/deploy_tracking_integration - https://docs.waroom.com/create_runbook - https://docs.waroom.com/create_postmortem - https://docs.waroom.com/incident_training - SREの歩き方・進め方 - rrreeeyyy - https://speakerdeck.com/rrreeeyyy/sre-walk-through-procedure
Slide 41
Slide 41 text
一緒に、街じゅうを「駅前化」する インフラをつくりませんか? 詳細は採用ページをご覧ください https://recruit.luup.sc/
Slide 42
Slide 42 text
No content