Upgrade to Pro — share decks privately, control downloads, hide ads and more …

間違いだらけのポストモーテム - ホントに役立つレビューはこうだ!

Kazuto Kusama
December 02, 2024

間違いだらけのポストモーテム - ホントに役立つレビューはこうだ!

CloudNative Days Winter 2024で登壇した資料です

Kazuto Kusama

December 02, 2024
Tweet

More Decks by Kazuto Kusama

Other Decks in Technology

Transcript

  1. Kazuto Kusama @jacopen Product Evangelist @PagerDuty Japan Organizer @Platform Engineering

    Meetup Founder @Cloud Native Innovators Association Organizer @CloudNative Days
  2. ポストインシデントレビュー • やっていない、という方 ◦ しましょう! • やっているという方 ◦ とても良いと思います! ◦

    ただ、レビューが「義務的」になっていませんか? ◦ レビューが組織の成長に繋がっていますか? ◦ より効果を高めるために、本セッションを参考にしてください
  3. インシデントから学習することで、何を得られる? • 問題に素早く気づける • 適切な人材のチョイス • 問題の原因を素早く分析 • インシデント発生時の円滑な調整 •

    トレードオフの適切な処理 • ヒーローエンジニア依存の低減 • 若手エンジニアのスキル開発 • より適切な組織編成
  4. どういうときにレビューすべき? • 本当に酷いインシデントだった場合 • 二つ以上のチームが関与している場合。 それまで一緒に仕事したことない場合はなおさら • 些細なことに思えるミスが関わっていた場合 (証明書の更新漏れなど) •

    大きなイベントの最中(株主総会とか)に起きた場合 • 新しいサービス、またはサービス間の新たな連携方法によって起きた場合 • いつもより多くの人がインシデント対応チャンネルに入っていた場合 インシデントの解消後、なるべく早く着手するのが望ましいが、大規模インシデントの場合疲労 の問題もあるので、ベストエフォートで対応しましょう
  5. 調査のためのデータソース • 人 • 対応者 • 管理者 • サポート •

    開発ツールとレポーティングシステム • Runbook • ダッシュボード • ログ • メトリクス • テキスト • Slack • Teams • E-mail • 映像 • Zoom • Teams • Google Meet これらを時系列順に再構築する。事後の視点ではなく リアルタイムでの状況を再現
  6. 誰と話すべきか • イベントの主要関係者 • 専門家(Subject Matter Experts) • 関与していないはずの人々 •

    非難されていると感じている人 • 組織に新しく加わった人 • 関与していた、または状況を監視していたリーダー • 影響を受けたユーザー
  7. 「なぜこれが理にかなっていたのか」 • 「なぜこれが起きたのか 」「なぜ悪いことが起こったのか 」と聞かない • 「なぜこの方法で行うことが 理にかなっていた のか」と聞くべき •

    誰も意図的に失敗しようとは思っていない。 みんな良かれとおもってやっている • 一歩下がって「なぜそれが理にかなっていたのか」 「なぜシステムがそれを許容するようになっていたのか」を考える • この「理にかなっていた」点を本当に理解しない限り、 同じ問題を繰り返してしまう
  8. レポートに入れる情報 https://howie-guide.pagerduty.com/assets/HowWeGotHereReportGuide.pdf 物語的な説明: このセクションは何が起こったかの要約として機能するべきです。この文書を ざっと見る人でも、ここでこの情報の要約 を得られるようにすべきです。 イベント: 異常な(通常または予想されるものから逸脱した)イベントの 2-3文の説明。 顧客/従業員への影響:

    どこで?どのくらい?誰が影響を受けたか?どのように?どの KPIが影響を受けたか? (UIの相互作用が関 与している場合、スクリーンショットが役立ちます!) トリガー: トリガーは通常無害(それ自体では害がない)であり、(貢献要因 /可能要因からの) 脆弱性を組み合わせてイベントにつなが ります。例:「ロールバックボタンが 押され、複数のユーザーが自分のワークスペースにアクセスできなくなった」。 この例では、ロール バックボタンを押すことがトリガーですが、ロールバックボタンを 押すこと自体は、通常脆弱性とは考えられません。 主要な学び/テーマ/質問: 誰かが1年後や2年後にこの文書を見たとき、何を持ち帰ってほしいですか? 議論すべき重要な点として何 が目立ちましたか? 貢献要因/可能要因: これらをインシデントが発生するために真実でなければならなかったこととして 考えてください。これらを「原因」や 関与した人々として考えないでください。 貢献要因と可能要因は、システムに潜在的に残っていた脆弱性を作り出します (時には長期 間にわたって!)。
  9. 誰が知る必要があるか そのインシデントに関わっている人やチームだけでなく、以下のような人も考慮す る • 一次サポート • 依存関係にあるチーム • 将来のチームメンバー •

    プロジェクトマネージャー • 経営陣/意思決定者 調査結果を共有できる範囲が広ければ広いほど、学習の機会も増える。