Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Postmortem as a textbook

Postmortem as a textbook

『Postmortem as a textbook』
LINE株式会社 Toshiya Kato (@maruloop)

インシデントにどう対応してきたか?みんなで学ぶポストモーテム Lunch LT
https://findy.connpass.com/event/273197/

LINE Developers

February 09, 2023
Tweet

More Decks by LINE Developers

Other Decks in Technology

Transcript

  1. ポストモーテムのステップアップ 不足のない事実 現実的な対応策 他チームが学べる 原因や影響について 十分な説明 批判をしない 十分な検討時間とレビュー 実現可能で効果的な 対応策の列挙

    十分な執筆時間とレビュー 資料からシステムの概要も すべて読み取れる 障害が発生したチーム and ポストモーテム会議に参加した人 学びの影響 ポストモーテム会議不参加の人 and 未来の誰か
  2. 例) MySQL on EC2で設定ミスによりフェイルオーバーに失敗した 対応策 • 設定をコード管理する • 変更の際には検証環境でフェイルオーバー試験を実施する 非当事者

    なぜ、Amazon RDS for MySQLやAuroraを使わないんだ・・・ このような、誰しもが疑問に思いそうなことを省略されないようにする ※この例はLINEの実際の障害事例ではありません
  3. 当事者がポストモーテムを執筆 SREがポストモーテムレビューのファシリテーション SRE 1. 全体共有の前に、執筆のための会議をする 2. 執筆のための会議はSREが主導する 3. SREが担当する他チームも呼ぶ 会議(30分)の流れ

    1. 15分黙読し、質問と提案をコメントしてもらう 2. SREが質問をピックアップし、執筆者に回答してもらう 1. SREが回答をポストモーテムにメモ 3. すべての質問が終わったら、次に提案を確認 1. 例1:シーケンス図を追加した方が良い 2. 例2:こんな対策はどうだろうか 4. 会議の最後に、Kudo wallを作成 1. この障害で素敵だった人を称える 5. 会議終了後、当事者がコメントをベースに編集 私たちの取り組み:執筆のための会議を工夫する
  4. 私たちの取り組み:執筆のための会議を工夫する 当事者がポストモーテムを執筆 SREがポストモーテムレビューのファシリテーション SRE 1.参加者にドメインエキスパートしかいない SREが他チームを呼ぶ 2.議論に割り込んで前提事項を質問しにくい 質問フェーズが最初にある 3.当事者の目的が共有と対応策の合意を取ること ポストモーテムを教材にしたいSREが主導

    4.ポストモーテムの書き方自体への指摘をしにくい 提案フェーズがある 5.質問しても口頭で補足されて終わり 会議後に、 質問と回答を元に編集するフェーズがある SREは会議後のアンケートで、ファシリテートについてのフィードバックも得られる さらに…
  5. 私たちの取り組み:執筆のための会議を工夫する 当事者がポストモーテムを執筆 SREがポストモーテムレビューのファシリテーション SRE 1.参加者にドメインエキスパートしかいない SREが他チームを呼ぶ 2.議論に割り込んで前提事項を質問しにくい 質問フェーズが最初にある 3.当事者の目的が共有と対応策の合意を取ること ポストモーテムを教材にしたいSREが主導

    4.ポストモーテムの書き方自体への指摘をしにくい 提案フェーズがある 5.質問しても口頭で補足されて終わり 会議後に、 質問と回答を元に編集するフェーズがある SREは会議後のアンケートで、ファシリテートについてのフィードバックも得られる さらに… 慣れてくると、会議前に読んでコメントを残してくれる
  6. 私たちの取り組み:執筆のための会議を工夫する 当事者がポストモーテムを執筆 SREがポストモーテムレビューのファシリテーション SRE 1.参加者にドメインエキスパートしかいない SREが他チームを呼ぶ 2.議論に割り込んで前提事項を質問しにくい 質問フェーズが最初にある 3.当事者の目的が共有と対応策の合意を取ること ポストモーテムを教材にしたいSREが主導

    4.ポストモーテムの書き方自体への指摘をしにくい 提案フェーズがある 5.質問しても口頭で補足されて終わり 会議後に、 質問と回答を元に編集するフェーズがある SREは会議後のアンケートで、ファシリテートについてのフィードバックも得られる さらに… 慣れてくると、会議前に読んでコメントを残してくれる 品質向上により、この後の共有会議が爆速で終わるようになった