Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Postmortem as a textbook

Postmortem as a textbook

『Postmortem as a textbook』
LINE株式会社 Toshiya Kato (@maruloop)

インシデントにどう対応してきたか?みんなで学ぶポストモーテム Lunch LT
https://findy.connpass.com/event/273197/

LINE Developers
PRO

February 09, 2023
Tweet

More Decks by LINE Developers

Other Decks in Technology

Transcript

  1. 1PTUNPSUFNBTBUFYUCPPL
    -*/&גࣜձࣾ ,"505PTIJZB !NBSVMPPQ

    &NCFEEFE43&GPS
    -*/&ελϯϓɺண͔ͤ͑ɺֆจࣈɺ
    ϗʔϜλϒɺ΢ΥϨοτλϒ

    View Slide

  2. ポストモーテムのステップアップ
    不足のない事実
    現実的な対応策
    ???
    原因や影響について
    十分な説明
    批判をしない
    十分な検討時間とレビュー
    実現可能で効果的な
    対応策の列挙
    ????
    ?????

    View Slide

  3. ポストモーテムのステップアップ
    不足のない事実
    現実的な対応策
    他チームが学べる
    原因や影響について
    十分な説明
    批判をしない
    十分な検討時間とレビュー
    実現可能で効果的な
    対応策の列挙
    十分な執筆時間とレビュー
    資料からシステムの概要も
    すべて読み取れる

    View Slide

  4. ポストモーテムのステップアップ
    不足のない事実
    現実的な対応策
    他チームが学べる
    原因や影響について
    十分な説明
    批判をしない
    十分な検討時間とレビュー
    実現可能で効果的な
    対応策の列挙
    十分な執筆時間とレビュー
    資料からシステムの概要も
    すべて読み取れる
    障害が発生したチーム
    and
    ポストモーテム会議に参加した人
    学びの影響
    ポストモーテム会議不参加の人
    and
    未来の誰か

    View Slide

  5. 他チームが学びやすいポストモーテムとは?
    • 読むだけで、システムの概要が理解できる
    • なんのためのシステムなのか?
    • どんな設計なのか?
    • どんなミドルウェアを使っているのか?
    • 問題と対応策の間に飛躍がない
    • 対応策に至る制約を可能な限り明確化する

    View Slide

  6. 例) MySQL on EC2で設定ミスによりフェイルオーバーに失敗した
    対応策
    • 設定をコード管理する
    • 変更の際には検証環境でフェイルオーバー試験を実施する
    ※この例はLINEの実際の障害事例ではありません

    View Slide

  7. 例) MySQL on EC2で設定ミスによりフェイルオーバーに失敗した
    対応策
    • 設定をコード管理する
    • 変更の際には検証環境でフェイルオーバー試験を実施する
    非当事者
    なぜ、Amazon RDS for MySQLやAuroraを使わないんだ・・・
    このような、誰しもが疑問に思いそうなことを省略されないようにする
    ※この例はLINEの実際の障害事例ではありません

    View Slide

  8. なぜ、こんな省略が発生するのか?
    当事者がポストモーテムを執筆/共有

    View Slide

  9. なぜ、こんな省略が発生するのか?
    1.参加者にドメインエキスパートしかいない
    当事者がポストモーテムを執筆/共有

    View Slide

  10. なぜ、こんな省略が発生するのか?
    1.参加者にドメインエキスパートしかいない
    2.議論に割り込んで前提事項を質問しにくい
    当事者がポストモーテムを執筆/共有
    議論は活発だけど、よくわからない…

    View Slide

  11. なぜ、こんな省略が発生するのか?
    当事者がポストモーテムを執筆/共有
    1.参加者にドメインエキスパートしかいない
    2.議論に割り込んで前提事項を質問しにくい
    障害が再発しないように…
    3.当事者の目的が共有と対応策の合意を取ること

    View Slide

  12. なぜ、こんな省略が発生するのか?
    当事者がポストモーテムを執筆/共有
    1.参加者にドメインエキスパートしかいない
    2.議論に割り込んで前提事項を質問しにくい
    ポストモーテムがわかりにくいけど…
    3.当事者の目的が共有と対応策の合意を取ること
    4.ポストモーテムの書き方自体への指摘をしにくい

    View Slide

  13. なぜ、こんな省略が発生するのか?
    当事者がポストモーテムを執筆/共有
    1.参加者にドメインエキスパートしかいない
    2.議論に割り込んで前提事項を質問しにくい
    3.当事者の目的が共有と対応策の合意を取ること
    4.ポストモーテムの書き方自体への指摘をしにくい
    Q.なんでこうなってるんですか?
    A.XXXという制約があるからです
    5.質問しても口頭で補足されて終わり

    View Slide

  14. なぜ、こんな省略が発生するのか?
    当事者がポストモーテムを執筆/共有
    1.参加者にドメインエキスパートしかいない
    2.議論に割り込んで前提事項を質問しにくい
    3.当事者の目的が共有と対応策の合意を取ること
    4.ポストモーテムの書き方自体への指摘をしにくい
    5.質問しても口頭で補足されて終わり
    これを解決できればOK!

    View Slide

  15. 私たちの取り組み:執筆のための会議を工夫する
    当事者がポストモーテムを執筆
    SREがポストモーテムレビューのファシリテーション
    SRE
    1. 全体共有の前に、執筆のための会議をする
    2. 執筆のための会議はSREが主導する
    3. SREが担当する他チームも呼ぶ

    View Slide

  16. 当事者がポストモーテムを執筆
    SREがポストモーテムレビューのファシリテーション
    SRE
    1. 全体共有の前に、執筆のための会議をする
    2. 執筆のための会議はSREが主導する
    3. SREが担当する他チームも呼ぶ
    会議(30分)の流れ
    1. 15分黙読し、質問と提案をコメントしてもらう
    2. SREが質問をピックアップし、執筆者に回答してもらう
    1. SREが回答をポストモーテムにメモ
    3. すべての質問が終わったら、次に提案を確認
    1. 例1:シーケンス図を追加した方が良い
    2. 例2:こんな対策はどうだろうか
    4. 会議の最後に、Kudo wallを作成
    1. この障害で素敵だった人を称える
    5. 会議終了後、当事者がコメントをベースに編集
    私たちの取り組み:執筆のための会議を工夫する

    View Slide

  17. 私たちの取り組み:執筆のための会議を工夫する
    当事者がポストモーテムを執筆
    SREがポストモーテムレビューのファシリテーション
    SRE
    1.参加者にドメインエキスパートしかいない SREが他チームを呼ぶ

    View Slide

  18. 私たちの取り組み:執筆のための会議を工夫する
    当事者がポストモーテムを執筆
    SREがポストモーテムレビューのファシリテーション
    SRE
    1.参加者にドメインエキスパートしかいない SREが他チームを呼ぶ
    2.議論に割り込んで前提事項を質問しにくい 質問フェーズが最初にある

    View Slide

  19. 私たちの取り組み:執筆のための会議を工夫する
    当事者がポストモーテムを執筆
    SREがポストモーテムレビューのファシリテーション
    SRE
    1.参加者にドメインエキスパートしかいない SREが他チームを呼ぶ
    2.議論に割り込んで前提事項を質問しにくい 質問フェーズが最初にある
    3.当事者の目的が共有と対応策の合意を取ること ポストモーテムを教材にしたいSREが主導

    View Slide

  20. 私たちの取り組み:執筆のための会議を工夫する
    当事者がポストモーテムを執筆
    SREがポストモーテムレビューのファシリテーション
    SRE
    1.参加者にドメインエキスパートしかいない SREが他チームを呼ぶ
    2.議論に割り込んで前提事項を質問しにくい 質問フェーズが最初にある
    3.当事者の目的が共有と対応策の合意を取ること ポストモーテムを教材にしたいSREが主導
    4.ポストモーテムの書き方自体への指摘をしにくい 提案フェーズがある

    View Slide

  21. 私たちの取り組み:執筆のための会議を工夫する
    当事者がポストモーテムを執筆
    SREがポストモーテムレビューのファシリテーション
    SRE
    1.参加者にドメインエキスパートしかいない SREが他チームを呼ぶ
    2.議論に割り込んで前提事項を質問しにくい 質問フェーズが最初にある
    3.当事者の目的が共有と対応策の合意を取ること ポストモーテムを教材にしたいSREが主導
    4.ポストモーテムの書き方自体への指摘をしにくい 提案フェーズがある
    5.質問しても口頭で補足されて終わり 会議後に、
    質問と回答を元に編集するフェーズがある

    View Slide

  22. 私たちの取り組み:執筆のための会議を工夫する
    当事者がポストモーテムを執筆
    SREがポストモーテムレビューのファシリテーション
    SRE
    1.参加者にドメインエキスパートしかいない SREが他チームを呼ぶ
    2.議論に割り込んで前提事項を質問しにくい 質問フェーズが最初にある
    3.当事者の目的が共有と対応策の合意を取ること ポストモーテムを教材にしたいSREが主導
    4.ポストモーテムの書き方自体への指摘をしにくい 提案フェーズがある
    5.質問しても口頭で補足されて終わり 会議後に、
    質問と回答を元に編集するフェーズがある
    さらに…

    View Slide

  23. 私たちの取り組み:執筆のための会議を工夫する
    当事者がポストモーテムを執筆
    SREがポストモーテムレビューのファシリテーション
    SRE
    1.参加者にドメインエキスパートしかいない SREが他チームを呼ぶ
    2.議論に割り込んで前提事項を質問しにくい 質問フェーズが最初にある
    3.当事者の目的が共有と対応策の合意を取ること ポストモーテムを教材にしたいSREが主導
    4.ポストモーテムの書き方自体への指摘をしにくい 提案フェーズがある
    5.質問しても口頭で補足されて終わり 会議後に、
    質問と回答を元に編集するフェーズがある
    SREは会議後のアンケートで、ファシリテートについてのフィードバックも得られる
    さらに…

    View Slide

  24. 私たちの取り組み:執筆のための会議を工夫する
    当事者がポストモーテムを執筆
    SREがポストモーテムレビューのファシリテーション
    SRE
    1.参加者にドメインエキスパートしかいない SREが他チームを呼ぶ
    2.議論に割り込んで前提事項を質問しにくい 質問フェーズが最初にある
    3.当事者の目的が共有と対応策の合意を取ること ポストモーテムを教材にしたいSREが主導
    4.ポストモーテムの書き方自体への指摘をしにくい 提案フェーズがある
    5.質問しても口頭で補足されて終わり 会議後に、
    質問と回答を元に編集するフェーズがある
    SREは会議後のアンケートで、ファシリテートについてのフィードバックも得られる
    さらに…
    慣れてくると、会議前に読んでコメントを残してくれる

    View Slide

  25. 私たちの取り組み:執筆のための会議を工夫する
    当事者がポストモーテムを執筆
    SREがポストモーテムレビューのファシリテーション
    SRE
    1.参加者にドメインエキスパートしかいない SREが他チームを呼ぶ
    2.議論に割り込んで前提事項を質問しにくい 質問フェーズが最初にある
    3.当事者の目的が共有と対応策の合意を取ること ポストモーテムを教材にしたいSREが主導
    4.ポストモーテムの書き方自体への指摘をしにくい 提案フェーズがある
    5.質問しても口頭で補足されて終わり 会議後に、
    質問と回答を元に編集するフェーズがある
    SREは会議後のアンケートで、ファシリテートについてのフィードバックも得られる
    さらに…
    慣れてくると、会議前に読んでコメントを残してくれる
    品質向上により、この後の共有会議が爆速で終わるようになった

    View Slide

  26. まとめ
    SRE
    ポストモーテム共有会議の前に
    SRE主導の執筆会議を挟むことで、品質も向上し、共有会議の時短にもなった

    View Slide