『Postmortem as a textbook』 LINE株式会社 Toshiya Kato (@maruloop)
インシデントにどう対応してきたか?みんなで学ぶポストモーテム Lunch LT https://findy.connpass.com/event/273197/
1PTUNPSUFNBTBUFYUCPPL-*/&גࣜձࣾ ,"505PTIJZB !NBSVMPPQ&NCFEEFE43&GPS-*/&ελϯϓɺண͔ͤ͑ɺֆจࣈɺϗʔϜλϒɺΥϨοτλϒ
View Slide
ポストモーテムのステップアップ不足のない事実現実的な対応策???原因や影響について十分な説明批判をしない十分な検討時間とレビュー実現可能で効果的な対応策の列挙?????????
ポストモーテムのステップアップ不足のない事実現実的な対応策他チームが学べる原因や影響について十分な説明批判をしない十分な検討時間とレビュー実現可能で効果的な対応策の列挙十分な執筆時間とレビュー資料からシステムの概要もすべて読み取れる
ポストモーテムのステップアップ不足のない事実現実的な対応策他チームが学べる原因や影響について十分な説明批判をしない十分な検討時間とレビュー実現可能で効果的な対応策の列挙十分な執筆時間とレビュー資料からシステムの概要もすべて読み取れる障害が発生したチームandポストモーテム会議に参加した人学びの影響ポストモーテム会議不参加の人and未来の誰か
他チームが学びやすいポストモーテムとは?• 読むだけで、システムの概要が理解できる• なんのためのシステムなのか?• どんな設計なのか?• どんなミドルウェアを使っているのか?• 問題と対応策の間に飛躍がない• 対応策に至る制約を可能な限り明確化する
例) MySQL on EC2で設定ミスによりフェイルオーバーに失敗した対応策• 設定をコード管理する• 変更の際には検証環境でフェイルオーバー試験を実施する※この例はLINEの実際の障害事例ではありません
例) MySQL on EC2で設定ミスによりフェイルオーバーに失敗した対応策• 設定をコード管理する• 変更の際には検証環境でフェイルオーバー試験を実施する非当事者なぜ、Amazon RDS for MySQLやAuroraを使わないんだ・・・このような、誰しもが疑問に思いそうなことを省略されないようにする※この例はLINEの実際の障害事例ではありません
なぜ、こんな省略が発生するのか?当事者がポストモーテムを執筆/共有
なぜ、こんな省略が発生するのか?1.参加者にドメインエキスパートしかいない当事者がポストモーテムを執筆/共有
なぜ、こんな省略が発生するのか?1.参加者にドメインエキスパートしかいない2.議論に割り込んで前提事項を質問しにくい当事者がポストモーテムを執筆/共有議論は活発だけど、よくわからない…
なぜ、こんな省略が発生するのか?当事者がポストモーテムを執筆/共有1.参加者にドメインエキスパートしかいない2.議論に割り込んで前提事項を質問しにくい障害が再発しないように…3.当事者の目的が共有と対応策の合意を取ること
なぜ、こんな省略が発生するのか?当事者がポストモーテムを執筆/共有1.参加者にドメインエキスパートしかいない2.議論に割り込んで前提事項を質問しにくいポストモーテムがわかりにくいけど…3.当事者の目的が共有と対応策の合意を取ること4.ポストモーテムの書き方自体への指摘をしにくい
なぜ、こんな省略が発生するのか?当事者がポストモーテムを執筆/共有1.参加者にドメインエキスパートしかいない2.議論に割り込んで前提事項を質問しにくい3.当事者の目的が共有と対応策の合意を取ること4.ポストモーテムの書き方自体への指摘をしにくいQ.なんでこうなってるんですか?A.XXXという制約があるからです5.質問しても口頭で補足されて終わり
なぜ、こんな省略が発生するのか?当事者がポストモーテムを執筆/共有1.参加者にドメインエキスパートしかいない2.議論に割り込んで前提事項を質問しにくい3.当事者の目的が共有と対応策の合意を取ること4.ポストモーテムの書き方自体への指摘をしにくい5.質問しても口頭で補足されて終わりこれを解決できればOK!
私たちの取り組み:執筆のための会議を工夫する当事者がポストモーテムを執筆SREがポストモーテムレビューのファシリテーションSRE1. 全体共有の前に、執筆のための会議をする2. 執筆のための会議はSREが主導する3. SREが担当する他チームも呼ぶ
当事者がポストモーテムを執筆SREがポストモーテムレビューのファシリテーションSRE1. 全体共有の前に、執筆のための会議をする2. 執筆のための会議はSREが主導する3. SREが担当する他チームも呼ぶ会議(30分)の流れ1. 15分黙読し、質問と提案をコメントしてもらう2. SREが質問をピックアップし、執筆者に回答してもらう1. SREが回答をポストモーテムにメモ3. すべての質問が終わったら、次に提案を確認1. 例1:シーケンス図を追加した方が良い2. 例2:こんな対策はどうだろうか4. 会議の最後に、Kudo wallを作成1. この障害で素敵だった人を称える5. 会議終了後、当事者がコメントをベースに編集私たちの取り組み:執筆のための会議を工夫する
私たちの取り組み:執筆のための会議を工夫する当事者がポストモーテムを執筆SREがポストモーテムレビューのファシリテーションSRE1.参加者にドメインエキスパートしかいない SREが他チームを呼ぶ
私たちの取り組み:執筆のための会議を工夫する当事者がポストモーテムを執筆SREがポストモーテムレビューのファシリテーションSRE1.参加者にドメインエキスパートしかいない SREが他チームを呼ぶ2.議論に割り込んで前提事項を質問しにくい 質問フェーズが最初にある
私たちの取り組み:執筆のための会議を工夫する当事者がポストモーテムを執筆SREがポストモーテムレビューのファシリテーションSRE1.参加者にドメインエキスパートしかいない SREが他チームを呼ぶ2.議論に割り込んで前提事項を質問しにくい 質問フェーズが最初にある3.当事者の目的が共有と対応策の合意を取ること ポストモーテムを教材にしたいSREが主導
私たちの取り組み:執筆のための会議を工夫する当事者がポストモーテムを執筆SREがポストモーテムレビューのファシリテーションSRE1.参加者にドメインエキスパートしかいない SREが他チームを呼ぶ2.議論に割り込んで前提事項を質問しにくい 質問フェーズが最初にある3.当事者の目的が共有と対応策の合意を取ること ポストモーテムを教材にしたいSREが主導4.ポストモーテムの書き方自体への指摘をしにくい 提案フェーズがある
私たちの取り組み:執筆のための会議を工夫する当事者がポストモーテムを執筆SREがポストモーテムレビューのファシリテーションSRE1.参加者にドメインエキスパートしかいない SREが他チームを呼ぶ2.議論に割り込んで前提事項を質問しにくい 質問フェーズが最初にある3.当事者の目的が共有と対応策の合意を取ること ポストモーテムを教材にしたいSREが主導4.ポストモーテムの書き方自体への指摘をしにくい 提案フェーズがある5.質問しても口頭で補足されて終わり 会議後に、質問と回答を元に編集するフェーズがある
私たちの取り組み:執筆のための会議を工夫する当事者がポストモーテムを執筆SREがポストモーテムレビューのファシリテーションSRE1.参加者にドメインエキスパートしかいない SREが他チームを呼ぶ2.議論に割り込んで前提事項を質問しにくい 質問フェーズが最初にある3.当事者の目的が共有と対応策の合意を取ること ポストモーテムを教材にしたいSREが主導4.ポストモーテムの書き方自体への指摘をしにくい 提案フェーズがある5.質問しても口頭で補足されて終わり 会議後に、質問と回答を元に編集するフェーズがあるさらに…
私たちの取り組み:執筆のための会議を工夫する当事者がポストモーテムを執筆SREがポストモーテムレビューのファシリテーションSRE1.参加者にドメインエキスパートしかいない SREが他チームを呼ぶ2.議論に割り込んで前提事項を質問しにくい 質問フェーズが最初にある3.当事者の目的が共有と対応策の合意を取ること ポストモーテムを教材にしたいSREが主導4.ポストモーテムの書き方自体への指摘をしにくい 提案フェーズがある5.質問しても口頭で補足されて終わり 会議後に、質問と回答を元に編集するフェーズがあるSREは会議後のアンケートで、ファシリテートについてのフィードバックも得られるさらに…
私たちの取り組み:執筆のための会議を工夫する当事者がポストモーテムを執筆SREがポストモーテムレビューのファシリテーションSRE1.参加者にドメインエキスパートしかいない SREが他チームを呼ぶ2.議論に割り込んで前提事項を質問しにくい 質問フェーズが最初にある3.当事者の目的が共有と対応策の合意を取ること ポストモーテムを教材にしたいSREが主導4.ポストモーテムの書き方自体への指摘をしにくい 提案フェーズがある5.質問しても口頭で補足されて終わり 会議後に、質問と回答を元に編集するフェーズがあるSREは会議後のアンケートで、ファシリテートについてのフィードバックも得られるさらに…慣れてくると、会議前に読んでコメントを残してくれる
私たちの取り組み:執筆のための会議を工夫する当事者がポストモーテムを執筆SREがポストモーテムレビューのファシリテーションSRE1.参加者にドメインエキスパートしかいない SREが他チームを呼ぶ2.議論に割り込んで前提事項を質問しにくい 質問フェーズが最初にある3.当事者の目的が共有と対応策の合意を取ること ポストモーテムを教材にしたいSREが主導4.ポストモーテムの書き方自体への指摘をしにくい 提案フェーズがある5.質問しても口頭で補足されて終わり 会議後に、質問と回答を元に編集するフェーズがあるSREは会議後のアンケートで、ファシリテートについてのフィードバックも得られるさらに…慣れてくると、会議前に読んでコメントを残してくれる品質向上により、この後の共有会議が爆速で終わるようになった
まとめSREポストモーテム共有会議の前にSRE主導の執筆会議を挟むことで、品質も向上し、共有会議の時短にもなった