Slide 1

Slide 1 text

1PTUNPSUFNBTBUFYUCPPL -*/&גࣜձࣾ ,"505PTIJZB !NBSVMPPQ &NCFEEFE43&GPS -*/&ελϯϓɺண͔ͤ͑ɺֆจࣈɺ ϗʔϜλϒɺ΢ΥϨοτλϒ

Slide 2

Slide 2 text

ポストモーテムのステップアップ 不足のない事実 現実的な対応策 ??? 原因や影響について 十分な説明 批判をしない 十分な検討時間とレビュー 実現可能で効果的な 対応策の列挙 ???? ?????

Slide 3

Slide 3 text

ポストモーテムのステップアップ 不足のない事実 現実的な対応策 他チームが学べる 原因や影響について 十分な説明 批判をしない 十分な検討時間とレビュー 実現可能で効果的な 対応策の列挙 十分な執筆時間とレビュー 資料からシステムの概要も すべて読み取れる

Slide 4

Slide 4 text

ポストモーテムのステップアップ 不足のない事実 現実的な対応策 他チームが学べる 原因や影響について 十分な説明 批判をしない 十分な検討時間とレビュー 実現可能で効果的な 対応策の列挙 十分な執筆時間とレビュー 資料からシステムの概要も すべて読み取れる 障害が発生したチーム and ポストモーテム会議に参加した人 学びの影響 ポストモーテム会議不参加の人 and 未来の誰か

Slide 5

Slide 5 text

他チームが学びやすいポストモーテムとは? • 読むだけで、システムの概要が理解できる • なんのためのシステムなのか? • どんな設計なのか? • どんなミドルウェアを使っているのか? • 問題と対応策の間に飛躍がない • 対応策に至る制約を可能な限り明確化する

Slide 6

Slide 6 text

例) MySQL on EC2で設定ミスによりフェイルオーバーに失敗した 対応策 • 設定をコード管理する • 変更の際には検証環境でフェイルオーバー試験を実施する ※この例はLINEの実際の障害事例ではありません

Slide 7

Slide 7 text

例) MySQL on EC2で設定ミスによりフェイルオーバーに失敗した 対応策 • 設定をコード管理する • 変更の際には検証環境でフェイルオーバー試験を実施する 非当事者 なぜ、Amazon RDS for MySQLやAuroraを使わないんだ・・・ このような、誰しもが疑問に思いそうなことを省略されないようにする ※この例はLINEの実際の障害事例ではありません

Slide 8

Slide 8 text

なぜ、こんな省略が発生するのか? 当事者がポストモーテムを執筆/共有

Slide 9

Slide 9 text

なぜ、こんな省略が発生するのか? 1.参加者にドメインエキスパートしかいない 当事者がポストモーテムを執筆/共有

Slide 10

Slide 10 text

なぜ、こんな省略が発生するのか? 1.参加者にドメインエキスパートしかいない 2.議論に割り込んで前提事項を質問しにくい 当事者がポストモーテムを執筆/共有 議論は活発だけど、よくわからない…

Slide 11

Slide 11 text

なぜ、こんな省略が発生するのか? 当事者がポストモーテムを執筆/共有 1.参加者にドメインエキスパートしかいない 2.議論に割り込んで前提事項を質問しにくい 障害が再発しないように… 3.当事者の目的が共有と対応策の合意を取ること

Slide 12

Slide 12 text

なぜ、こんな省略が発生するのか? 当事者がポストモーテムを執筆/共有 1.参加者にドメインエキスパートしかいない 2.議論に割り込んで前提事項を質問しにくい ポストモーテムがわかりにくいけど… 3.当事者の目的が共有と対応策の合意を取ること 4.ポストモーテムの書き方自体への指摘をしにくい

Slide 13

Slide 13 text

なぜ、こんな省略が発生するのか? 当事者がポストモーテムを執筆/共有 1.参加者にドメインエキスパートしかいない 2.議論に割り込んで前提事項を質問しにくい 3.当事者の目的が共有と対応策の合意を取ること 4.ポストモーテムの書き方自体への指摘をしにくい Q.なんでこうなってるんですか? A.XXXという制約があるからです 5.質問しても口頭で補足されて終わり

Slide 14

Slide 14 text

なぜ、こんな省略が発生するのか? 当事者がポストモーテムを執筆/共有 1.参加者にドメインエキスパートしかいない 2.議論に割り込んで前提事項を質問しにくい 3.当事者の目的が共有と対応策の合意を取ること 4.ポストモーテムの書き方自体への指摘をしにくい 5.質問しても口頭で補足されて終わり これを解決できればOK!

Slide 15

Slide 15 text

私たちの取り組み:執筆のための会議を工夫する 当事者がポストモーテムを執筆 SREがポストモーテムレビューのファシリテーション SRE 1. 全体共有の前に、執筆のための会議をする 2. 執筆のための会議はSREが主導する 3. SREが担当する他チームも呼ぶ

Slide 16

Slide 16 text

当事者がポストモーテムを執筆 SREがポストモーテムレビューのファシリテーション SRE 1. 全体共有の前に、執筆のための会議をする 2. 執筆のための会議はSREが主導する 3. SREが担当する他チームも呼ぶ 会議(30分)の流れ 1. 15分黙読し、質問と提案をコメントしてもらう 2. SREが質問をピックアップし、執筆者に回答してもらう 1. SREが回答をポストモーテムにメモ 3. すべての質問が終わったら、次に提案を確認 1. 例1:シーケンス図を追加した方が良い 2. 例2:こんな対策はどうだろうか 4. 会議の最後に、Kudo wallを作成 1. この障害で素敵だった人を称える 5. 会議終了後、当事者がコメントをベースに編集 私たちの取り組み:執筆のための会議を工夫する

Slide 17

Slide 17 text

私たちの取り組み:執筆のための会議を工夫する 当事者がポストモーテムを執筆 SREがポストモーテムレビューのファシリテーション SRE 1.参加者にドメインエキスパートしかいない SREが他チームを呼ぶ

Slide 18

Slide 18 text

私たちの取り組み:執筆のための会議を工夫する 当事者がポストモーテムを執筆 SREがポストモーテムレビューのファシリテーション SRE 1.参加者にドメインエキスパートしかいない SREが他チームを呼ぶ 2.議論に割り込んで前提事項を質問しにくい 質問フェーズが最初にある

Slide 19

Slide 19 text

私たちの取り組み:執筆のための会議を工夫する 当事者がポストモーテムを執筆 SREがポストモーテムレビューのファシリテーション SRE 1.参加者にドメインエキスパートしかいない SREが他チームを呼ぶ 2.議論に割り込んで前提事項を質問しにくい 質問フェーズが最初にある 3.当事者の目的が共有と対応策の合意を取ること ポストモーテムを教材にしたいSREが主導

Slide 20

Slide 20 text

私たちの取り組み:執筆のための会議を工夫する 当事者がポストモーテムを執筆 SREがポストモーテムレビューのファシリテーション SRE 1.参加者にドメインエキスパートしかいない SREが他チームを呼ぶ 2.議論に割り込んで前提事項を質問しにくい 質問フェーズが最初にある 3.当事者の目的が共有と対応策の合意を取ること ポストモーテムを教材にしたいSREが主導 4.ポストモーテムの書き方自体への指摘をしにくい 提案フェーズがある

Slide 21

Slide 21 text

私たちの取り組み:執筆のための会議を工夫する 当事者がポストモーテムを執筆 SREがポストモーテムレビューのファシリテーション SRE 1.参加者にドメインエキスパートしかいない SREが他チームを呼ぶ 2.議論に割り込んで前提事項を質問しにくい 質問フェーズが最初にある 3.当事者の目的が共有と対応策の合意を取ること ポストモーテムを教材にしたいSREが主導 4.ポストモーテムの書き方自体への指摘をしにくい 提案フェーズがある 5.質問しても口頭で補足されて終わり 会議後に、 質問と回答を元に編集するフェーズがある

Slide 22

Slide 22 text

私たちの取り組み:執筆のための会議を工夫する 当事者がポストモーテムを執筆 SREがポストモーテムレビューのファシリテーション SRE 1.参加者にドメインエキスパートしかいない SREが他チームを呼ぶ 2.議論に割り込んで前提事項を質問しにくい 質問フェーズが最初にある 3.当事者の目的が共有と対応策の合意を取ること ポストモーテムを教材にしたいSREが主導 4.ポストモーテムの書き方自体への指摘をしにくい 提案フェーズがある 5.質問しても口頭で補足されて終わり 会議後に、 質問と回答を元に編集するフェーズがある さらに…

Slide 23

Slide 23 text

私たちの取り組み:執筆のための会議を工夫する 当事者がポストモーテムを執筆 SREがポストモーテムレビューのファシリテーション SRE 1.参加者にドメインエキスパートしかいない SREが他チームを呼ぶ 2.議論に割り込んで前提事項を質問しにくい 質問フェーズが最初にある 3.当事者の目的が共有と対応策の合意を取ること ポストモーテムを教材にしたいSREが主導 4.ポストモーテムの書き方自体への指摘をしにくい 提案フェーズがある 5.質問しても口頭で補足されて終わり 会議後に、 質問と回答を元に編集するフェーズがある SREは会議後のアンケートで、ファシリテートについてのフィードバックも得られる さらに…

Slide 24

Slide 24 text

私たちの取り組み:執筆のための会議を工夫する 当事者がポストモーテムを執筆 SREがポストモーテムレビューのファシリテーション SRE 1.参加者にドメインエキスパートしかいない SREが他チームを呼ぶ 2.議論に割り込んで前提事項を質問しにくい 質問フェーズが最初にある 3.当事者の目的が共有と対応策の合意を取ること ポストモーテムを教材にしたいSREが主導 4.ポストモーテムの書き方自体への指摘をしにくい 提案フェーズがある 5.質問しても口頭で補足されて終わり 会議後に、 質問と回答を元に編集するフェーズがある SREは会議後のアンケートで、ファシリテートについてのフィードバックも得られる さらに… 慣れてくると、会議前に読んでコメントを残してくれる

Slide 25

Slide 25 text

私たちの取り組み:執筆のための会議を工夫する 当事者がポストモーテムを執筆 SREがポストモーテムレビューのファシリテーション SRE 1.参加者にドメインエキスパートしかいない SREが他チームを呼ぶ 2.議論に割り込んで前提事項を質問しにくい 質問フェーズが最初にある 3.当事者の目的が共有と対応策の合意を取ること ポストモーテムを教材にしたいSREが主導 4.ポストモーテムの書き方自体への指摘をしにくい 提案フェーズがある 5.質問しても口頭で補足されて終わり 会議後に、 質問と回答を元に編集するフェーズがある SREは会議後のアンケートで、ファシリテートについてのフィードバックも得られる さらに… 慣れてくると、会議前に読んでコメントを残してくれる 品質向上により、この後の共有会議が爆速で終わるようになった

Slide 26

Slide 26 text

まとめ SRE ポストモーテム共有会議の前に SRE主導の執筆会議を挟むことで、品質も向上し、共有会議の時短にもなった