Slide 1

Slide 1 text

失敗を経験したあなたへ ~建設的なインシデントの振り返りを行うために実践するべきこと~ 2022/05/20 JAWS-UG SRE支部 #3 菊池 宣明

Slide 2

Slide 2 text

このセッションでお話しすること SRE 本の “Postmortem Culture: Learning from Failure” の章では事後分析 (Postmortem) について記載されています。 また、インシデントが発生しても非難を行わず、建設的な事後分析を行うことは SRE の信条で あるとも説明されています。 https://sre.google/sre-book/table-of-contents/

Slide 3

Slide 3 text

このセッションでお話しすること SRE 本の “Postmortem Culture: Learning from Failure” の章では事後分析 (Postmortem) について記載されています。 また、インシデントが発生しても非難を行わず、建設的な事後分析を行うことは SRE の信条で あるとも説明されています。 今日はここに着目します https://sre.google/sre-book/table-of-contents/

Slide 4

Slide 4 text

このセッションでお話しすること SRE 本の “Postmortem Culture: Learning from Failure” の章では事後分析 (Postmortem) について記載されています。 また、インシデントが発生しても非難を行わず、建設的な事後分析を行うことは SRE の信条で あるとも説明されています。 失敗が発生した際に自分および周りの人はどのような立ち回りをすると良いのかについて僕の 考えを述べていこうと思います! https://sre.google/sre-book/table-of-contents/ 今日はここに着目します

Slide 5

Slide 5 text

自己紹介

Slide 6

Slide 6 text

● 菊池 宣明(Twitter:@kikulabo) ○ 普段は X-Tech 5 で SRE 業務を行っています ○ 副業で「ハッカー飯」というサービスの運営と開発をやってます ● 趣味 ○ ゲーム(スマブラ、Fortnite) ● 好きな AWS のサービス ○ AWS サポート

Slide 7

Slide 7 text

”失敗” した経験ありますか?

Slide 8

Slide 8 text

僕の失敗エピソード① EC2 のインスタンスタイプを変更する際に ELB から外さず作業を行った

Slide 9

Slide 9 text

僕の失敗エピソード② 「再起動しない」にチェックを入れずに AMI を取得しサービス影響を起こした

Slide 10

Slide 10 text

僕の失敗エピソード③ お客様が使用しているユーザを全て削除(無効化)してしまった

Slide 11

Slide 11 text

人の手で運用している以上 インシデントの発生は避けられない

Slide 12

Slide 12 text

失敗は学びに変えろと世間一般的には言われるが…

Slide 13

Slide 13 text

初めのうちはメンタル的に失敗を受け入れるのは辛い

Slide 14

Slide 14 text

ではメンタルをどのように回復させれば良いか?

Slide 15

Slide 15 text

僕が失敗をしてしまった時のルーチン① インシデントの対処後その日の業務は終了する 理由:落ち込んでいる時に続けて作業をするのは効率が悪いから

Slide 16

Slide 16 text

僕が失敗をしてしまった時のルーチン② 普段よりも贅沢して美味しいものを食べる 理由:手っ取り早く幸福感を味わえるから

Slide 17

Slide 17 text

僕が失敗をしてしまった時のルーチン③ 沢山寝る 理由:睡眠とメンタルヘルスには密接な関係があるから

Slide 18

Slide 18 text

メンタルの復旧が行われてからインシデントの振り返りを行う ※詳細を忘れてしまうこともあるので次の日には取り組むようにしましょう

Slide 19

Slide 19 text

自分の部下がインシデントを起こしてしまった時は

Slide 20

Slide 20 text

報告内容に関して批判を行わない 理由:心理的安全性を確保できるから(隠蔽化されるケースを防ぐため)

Slide 21

Slide 21 text

ミスを許容し対処内容に関して称賛する 理由:組織全体としてミスに対する理解を促進させるため

Slide 22

Slide 22 text

インシデントの振り返りを部下と一緒に行う 理由:インシデントの発生原因を自分の不注意のせいにしがちになるから 運用でカバーするのではなく仕組みで解決できるように上司は導いてあげる

Slide 23

Slide 23 text

インシデントの振り返り:ポストモーテムに関する参考記事 ● Postmortem Culture: Learning from Failure ○ https://sre.google/sre-book/postmortem-culture/ ● 失敗から学ぶ - ポストモーテム / Postmotem culture at Wantedly ○ https://speakerdeck.com/munisystem/postmotem-culture-at-wantedly ● 1年間のポストモーテム運用とそこから生まれたツール sre-advisor / SRE NEXT 2022 ○ https://speakerdeck.com/fujiwara3/1nian-jian-falseposutomotemuyun-yong-tosokokarasheng-maretatu ru-sre-advisor

Slide 24

Slide 24 text

このセッションで伝えたかったこと ● インシデント対応も大事だが自分のメンタルの復旧作業も忘れずに取り組むこと ● 自分の部下が失敗した時はメンタルヘルスケアを行ってあげること ● 組織としてミスを許容し批判を行わず障害に対して健全な議論を行うこと ご清聴ありがとうございました!