Upgrade to Pro — share decks privately, control downloads, hide ads and more …

失敗を経験したあなたへ〜建設的なインシデントの振り返りを行うために実践するべきこと〜

 失敗を経験したあなたへ〜建設的なインシデントの振り返りを行うために実践するべきこと〜

JAWS-UG SRE支部 #3
今回のテーマは「これってSREなの?LT大会」

NobuakiKikuchi

May 20, 2022
Tweet

More Decks by NobuakiKikuchi

Other Decks in Technology

Transcript

  1. 失敗を経験したあなたへ
    ~建設的なインシデントの振り返りを行うために実践するべきこと~
    2022/05/20 JAWS-UG SRE支部 #3
    菊池 宣明

    View full-size slide

  2. このセッションでお話しすること
    SRE 本の “Postmortem Culture: Learning from Failure” の章では事後分析 (Postmortem)
    について記載されています。
    また、インシデントが発生しても非難を行わず、建設的な事後分析を行うことは SRE の信条で
    あるとも説明されています。
    https://sre.google/sre-book/table-of-contents/

    View full-size slide

  3. このセッションでお話しすること
    SRE 本の “Postmortem Culture: Learning from Failure” の章では事後分析 (Postmortem)
    について記載されています。
    また、インシデントが発生しても非難を行わず、建設的な事後分析を行うことは SRE の信条で
    あるとも説明されています。
    今日はここに着目します
    https://sre.google/sre-book/table-of-contents/

    View full-size slide

  4. このセッションでお話しすること
    SRE 本の “Postmortem Culture: Learning from Failure” の章では事後分析 (Postmortem)
    について記載されています。
    また、インシデントが発生しても非難を行わず、建設的な事後分析を行うことは SRE の信条で
    あるとも説明されています。
    失敗が発生した際に自分および周りの人はどのような立ち回りをすると良いのかについて僕の
    考えを述べていこうと思います! https://sre.google/sre-book/table-of-contents/
    今日はここに着目します

    View full-size slide

  5. 自己紹介

    View full-size slide

  6. ● 菊池 宣明(Twitter:@kikulabo)
    ○ 普段は X-Tech 5 で SRE 業務を行っています
    ○ 副業で「ハッカー飯」というサービスの運営と開発をやってます
    ● 趣味
    ○ ゲーム(スマブラ、Fortnite)
    ● 好きな AWS のサービス
    ○ AWS サポート

    View full-size slide

  7. ”失敗” した経験ありますか?

    View full-size slide

  8. 僕の失敗エピソード①
    EC2 のインスタンスタイプを変更する際に ELB から外さず作業を行った

    View full-size slide

  9. 僕の失敗エピソード②
    「再起動しない」にチェックを入れずに AMI を取得しサービス影響を起こした

    View full-size slide

  10. 僕の失敗エピソード③
    お客様が使用しているユーザを全て削除(無効化)してしまった

    View full-size slide

  11. 人の手で運用している以上
    インシデントの発生は避けられない

    View full-size slide

  12. 失敗は学びに変えろと世間一般的には言われるが…

    View full-size slide

  13. 初めのうちはメンタル的に失敗を受け入れるのは辛い

    View full-size slide

  14. ではメンタルをどのように回復させれば良いか?

    View full-size slide

  15. 僕が失敗をしてしまった時のルーチン①
    インシデントの対処後その日の業務は終了する
    理由:落ち込んでいる時に続けて作業をするのは効率が悪いから

    View full-size slide

  16. 僕が失敗をしてしまった時のルーチン②
    普段よりも贅沢して美味しいものを食べる
    理由:手っ取り早く幸福感を味わえるから

    View full-size slide

  17. 僕が失敗をしてしまった時のルーチン③
    沢山寝る
    理由:睡眠とメンタルヘルスには密接な関係があるから

    View full-size slide

  18. メンタルの復旧が行われてからインシデントの振り返りを行う
    ※詳細を忘れてしまうこともあるので次の日には取り組むようにしましょう

    View full-size slide

  19. 自分の部下がインシデントを起こしてしまった時は

    View full-size slide

  20. 報告内容に関して批判を行わない
    理由:心理的安全性を確保できるから(隠蔽化されるケースを防ぐため)

    View full-size slide

  21. ミスを許容し対処内容に関して称賛する
    理由:組織全体としてミスに対する理解を促進させるため

    View full-size slide

  22. インシデントの振り返りを部下と一緒に行う
    理由:インシデントの発生原因を自分の不注意のせいにしがちになるから
    運用でカバーするのではなく仕組みで解決できるように上司は導いてあげる

    View full-size slide

  23. インシデントの振り返り:ポストモーテムに関する参考記事
    ● Postmortem Culture: Learning from Failure
    ○ https://sre.google/sre-book/postmortem-culture/
    ● 失敗から学ぶ - ポストモーテム / Postmotem culture at Wantedly
    ○ https://speakerdeck.com/munisystem/postmotem-culture-at-wantedly
    ● 1年間のポストモーテム運用とそこから生まれたツール sre-advisor / SRE NEXT 2022
    ○ https://speakerdeck.com/fujiwara3/1nian-jian-falseposutomotemuyun-yong-tosokokarasheng-maretatu
    ru-sre-advisor

    View full-size slide

  24. このセッションで伝えたかったこと
    ● インシデント対応も大事だが自分のメンタルの復旧作業も忘れずに取り組むこと
    ● 自分の部下が失敗した時はメンタルヘルスケアを行ってあげること
    ● 組織としてミスを許容し批判を行わず障害に対して健全な議論を行うこと
    ご清聴ありがとうございました!

    View full-size slide