Slide 1

Slide 1 text

インシデントマネジメント 事態収拾のための取り組みに迫る Lunch LT 2024/02/21 @02 BASEにおける インシデント対応フローと工夫

Slide 2

Slide 2 text

© 2012-2024 BASE, Inc. #インシデント マネジメント_findy BASE BANK チーム 02 大津 和槻 :@cocoeyes02 2021/02~ BASE, Inc. 自己紹介 登壇 執筆 登壇応援中!

Slide 3

Slide 3 text

© 2012-2024 BASE, Inc. #インシデント マネジメント_findy BASEとは? 3 コンセプト: 誰でも簡単に使える ネットショップ作成サービス ● 商品・注文管理 ● ショップデザイン ● 顧客情報管理    などを行うショップオーナー向け機能 + ● 商品検索 ● 決済・注文(カート)    などを行う購入者(カスタマー)向け機能 ネットショップ作成サービス「BASE」

Slide 4

Slide 4 text

© 2012-2024 BASE, Inc. #インシデント マネジメント_findy 最初に全体のフローについて話し、 それから各工程の工夫を お話しします 4 今回のトークでは

Slide 5

Slide 5 text

BASEにおける インシデント対応フロー

Slide 6

Slide 6 text

© 2012-2024 BASE, Inc. #インシデント マネジメント_findy BASEにおける インシデント対応フロー インシデント発生! 6 障害発生検知 プレモーテム 復旧対応 再発防止・ クロージング

Slide 7

Slide 7 text

© 2012-2024 BASE, Inc. #インシデント マネジメント_findy BASEにおける インシデント対応フロー インシデント発生! 7 障害発生検知 プレモーテム 復旧対応 再発防止・ クロージング

Slide 8

Slide 8 text

障害発生検知

Slide 9

Slide 9 text

© 2012-2024 BASE, Inc. #インシデント マネジメント_findy 障害発生検知 9 インシデントが発生した時には、インシデントチャンネルを作成します。 情報集約のため、インシデントチャンネル内でインシデント対応のやり取りをします。 また、インシデントチャンネルを作成すると、 自動でインシデントチャンネルにinviteする社内Slack botがあります。 どんなインシデントが起こっているかリアルタイムで知りたい人が多かったため、誕生しま した。

Slide 10

Slide 10 text

© 2012-2024 BASE, Inc. #インシデント マネジメント_findy 障害発生検知 10 例) 2/5のインシデントチャンネルに 自動でinviteされている

Slide 11

Slide 11 text

© 2012-2024 BASE, Inc. #インシデント マネジメント_findy 障害発生検知 11 例) 2/5のインシデントチャンネルに 自動でinviteされている

Slide 12

Slide 12 text

© 2012-2024 BASE, Inc. #インシデント マネジメント_findy BASEにおける インシデント対応フロー インシデント発生! 12 障害発生検知 プレモーテム 復旧対応 再発防止・ クロージング

Slide 13

Slide 13 text

プレモーテム

Slide 14

Slide 14 text

© 2012-2024 BASE, Inc. #インシデント マネジメント_findy プレモーテム 14 最初に同期的にオンラインで口頭で対応方針のすり合わせをします。 リモートワークであっても、Slack ハドルやGoogle Meetなどで関係者が集まり、 すり合わせをしています。 他にも、インシデントコマンダー(インシデントの情報集約や意思決定をする人)や インシデントの重大度を決めます。 インシデントの重大度によって、主担当となる組織や責任範囲が変わってくるため、 プレモーテムの段階で決めます。 例)以下のインシデントでは、主担当となる組織や責任範囲は全く違う - ユーザの利益に影響がない軽微なインシデント - 信頼失墜に関わるセキュリティインシデント

Slide 15

Slide 15 text

© 2012-2024 BASE, Inc. #インシデント マネジメント_findy BASEにおける インシデント対応フロー インシデント発生! 15 障害発生検知 プレモーテム 復旧対応 再発防止・ クロージング

Slide 16

Slide 16 text

復旧対応

Slide 17

Slide 17 text

© 2012-2024 BASE, Inc. #インシデント マネジメント_findy 復旧対応 17 インシデントコマンダーの指示のもと、それぞれ対応に当たります。 また、プレモーテムで決めたインシデントの重大度に対応したToDoリストが、 インシデントレポートに自動生成されます。 ToDoリストには、アクション、担当者、対応済 / 否のチェックボックスがあります。 アクション例) - インシデントレポートを作成する、インシデントコマンダーを決める - ユーザ告知の範囲や内容を決める、告知する、ヘルプページを作成する - 復旧対応を実施する、関係者を召集して再発防止案を考える / 実施する など...

Slide 18

Slide 18 text

© 2012-2024 BASE, Inc. #インシデント マネジメント_findy BASEにおける インシデント対応フロー インシデント発生! 18 障害発生検知 プレモーテム 復旧対応 再発防止・ クロージング

Slide 19

Slide 19 text

再発防止・クロージング

Slide 20

Slide 20 text

© 2012-2024 BASE, Inc. #インシデント マネジメント_findy 再発防止・クロージング 20 再発防止策を考えて実施するため、ポストモーテムをやります。 すぐ決められそうだったらインシデントチャンネルにて、 しっかり話して決める必要があれば別途MTGでポストモーテムを行っています。 インシデントのクローズはCTOが行います。 インシデントレポートの記述が不十分だとクローズできないので、以下のような観点を 気にしながら記入します。 - インシデント発生〜終息までの時系列や、原因について不足なく書かれている - 暫定的でも復旧対応が完了している - 妥当な再発防止策を考えた上で、実施済みである

Slide 21

Slide 21 text

© 2012-2024 BASE, Inc. #インシデント マネジメント_findy ブログもぜひ! 21 - マルチステークホルダー時代の障害対応フロー - https://devblog.thebase.in/entry/2023/05/29/170154 - インシデント対応入門 〜初動フェーズ編〜 - https://devblog.thebase.in/entry/2023/12/02/110000 - なぜ我々はsession.cookieを変更しなければならなかったのか - 過去に起きたインシデントのレポートを外部向けに公開したブログ - https://devblog.thebase.in/entry/2022/04/13/114714

Slide 22

Slide 22 text

© 2012-2024 BASE, Inc. #インシデント マネジメント_findy 最後に 22 フローの整備にあたり、有志で書かれた社内ドキュメントも参考にされました。 →02が書いた インシデント対応入門 〜初動フェーズ編〜 もその1つ トップダウン・ボトムアップ両方のアプローチがあり、今に至っています。 インシデント対応だけでなく、フローの整備も全員でやっていきましょう!

Slide 23

Slide 23 text

© 2012-2024 BASE, Inc. #インシデント マネジメント_findy 最後に バックエンド エンジニア SRE フロントエンド エンジニア セキュリティ エンジニア QA エンジニア データ エンジニア etc… We are hiring! https://binc.jp/jobs