Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
BASEにおける インシデント対応フローと工夫
Search
02
February 21, 2024
Programming
1.3k
0
Share
BASEにおける インシデント対応フローと工夫
インシデントマネジメント 事態収拾のための取り組みに迫る Lunch LT の登壇で使用したスライドです
https://findy.connpass.com/event/309400/
02
February 21, 2024
More Decks by 02
See All by 02
なぜarray_firstとarray_lastは採用、 array_value_firstとarray_value_lastは 見送りだったか / Why array_value_first and array_value_last was declined, then why array_first and array_last was accpeted?
cocoeyes02
0
480
Amazon ECS Managed Instances が リリースされた!キャッチアップしよう!! / Let's catch up Amazon ECS Managed Instances
cocoeyes02
0
520
新しいPHP拡張モジュールインストール方法「PHP Installer for Extensions (PIE)」を使ってみよう!
cocoeyes02
0
1.8k
PHP8.4におけるJITフレームワークIRと中間表現について理解を深める
cocoeyes02
1
1.3k
RemoveだらけのPHPUnit 12に備えよう
cocoeyes02
0
1.3k
PHP RFC: Deprecate implicitly nullable parameter types をサクッと話す
cocoeyes02
0
1.1k
PHPUnit 11 概論
cocoeyes02
5
3.8k
Random\Randomizer クラスで日常のあれこれを解決しよう! / Random\Randomizer class solves familiar trouble
cocoeyes02
1
1.4k
AWS Lambdaから始める Devチームの小さなDevOps改善 〜QCDどれも諦めない運用を目指して〜 / Start to improving small DevOps with AWS Lambda by Dev Team
cocoeyes02
0
1.5k
Other Decks in Programming
See All in Programming
Spec Driven Development | AI Summit Lisbon
danielsogl
PRO
0
130
Stage 3 Decorators でできること / できないこと / TSKaigi 2026
susisu
1
1.5k
AIチームを指揮するOSS「TAKT」活用術 / How to Use “TAKT,” an OSS Tool for Orchestrating AI Teams
nrslib
6
800
Swiftのレキシカルスコープ管理
kntkymt
0
210
AI 時代のソフトウェア設計の学び方
masuda220
PRO
29
12k
並列実装の現場、2ヶ月間実務でAIを使い倒したAIもPCも私も限界が近い
ming_ayami
0
100
プラグインで拡張される Context をtype-safe にする難しさと設計判断
kazupon
2
560
JavaDoc 再入門
nagise
0
260
CLIであることを活かしたGitHub Copilot CLI活用術 / GitHub Copilot CLI Pro Tips & Tricks
nao_mk2
1
1.2k
次世代リンターで探る、tsgo 時代における型認識カスタムルールの現実解
ytakahashii
3
1.4k
jQueryをバージョンアップする前に使いたいjQuery Migrate
matsuo_atsushi
0
170
Copilot CLI の継戦能力を高める コンテキスト管理
nozomutu
1
1.2k
Featured
See All Featured
Hiding What from Whom? A Critical Review of the History of Programming languages for Music
tomoyanonymous
2
840
The Impact of AI in SEO - AI Overviews June 2024 Edition
aleyda
5
1.1k
Typedesign – Prime Four
hannesfritz
42
3.1k
Understanding Cognitive Biases in Performance Measurement
bluesmoon
32
2.9k
Crafting Experiences
bethany
1
160
Improving Core Web Vitals using Speculation Rules API
sergeychernyshev
21
1.5k
How to Think Like a Performance Engineer
csswizardry
28
2.6k
So, you think you're a good person
axbom
PRO
2
2k
Leadership Guide Workshop - DevTernity 2021
reverentgeek
1
300
Leo the Paperboy
mayatellez
7
1.8k
GraphQLの誤解/rethinking-graphql
sonatard
75
12k
Faster Mobile Websites
deanohume
310
31k
Transcript
インシデントマネジメント 事態収拾のための取り組みに迫る Lunch LT 2024/02/21 @02 BASEにおける インシデント対応フローと工夫
© 2012-2024 BASE, Inc. #インシデント マネジメント_findy BASE BANK チーム 02
大津 和槻 :@cocoeyes02 2021/02~ BASE, Inc. 自己紹介 登壇 執筆 登壇応援中!
© 2012-2024 BASE, Inc. #インシデント マネジメント_findy BASEとは? 3 コンセプト: 誰でも簡単に使える
ネットショップ作成サービス • 商品・注文管理 • ショップデザイン • 顧客情報管理 などを行うショップオーナー向け機能 + • 商品検索 • 決済・注文(カート) などを行う購入者(カスタマー)向け機能 ネットショップ作成サービス「BASE」
© 2012-2024 BASE, Inc. #インシデント マネジメント_findy 最初に全体のフローについて話し、 それから各工程の工夫を お話しします 4
今回のトークでは
BASEにおける インシデント対応フロー
© 2012-2024 BASE, Inc. #インシデント マネジメント_findy BASEにおける インシデント対応フロー インシデント発生! 6
障害発生検知 プレモーテム 復旧対応 再発防止・ クロージング
© 2012-2024 BASE, Inc. #インシデント マネジメント_findy BASEにおける インシデント対応フロー インシデント発生! 7
障害発生検知 プレモーテム 復旧対応 再発防止・ クロージング
障害発生検知
© 2012-2024 BASE, Inc. #インシデント マネジメント_findy 障害発生検知 9 インシデントが発生した時には、インシデントチャンネルを作成します。 情報集約のため、インシデントチャンネル内でインシデント対応のやり取りをします。
また、インシデントチャンネルを作成すると、 自動でインシデントチャンネルにinviteする社内Slack botがあります。 どんなインシデントが起こっているかリアルタイムで知りたい人が多かったため、誕生しま した。
© 2012-2024 BASE, Inc. #インシデント マネジメント_findy 障害発生検知 10 例) 2/5のインシデントチャンネルに
自動でinviteされている
© 2012-2024 BASE, Inc. #インシデント マネジメント_findy 障害発生検知 11 例) 2/5のインシデントチャンネルに
自動でinviteされている
© 2012-2024 BASE, Inc. #インシデント マネジメント_findy BASEにおける インシデント対応フロー インシデント発生! 12
障害発生検知 プレモーテム 復旧対応 再発防止・ クロージング
プレモーテム
© 2012-2024 BASE, Inc. #インシデント マネジメント_findy プレモーテム 14 最初に同期的にオンラインで口頭で対応方針のすり合わせをします。 リモートワークであっても、Slack
ハドルやGoogle Meetなどで関係者が集まり、 すり合わせをしています。 他にも、インシデントコマンダー(インシデントの情報集約や意思決定をする人)や インシデントの重大度を決めます。 インシデントの重大度によって、主担当となる組織や責任範囲が変わってくるため、 プレモーテムの段階で決めます。 例)以下のインシデントでは、主担当となる組織や責任範囲は全く違う - ユーザの利益に影響がない軽微なインシデント - 信頼失墜に関わるセキュリティインシデント
© 2012-2024 BASE, Inc. #インシデント マネジメント_findy BASEにおける インシデント対応フロー インシデント発生! 15
障害発生検知 プレモーテム 復旧対応 再発防止・ クロージング
復旧対応
© 2012-2024 BASE, Inc. #インシデント マネジメント_findy 復旧対応 17 インシデントコマンダーの指示のもと、それぞれ対応に当たります。 また、プレモーテムで決めたインシデントの重大度に対応したToDoリストが、
インシデントレポートに自動生成されます。 ToDoリストには、アクション、担当者、対応済 / 否のチェックボックスがあります。 アクション例) - インシデントレポートを作成する、インシデントコマンダーを決める - ユーザ告知の範囲や内容を決める、告知する、ヘルプページを作成する - 復旧対応を実施する、関係者を召集して再発防止案を考える / 実施する など...
© 2012-2024 BASE, Inc. #インシデント マネジメント_findy BASEにおける インシデント対応フロー インシデント発生! 18
障害発生検知 プレモーテム 復旧対応 再発防止・ クロージング
再発防止・クロージング
© 2012-2024 BASE, Inc. #インシデント マネジメント_findy 再発防止・クロージング 20 再発防止策を考えて実施するため、ポストモーテムをやります。 すぐ決められそうだったらインシデントチャンネルにて、
しっかり話して決める必要があれば別途MTGでポストモーテムを行っています。 インシデントのクローズはCTOが行います。 インシデントレポートの記述が不十分だとクローズできないので、以下のような観点を 気にしながら記入します。 - インシデント発生〜終息までの時系列や、原因について不足なく書かれている - 暫定的でも復旧対応が完了している - 妥当な再発防止策を考えた上で、実施済みである
© 2012-2024 BASE, Inc. #インシデント マネジメント_findy ブログもぜひ! 21 - マルチステークホルダー時代の障害対応フロー
- https://devblog.thebase.in/entry/2023/05/29/170154 - インシデント対応入門 〜初動フェーズ編〜 - https://devblog.thebase.in/entry/2023/12/02/110000 - なぜ我々はsession.cookieを変更しなければならなかったのか - 過去に起きたインシデントのレポートを外部向けに公開したブログ - https://devblog.thebase.in/entry/2022/04/13/114714
© 2012-2024 BASE, Inc. #インシデント マネジメント_findy 最後に 22 フローの整備にあたり、有志で書かれた社内ドキュメントも参考にされました。 →02が書いた
インシデント対応入門 〜初動フェーズ編〜 もその1つ トップダウン・ボトムアップ両方のアプローチがあり、今に至っています。 インシデント対応だけでなく、フローの整備も全員でやっていきましょう!
© 2012-2024 BASE, Inc. #インシデント マネジメント_findy 最後に バックエンド エンジニア SRE
フロントエンド エンジニア セキュリティ エンジニア QA エンジニア データ エンジニア etc… We are hiring! https://binc.jp/jobs