Lock in $30 Savings on PRO—Offer Ends Soon! ⏳
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
BASEにおける インシデント対応フローと工夫
Search
02
February 21, 2024
Programming
0
1.2k
BASEにおける インシデント対応フローと工夫
インシデントマネジメント 事態収拾のための取り組みに迫る Lunch LT の登壇で使用したスライドです
https://findy.connpass.com/event/309400/
02
February 21, 2024
Tweet
Share
More Decks by 02
See All by 02
Amazon ECS Managed Instances が リリースされた!キャッチアップしよう!! / Let's catch up Amazon ECS Managed Instances
cocoeyes02
0
220
新しいPHP拡張モジュールインストール方法「PHP Installer for Extensions (PIE)」を使ってみよう!
cocoeyes02
0
950
PHP8.4におけるJITフレームワークIRと中間表現について理解を深める
cocoeyes02
1
1.1k
RemoveだらけのPHPUnit 12に備えよう
cocoeyes02
0
1.1k
PHP RFC: Deprecate implicitly nullable parameter types をサクッと話す
cocoeyes02
0
930
PHPUnit 11 概論
cocoeyes02
5
2.8k
Random\Randomizer クラスで日常のあれこれを解決しよう! / Random\Randomizer class solves familiar trouble
cocoeyes02
1
1.2k
AWS Lambdaから始める Devチームの小さなDevOps改善 〜QCDどれも諦めない運用を目指して〜 / Start to improving small DevOps with AWS Lambda by Dev Team
cocoeyes02
0
1.4k
PHPUnit 10 概論 / Introduction of PHPUnit 10
cocoeyes02
3
11k
Other Decks in Programming
See All in Programming
ZOZOにおけるAI活用の現在 ~モバイルアプリ開発でのAI活用状況と事例~
zozotech
PRO
7
3k
Rails Girls Sapporo 2ndの裏側―準備の日々から見えた、私が得たもの / SAPPORO ENGINEER BASE #11
lemonade_37
2
200
俺流レスポンシブコーディング 2025
tak_dcxi
1
2.1k
Evolving NEWT’s TypeScript Backend for the AI-Driven Era
xpromx
0
210
JEP 496 と JEP 497 から学ぶ耐量子計算機暗号入門 / Learning Post-Quantum Crypto Basics from JEP 496 & 497
mackey0225
2
510
connect-python: convenient protobuf RPC for Python
anuraaga
0
320
Building AI Agents with TypeScript #TSKaigiHokuriku
izumin5210
5
1.1k
Stay Hacker 〜九州で生まれ、Perlに出会い、コミュニティで育つ〜
pyama86
2
3k
MAP, Jigsaw, Code Golf 振り返り会 by 関東Kaggler会|Jigsaw 15th Solution
hasibirok0
0
170
dnx で実行できるコマンド、作ってみました
tomohisa
0
120
[堅牢.py #1] テストを書かない研究者に送る、最初にテストを書く実験コード入門 / Let's start your ML project by writing tests
shunk031
11
6.3k
「文字列→日付」の落とし穴 〜Ruby Date.parseの意外な挙動〜
sg4k0
0
330
Featured
See All Featured
Build your cross-platform service in a week with App Engine
jlugia
234
18k
KATA
mclloyd
PRO
32
15k
Imperfection Machines: The Place of Print at Facebook
scottboms
269
13k
The Success of Rails: Ensuring Growth for the Next 100 Years
eileencodes
46
7.8k
A Tale of Four Properties
chriscoyier
162
23k
Balancing Empowerment & Direction
lara
5
770
Become a Pro
speakerdeck
PRO
30
5.6k
Building Flexible Design Systems
yeseniaperezcruz
329
39k
Context Engineering - Making Every Token Count
addyosmani
9
440
10 Git Anti Patterns You Should be Aware of
lemiorhan
PRO
659
61k
What’s in a name? Adding method to the madness
productmarketing
PRO
24
3.8k
Responsive Adventures: Dirty Tricks From The Dark Corners of Front-End
smashingmag
253
22k
Transcript
インシデントマネジメント 事態収拾のための取り組みに迫る Lunch LT 2024/02/21 @02 BASEにおける インシデント対応フローと工夫
© 2012-2024 BASE, Inc. #インシデント マネジメント_findy BASE BANK チーム 02
大津 和槻 :@cocoeyes02 2021/02~ BASE, Inc. 自己紹介 登壇 執筆 登壇応援中!
© 2012-2024 BASE, Inc. #インシデント マネジメント_findy BASEとは? 3 コンセプト: 誰でも簡単に使える
ネットショップ作成サービス • 商品・注文管理 • ショップデザイン • 顧客情報管理 などを行うショップオーナー向け機能 + • 商品検索 • 決済・注文(カート) などを行う購入者(カスタマー)向け機能 ネットショップ作成サービス「BASE」
© 2012-2024 BASE, Inc. #インシデント マネジメント_findy 最初に全体のフローについて話し、 それから各工程の工夫を お話しします 4
今回のトークでは
BASEにおける インシデント対応フロー
© 2012-2024 BASE, Inc. #インシデント マネジメント_findy BASEにおける インシデント対応フロー インシデント発生! 6
障害発生検知 プレモーテム 復旧対応 再発防止・ クロージング
© 2012-2024 BASE, Inc. #インシデント マネジメント_findy BASEにおける インシデント対応フロー インシデント発生! 7
障害発生検知 プレモーテム 復旧対応 再発防止・ クロージング
障害発生検知
© 2012-2024 BASE, Inc. #インシデント マネジメント_findy 障害発生検知 9 インシデントが発生した時には、インシデントチャンネルを作成します。 情報集約のため、インシデントチャンネル内でインシデント対応のやり取りをします。
また、インシデントチャンネルを作成すると、 自動でインシデントチャンネルにinviteする社内Slack botがあります。 どんなインシデントが起こっているかリアルタイムで知りたい人が多かったため、誕生しま した。
© 2012-2024 BASE, Inc. #インシデント マネジメント_findy 障害発生検知 10 例) 2/5のインシデントチャンネルに
自動でinviteされている
© 2012-2024 BASE, Inc. #インシデント マネジメント_findy 障害発生検知 11 例) 2/5のインシデントチャンネルに
自動でinviteされている
© 2012-2024 BASE, Inc. #インシデント マネジメント_findy BASEにおける インシデント対応フロー インシデント発生! 12
障害発生検知 プレモーテム 復旧対応 再発防止・ クロージング
プレモーテム
© 2012-2024 BASE, Inc. #インシデント マネジメント_findy プレモーテム 14 最初に同期的にオンラインで口頭で対応方針のすり合わせをします。 リモートワークであっても、Slack
ハドルやGoogle Meetなどで関係者が集まり、 すり合わせをしています。 他にも、インシデントコマンダー(インシデントの情報集約や意思決定をする人)や インシデントの重大度を決めます。 インシデントの重大度によって、主担当となる組織や責任範囲が変わってくるため、 プレモーテムの段階で決めます。 例)以下のインシデントでは、主担当となる組織や責任範囲は全く違う - ユーザの利益に影響がない軽微なインシデント - 信頼失墜に関わるセキュリティインシデント
© 2012-2024 BASE, Inc. #インシデント マネジメント_findy BASEにおける インシデント対応フロー インシデント発生! 15
障害発生検知 プレモーテム 復旧対応 再発防止・ クロージング
復旧対応
© 2012-2024 BASE, Inc. #インシデント マネジメント_findy 復旧対応 17 インシデントコマンダーの指示のもと、それぞれ対応に当たります。 また、プレモーテムで決めたインシデントの重大度に対応したToDoリストが、
インシデントレポートに自動生成されます。 ToDoリストには、アクション、担当者、対応済 / 否のチェックボックスがあります。 アクション例) - インシデントレポートを作成する、インシデントコマンダーを決める - ユーザ告知の範囲や内容を決める、告知する、ヘルプページを作成する - 復旧対応を実施する、関係者を召集して再発防止案を考える / 実施する など...
© 2012-2024 BASE, Inc. #インシデント マネジメント_findy BASEにおける インシデント対応フロー インシデント発生! 18
障害発生検知 プレモーテム 復旧対応 再発防止・ クロージング
再発防止・クロージング
© 2012-2024 BASE, Inc. #インシデント マネジメント_findy 再発防止・クロージング 20 再発防止策を考えて実施するため、ポストモーテムをやります。 すぐ決められそうだったらインシデントチャンネルにて、
しっかり話して決める必要があれば別途MTGでポストモーテムを行っています。 インシデントのクローズはCTOが行います。 インシデントレポートの記述が不十分だとクローズできないので、以下のような観点を 気にしながら記入します。 - インシデント発生〜終息までの時系列や、原因について不足なく書かれている - 暫定的でも復旧対応が完了している - 妥当な再発防止策を考えた上で、実施済みである
© 2012-2024 BASE, Inc. #インシデント マネジメント_findy ブログもぜひ! 21 - マルチステークホルダー時代の障害対応フロー
- https://devblog.thebase.in/entry/2023/05/29/170154 - インシデント対応入門 〜初動フェーズ編〜 - https://devblog.thebase.in/entry/2023/12/02/110000 - なぜ我々はsession.cookieを変更しなければならなかったのか - 過去に起きたインシデントのレポートを外部向けに公開したブログ - https://devblog.thebase.in/entry/2022/04/13/114714
© 2012-2024 BASE, Inc. #インシデント マネジメント_findy 最後に 22 フローの整備にあたり、有志で書かれた社内ドキュメントも参考にされました。 →02が書いた
インシデント対応入門 〜初動フェーズ編〜 もその1つ トップダウン・ボトムアップ両方のアプローチがあり、今に至っています。 インシデント対応だけでなく、フローの整備も全員でやっていきましょう!
© 2012-2024 BASE, Inc. #インシデント マネジメント_findy 最後に バックエンド エンジニア SRE
フロントエンド エンジニア セキュリティ エンジニア QA エンジニア データ エンジニア etc… We are hiring! https://binc.jp/jobs