$30 off During Our Annual Pro Sale. View Details »
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
CREから学ぶ障害対応術_暫定対応と恒久対応
Search
miyamu
September 25, 2025
0
310
CREから学ぶ障害対応術_暫定対応と恒久対応
miyamu
September 25, 2025
Tweet
Share
More Decks by miyamu
See All by miyamu
20250514_AI 時代に備えよ!Markdown で発表スライドを作る技術
miyamu
0
1.7k
10年もののアプリケーションを運用・開発するアプリケーションエンジニアのDatadog活用術
miyamu
0
200
Featured
See All Featured
Fight the Zombie Pattern Library - RWD Summit 2016
marcelosomers
234
17k
It's Worth the Effort
3n
187
29k
Fashionably flexible responsive web design (full day workshop)
malarkey
407
66k
Become a Pro
speakerdeck
PRO
30
5.7k
How to Create Impact in a Changing Tech Landscape [PerfNow 2023]
tammyeverts
55
3.1k
Let's Do A Bunch of Simple Stuff to Make Websites Faster
chriscoyier
508
140k
Rebuilding a faster, lazier Slack
samanthasiow
84
9.3k
Facilitating Awesome Meetings
lara
57
6.7k
Bootstrapping a Software Product
garrettdimon
PRO
307
120k
How To Stay Up To Date on Web Technology
chriscoyier
791
250k
Why Our Code Smells
bkeepers
PRO
340
57k
Helping Users Find Their Own Way: Creating Modern Search Experiences
danielanewman
31
3k
Transcript
CRE から学ぶ障害対応術 〜暫定対応と恒久対応〜 マネーフォワードビジネスカンパニーERP開発本部・福岡第一開発部 Technical Lead 宮村 紅葉 / Miyamura
Koyo
自己紹介 2
自己紹介 miyamu / 宮村紅葉 @KoyoMiyamura (X) koyo-miyamura (GitHub) 推しのプログラミング言語 Elixir
出身 熊本 経歴 2019年4月 面白法人カヤックに新卒入社 2021年9月 マネーフォワード福岡拠点ガーディアングループ(CRE) 2024年12月 クラウド経費テックリード これまで対応してきた障害は大小合わせると100は軽く超えています笑 3
障害対応でやりがち なこと 4
時間のかかる「恒久対応」から始めてしまう! 5
しかしこれではユーザーは困ってしまう! 6
Q. ユーザーが本質的に求めていることは? 7
A. とにかくいつも通り使わせてほしい! 8
障害対応において 大切なこと 9
暫定対応 -> 恒久対応 まずはとにかく止血をする(= 暫定対応) Datadog などでメトリクスを確認 / ログ収集 メトリクス・ログからユーザーへの影響を逆算して整理
なるべくビジネスモデルも踏まえて考える 例: エンタープライズユーザーへのインパクト ユーザー・ビジネスへの影響を最小限にする迅速な対応を優先 例: 一時的にバッチ処理を止める・サーバー台数を倍増する アンチパターンにこだらない その後にやっと恒久対応 Postmortem の実施 システム不具合を修正 ログ・メトリクスの拡充 10
暫定対応と恒久対応の順を逆にしてはいけない エンジニアは問題を見つけると解決したくなる しかし障害対応において第一に必要なのは「解決」ではなく「解消」 どうしても「これもっといいやり方あるんじゃない」とか思いがち エンジニアとして根本的な問題解決したい気持ちをグッと抑えて、泥臭くてもいい から、とにかくユーザーの不利益を最小限にしよう 11
CRE の経験は障害対応に活きる 普段から CS / カスタマーサクセス などの人々と会話する 障害時に、何を優先すべきかをクイックに聞ける CRE の経験によりユーザー目線を獲得できる
障害に困っているユーザーは必ずしも100%の解決策を求めていない 恒久対応時により幅広いアイデアが出る ユーザーがよく使う機能により重点的にログを仕込むなど 12
まとめ 13
まとめ システム障害でまず大事なのは恒久対応ではなく「暫定対応」 顧客ありきのシステム。ユーザーが一番不利益を被らないようにすることが大 事! CRE 経験は障害対応に活きる! 14