Upgrade to PRO for Only $50/Year—Limited-Time Offer! 🔥
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
CREから学ぶ障害対応術_暫定対応と恒久対応
Search
miyamu
September 25, 2025
0
330
CREから学ぶ障害対応術_暫定対応と恒久対応
miyamu
September 25, 2025
Tweet
Share
More Decks by miyamu
See All by miyamu
20250514_AI 時代に備えよ!Markdown で発表スライドを作る技術
miyamu
0
1.7k
10年もののアプリケーションを運用・開発するアプリケーションエンジニアのDatadog活用術
miyamu
0
210
Featured
See All Featured
Designing for Performance
lara
610
69k
Have SEOs Ruined the Internet? - User Awareness of SEO in 2025
akashhashmi
0
200
<Decoding/> the Language of Devs - We Love SEO 2024
nikkihalliwell
0
100
Building Adaptive Systems
keathley
44
2.9k
A Tale of Four Properties
chriscoyier
162
23k
The Impact of AI in SEO - AI Overviews June 2024 Edition
aleyda
5
680
My Coaching Mixtape
mlcsv
0
13
Thoughts on Productivity
jonyablonski
73
5k
Beyond borders and beyond the search box: How to win the global "messy middle" with AI-driven SEO
davidcarrasco
0
22
Creating an realtime collaboration tool: Agile Flush - .NET Oxford
marcduiker
35
2.3k
KATA
mclloyd
PRO
33
15k
10 Git Anti Patterns You Should be Aware of
lemiorhan
PRO
659
61k
Transcript
CRE から学ぶ障害対応術 〜暫定対応と恒久対応〜 マネーフォワードビジネスカンパニーERP開発本部・福岡第一開発部 Technical Lead 宮村 紅葉 / Miyamura
Koyo
自己紹介 2
自己紹介 miyamu / 宮村紅葉 @KoyoMiyamura (X) koyo-miyamura (GitHub) 推しのプログラミング言語 Elixir
出身 熊本 経歴 2019年4月 面白法人カヤックに新卒入社 2021年9月 マネーフォワード福岡拠点ガーディアングループ(CRE) 2024年12月 クラウド経費テックリード これまで対応してきた障害は大小合わせると100は軽く超えています笑 3
障害対応でやりがち なこと 4
時間のかかる「恒久対応」から始めてしまう! 5
しかしこれではユーザーは困ってしまう! 6
Q. ユーザーが本質的に求めていることは? 7
A. とにかくいつも通り使わせてほしい! 8
障害対応において 大切なこと 9
暫定対応 -> 恒久対応 まずはとにかく止血をする(= 暫定対応) Datadog などでメトリクスを確認 / ログ収集 メトリクス・ログからユーザーへの影響を逆算して整理
なるべくビジネスモデルも踏まえて考える 例: エンタープライズユーザーへのインパクト ユーザー・ビジネスへの影響を最小限にする迅速な対応を優先 例: 一時的にバッチ処理を止める・サーバー台数を倍増する アンチパターンにこだらない その後にやっと恒久対応 Postmortem の実施 システム不具合を修正 ログ・メトリクスの拡充 10
暫定対応と恒久対応の順を逆にしてはいけない エンジニアは問題を見つけると解決したくなる しかし障害対応において第一に必要なのは「解決」ではなく「解消」 どうしても「これもっといいやり方あるんじゃない」とか思いがち エンジニアとして根本的な問題解決したい気持ちをグッと抑えて、泥臭くてもいい から、とにかくユーザーの不利益を最小限にしよう 11
CRE の経験は障害対応に活きる 普段から CS / カスタマーサクセス などの人々と会話する 障害時に、何を優先すべきかをクイックに聞ける CRE の経験によりユーザー目線を獲得できる
障害に困っているユーザーは必ずしも100%の解決策を求めていない 恒久対応時により幅広いアイデアが出る ユーザーがよく使う機能により重点的にログを仕込むなど 12
まとめ 13
まとめ システム障害でまず大事なのは恒久対応ではなく「暫定対応」 顧客ありきのシステム。ユーザーが一番不利益を被らないようにすることが大 事! CRE 経験は障害対応に活きる! 14