Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
CREから学ぶ障害対応術_暫定対応と恒久対応
Search
Sponsored
·
Your Podcast. Everywhere. Effortlessly.
Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
→
miyamu
September 25, 2025
0
400
CREから学ぶ障害対応術_暫定対応と恒久対応
miyamu
September 25, 2025
Tweet
Share
More Decks by miyamu
See All by miyamu
月間数億レコードのアクセスログ基盤を無停止・低コストでAWS移行せよ!アプリケーションエンジニアのSREチャレンジ💪
miyamu
0
1.2k
20250514_AI 時代に備えよ!Markdown で発表スライドを作る技術
miyamu
0
1.8k
10年もののアプリケーションを運用・開発するアプリケーションエンジニアのDatadog活用術
miyamu
0
230
Featured
See All Featured
SEO Brein meetup: CTRL+C is not how to scale international SEO
lindahogenes
0
2.4k
エンジニアに許された特別な時間の終わり
watany
106
240k
WCS-LA-2024
lcolladotor
0
470
How To Stay Up To Date on Web Technology
chriscoyier
790
250k
Documentation Writing (for coders)
carmenintech
77
5.3k
Information Architects: The Missing Link in Design Systems
soysaucechin
0
810
Scaling GitHub
holman
464
140k
Helping Users Find Their Own Way: Creating Modern Search Experiences
danielanewman
31
3.1k
Visual Storytelling: How to be a Superhuman Communicator
reverentgeek
2
460
How Fast Is Fast Enough? [PerfNow 2025]
tammyeverts
3
470
Introduction to Domain-Driven Design and Collaborative software design
baasie
1
620
Sharpening the Axe: The Primacy of Toolmaking
bcantrill
46
2.7k
Transcript
CRE から学ぶ障害対応術 〜暫定対応と恒久対応〜 マネーフォワードビジネスカンパニーERP開発本部・福岡第一開発部 Technical Lead 宮村 紅葉 / Miyamura
Koyo
自己紹介 2
自己紹介 miyamu / 宮村紅葉 @KoyoMiyamura (X) koyo-miyamura (GitHub) 推しのプログラミング言語 Elixir
出身 熊本 経歴 2019年4月 面白法人カヤックに新卒入社 2021年9月 マネーフォワード福岡拠点ガーディアングループ(CRE) 2024年12月 クラウド経費テックリード これまで対応してきた障害は大小合わせると100は軽く超えています笑 3
障害対応でやりがち なこと 4
時間のかかる「恒久対応」から始めてしまう! 5
しかしこれではユーザーは困ってしまう! 6
Q. ユーザーが本質的に求めていることは? 7
A. とにかくいつも通り使わせてほしい! 8
障害対応において 大切なこと 9
暫定対応 -> 恒久対応 まずはとにかく止血をする(= 暫定対応) Datadog などでメトリクスを確認 / ログ収集 メトリクス・ログからユーザーへの影響を逆算して整理
なるべくビジネスモデルも踏まえて考える 例: エンタープライズユーザーへのインパクト ユーザー・ビジネスへの影響を最小限にする迅速な対応を優先 例: 一時的にバッチ処理を止める・サーバー台数を倍増する アンチパターンにこだらない その後にやっと恒久対応 Postmortem の実施 システム不具合を修正 ログ・メトリクスの拡充 10
暫定対応と恒久対応の順を逆にしてはいけない エンジニアは問題を見つけると解決したくなる しかし障害対応において第一に必要なのは「解決」ではなく「解消」 どうしても「これもっといいやり方あるんじゃない」とか思いがち エンジニアとして根本的な問題解決したい気持ちをグッと抑えて、泥臭くてもいい から、とにかくユーザーの不利益を最小限にしよう 11
CRE の経験は障害対応に活きる 普段から CS / カスタマーサクセス などの人々と会話する 障害時に、何を優先すべきかをクイックに聞ける CRE の経験によりユーザー目線を獲得できる
障害に困っているユーザーは必ずしも100%の解決策を求めていない 恒久対応時により幅広いアイデアが出る ユーザーがよく使う機能により重点的にログを仕込むなど 12
まとめ 13
まとめ システム障害でまず大事なのは恒久対応ではなく「暫定対応」 顧客ありきのシステム。ユーザーが一番不利益を被らないようにすることが大 事! CRE 経験は障害対応に活きる! 14