2024/04/26に開催されるTechFeed Experts Night#17 〜 事例で学ぶSRE 〜 ツール、プラクティスから組織づくりまで の発表資料です。
https://techfeed.io/events/techfeed-experts-night-17
インシデント対応を改善しよう2024/04/26TechFeed Experts Night#17Merpay/Mercoin SRE@tjunJunichiro Takagi https://speakerdeck.com/tjun/2024-techfeed-experts-night-17
View Slide
「インシデント対応やってますか?」
今日のテーマインシデント対応の改善● できればやりたくない、でもSREをやるなら避けられない● どうすれば、よりよいインシデント対応ができるか、どうすれば、インシデントを減らすことができるかタイトルは「インシデント対応を改善しよう」ですが、インシデント対応+ インシデント管理の改善の話となっています。
自己紹介@tjunMerpay SRE├ Engineering Manager└ Tech Lead2018年 Merpay入社2019年 Merpayリリース2023年 Mercoinリリース金融系のサービスのSREを5年近くやっていますSRE team: Merpay/Mercoinのサービスを見る合計12名のチーム
はじめにインシデントとは予期せず提供しているサービスが利用できない状態になったり、期待している機能が提供できない状態インシデント対応 とはインシデントを解決・管理するための組織的なしくみ。問題を解決するだけでなく、被害を減らしたり解決までの時間やコストを減らす取り組みも含まれる。
インシデント対応の改善改善の目的● インシデントの数を減らす(再発防止)● インシデントの影響を減らす(早く解決する)改善のためのアクション1. インシデントを管理する2. 恒久対応の決定と実施3. 計測と分析4. 組織への共有
インシデント対応後によくある問題振り返りが行われない● とりあえず問題が解決し、再発もしないので、日々の業務に戻ってしまう再発防止策は決まったが、対応されない● 振り返りを行い、再発防止策が決まってチケットも作ったが、優先度が上がらず放置されてしまう
0: インシデント対応の改善のために重要なことインシデントの振り返り(ポストモーテム)を行うチームで振り返りを行い、以下の情報をインシデントレポートに記録しておく○ タイムライン○ インシデントの影響○ 発生原因○ 解決方法と再発防止案・改善案○ うまくできたこと、だめだったこと
1: インシデントを管理する各インシデントが適切に対応されているか、そのステータスを管理しますインシデントステータスの例● 対応中● 復旧済み● 振り返り済みこれによって振り返りが実施されていないインシデントに対して振り返りを促したり、アクションをすることができますインシデント数 振り返り未完了 恒久対応未完了インシデントステータスの例● 調査中● 復旧済み● 振り返り済み● 恒久対応完了
2: インシデントの恒久対応の実施インシデントの振り返りで、恒久対応について決定します。恒久対応には以下のようなものがあります● 再発防止のための仕組み● 同様のインシデント対応を改善する仕組み○ 監視設定の強化○ 対応方法のドキュメント化インシデントレポートをマネージャーやSRE、ITRiskチームがレビューして、これらの対応が十分かどうか、対応がちゃんと実施されているか確認しています
3−1: インシデント対応を計測する振り返りにおいて、インシデントのタイムラインを記録します● 発生・検知・対応開始・対応完了・復旧のそれぞれの時刻MTTRなどの指標を使って、改善目標を決めることができますインシデント発生サービスへの影響が発生対応開始アラートへのAckなど、対応の開始対応完了暫定対応が完了復旧サービスへの影響が解消検知監視によるアラート発生
3−2: インシデントを分析する振り返りにおいて、インシデントの分類を行いますあとからインシデントの情報を集計・分析することで、組織として改善すべき課題と優先度を決めることができます分類項目の例● Severity(深刻度)● 発生原因のカテゴリ○ コードの変更○ オペレーションのミス○ クラウドの障害● 担当チーム● 影響を受けた機能TypeA TypeB TypeC
4: インシデント対応の組織への共有インシデント対応の経験は、改善のチャンスインシデント対応を組織に共有することで、他のチームでも同様のインシデントを防いだり、素早く対応できることが期待できますメルペイでの取り組み● インシデント共有会の実施● インシデントサマリレポートの共有詳しくは 「メルペイにおけるインシデントマネジメントとナレッジシェア」という blog記事にあります
まとめ● インシデント対応を改善するためには、振り返り(ポストモーテム)が重要です● 適切に振り返りを行い、次の改善に活かすことで、インシデントを減らしたり、よりよい対応ができるようになります● SREだけでなく、エンジニア組織やその他の組織も巻き込んで、インシデント対応を改善する文化を作っていきましょう
おまけ: インシデント対応ツールの導入インシデントの対応・管理・分析等に便利なツールもあります● Blameless● incident.io● PagerDuty● Rootly● WaroomまずはSpreadsheetやJira, GitHub IssueとGoogle Docsなどでも始められます