インシデント対応を改善しよう/2024 TechFeed Experts Night 17

Slide 1

Slide 1 text

インシデント対応を改善しよう 2024/04/26 TechFeed Experts Night#17 Merpay/Mercoin SRE @tjun Junichiro Takagi https://speakerdeck.com/tjun/2024-techfeed-experts-night-17

Slide 2

Slide 2 text

「インシデント対応やってますか？」

Slide 3

Slide 3 text

今日のテーマインシデント対応の改善 ● できればやりたくない、でもSREをやるなら避けられない ● どうすれば、よりよいインシデント対応ができるか、どうすれば、インシデントを減らすことができるかタイトルは「インシデント対応を改善しよう」ですが、インシデント対応+ インシデント管理の改善の話となっています。

Slide 4

Slide 4 text

自己紹介 @tjun Merpay SRE ├ Engineering Manager └ Tech Lead 2018年 Merpay入社 2019年 Merpayリリース 2023年 Mercoinリリース金融系のサービスのSREを5年近くやっています SRE team: Merpay/Mercoinのサービスを見る合計12名のチーム

Slide 5

Slide 5 text

はじめにインシデントとは予期せず提供しているサービスが利用できない状態になったり、期待している機能が提供できない状態インシデント対応とはインシデントを解決・管理するための組織的なしくみ。問題を解決するだけでなく、被害を減らしたり解決までの時間やコストを減らす取り組みも含まれる。

Slide 6

Slide 6 text

インシデント対応の改善改善の目的 ● インシデントの数を減らす（再発防止） ● インシデントの影響を減らす（早く解決する）改善のためのアクション 1. インシデントを管理する 2. 恒久対応の決定と実施 3. 計測と分析 4. 組織への共有

Slide 7

Slide 7 text

インシデント対応後によくある問題振り返りが行われない ● とりあえず問題が解決し、再発もしないので、日々の業務に戻ってしまう再発防止策は決まったが、対応されない ● 振り返りを行い、再発防止策が決まってチケットも作ったが、優先度が上がらず放置されてしまう

Slide 8

Slide 8 text

０: インシデント対応の改善のために重要なことインシデントの振り返り（ポストモーテム）を行うチームで振り返りを行い、以下の情報をインシデントレポートに記録しておく ○ タイムライン ○ インシデントの影響 ○ 発生原因 ○ 解決方法と再発防止案・改善案 ○ うまくできたこと、だめだったこと

Slide 9

Slide 9 text

１: インシデントを管理する各インシデントが適切に対応されているか、そのステータスを管理しますインシデントステータスの例 ● 対応中 ● 復旧済み ● 振り返り済みこれによって振り返りが実施されていないインシデントに対して振り返りを促したり、アクションをすることができますインシデント数振り返り未完了恒久対応未完了インシデントステータスの例 ● 調査中 ● 復旧済み ● 振り返り済み ● 恒久対応完了

Slide 10

Slide 10 text

２: インシデントの恒久対応の実施インシデントの振り返りで、恒久対応について決定します。恒久対応には以下のようなものがあります ● 再発防止のための仕組み ● 同様のインシデント対応を改善する仕組み ○ 監視設定の強化 ○ 対応方法のドキュメント化インシデントレポートをマネージャーやSRE、ITRiskチームがレビューして、これらの対応が十分かどうか、対応がちゃんと実施されているか確認しています

Slide 11

Slide 11 text

３−１: インシデント対応を計測する振り返りにおいて、インシデントのタイムラインを記録します ● 発生・検知・対応開始・対応完了・復旧のそれぞれの時刻 MTTRなどの指標を使って、改善目標を決めることができますインシデント発生サービスへの影響が発生対応開始アラートへのAckなど、対応の開始対応完了暫定対応が完了復旧サービスへの影響が解消検知監視によるアラート発生

Slide 12

Slide 12 text

３−２: インシデントを分析する振り返りにおいて、インシデントの分類を行いますあとからインシデントの情報を集計・分析することで、組織として改善すべき課題と優先度を決めることができます分類項目の例 ● Severity（深刻度） ● 発生原因のカテゴリ ○ コードの変更 ○ オペレーションのミス ○ クラウドの障害 ● 担当チーム ● 影響を受けた機能 TypeA TypeB TypeC

Slide 13

Slide 13 text

４: インシデント対応の組織への共有インシデント対応の経験は、改善のチャンスインシデント対応を組織に共有することで、他のチームでも同様のインシデントを防いだり、素早く対応できることが期待できますメルペイでの取り組み ● インシデント共有会の実施 ● インシデントサマリレポートの共有詳しくは「メルペイにおけるインシデントマネジメントとナレッジシェア」という blog記事にあります

Slide 14

Slide 14 text

まとめ ● インシデント対応を改善するためには、振り返り（ポストモーテム）が重要です ● 適切に振り返りを行い、次の改善に活かすことで、インシデントを減らしたり、よりよい対応ができるようになります ● SREだけでなく、エンジニア組織やその他の組織も巻き込んで、インシデント対応を改善する文化を作っていきましょう

Slide 15

Slide 15 text

おまけ: インシデント対応ツールの導入インシデントの対応・管理・分析等に便利なツールもあります ● Blameless ● incident.io ● PagerDuty ● Rootly ● Waroom まずはSpreadsheetやJira, GitHub IssueとGoogle Docsなどでも始められます