Slide 1

Slide 1 text

インシデント対応を改善しよう 2024/04/26 TechFeed Experts Night#17 Merpay/Mercoin SRE @tjun Junichiro Takagi https://speakerdeck.com/tjun/2024-techfeed-experts-night-17

Slide 2

Slide 2 text

「インシデント対応やってますか?」

Slide 3

Slide 3 text

今日のテーマ インシデント対応の改善 ● できればやりたくない、でもSREをやるなら避けられない ● どうすれば、よりよいインシデント対応ができるか、 どうすれば、インシデントを減らすことができるか タイトルは「インシデント対応を改善しよう」ですが、 インシデント対応+ インシデント管理の改善の話となっています。

Slide 4

Slide 4 text

自己紹介 @tjun Merpay SRE ├ Engineering Manager └ Tech Lead 2018年 Merpay入社 2019年 Merpayリリース 2023年 Mercoinリリース 金融系のサービスのSREを5年近くやっています SRE team: Merpay/Mercoinのサービスを見る合計12名のチーム

Slide 5

Slide 5 text

はじめに インシデントとは 予期せず提供しているサービスが利用できない状態になったり、 期待している機能が提供できない状態 インシデント対応 とは インシデントを解決・管理するための組織的なしくみ。 問題を解決するだけでなく、被害を減らしたり解決までの時間やコストを減らす 取り組みも含まれる。

Slide 6

Slide 6 text

インシデント対応の改善 改善の目的 ● インシデントの数を減らす(再発防止) ● インシデントの影響を減らす(早く解決する) 改善のためのアクション 1. インシデントを管理する 2. 恒久対応の決定と実施 3. 計測と分析 4. 組織への共有

Slide 7

Slide 7 text

インシデント対応後によくある問題 振り返りが行われない ● とりあえず問題が解決し、再発もしないので、日々の業務に 戻ってしまう 再発防止策は決まったが、対応されない ● 振り返りを行い、再発防止策が決まってチケットも作ったが、優 先度が上がらず放置されてしまう

Slide 8

Slide 8 text

0: インシデント対応の改善のために重要なこと インシデントの振り返り(ポストモーテム)を行う チームで振り返りを行い、以下の情報をインシデントレポートに記録して おく ○ タイムライン ○ インシデントの影響 ○ 発生原因 ○ 解決方法と再発防止案・改善案 ○ うまくできたこと、だめだったこと

Slide 9

Slide 9 text

1: インシデントを管理する 各インシデントが適切に対応されているか、そのステータスを管理し ます インシデントステータスの例 ● 対応中 ● 復旧済み ● 振り返り済み これによって振り返りが実施されていないインシデントに対して振り 返りを促したり、アクションをすることができます インシデント数 振り返り未完了 恒久対応未完了 インシデントステータスの例 ● 調査中 ● 復旧済み ● 振り返り済み ● 恒久対応完了

Slide 10

Slide 10 text

2: インシデントの恒久対応の実施 インシデントの振り返りで、恒久対応について決定します。 恒久対応には以下のようなものがあります ● 再発防止のための仕組み ● 同様のインシデント対応を改善する仕組み ○ 監視設定の強化 ○ 対応方法のドキュメント化 インシデントレポートをマネージャーやSRE、ITRiskチームが レビューして、これらの対応が十分かどうか、対応がちゃんと実施 されているか確認しています

Slide 11

Slide 11 text

3−1: インシデント対応を計測する 振り返りにおいて、インシデントのタイムラインを記録します ● 発生・検知・対応開始・対応完了・復旧のそれぞれの時刻 MTTRなどの指標を使って、改善目標を決めることができます インシデント発生 サービスへの影響が 発生 対応開始 アラートへのAckなど、 対応の開始 対応完了 暫定対応が完了 復旧 サービスへの影響が 解消 検知 監視によるアラート発 生

Slide 12

Slide 12 text

3−2: インシデントを分析する 振り返りにおいて、インシデントの分類を行います あとからインシデントの情報を集計・分析することで、組織として改 善すべき課題と優先度を決めることができます 分類項目の例 ● Severity(深刻度) ● 発生原因のカテゴリ ○ コードの変更 ○ オペレーションのミス ○ クラウドの障害 ● 担当チーム ● 影響を受けた機能 TypeA TypeB TypeC

Slide 13

Slide 13 text

4: インシデント対応の組織への共有 インシデント対応の経験は、改善のチャンス インシデント対応を組織に共有することで、他のチームでも同様のインシデント を防いだり、素早く対応できることが期待できます メルペイでの取り組み ● インシデント共有会の実施 ● インシデントサマリレポートの共有 詳しくは 「メルペイにおけるインシデントマネジメントとナレッジシェア」という blog記事にあります

Slide 14

Slide 14 text

まとめ ● インシデント対応を改善するためには、振り返り (ポストモーテム)が重要です ● 適切に振り返りを行い、次の改善に活かすことで、インシデントを減ら したり、よりよい対応ができるようになります ● SREだけでなく、エンジニア組織やその他の組織も巻き込んで、インシ デント対応を改善する文化を作っていきましょう

Slide 15

Slide 15 text

おまけ: インシデント対応ツールの導入 インシデントの対応・管理・分析等に便利なツールもあります ● Blameless ● incident.io ● PagerDuty ● Rootly ● Waroom まずはSpreadsheetやJira, GitHub IssueとGoogle Docsなどでも始 められます