$30 off During Our Annual Pro Sale. View Details »

インシデント対応を改善しよう/2024 TechFeed Experts Night 17

tjun
April 26, 2023

インシデント対応を改善しよう/2024 TechFeed Experts Night 17

2024/04/26に開催されるTechFeed Experts Night#17 〜 事例で学ぶSRE 〜 ツール、プラクティスから組織づくりまで の発表資料です。

https://techfeed.io/events/techfeed-experts-night-17

tjun

April 26, 2023
Tweet

More Decks by tjun

Other Decks in Programming

Transcript

  1. インシデント対応を改善しよう
    2024/04/26
    TechFeed Experts Night#17
    Merpay/Mercoin SRE
    @tjun
    Junichiro Takagi https://speakerdeck.com/tjun/2024-techfeed-experts-night-17

    View Slide

  2. 「インシデント対応やってますか?」

    View Slide

  3. 今日のテーマ
    インシデント対応の改善
    ● できればやりたくない、でもSREをやるなら避けられない
    ● どうすれば、よりよいインシデント対応ができるか、
    どうすれば、インシデントを減らすことができるか
    タイトルは「インシデント対応を改善しよう」ですが、
    インシデント対応+ インシデント管理の改善の話となっています。

    View Slide

  4. 自己紹介
    @tjun
    Merpay SRE
    ├ Engineering Manager
    └ Tech Lead
    2018年 Merpay入社
    2019年 Merpayリリース
    2023年 Mercoinリリース
    金融系のサービスのSREを5年近くやっています
    SRE team: Merpay/Mercoinのサービスを見る合計12名のチーム

    View Slide

  5. はじめに
    インシデントとは
    予期せず提供しているサービスが利用できない状態になったり、
    期待している機能が提供できない状態
    インシデント対応 とは
    インシデントを解決・管理するための組織的なしくみ。
    問題を解決するだけでなく、被害を減らしたり解決までの時間やコストを減らす
    取り組みも含まれる。

    View Slide

  6. インシデント対応の改善
    改善の目的
    ● インシデントの数を減らす(再発防止)
    ● インシデントの影響を減らす(早く解決する)
    改善のためのアクション
    1. インシデントを管理する
    2. 恒久対応の決定と実施
    3. 計測と分析
    4. 組織への共有

    View Slide

  7. インシデント対応後によくある問題
    振り返りが行われない
    ● とりあえず問題が解決し、再発もしないので、日々の業務に
    戻ってしまう
    再発防止策は決まったが、対応されない
    ● 振り返りを行い、再発防止策が決まってチケットも作ったが、優
    先度が上がらず放置されてしまう

    View Slide

  8. 0: インシデント対応の改善のために重要なこと
    インシデントの振り返り(ポストモーテム)を行う
    チームで振り返りを行い、以下の情報をインシデントレポートに記録して
    おく
    ○ タイムライン
    ○ インシデントの影響
    ○ 発生原因
    ○ 解決方法と再発防止案・改善案
    ○ うまくできたこと、だめだったこと

    View Slide

  9. 1: インシデントを管理する
    各インシデントが適切に対応されているか、そのステータスを管理し
    ます
    インシデントステータスの例
    ● 対応中
    ● 復旧済み
    ● 振り返り済み
    これによって振り返りが実施されていないインシデントに対して振り
    返りを促したり、アクションをすることができます
    インシデント数 振り返り未完了 恒久対応未完了
    インシデントステータスの例
    ● 調査中
    ● 復旧済み
    ● 振り返り済み
    ● 恒久対応完了

    View Slide

  10. 2: インシデントの恒久対応の実施
    インシデントの振り返りで、恒久対応について決定します。
    恒久対応には以下のようなものがあります
    ● 再発防止のための仕組み
    ● 同様のインシデント対応を改善する仕組み
    ○ 監視設定の強化
    ○ 対応方法のドキュメント化
    インシデントレポートをマネージャーやSRE、ITRiskチームが
    レビューして、これらの対応が十分かどうか、対応がちゃんと実施
    されているか確認しています

    View Slide

  11. 3−1: インシデント対応を計測する
    振り返りにおいて、インシデントのタイムラインを記録します
    ● 発生・検知・対応開始・対応完了・復旧のそれぞれの時刻
    MTTRなどの指標を使って、改善目標を決めることができます
    インシデント発生
    サービスへの影響が
    発生
    対応開始
    アラートへのAckなど、
    対応の開始
    対応完了
    暫定対応が完了
    復旧
    サービスへの影響が
    解消
    検知
    監視によるアラート発

    View Slide

  12. 3−2: インシデントを分析する
    振り返りにおいて、インシデントの分類を行います
    あとからインシデントの情報を集計・分析することで、組織として改
    善すべき課題と優先度を決めることができます
    分類項目の例
    ● Severity(深刻度)
    ● 発生原因のカテゴリ
    ○ コードの変更
    ○ オペレーションのミス
    ○ クラウドの障害
    ● 担当チーム
    ● 影響を受けた機能
    TypeA TypeB TypeC

    View Slide

  13. 4: インシデント対応の組織への共有
    インシデント対応の経験は、改善のチャンス
    インシデント対応を組織に共有することで、他のチームでも同様のインシデント
    を防いだり、素早く対応できることが期待できます
    メルペイでの取り組み
    ● インシデント共有会の実施
    ● インシデントサマリレポートの共有
    詳しくは 「メルペイにおけるインシデントマネジメントとナレッジシェア」という blog記事にあります

    View Slide

  14. まとめ
    ● インシデント対応を改善するためには、振り返り
    (ポストモーテム)が重要です
    ● 適切に振り返りを行い、次の改善に活かすことで、インシデントを減ら
    したり、よりよい対応ができるようになります
    ● SREだけでなく、エンジニア組織やその他の組織も巻き込んで、インシ
    デント対応を改善する文化を作っていきましょう

    View Slide

  15. おまけ: インシデント対応ツールの導入
    インシデントの対応・管理・分析等に便利なツールもあります
    ● Blameless
    ● incident.io
    ● PagerDuty
    ● Rootly
    ● Waroom
    まずはSpreadsheetやJira, GitHub IssueとGoogle Docsなどでも始
    められます

    View Slide