Upgrade to Pro — share decks privately, control downloads, hide ads and more …

スムーズなインシデント対応を実現する仕組み化/Mechanism for smooth inc...

ワンキャリアTech
August 02, 2024
31

スムーズなインシデント対応を実現する仕組み化/Mechanism for smooth incident response

SREの渡邉が「成長企業に学ぶ!インシデントマネジメントのノウハウ」でLTをした際の資料となります。

イベントURL:
https://buysell-technologies.connpass.com/event/319994/

ワンキャリアTech

August 02, 2024
Tweet

More Decks by ワンキャリアTech

Transcript

  1. ONE CAREER Inc . Copyright © ONE CAREER Inc. All

    Rights Reserved. 自己紹介 Career 趣味 ひとこと 2 渡邉 美希パウラ SRE 2023/06 カナダの大学を卒業 2023/10~ ワンキャリアにSREとして新卒入社 ゲーム、音楽、スポーツ ブラジル生まれブラジル育ちのトリリンガルです
  2. Copyright © ONE CAREER Inc. 事業内容 4 1. キャリアデータとは、求職者の活動データ、企業の採用データの総称。 2.

    日本の人事部「HRアワード2020」にてプロフェッショナル部門(人材採用・雇用部門)で最優秀賞を受賞。 3. NewsPicks発表「【図解】20サービスを徹底比較。本当に役立つ「就活サイト」一覧より。 4. ProFuture株式会社/HR総研「HR総研×楽天みん就:2024年卒学生の就職活動動向調査 結果報告【就職活動編】」(https://www.hrpro.c o.jp/research_detail.php?r_no=360)より。 5. 2023年12月時点の実測値。 これまで可視化されていなかった「キャリアデータ1」を活用し、就職・採用の意思決定をサポート。 サービス一覧 5 4
  3. Copyright © ONE CAREER Inc. All Rights Reserved. 目次 5

    • はじめに • インシデント発生前 • インシデント発生時 • インシデント発生後 • 今後の展望
  4. Copyright © ONE CAREER Inc. All Rights Reserved. 目次 6

    • はじめに • インシデント発生前 • インシデント発生時 • インシデント発生後 • 今後の展望
  5. Copyright © ONE CAREER Inc. All Rights Reserved. インシデントマネジメントとは、インシデントの対応だけでなく 発生前の対策から発生後の振り返りまで含めた一連の活動のこと。

    インシデントマネジメントとは? 8 早期検知し 未然に防ぐ インシデントに 迅速に対応する 再発防止に向け 振り返る インシデント発生前と後も含めてインシデントマネジメント!
  6. Copyright © ONE CAREER Inc. All Rights Reserved. 目次 10

    • はじめに • インシデント発生前 • インシデント発生時 • インシデント発生後 • 今後の展望
  7. Copyright © ONE CAREER Inc. All Rights Reserved. 課題:インシデントや異常の検知、及び対応の着手に時間がかかる インシデント発生前における課題

    11 どのアラートが上がったら何をすれば 良いかわかりづらい 課題 打ち手 緊急度別でアラートを分けて それぞれの対応を明確化 アラートがトリガーする前に検知できる 異常を検知できていない 正常監視やSLO監視で異常 を早期検知する
  8. Copyright © ONE CAREER Inc. All Rights Reserved. 正常監視やSLO監視で異常を早期検知する 施策①:定常監視による早期検知

    12 Datadog SLO Dashboardを使うことで 期間別にエラーバジェットを管理 アラートも設定することでエラーバジェット の枯渇も検知可能
  9. Copyright © ONE CAREER Inc. All Rights Reserved. SLOを%で統一し、全指標の目標をわかりやすくした 施策①:定常監視による早期検知

    13 SLOの定義方法のTips • SLIは良いイベントにする ◦ 例:エラー率ではなく、正常なリクエストの割合にする • %で表現する:エラーバジェットが明確になりサービスが余裕かどうかわかる 30日間のエラー率が0.1%以下 30日間のp95ターゲットレスポン スタイムが1秒以下 30日間の正常なリクエストの割合 が99.9%以上 30日間のp95レイテンシーが1秒以 下である時間の割合が99%以上 Before After
  10. Copyright © ONE CAREER Inc. All Rights Reserved. 各プロダクトでインフラメトリクスをトリアージし、緊急度別でアラートを分岐 施策②:インフラアラートの運用を明確化

    15 外形監視 リソースの使用率 コンテナの死活監視 10 mins以内に対応 リアルタイムでユーザー 影響が出ているため 24 hrs以内に対応 必ずしもリアルタイムでユーザー影響が 出ているわけではないため
  11. Copyright © ONE CAREER Inc. All Rights Reserved. 目次 16

    • はじめに • インシデント発生前 • インシデント発生時 • インシデント発生後 • 今後の展望
  12. Copyright © ONE CAREER Inc. All Rights Reserved. 課題:インシデント発生時の対応ルールや手順が明確になっていない インシデント対応時においての課題

    17 誰が何をするべきなのか決まっていない がゆえに、対応が遅れる 課題 打ち手 障害対応フローを作成し、 サービス復旧作業の役割を明確化した 重大なインシデント発生時に ステークホルダーに対して 報告が迅速化できていない 障害レベルごとに コミュニケーションフローを作成し、 ステークホルダーの切り分けを実施
  13. Copyright © ONE CAREER Inc. All Rights Reserved. 復旧作業の役割と手順を明確化し、迅速にサービスを復旧できるようにした 施策①:障害対応フローの作成&サービス復旧作業の役割明確化

    18 インシデント 発生 関連メンバーに報告 サポーターからの報告をもとに 復旧作業の意思決定 メトリクスの確認 メトリクスについて コマンダーに報告 作業記録(インシデント発生〜サービス復旧まで) リリースを ロールバック アプリケーション サーバーやDBを増強 サービス復旧 水色:コマンダー(マネージャーレベルのプロダクト開発者) 黄色:サポーター(SREまたは関連プロダクトの開発者)
  14. Copyright © ONE CAREER Inc. All Rights Reserved. インシデント発生時の報告フローを明確化し、ステークホルダーとの コミュニケーションを円滑に保つ

    施策②:コミュニケーションフローの作成&ステークホルダーの切り分け 19 ✓他事業部とのコミュニケーションフロー徹底 ✓速報用のSlackWFの活用 ✓ 開発起因で発生したインシデントにおいて今まで明文化さ れていなかった他事情部との報告フローを整備 ✓ 速報として報告すべきことが分散しないために報告内容 をWF形式でフォーマット化するよう整備
  15. Copyright © ONE CAREER Inc. All Rights Reserved. 目次 20

    • はじめに • インシデント発生前 • インシデント発生時 • インシデント発生後 • 今後の展望
  16. Copyright © ONE CAREER Inc. All Rights Reserved. ポストモーテムを実施し、再発防止に向けて仕組みや体制を改善する インシデント後

    21 話していること • 発生原因の認識合わせ • 暫定、恒久対応の内容 • 再発防止策 • よかったことや改善点 など 人は責めずに、 みんなで仕組みや体制を改善する
  17. Copyright © ONE CAREER Inc. All Rights Reserved. 目次 22

    • はじめに • インシデント発生前 • インシデント発生時 • インシデント発生後 • 今後の展望
  18. Copyright © ONE CAREER Inc. All Rights Reserved. 今後の展望 23

    インシデント対応の属人化を防ぎ、全エンジニアが復旧作業を実施できるように • インシデント対応ができるエンジニアが限定されている • インシデント対応ができるエンジニアが不在の時のリスクが大きい 現状の課題 • インシデント対応の訓練を定期的に実施する • インシデントの履歴を他チームに展開することでナレッジをシェアする ◦ 週次のニュースレター形式で発信するの良さそう 今後
  19. Copyright © ONE CAREER Inc. All Rights Reserved. ワンキャリアでは、インシデント発生前から発生後にわたって インシデントマネジメントの仕組み作りを促進している

    まとめ 24 インシデント発生前 → 緊急度別にアラートを分岐、正常監視やSLO監視で異常を早期検知 インシデント発生時 → コミュニケーションフロー、復旧フローで役割と手順を明確化 インシデント発生後 → 再発防止のためにポストモーテムを実施 今後の展望 → インシデント対応を実施できるエンジニアを増やす