Slide 1

Slide 1 text

スムーズなインシデント対応を実現する 仕組み化 2024/06/11 株式会社ワンキャリア 渡邉 美希パウラ

Slide 2

Slide 2 text

ONE CAREER Inc . Copyright © ONE CAREER Inc. All Rights Reserved. 自己紹介 Career 趣味 ひとこと 2 渡邉 美希パウラ SRE 2023/06 カナダの大学を卒業 2023/10~ ワンキャリアにSREとして新卒入社 ゲーム、音楽、スポーツ ブラジル生まれブラジル育ちのトリリンガルです

Slide 3

Slide 3 text

人の数だけ、 キャリアをつくる。 MISSION

Slide 4

Slide 4 text

Copyright © ONE CAREER Inc. 事業内容 4 1. キャリアデータとは、求職者の活動データ、企業の採用データの総称。 2. 日本の人事部「HRアワード2020」にてプロフェッショナル部門(人材採用・雇用部門)で最優秀賞を受賞。 3. NewsPicks発表「【図解】20サービスを徹底比較。本当に役立つ「就活サイト」一覧より。 4. ProFuture株式会社/HR総研「HR総研×楽天みん就:2024年卒学生の就職活動動向調査 結果報告【就職活動編】」(https://www.hrpro.c o.jp/research_detail.php?r_no=360)より。 5. 2023年12月時点の実測値。 これまで可視化されていなかった「キャリアデータ1」を活用し、就職・採用の意思決定をサポート。 サービス一覧 5 4

Slide 5

Slide 5 text

Copyright © ONE CAREER Inc. All Rights Reserved. 目次 5 ● はじめに ● インシデント発生前 ● インシデント発生時 ● インシデント発生後 ● 今後の展望

Slide 6

Slide 6 text

Copyright © ONE CAREER Inc. All Rights Reserved. 目次 6 ● はじめに ● インシデント発生前 ● インシデント発生時 ● インシデント発生後 ● 今後の展望

Slide 7

Slide 7 text

Copyright © ONE CAREER Inc. All Rights Reserved. 7 「インシデントマネジメント」と 聞いて何を思い浮かべますか?

Slide 8

Slide 8 text

Copyright © ONE CAREER Inc. All Rights Reserved. インシデントマネジメントとは、インシデントの対応だけでなく 発生前の対策から発生後の振り返りまで含めた一連の活動のこと。 インシデントマネジメントとは? 8 早期検知し 未然に防ぐ インシデントに 迅速に対応する 再発防止に向け 振り返る インシデント発生前と後も含めてインシデントマネジメント!

Slide 9

Slide 9 text

Copyright © ONE CAREER Inc. All Rights Reserved. 9 ワンキャリアでは どんな仕組みを作っているのか?

Slide 10

Slide 10 text

Copyright © ONE CAREER Inc. All Rights Reserved. 目次 10 ● はじめに ● インシデント発生前 ● インシデント発生時 ● インシデント発生後 ● 今後の展望

Slide 11

Slide 11 text

Copyright © ONE CAREER Inc. All Rights Reserved. 課題:インシデントや異常の検知、及び対応の着手に時間がかかる インシデント発生前における課題 11 どのアラートが上がったら何をすれば 良いかわかりづらい 課題 打ち手 緊急度別でアラートを分けて それぞれの対応を明確化 アラートがトリガーする前に検知できる 異常を検知できていない 正常監視やSLO監視で異常 を早期検知する

Slide 12

Slide 12 text

Copyright © ONE CAREER Inc. All Rights Reserved. 正常監視やSLO監視で異常を早期検知する 施策①:定常監視による早期検知 12 Datadog SLO Dashboardを使うことで 期間別にエラーバジェットを管理 アラートも設定することでエラーバジェット の枯渇も検知可能

Slide 13

Slide 13 text

Copyright © ONE CAREER Inc. All Rights Reserved. SLOを%で統一し、全指標の目標をわかりやすくした 施策①:定常監視による早期検知 13 SLOの定義方法のTips ● SLIは良いイベントにする ○ 例:エラー率ではなく、正常なリクエストの割合にする ● %で表現する:エラーバジェットが明確になりサービスが余裕かどうかわかる 30日間のエラー率が0.1%以下 30日間のp95ターゲットレスポン スタイムが1秒以下 30日間の正常なリクエストの割合 が99.9%以上 30日間のp95レイテンシーが1秒以 下である時間の割合が99%以上 Before After

Slide 14

Slide 14 text

Copyright © ONE CAREER Inc. All Rights Reserved. DatadogとSlackの連携で定常監視業務を自動化して監視工数を抑える 施策①:定常監視による早期検知 14 Datadog Integrationsによる他サービス連携が容易 ChatOpsによるSLO監視自動化が実現

Slide 15

Slide 15 text

Copyright © ONE CAREER Inc. All Rights Reserved. 各プロダクトでインフラメトリクスをトリアージし、緊急度別でアラートを分岐 施策②:インフラアラートの運用を明確化 15 外形監視 リソースの使用率 コンテナの死活監視 10 mins以内に対応 リアルタイムでユーザー 影響が出ているため 24 hrs以内に対応 必ずしもリアルタイムでユーザー影響が 出ているわけではないため

Slide 16

Slide 16 text

Copyright © ONE CAREER Inc. All Rights Reserved. 目次 16 ● はじめに ● インシデント発生前 ● インシデント発生時 ● インシデント発生後 ● 今後の展望

Slide 17

Slide 17 text

Copyright © ONE CAREER Inc. All Rights Reserved. 課題:インシデント発生時の対応ルールや手順が明確になっていない インシデント対応時においての課題 17 誰が何をするべきなのか決まっていない がゆえに、対応が遅れる 課題 打ち手 障害対応フローを作成し、 サービス復旧作業の役割を明確化した 重大なインシデント発生時に ステークホルダーに対して 報告が迅速化できていない 障害レベルごとに コミュニケーションフローを作成し、 ステークホルダーの切り分けを実施

Slide 18

Slide 18 text

Copyright © ONE CAREER Inc. All Rights Reserved. 復旧作業の役割と手順を明確化し、迅速にサービスを復旧できるようにした 施策①:障害対応フローの作成&サービス復旧作業の役割明確化 18 インシデント 発生 関連メンバーに報告 サポーターからの報告をもとに 復旧作業の意思決定 メトリクスの確認 メトリクスについて コマンダーに報告 作業記録(インシデント発生〜サービス復旧まで) リリースを ロールバック アプリケーション サーバーやDBを増強 サービス復旧 水色:コマンダー(マネージャーレベルのプロダクト開発者) 黄色:サポーター(SREまたは関連プロダクトの開発者)

Slide 19

Slide 19 text

Copyright © ONE CAREER Inc. All Rights Reserved. インシデント発生時の報告フローを明確化し、ステークホルダーとの コミュニケーションを円滑に保つ 施策②:コミュニケーションフローの作成&ステークホルダーの切り分け 19 ✓他事業部とのコミュニケーションフロー徹底 ✓速報用のSlackWFの活用 ✓ 開発起因で発生したインシデントにおいて今まで明文化さ れていなかった他事情部との報告フローを整備 ✓ 速報として報告すべきことが分散しないために報告内容 をWF形式でフォーマット化するよう整備

Slide 20

Slide 20 text

Copyright © ONE CAREER Inc. All Rights Reserved. 目次 20 ● はじめに ● インシデント発生前 ● インシデント発生時 ● インシデント発生後 ● 今後の展望

Slide 21

Slide 21 text

Copyright © ONE CAREER Inc. All Rights Reserved. ポストモーテムを実施し、再発防止に向けて仕組みや体制を改善する インシデント後 21 話していること ● 発生原因の認識合わせ ● 暫定、恒久対応の内容 ● 再発防止策 ● よかったことや改善点 など 人は責めずに、 みんなで仕組みや体制を改善する

Slide 22

Slide 22 text

Copyright © ONE CAREER Inc. All Rights Reserved. 目次 22 ● はじめに ● インシデント発生前 ● インシデント発生時 ● インシデント発生後 ● 今後の展望

Slide 23

Slide 23 text

Copyright © ONE CAREER Inc. All Rights Reserved. 今後の展望 23 インシデント対応の属人化を防ぎ、全エンジニアが復旧作業を実施できるように ● インシデント対応ができるエンジニアが限定されている ● インシデント対応ができるエンジニアが不在の時のリスクが大きい 現状の課題 ● インシデント対応の訓練を定期的に実施する ● インシデントの履歴を他チームに展開することでナレッジをシェアする ○ 週次のニュースレター形式で発信するの良さそう 今後

Slide 24

Slide 24 text

Copyright © ONE CAREER Inc. All Rights Reserved. ワンキャリアでは、インシデント発生前から発生後にわたって インシデントマネジメントの仕組み作りを促進している まとめ 24 インシデント発生前 → 緊急度別にアラートを分岐、正常監視やSLO監視で異常を早期検知 インシデント発生時 → コミュニケーションフロー、復旧フローで役割と手順を明確化 インシデント発生後 → 再発防止のためにポストモーテムを実施 今後の展望 → インシデント対応を実施できるエンジニアを増やす

Slide 25

Slide 25 text

Copyright © ONE CAREER Inc. All Rights Reserved. X、EntranceBookで情報を発信中 🚀 興味のある方はぜひ!