Link
Embed
Share
Beginning
This slide
Copy link URL
Copy link URL
Copy iframe embed code
Copy iframe embed code
Copy javascript embed code
Copy javascript embed code
Share
Tweet
Share
Tweet
Slide 1
Slide 1 text
株式会社ビズリーチ HRMOSプロダクト本部 プラットフォーム開発部 SREグループ MGR 阪口 透 悩ましきインシデント管理 ~ HRMOSの場合 ~
Slide 2
Slide 2 text
1 阪口 透 Toru Sakaguchi 自己紹介 出身地 福井県 趣味 ゲーム・麻雀 SRE歴 4年くらい 一言 SRE道は果てしない…
Slide 3
Slide 3 text
2 ● 復旧までの迅速な対応 ● サービスの継続性の確保 ● 影響の最小化 ● 原因の特定と再発防止 インシデント管理の目的 主な目的
Slide 4
Slide 4 text
3 ● プロセスの整備 ● ツールの導入 ● 定期的なトレーニングの実施 ● 定期的なレビューと改善 目的達成のためのプラクティス 大まかな分類
Slide 5
Slide 5 text
4 ● プロセスの整備 ● ツールの導入 ● 定期的なトレーニングの実施 ● 定期的なレビューと改善 今日のテーマ 大まかな分類
Slide 6
Slide 6 text
5 ● プロセスの整備 ● ツールの導入 ● 定期的なトレーニングの実施 ● 定期的なレビューと改善 今日のテーマ 大まかな分類 プロセスを整備していく前に「インシデント」を 明確に定義することが大事
Slide 7
Slide 7 text
6 • インシデントかどうかの判断がされず、その場の雰囲気で対応 したりする • 必要以上の人数で対応してしまい、見ているだけの人が出てい る • 止血よりも原因の特定、根本解決を優先してしまう • 確認や連絡が漏れたり認識齟齬が起きやすく、コミュニケーショ ンコストが高まる • etc… インシデント管理体制がないと…
Slide 8
Slide 8 text
7 ● インシデント対応プロセスですべきことは「インシデント」状態を 素早く脱すること ● 「インシデント」の状態が分からないままでは何をすべきかは決 まらない インシデント管理プロセスを考える前に 「インシデント」を定義することで、プロセス整備の方針が決まる つまり「インシデント」の状態を定義することが始めの一歩にな る
Slide 9
Slide 9 text
8 ● どういう事象を「インシデント」とするのかが不明 ● 「不具合」「障害」「バグ」などの言葉が乱立していて、人によって受け取り方 が様々 「インシデント」を明確に定義する よくある課題 「インシデント」と言われたら、関係者全員が 同じ状態をイメージできるようにしたい
Slide 10
Slide 10 text
9 リアルな現場の声 インシデント管理を整理する際に実施したヒアリングより
Slide 11
Slide 11 text
10 様々なインシデント定義 ChatGPT Atlassian 出典:https://www.atlassian.com/ja/incident-management
Slide 12
Slide 12 text
11 様々なインシデント定義 PagerDuty Incident.io (和訳:インシデントとは、ある程度の緊急性をもって、計画された仕事から離れるこ と。) 出典:https://www.pagerduty.co.jp/blog/ideal-way-to-respond-to-incidents 出典:https://incident.io/guide/foundations/defining-an-incident
Slide 13
Slide 13 text
12 緊急性の高さ • 通常業務よりも優先的に対応する必要がある • 現在進行形で意図しない挙動をしている • ユーザー体験的にクリティカルな事象 事象の伝わりやすさ • 職種に関係なく状況を理解しやすいか サービスの特性 • サービスの重要性 • toCかtoBか 考慮ポイント
Slide 14
Slide 14 text
13 HRMOSにおける「インシデント」の定義 サービスの異常により、 サービス利用者の業務に支障が出ている状態 以下を満たしている 1. サービスの意図しない挙動により、業務を停滞させうる 2. ユーザーが認知できる ※「障害」「バグ」「不具合」等は「インシデント」を引き起こしている要因と し、それぞれについて細かい定義はしない
Slide 15
Slide 15 text
14 • サービスが停止している • 主要な機能が意図しない動作をしている • 業務に影響しない一部のリンクが間違っている • 画面の一部が崩れているがサービスは利用可能 定義に従ったインシデント判断の例 1. サービスの意図しない挙動により、業務を停滞させうる 2. ユーザーが認知できる Incident Not Incident Incident Not Incident
Slide 16
Slide 16 text
15 • インシデント = 職種を越えて緊急対応が必要という共通認識が でき、温度感や速度感が共有できる • インシデント対応の目的がインシデントの状態を迅速に脱する という意識ができるようになり、根本対応よりも止血対応を優先 できる • インシデントに満たない軽微な不具合などはチケットにて計画 対応とし、通常業務のロードマップの影響を少なくできる インシデント定義の効果
Slide 17
Slide 17 text
16 ● インシデント管理体制をつくるためには「インシデント」の定義を関係者全員 が理解しやすい文言で明確にすることが大事 ● サービスや組織の運用に合った「インシデント」の定義を模索する まとめ インシデントの定義は インシデント管理の始めの一歩であり大事な一歩 「インシデント」とは何かが明確になって始めて、「インシデント」状態を脱するため のプロセスが決まってくる
Slide 18
Slide 18 text
17 BlogとXで発信中! Blog X https://engineering.visional.inc/b log/ @VISIONAL_ENG Visionalの技術的な取り組みや、イベント・登壇情報などをお届けします
Slide 19
Slide 19 text
No content