Slide 1

Slide 1 text

株式会社ビズリーチ
 HRMOSプロダクト本部 プラットフォーム開発部 SREグループ MGR
 阪口 透
 悩ましきインシデント管理
 ~ HRMOSの場合 ~


Slide 2

Slide 2 text

1 阪口 透
 Toru Sakaguchi
 自己紹介
 出身地
 福井県
 
 
 趣味
 ゲーム・麻雀
 
 
 SRE歴
 4年くらい
 
 
 一言
 SRE道は果てしない…


Slide 3

Slide 3 text

2 ● 復旧までの迅速な対応
 ● サービスの継続性の確保
 ● 影響の最小化
 ● 原因の特定と再発防止
 インシデント管理の目的
 主な目的


Slide 4

Slide 4 text

3 ● プロセスの整備
 ● ツールの導入
 ● 定期的なトレーニングの実施
 ● 定期的なレビューと改善
 目的達成のためのプラクティス
 大まかな分類


Slide 5

Slide 5 text

4 ● プロセスの整備
 ● ツールの導入
 ● 定期的なトレーニングの実施
 ● 定期的なレビューと改善
 今日のテーマ
 大まかな分類


Slide 6

Slide 6 text

5 ● プロセスの整備
 ● ツールの導入
 ● 定期的なトレーニングの実施
 ● 定期的なレビューと改善
 今日のテーマ
 大まかな分類
 プロセスを整備していく前に「インシデント」を 明確に定義することが大事


Slide 7

Slide 7 text

6 • インシデントかどうかの判断がされず、その場の雰囲気で対応 したりする
 • 必要以上の人数で対応してしまい、見ているだけの人が出てい る
 • 止血よりも原因の特定、根本解決を優先してしまう
 • 確認や連絡が漏れたり認識齟齬が起きやすく、コミュニケーショ ンコストが高まる
 • etc…
 インシデント管理体制がないと…


Slide 8

Slide 8 text

7 ● インシデント対応プロセスですべきことは「インシデント」状態を 素早く脱すること
 ● 「インシデント」の状態が分からないままでは何をすべきかは決 まらない
 インシデント管理プロセスを考える前に
 「インシデント」を定義することで、プロセス整備の方針が決まる
 つまり「インシデント」の状態を定義することが始めの一歩にな る


Slide 9

Slide 9 text

8 ● どういう事象を「インシデント」とするのかが不明
 ● 「不具合」「障害」「バグ」などの言葉が乱立していて、人によって受け取り方 が様々
 「インシデント」を明確に定義する
 よくある課題
 「インシデント」と言われたら、関係者全員が
 同じ状態をイメージできるようにしたい


Slide 10

Slide 10 text

9 リアルな現場の声
 インシデント管理を整理する際に実施したヒアリングより


Slide 11

Slide 11 text

10 様々なインシデント定義
 ChatGPT
 Atlassian
 出典:https://www.atlassian.com/ja/incident-management


Slide 12

Slide 12 text

11 様々なインシデント定義
 PagerDuty
 Incident.io
 (和訳:インシデントとは、ある程度の緊急性をもって、計画された仕事から離れるこ と。)
 出典:https://www.pagerduty.co.jp/blog/ideal-way-to-respond-to-incidents
 出典:https://incident.io/guide/foundations/defining-an-incident


Slide 13

Slide 13 text

12 緊急性の高さ
 • 通常業務よりも優先的に対応する必要がある
 • 現在進行形で意図しない挙動をしている
 • ユーザー体験的にクリティカルな事象
 
 事象の伝わりやすさ
 • 職種に関係なく状況を理解しやすいか
 
 サービスの特性
 • サービスの重要性
 • toCかtoBか
 考慮ポイント


Slide 14

Slide 14 text

13 HRMOSにおける「インシデント」の定義
 サービスの異常により、
 サービス利用者の業務に支障が出ている状態
 以下を満たしている
 1. サービスの意図しない挙動により、業務を停滞させうる
 2. ユーザーが認知できる
 ※「障害」「バグ」「不具合」等は「インシデント」を引き起こしている要因と し、それぞれについて細かい定義はしない


Slide 15

Slide 15 text

14 • サービスが停止している
 • 主要な機能が意図しない動作をしている
 • 業務に影響しない一部のリンクが間違っている
 • 画面の一部が崩れているがサービスは利用可能
 定義に従ったインシデント判断の例
 1. サービスの意図しない挙動により、業務を停滞させうる
 2. ユーザーが認知できる
 Incident Not Incident Incident Not Incident

Slide 16

Slide 16 text

15 • インシデント = 職種を越えて緊急対応が必要という共通認識が でき、温度感や速度感が共有できる
 • インシデント対応の目的がインシデントの状態を迅速に脱する という意識ができるようになり、根本対応よりも止血対応を優先 できる
 • インシデントに満たない軽微な不具合などはチケットにて計画 対応とし、通常業務のロードマップの影響を少なくできる
 インシデント定義の効果


Slide 17

Slide 17 text

16 ● インシデント管理体制をつくるためには「インシデント」の定義を関係者全員 が理解しやすい文言で明確にすることが大事
 ● サービスや組織の運用に合った「インシデント」の定義を模索する
 まとめ
 インシデントの定義は
 インシデント管理の始めの一歩であり大事な一歩
 
 「インシデント」とは何かが明確になって始めて、「インシデント」状態を脱するため のプロセスが決まってくる


Slide 18

Slide 18 text

17 BlogとXで発信中!
 Blog
 X
 https://engineering.visional.inc/b log/ 
 @VISIONAL_ENG
 Visionalの技術的な取り組みや、イベント・登壇情報などをお届けします


Slide 19

Slide 19 text

No content