ameba-incident-management

おーい磯野〜！ IncidentManagementしようぜ〜！歴史あるAmebaのシステムでIncidentManagementを導入した話

Agenda 02 04 History & Problem Amebaの歴史について Use case for
datadog Datadog Incidentを用いた活用例 01 03 05 Introduction Incident Managementを行う上で決定すべき重要な要素について説明自己紹介 SRG紹介 Amebaについて Closing まとめお知らせ What’s incident management

Introduction 01 自己紹介・SRG/Amebaについて

田中秀樹 Engineer / PjM / SRG Engineering Manager 最近数年ぶりにKubectlを実行したSREの皮を被ったPjM中心の人間
IncidentManagementやFinOpsを推進するための文化形成だったりが最近のマイブーム Amebaへembedded SREとして参画今年面白かった漫画ベスト 3は「図書館の大魔術師」「呪術廻戦」「完璧すぎて可愛げがないと婚約破棄された聖女は隣国に売られる」

What’s SRG 〜2015年メディア事業全体のインフラ組織オンプレミス環境を中心とした昔ながらのインフラエンジニア 2015年〜2022年メディア事業横断のSRE組織へクラウドを中心としたサービスインフラエンジニアへ
社内向けSRE as a Serviceを提供 Service Reliability Group の略称であり、会社を横断する SRE組織 2022年〜「サイバーエージェントグループの信頼性を “横断的に” 向上させる」というミッションを掲げた横断SRE組織へ

What’s Ameba Amebaはブログを中心としたメディアプラットフォーム

History & Problem Amebaの歴史と抱える問題について 02

Ameba History Amebaはブログを中心としたメディアプラットフォーム

Ameba History 来年2024年で20周年を迎える歴史の長いサービス

Ameba History 成長期・成熟期を経て再生期へ

Ameba History 成長期・成熟期を経て再生期へ今日メインでお話しする内容はココ

Ameba Problem 各フェーズにおける人とシステムの変化に伴って起きた問題を話すよ！

Ameba Problem 導入期〜成長期における人とシステムの関連性

Ameba Problem 導入期〜成長期における人とシステムの関連性成長期初期段階ではシステム規模は小さく、開発者も少ない状況です。ここから双方とも加速度的に増大していきます開発者が担当するシステム

Ameba Problem 成熟期における人とシステムの関連性

Team A Team B Team C Team D システムの拡大・人員増加に伴ってそれぞれのグルーピングも促進され、チームでカバレッジを上げていく体制へ
Ameba Problem 機能A 機能B 機能C データD 成熟期における人とシステムの関連性

Ameba Problem 再生期における人とシステムの関連性

Team A Team B Team C Team D 再生期に入ると人員への投資は減少し、システムも不要な物がクローズされていくフェーズへ
Ameba Problem 機能A 機能B 機能C データD 再生期における人とシステムの関連性

Team A Team B Team C Team D システム間依存などの問題から、コストパフォーマンスが悪いシステムが削除される訳ではなく、
徐々にカバレッジの低下が散見される状態へ Ameba Problem 機能A 機能B 機能C データD 再生期における人とシステムの関連性

Team A Team B Team C Team D 「システム数 >>>
開発者数」が促進していき、影響度は大きくないが、担当する人もいないシステムが増加していく Ameba Problem 機能A 機能B 機能C データD 再生期における人とシステムの関連性

再生期にて発生した問題 Team A Team B Team C Team D 担当者不在のため、アラートが鳴っても放置され続けるシステム群
Ameba Problem 機能A 機能B 機能C データD

再生期にて発生した問題 Team A Team B Team C Team D 実質的に特定の人間（いいやつ）に依存したシステム保守体制
Ameba Problem 機能A 機能B 機能C データD

再生期にて発生した問題 Team A Team B Team C Team D でもなかなか評価されないインシデント解決マン・・・！
※定量評価・目標設定がしやすい新規開発などが評価しやすい Ameba Problem Best engineer 新規開発機能A 機能B 機能C データD

再生期にて発生した問題 Team A Team B Team C Team D 担当外のシステムであるがために、
インシデントの解決に想定以上の時間を要してしまう Ameba Problem 機能A 機能B 機能C データD

再生期にて発生した問題 Team A Team B Team C Team D 過去の対応履歴が適切に情報集約されておらず、
毎回インシデント解決に要する時間が想定以上に必要となる Ameba Problem ?? 機能A 機能B 機能C データD

再生期にて発生した問題 Team A Team B Team C Team D それら複合的な要因により恒久対応も行われず、
同じアラートが何度も再発している Ameba Problem 機能A 機能B 機能C データD

Problem Summary 1. 　アラートが鳴っても放置されており、再発もしている 2. 　特定の開発者にIncident解決対応が集約されている 3. 　Incident解決に貢献してもなかなか評価されない 4. 　インシデント解決に想定以上の時間を要してしまう
5. 　過去のインシデント対応の履歴が集約化されていない

Problem Summary Incident Managementせなやばいやろこれ・・！ 1. 　アラートが鳴っても放置されており、再発もしている 2. 　特定の開発者にIncident解決対応が集約されている 3.
　Incident解決に貢献してもなかなか評価されない 4. 　インシデント解決に想定以上の時間を要してしまう 5. 　過去のインシデント対応の履歴が集約化されていない

What’s incident management IncidentManagementを行う上で重要な要素 03

ってかインシデントマネジメントって・・・どうやってやるんだ・・・？

What’s Incident management Incident Managementは障害などにより正常な状態でなくなったシステムやサービスを迅速に元の状態へ戻すプロセス・アクティビティの事を指します発生したインシデントの影響を最小限に収めるだけでなく、ユーザーや関連各所へのコミュニケーションの円滑化や復旧プロセスの継続的改善を目的とした動きを行う必要があります

Incident Management/Three Keys インシデントの優先順位重要度・影響度などによって決定される Severity Levelと呼ばれる4-5段階の指標によって優先順位が決定される Triage インシデントが発生した際にどのようにして
解決まで導くかを定義したもの Incident response ﬂow Structure インシデントを解決するための体制主にインシデント解決に責任を持つIncident Commander(IC)がキーパーソンとなるインシデントマネジメント成功させる重要な3要素成功 = インシデントを迅速に復旧させる

インシデントの優先順位重要度・影響度などによって決定される Severity Levelと呼ばれる4-5段階の指標によって優先順位が決定される Triage インシデントが発生した際にどのようにして解決まで導くかを定義したもの Incident response
ﬂow Structure Incident Management/Three Keys インシデントを解決するための体制主にインシデント解決に責任を持つIncident Commander(IC)がキーパーソンとなるインシデントマネジメント成功させる重要な3要素

トリアージとはインシデントの優先順位を決定する事です限られた人的リソースの中、複数インシデントが発生した際にどれを急いで復旧するのかの決定する点にあります優先順位を決定するために、事前に条件設定をする必要があります Triage engineer System A Alert
System B Alert システムAとBどちらを優先して復旧すべき・・・？

Amebaのトリアージを紹介 Triage

Triage メディア事業の継続可能性に関わるインシデント Ameba単体でなく、事業部ひいては全社レベルで対応・方針策定が必要なレベル SEV1 SEV2 SEV3 SEV4 Ameba事業の継続可能性に関わるインシデント事業運営にクリティカルな影響があり事業責任者レベルでの対応方針の決定が必要対ユーザへのアナウンス・コミュニケーションが必要なインシデント
現場エンジニアだけでは完結せず、関連サービスや対外的なコミュニケーションが必要なインシデント PMやエンジニアリーダーレベルでの対応方針のハンドリングや意思決定が必要復旧対応が必要な全てのインシデント（アラート）現場エンジニアのみで復旧可能であり、インシデントコマンダーは介入しない ※Amebaでの導入事例ベースでお話しします

現場エンジニアだけでは完結せず、関連サービスや対外的なコミュニケーションが必要なインシデント PMやエンジニアリーダーレベルでの対応方針のハンドリングや意思決定が必要復旧対応が必要な全てのインシデント（アラート）現場エンジニアのみで復旧可能であり、インシデントコマンダーは介入しない Severity(SEV) (優先度の数値化) 高低

現場エンジニアだけでは完結せず、関連サービスや対外的なコミュニケーションが必要なインシデント PMやエンジニアリーダーレベルでの対応方針のハンドリングや意思決定が必要復旧対応が必要な全てのインシデント（アラート）現場エンジニアのみで復旧可能であり、インシデントコマンダーは介入しない SEV Level毎のざっくりとした影響度

現場エンジニアだけでは完結せず、関連サービスや対外的なコミュニケーションが必要なインシデント PMやエンジニアリーダーレベルでの対応方針のハンドリングや意思決定が必要復旧対応が必要な全てのインシデント（アラート）現場エンジニアのみで復旧可能であり、インシデントコマンダーは介入しないマジでやばい役員報告レベル

現場エンジニアだけでは完結せず、関連サービスや対外的なコミュニケーションが必要なインシデント PMやエンジニアリーダーレベルでの対応方針のハンドリングや意思決定が必要復旧対応が必要な全てのインシデント（アラート）現場エンジニアのみで復旧可能であり、インシデントコマンダーは介入しないかなりやばい事業責任者レベルマジでやばい役員報告レベル

現場エンジニアだけでは完結せず、関連サービスや対外的なコミュニケーションが必要なインシデント PMやエンジニアリーダーレベルでの対応方針のハンドリングや意思決定が必要復旧対応が必要な全てのインシデント（アラート）現場エンジニアのみで復旧可能であり、インシデントコマンダーは介入しないかなりやばい事業責任者レベルマジでやばい役員報告レベルユーザ影響でてるのでユーザアナウンス必要

現場エンジニアだけでは完結せず、関連サービスや対外的なコミュニケーションが必要なインシデント PMやエンジニアリーダーレベルでの対応方針のハンドリングや意思決定が必要復旧対応が必要な全てのインシデント（アラート）現場エンジニアのみで復旧可能であり、インシデントコマンダーは介入しないかなりやばい事業責任者レベルマジでやばい役員報告レベルユーザ影響でてるのでユーザアナウンス必要軽微な障害現場だけで復旧可能

現場エンジニアだけでは完結せず、関連サービスや対外的なコミュニケーションが必要なインシデント PMやエンジニアリーダーレベルでの対応方針のハンドリングや意思決定が必要復旧対応が必要な全てのインシデント（アラート）現場エンジニアのみで復旧可能であり、インシデントコマンダーは介入しないかなりやばい事業責任者レベルマジでやばい役員報告レベルユーザ影響でてるのでユーザアナウンス必要軽微な障害現場だけで復旧可能 SEV判断を行うために明確なある程度明確な定義が必要

現場エンジニアだけでは完結せず、関連サービスや対外的なコミュニケーションが必要なインシデント PMやエンジニアリーダーレベルでの対応方針のハンドリングや意思決定が必要復旧対応が必要な全てのインシデント（アラート）現場エンジニアのみで復旧可能であり、インシデントコマンダーは介入しないかなりやばい事業責任者レベルマジでやばい役員報告レベルユーザ影響でてるのでユーザアナウンス必要軽微な障害現場だけで復旧可能 SEV Levelによって対応フローも登場人物も大きく異なる

Structure インシデントを迅速に解決するに当たって、 Incident Commander(以降 : IC)の立て付けが非常に重要になります IC

Structure 例えば複数のエスカレーションやエンドユーザへのアナウンスが必要となる影響度の高い障害においては ICがコミュニケーション周りを請け負うことで、開発者はシステムの復旧作業に集中可能となります IC engineer engineer System B
System A Lead Alert Alert escalation announce End user

ICがいないケースと比べて Engineerの負担が軽い事が分かります engineer System A Alert Lead System B Alert
End user ??? ??? Structure

Structure まずはICを立て付けてください。このポジションはエンジニアに限らず、 PMにも担当してもらうケースがあるため、職種を超えた調整が必要になります IC engineer engineer System B System
A Lead Alert Alert escalation announce End user

Incident response ﬂow トリアージ・ICを立て付けた後は SEV毎の対応フローを整備しましょうトリアージもICも単独では機能しません必ず対応フローとセットで展開しましょう engineer engineer System
B System A Alert Alert IC Lead escalation announce End user

Incident response ﬂow Case SEV4 engineer engineer System B System
A Alert Alert 復旧対応が必要な全てのインシデント（アラート）現場エンジニアのみで復旧可能であり、インシデントコマンダーは介入しない現場エンジニアのみで復旧対応まで完遂 resolve resolve

Incident response ﬂow engineer engineer System B System A Alert
Alert ICが必須であり、復旧に関する意思決定・関連各所へのコミュニケーションを実施 resolve resolve IC announce End user escalation escalation 対ユーザへのアナウンス・コミュニケーションが必要なインシデント現場エンジニアだけでは完結せず、関連サービスや対外的なコミュニケーションが必要なインシデント PMやエンジニアリーダーレベルでの対応方針のハンドリングや意思決定が必要 Case SEV3

Alert resolve resolve IC announce End user escalation escalation Lead escalation Ameba事業の継続可能性に関わるインシデント事業運営にクリティカルな影響があり事業責任者レベルでの対応方針の決定が必要 ICが必須であり、事業責任者のエスカレーション・意思決定の調整を含めた対応が必要 Case SEV2

Alert resolve resolve IC announce End user escalation escalation Lead escalation CTO escalation ICが必須であり、事業責任者や CTOを含めたエスカレーションが必要となり、全社横断での意思決定の調整を含めた対応が必要メディア事業の継続可能性に関わるインシデント Ameba単体でなく、事業部ひいては全社レベルで対応・方針策定が必要なレベル Case SEV1

Incident Management/Three Keys インシデントの優先順位重要度・影響度などによって決定される Severity Levelと呼ばれる4-5段階の指標によって優先順位が決定される Triage インシデントが発生した際にどのようにして
解決まで導くかを定義したもの Incident response ﬂow Structure インシデントを解決するための体制主にインシデント解決に責任を持つIncident Commander(IC)がキーパーソンとなるインシデントマネジメント成功させる重要な3要素これら３点を定義することが最初のステップ

Use case for datadog 04 Datadog Incidentを用いた活用例

5. 　過去のインシデント対応の履歴が集約化されていない 3 keysにて解決できるのはインシデントを迅速に収束することのみ

これからIncidentManagementしていくけど、大前提としていい感じに運用できて、かつ各種問題の解決ができるようなツールが必要だな？

Use case for datadog 各種問題を解決するため、 AmebaではDatadog Incidentを採用する方針にしました 1. Datadog自体が監視ツールであるため、インシデントとの親和性が高い 2.
Slackなどのコミュニケーションツールとの連携性が高い 3. Postmortem作成・連携といったインシデント関連の機能が充実している 4. インシデント対応に関する各種数値が取得可能

Use case for datadog とりあえず使用感を見てみよう！各種問題を解決するため、 AmebaではDatadog Incidentを採用する方針にしました 1. Datadog自体が監視ツールであるため、インシデントとの親和性が高い
2. Slackなどのコミュニケーションツールとの連携性が高い 3. Postmortem作成・連携といったインシデント関連の機能が充実している 4. インシデント対応に関する各種数値が取得可能

Datadogを開いて左ツリーの「Service Mgmt」配下の「Incidents」がIncidentManagementに関する機能となります Use case for datadog

Incident一覧の画面になります (細かい情報は黒で塗りつぶしてます) Use case for datadog

インシデントタイトル Use case for datadog これはテストインシデントです障害太郎やりとりしているslackチャンネル SEV
Level インシデントステータス Datadog Incidentにて利用できるカスタムパラメータ A team monitor aws-hoge hoge-api

チケット化されたインシデントのStatus別件数 Use case for datadog

トリアージ別インシデント件数 Use case for datadog

Postmortem(振り返り)実施済みかどうか Use case for datadog

新規でインシデントチケットを切りたい場合はココ Use case for datadog

Use case for datadog 以下の各種項目を入力してインシデントチケットを作成 1. インシデントタイトル 2. Severity Level
3. Incident Commander 4. Attributes (カスタム可能) 5. Notiﬁcation

Use case for datadog 例えばこんな感じで作成すると・・

Use case for datadog Datadog側のインシデント画面

Use case for datadog Sev Level / Status Slack link
何が起こったのか？ユーザ影響はあるのか？なぜ起こったのか？を記載します。

Use case for datadog Datadog tagとAttributeを連携させる事が可能例えばAPI・機能毎のインシデント件数を取得する事が可能になる hoge-api hoge
aws-hoge blog

Use case for datadog インシデント対応における Timelineを記載するページどう調査を進めたか？調査の結果、どういった情報があったか等

Use case for datadog Slackで障害に関するやりとりしていたら二重管理になるんじゃ・・・？

Use case for datadog Teamに紐付けたメンバーが Slackチャンネルに自動追加される（上記）事前に設定した命名規則を元にDatadog君が Slackでインシデント用のチャンネルを作成

Use case for datadog ご安心を！ Slackの投稿に📌の絵文字をつけると Datadog君がDatadog Incidentの Timelineに転記してくれます

使い勝手良さそう・・・！めっちゃ便利やないか　

でもAmebaの課題解決はできるの？

Problem 　アラートが鳴っても放置されており、再発もしている engineer System B System A Crit Alert Crit
Alert Incident A Incident B engineer 意外と解決案は簡単で、全ての Critical Alertに対して Incidentチケットを作成して私が担当を割り当てる形にしました ※Re-triggered-Alertは追記 ※前提としてシステムとTeamを紐付ける必要があり

Problem Incident Statusの定義において “Completed” を追加振り返り及び恒久対応を以って、当該 Statusとする方針に　アラートが鳴っても放置されており、再発もしている

Problem 1. 再発防止のためのシステム的な恒久対応 2. システム上問題ない場合は監視の閾値見直し Amebaでは上記対応をインシデントオーナーが責任持って進める事で、 Crit Alertの再発数の抑制に成功　アラートが鳴っても放置されており、再発もしている

Problem Incidentの “Remediation” タブにて残対応が管理できるため、ここで「誰が」「いつまでに」「何をやるか」を管理し、オーナーが責任を持って Completedになるまで対応を進めます　アラートが鳴っても放置されており、再発もしている

Problem 特定の開発者にIncident解決対応が集約されている Incident解決に貢献してもなかなか評価されない engineer System B System A Crit Alert
Crit Alert Incident A Incident B engineer

Problem 特定の開発者にIncident解決対応が集約されている障害太郎障害二郎障害三郎障害四郎
障害堀太郎 hoge男 moge子現場猫範馬刃牙愚地独歩 Datadog Incidentでは Incident CommanderやResponder(反応してくれた人) を集計できるメトリクスが用意されています Amebaでは当該メトリクスを参考に特定のメンバーに対応が集約しないよう運用しています ※自動化検討中

Problem 特定の開発者にIncident解決対応が集約されている障害太郎障害二郎障害三郎障害四郎
障害堀太郎 hoge男 moge子現場猫範馬刃牙愚地独歩 "queries": [ { "data_source": "incident_analytics", "name": "query1", "search": { "query": "" }, "indexes": [ "*" ], "compute": { "aggregation": "count" }, "group_by": [ { "facet": "commander.name", "limit": 10, "sort": { "aggregation": "count", "order": "desc" } } ] } ]

Problem Incident解決に貢献してもなかなか評価されない取得した対応件数を元に毎月 Slackで上位入賞者を発表

Problem Incident解決に貢献してもなかなか評価されない取得した対応件数を元に毎月 Slackで上位入賞者を発表組織に対して明確に認知させることが重要

Problem 過去のインシデント対応の履歴が集約化されていない 1. Datadog Incidentでインシデントチケット集約化 2. Datadog Tagsで付与したタグを元に、インシデントの検索性能を向上

Problem Summary 100点ではないが、これらの運用でAmebaが抱えている問題が解決できつつある状況 1. 　アラートが鳴っても放置されており、再発もしている 2. 　特定の開発者にIncident解決対応が集約されている 3. 　Incident解決に貢献してもなかなか評価されない
4. 　インシデント解決に想定以上の時間を要してしまう 5. 　過去のインシデント対応の履歴が集約化されていない

Closing 05 まとめ & お知らせ

事業の状態推移によってシステム規模に対する開発者数が低下し、インシデントに関する諸問題が浮き彫りとなる事態はどの事業にも起こりうるインシデントマネジメントを推進するためには以下の３要素が重要 1. トリアージの策定 2. インシデントコマンダーの選出 3.
インシデント対応フローの策定 Datadog Incidentはとてもすごく便利だし、解決できる問題も多い ※Beta版の便利機能とかも気づけば増えてるのでこれからもっとよくなる予感まとめ

こういった文化形成は各種定義・ルール・手順作成はもちろん、プロジェクトのオーナーがいかに手厚くフォローするかが重要になります例えば各種フローを上手く自動化できても認知されていないのでは意味がありません必ず文化形成を念頭に入れた推進していきましょうさいごに

SRE Technology Map https://www.cyberagent.co.jp/techinfo/info/detail/id=28998 お知らせ

お〜い磯野〜！サイバーエージェントの採用に応募しようぜ〜！新卒採用 https://www.cyberagent.co.jp/careers/special/students/tech/ 中途採用(エンジニア) https://hrmos.co/pages/cyberagent-group/jobs?category=1479332733224841216 お知らせ

ameba-incident-management

ameba-incident-management

Other Decks in Technology

Featured

Transcript