Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Workflow automationによるインシデント原因調査の自動化
Search
Sponsored
·
SiteGround - Reliable hosting with speed, security, and support you can count on.
→
ITO Shogo
October 16, 2024
Programming
520
2
Share
Workflow automationによるインシデント原因調査の自動化
Datadog Summit Tokyo 2024 の基調講演で使用したスライドです。
ITO Shogo
October 16, 2024
More Decks by ITO Shogo
See All by ITO Shogo
Datadog Workflow Automation で圧倒的価値提供
showwin
1
1k
好きなことを強みにしよう
showwin
1
570
DDD勉強会 ~戦略的設計 編~
showwin
0
320
LAPRAS CTOが考える 採用効率化Tips 5選
showwin
1
940
自作ISUCONのすすめ
showwin
1
180
Engineering Manager Discussion #1 - 自己紹介LT
showwin
1
610
採用要件を明確にしよう
showwin
0
170
スタートアップにおける技術的負債との向き合い方
showwin
0
990
アルゴリズムマネジメント
showwin
1
3.2k
Other Decks in Programming
See All in Programming
Offline should be the norm: building local-first apps with CRDTs & Kotlin Multiplatform
renaudmathieu
0
160
AWS re:Invent 2025の少し振り返り + DevOps AgentとBacklogを連携させてみた
satoshi256kbyte
2
150
The Monolith Strikes Back: Why AI Agents ❤️ Rails Monoliths
serradura
0
270
車輪の再発明をしよう!PHP で実装して学ぶ、Web サーバーの仕組みと HTTP の正体
h1r0
3
510
PDI: Como Alavancar Sua Carreira e Seu Negócio
marcelgsantos
0
110
ネイティブアプリとWebフロントエンドのAPI通信ラッパーにおける共通化の勘所
suguruooki
0
250
仕様漏れ実装漏れをなくすトレーサビリティAI基盤のご紹介
orgachem
PRO
9
5.1k
Java 21/25 Virtual Threads 소개
debop
0
340
事業会社でのセキュリティ長期インターンについて
masachikaura
0
230
瑠璃の宝石に学ぶ技術の声の聴き方 / 【劇場版】アニメから得た学びを発表会2026 #エンジニアニメ
mazrean
0
190
L’IA au service des devs : Anatomie d'un assistant de Code Review
toham
0
220
Coding at the Speed of Thought: The New Era of Symfony Docker
dunglas
0
4.7k
Featured
See All Featured
Utilizing Notion as your number one productivity tool
mfonobong
4
290
How to Get Subject Matter Experts Bought In and Actively Contributing to SEO & PR Initiatives.
livdayseo
0
96
The Curious Case for Waylosing
cassininazir
0
290
[RailsConf 2023 Opening Keynote] The Magic of Rails
eileencodes
31
10k
The Illustrated Guide to Node.js - THAT Conference 2024
reverentgeek
1
330
Design in an AI World
tapps
0
190
The browser strikes back
jonoalderson
0
930
Amusing Abliteration
ianozsvald
1
150
The innovator’s Mindset - Leading Through an Era of Exponential Change - McGill University 2025
jdejongh
PRO
1
150
Design of three-dimensional binary manipulators for pick-and-place task avoiding obstacles (IECON2024)
konakalab
0
400
Breaking role norms: Why Content Design is so much more than writing copy - Taylor Woolridge
uxyall
0
250
Why You Should Never Use an ORM
jnunemaker
PRO
61
9.8k
Transcript
Workflow Automation によるインシデント原 因調査 自動化 伊藤 勝梧 16 October 2024
komoju.com
伊藤 勝梧 showwin Staff SRE @ DEGICA, 2023.9 ~
KOMOJU by DEGICA 決済代行システム
多様な 決済方法を 提供
海外 決済手段も 対応
導入実績 10000社以上
KOMOJU by DEGICA 名前を聞いたことない …です…よ ??
10% 日本人 エンジニア 5名 日本在住 海外出身エンジニア 90%
KOMOJU 立ち位置 ユーザ 加盟店 Gateways (決済システム/アクワイアラ)
インシデント 早く復旧 させたい Generated by DALL·E 3
課題: インシデント復旧時間 改善 戦略: Runbook 作成とそ 自動化 実装: Workflow Automationによる自動化
結果: アラート 調査時間 短縮
課題: インシデント復旧時間 改善 戦略: Runbook 作成とそ 自動化 実装: Workflow Automationによる自動化
結果: アラート 調査時間 短縮
障害検知 原因特定 修正 インシデント復旧 まで プロセス 障害発生 障害回復
障害検知 原因特定 修正 迅速に障害検知できることが最重要 障害発生 障害回復
障害検知 原因特定 修正 インシデント復旧 まで プロセス 障害発生 障害回復
障害検知 原因特定 修正 問題 原因が特定 できれ 解決 容易 障害発生 障害回復
想像してください 入社して半年経過 今日から初 オンコールシフト アラート来ないで…🙏 Generated by DALL·E 3
Lorem Ipsum is simply
Lorem Ipsum is simply
Lorem Ipsum is simply
原因調査に 手間取る LB ログを確認 次 …? APMでエラー トレースを確認 手がかり なさに焦る
直近 デプロイ 有無を確認
ふたを 開けてみると Generated by DALL·E 3
5xx Expired 偽陽性アラート: 誤ったカード情報 によりエラー数増加 Error ユーザ 加盟店 Gateways (決済システム/アクワイアラ)
課題: インシデント復旧時間 改善 戦略: Runbook 作成とそ 自動化 実装: Workflow Automationによる自動化
結果: アラート 調査時間 短縮
Runbook One monitor, one runbook
手探り Runbook 障害検知 原因特定 修正 30~60分 5~10分 復旧時間改善 例 障害回復
手探り Runbook 障害検知 原因特定 修正 30~60分 5~10分 復旧時間改善 例 障害回復
Runbook自動化
課題: インシデント復旧時間 改善 戦略: Runbook 作成とそ 自動化 実装: Workflow Automationによる自動化
結果: アラート 調査時間 短縮
Workflow Automation 2023年6月にリリース Step by step でワークフローを定義 Datadog Monitor などを契機に実行
アラート 偽 陽性確認を 自動化 してみる
アラートを契機に Workflowが実行される
APM Spanを参照して HTTP Status > 399 が 発生している エンドポイント 一覧
を列挙
支払い 認証に関するエンド ポイント みでエラー発生? 違う場合 エラー発生箇所を Slackに投稿して終了
Span カスタムタグから 決済手段がクレジットカードか判 断 違う場合 問題 Gatewayを Slackに投稿して終了
アプリケーションDBから同期さ れるデータを参照して、 ユーザ カード情報に起因する エラーか判断 Yes 場合 偽陽性アラートだと Slackに投下 No
場合 要調査とSlack に投下
Tips Generated by DALL·E 3
Workflowから データ参照 パターン
Datadog内 データ参照 原則こ 方法がオススメ DD Agentなどからメトリクス/ログ 取り込み Search Queryで記述 ログ
料金 み注意
Datadog内 データ参照 原則こ 方法がオススメ DD Agentなどからメトリクス/ログ 取り込み Search Queryで記述 ログ
料金 み注意
アプリケーション DBから データ取り込み Redash Puller WebApp DB Kumonga (DD Agent)
OpenMetrics OpenMetrics Job Queue
Datadog内 データ参照 原則こ 方法がオススメ DD Agentなどからメトリクス/ログ 取り込み Search Queryで記述 ログ
料金 み注意
外部サービス から データ取得 連携サービス以外から データ取得が困難 Datadog内にデータを保存しない で無料
外部サービス から データ取得 連携サービス以外から データ取得が困難 Datadog内にデータを保存しない で無料
認証方法: Basic認証, JWT, mTLS データ 整形が必要 認証&整形 Proxy サービス 作成を推奨
非連携サービス から データ取得
外部サービス から データ取得 連携サービス以外から データ取得が困難 Datadog内にデータを保存しない で無料
外部サービス から データ取得 連携サービス以外から データ取得が困難 Datadog内にデータを保存しない で無料
課題: インシデント復旧時間 改善 戦略: Runbook 作成とそ 自動化 実装: Workflow Automationによる自動化
結果: アラート 調査時間 短縮
Runbook Runbook自動化 27秒 3分30秒 🎉
Runbook Runbook自動化 27秒 3分30秒 🎉?
まず 障害を迅速に検知できるように Focus on detection 監視モニターに 必ずRunbookを用意 One monitor, one
runbook 必要に応じてRunbookを自動化 Automate runbook 明日からできること
We are Hiring! Senior Backend Engineer with native-level Japanese skill