Slide 1

Slide 1 text

2024-08-06 Taiji Hagino - Senior Developer Advocate, Datadog DatadogとPagerDutyで改善する システム障害対応

Slide 2

Slide 2 text

Taiji Hagino Senior Developer Advocate, Datadog @taiponrock

Slide 3

Slide 3 text

We'll learn about... ● 我々が抱える課題 ● DatadogによるPagerDutyの活用 ● デモ ○ DatadogとPagerDutyを組み合わせて、 検出と応答時間を短縮させてみよう!

Slide 4

Slide 4 text

課題

Slide 5

Slide 5 text

課題 企業がより速くビジネスを進めるために、ITの内製化が課題となっている。 一方で、ITの重要性はますます高まっており、障害のアラートはますます増え、重大なトラ ブルに繋がるアラートを見逃さないことがより困難になっている。 – 混沌としたインシデント対応はチームにとって大きな負担。 – システムの停止からインシデントへのエスカレーションがすばやく切り替わることがあ る。誰が何をいつ行ったかについてのタイムスタンプとレコードが必要。 – インシデントの前兆を捉え、集中的な対策へとすばやくギアを切り替えることが必要。

Slide 6

Slide 6 text

DatadogによるPagerDutyの活用

Slide 7

Slide 7 text

No content

Slide 8

Slide 8 text

No content

Slide 9

Slide 9 text

No content

Slide 10

Slide 10 text

No content

Slide 11

Slide 11 text

シームレスに 統合される スマートな ツールが 組み込まれた 単⼀のプラット フォーム

Slide 12

Slide 12 text

PagerDutyとDatadog 実際の活用方法 時差を意識することなくエンジニアをス ムーズに連携 対応する人材がいない場合のフォローアッ プやエスカレーションを管理 多くのチームが多く のサービスを管理、ス ジュールマッピン Slack との統合 アラートの優先順位を設定 緊急時のシフト変更をサポート オンコール時、必要に応じてダッシュボー ドを利用 履歴を一目で確認でき、コールに関するパ ターンがあるかどうかを確認 オンコール/オフコール時のリマインド

Slide 13

Slide 13 text

PagerDutyのSlack連携

Slide 14

Slide 14 text

DatadogのSlack連携 オープンインシデント + システム中断のリストを取得 インシデントをシステム中断にエスカレート。これにより、IC が関与するように 通知が送信される

Slide 15

Slide 15 text

インシデント発生時の PagerDuty の使用方法 インシデント 割り当てられた優先度 開始 影響終了 解決策 フォローアップ 応答 ポストモーテム

Slide 16

Slide 16 text

インシデント発生時の PagerDuty の使用方法 インシデント 割り当てられた優先度 開始 影響終了 解決策 フォローアップ 応答 ポストモーテム

Slide 17

Slide 17 text

デモ

Slide 18

Slide 18 text

No content

Slide 19

Slide 19 text

Datadogの14 日間無料トライアル www.datadoghq.com/free-datadog-trial

Slide 20

Slide 20 text

Thank you! Feedback & Question 👇 @taiponrock