Slide 1

Slide 1 text

Incident Management With Datadog 2021/11/18 Takaaki Tsunoda

Slide 2

Slide 2 text

| Agenda Part1. 自己紹介 Part2. 前回ご提案の振り返り Part3. Datadogを活用したインシデント対応ご紹介 Incident Management With Datadog

Slide 3

Slide 3 text

| Agenda Part1. 自己紹介 Part2. 前回ご提案の振り返り Part3. Datadogを活用したインシデント対応ご紹介 Incident Management With Datadog

Slide 4

Slide 4 text

熱中していること:娘! 
 
 趣味:🍺飲み会、🏀バスケットボール、✈旅行 
 
 
 職務経験:
  IBMで1600台以上のIT基盤保守運用チームリード + Agile/SRE/Container導入案件リード 
 
   <詳細>   - IBM Global標準ITSM Toolの日本のアプリケーションチームリーダー(3年)   - 1600台を保守するIT基盤プロジェクトのMW, OS, Hypervisor, HWチームリーダー(3年)   - アプリ, MW, OS, Hypervisorのパラメーターチューニング経験 
   - Japan唯一のIBMとKyndrylのSlack Championとして、11万人のGlobal企業の分社化支援 
   - 日本IBM社長賞受賞コンテナ構築案件におけるWAS Liberty標準化チームリード 
 Kyndryl Slack Champion Community Kick Off MTG Spotlight Speaker IBM SRE Conference 2021 Speaker | Takaaki Tsunoda Part1. 自己紹介

Slide 5

Slide 5 text

| Agenda Part1. 自己紹介 Part2. 前回ご提案の振り返り  想定顧客と課題  Datadogの優位性 Part3. Datadogを活用したインシデント対応ご紹介 Incident Management With Datadog

Slide 6

Slide 6 text

想定顧客: - 9割以上のシステムがプライベートクラウド上で稼働中 - フロントのアプリケーションサーバーから、徐々にパブリッククラウドへの移行を推進中 (2022年のIT部門の最重要施策 ) - 業務内容に応じて SaaSの活用も拡大中 - 導入した製品に応じて個別に最適な監視設計をしてきたため、監視ツールが乱立している状況 最優先課題: 障害復旧の遅延によるサービスレベルの低下と、障害対応の長期化によるコストの肥大化 監視アーキテクチャ概要図: →包括的に監視可能で、インシデント対応を改善できる監視ツールの採用を検討中 O365 Salesforce その他SaaS Private Cloud Public Cloud RPA+PowerShell Private Cloud用 監視サーバー Public Cloudの 監視サービス ServiceNow ダッシュボード システム担当 SE Private Cloud用 監視コンソール Public Cloudの 監視コンソール 監視オペレーター | 想定顧客と課題 Part2. 前回ご提案の振り返り

Slide 7

Slide 7 text

| Datadogの優位性 Part2. 前回ご提案の振り返り <幅広い監視対象サービス > <機能拡充のスピードと成長性 > <様々なデータを一元的に可視化する UI> Gartner® Magic Quadrant™ 2022 のレポートを参照ください https://www.datadoghq.com/ja/ blog/datadog-apm-observability- gartner-magic-quadrant-2022/

Slide 8

Slide 8 text

| Agenda Part1. 自己紹介 Part2. 前回ご提案の振り返り Part3. Datadogを活用したインシデント対応ご紹介  インシデント対応における業務課題  業務課題に対する解決策  解決策1~4  Datadogによるアラート対応効果まとめ Incident Management With Datadog

Slide 9

Slide 9 text

| インシデント対応における業務課題 Part3. Datadogを活用したインシデント対応ご紹介 監視レベルの差異の発生
 インシデント原因特定の複雑化
 オペレーターからの電話連絡遅延
 SEの対応初動遅延
 インシデント対応の管理漏れ
 システムの導入時期によって閾値が違うため、 
 障害発生タイミングの特定ができない・・・(品質管理部部長) 
 レスポンス悪化の原因特定にどれだけ時間がかかるんだ? 
 アプリ?基盤?Storage?それとも連携しているSaaS?(執行役員) 
 今みたいに複数画面切り替えながらアラート確認してコールなんて 
 間違えないようにするだけで手いっぱいですよ(監視オペレーター) 
 PCを開いてメールで内容を見ないと、 
 コール受けただけでは状況が分からないですね(担当SE) 実際、実機ログインしたころにはサーバー負荷の問題は 
 解消されているケースがほとんどです(担当SE) 
 インシデント管理ツールへの記載がされないケースが多いですが、 
 忙しそうなSEの方にしつこくお願いするわけにもいかず・・・ 
 (品質管理部社員) 
 現場ヒアリングの結果、抽出された業務課題


Slide 10

Slide 10 text

| 業務課題に対する解決策 Part3. Datadogを活用したインシデント対応ご紹介 監視レベルの差異の発生
 インシデント原因特定の複雑化
 オペレーターからの電話連絡遅延
 SEの対応初動遅延
 インシデント対応の管理漏れ
 1.Datadogによる一元監視
 2.Datadogの単一Dashboard 3.DatadogからSlackへのアラート通知
 4.Datadog、Slack上でのインシデント記録
 Datadogの導入により、全ての課題解決が可能です


Slide 11

Slide 11 text

SaaS Private Cloud Public Cloud Datadog ServiceNow ダッシュボード ServiceNowへ イベント情報の連携 システム担当 SE 監視オペレーター 担当者に電話 単一のDatadogコンソールでの確認 一元監視 Slackへグラフ付きの通知 SaaS Private Cloud Public Cloud RPA+PowerShell Private Cloud用 監視サーバー Public Cloudの 監視サービス APIでイベント情報を取得 監視製品機能により、 閾値監視とログ監視を実施 ServiceNow ダッシュボード APIでイベント情報を連携 システム担当 SE メールでアラート情報を通知 Private Cloud用 監視コンソール Public Cloudの 監視コンソール 監視オペレーター 担当者に電話 複数の監視コンソールを目視で確認 | 解決策1.Datadogによる一元監視
 Part3. Datadogを活用したインシデント対応ご紹介 Datadog導入による監視フローのAsIsとToBe
 インシデント対応の迅速化と、監視ツールの管理工数削減が可能


Slide 12

Slide 12 text

|解決策2.Datadogの単一Dashboard Part3. Datadogを活用したインシデント対応ご紹介 <柔軟な作りこみを行った Dashboard> <必要な用途に絞って表示させた Dashboard> DatadogのDashboard機能のイメージ
 管理対象全システムを単一のDashboardで監視可能とし、状況把握を迅速化


Slide 13

Slide 13 text

|解決策3.DatadogからSlackへのアラート通知
 Part3. Datadogを活用したインシデント対応ご紹介 Slackへのアラート通知イメージ
 Slackへのグラフ付きの通知を可能とし、モバイル端末での確認と、迅速かつ正確な状況把握を実現


Slide 14

Slide 14 text

|解決策4.Datadog、Slack上でのインシデント記録
 Part3. Datadogを活用したインシデント対応ご紹介 DatadogとSlackでのIncident対応イメージ
 DatadogとSlackで、対応ログをそのまま記録することが可能なため、正確で無駄のない情報記録を実現


Slide 15

Slide 15 text

| Datadogによるインシデント対応効果まとめ
 Part3. Datadogを活用したインシデント対応ご紹介 Datadogの導入により、御社のインシデント対応の大幅な迅速化、工数削減を実現
 RPA+PowerShell Private Cloud用 監視サーバー Public Cloudの 監視サービス Private Cloud用 監視コンソール Public Cloudの 監視コンソール Datadog 全てを集約 <変更概要> SaaS Private Cloud Public Cloud Datadog ServiceNow ダッシュボード システム担当 SE 監視オペレーター 担当者に電話 単一のDatadogコンソールでの確認 一元監視 Slackへグラフ付きの通知 <導入後監視アーキテクチャ >

Slide 16

Slide 16 text

Thank You Incident Management With Datadog 2021/11/18 Takaaki Tsunoda