Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Incident Management With Datadog

taka2noda
November 18, 2021

Incident Management With Datadog

2021年11月18日に、Datadogを導入した際のToBe / AsIsと、Incident管理における活用イメージを整理した資料です。
Datadog入社前に作成した資料となります。
一部、外部公開するにあたり修正した箇所があります。

taka2noda

November 18, 2021
Tweet

More Decks by taka2noda

Other Decks in Technology

Transcript

  1. 熱中していること:娘! 
 
 趣味:🍺飲み会、🏀バスケットボール、✈旅行 
 
 
 職務経験:
  IBMで1600台以上のIT基盤保守運用チームリード +

    Agile/SRE/Container導入案件リード 
 
   <詳細>   - IBM Global標準ITSM Toolの日本のアプリケーションチームリーダー(3年)   - 1600台を保守するIT基盤プロジェクトのMW, OS, Hypervisor, HWチームリーダー(3年)   - アプリ, MW, OS, Hypervisorのパラメーターチューニング経験 
   - Japan唯一のIBMとKyndrylのSlack Championとして、11万人のGlobal企業の分社化支援 
   - 日本IBM社長賞受賞コンテナ構築案件におけるWAS Liberty標準化チームリード 
 Kyndryl Slack Champion Community Kick Off MTG Spotlight Speaker IBM SRE Conference 2021 Speaker | Takaaki Tsunoda Part1. 自己紹介
  2. 想定顧客: - 9割以上のシステムがプライベートクラウド上で稼働中 - フロントのアプリケーションサーバーから、徐々にパブリッククラウドへの移行を推進中 (2022年のIT部門の最重要施策 ) - 業務内容に応じて SaaSの活用も拡大中

    - 導入した製品に応じて個別に最適な監視設計をしてきたため、監視ツールが乱立している状況 最優先課題: 障害復旧の遅延によるサービスレベルの低下と、障害対応の長期化によるコストの肥大化 監視アーキテクチャ概要図: →包括的に監視可能で、インシデント対応を改善できる監視ツールの採用を検討中 O365 Salesforce その他SaaS Private Cloud Public Cloud RPA+PowerShell Private Cloud用 監視サーバー Public Cloudの 監視サービス ServiceNow ダッシュボード システム担当 SE Private Cloud用 監視コンソール Public Cloudの 監視コンソール 監視オペレーター | 想定顧客と課題 Part2. 前回ご提案の振り返り
  3. | Datadogの優位性 Part2. 前回ご提案の振り返り <幅広い監視対象サービス > <機能拡充のスピードと成長性 > <様々なデータを一元的に可視化する UI>

    Gartner® Magic Quadrant™ 2022 のレポートを参照ください https://www.datadoghq.com/ja/ blog/datadog-apm-observability- gartner-magic-quadrant-2022/
  4. | インシデント対応における業務課題 Part3. Datadogを活用したインシデント対応ご紹介 監視レベルの差異の発生
 インシデント原因特定の複雑化
 オペレーターからの電話連絡遅延
 SEの対応初動遅延
 インシデント対応の管理漏れ
 システムの導入時期によって閾値が違うため、

    
 障害発生タイミングの特定ができない・・・(品質管理部部長) 
 レスポンス悪化の原因特定にどれだけ時間がかかるんだ? 
 アプリ?基盤?Storage?それとも連携しているSaaS?(執行役員) 
 今みたいに複数画面切り替えながらアラート確認してコールなんて 
 間違えないようにするだけで手いっぱいですよ(監視オペレーター) 
 PCを開いてメールで内容を見ないと、 
 コール受けただけでは状況が分からないですね(担当SE) 実際、実機ログインしたころにはサーバー負荷の問題は 
 解消されているケースがほとんどです(担当SE) 
 インシデント管理ツールへの記載がされないケースが多いですが、 
 忙しそうなSEの方にしつこくお願いするわけにもいかず・・・ 
 (品質管理部社員) 
 現場ヒアリングの結果、抽出された業務課題

  5. SaaS Private Cloud Public Cloud Datadog ServiceNow ダッシュボード ServiceNowへ イベント情報の連携

    システム担当 SE 監視オペレーター 担当者に電話 単一のDatadogコンソールでの確認 一元監視 Slackへグラフ付きの通知 SaaS Private Cloud Public Cloud RPA+PowerShell Private Cloud用 監視サーバー Public Cloudの 監視サービス APIでイベント情報を取得 監視製品機能により、 閾値監視とログ監視を実施 ServiceNow ダッシュボード APIでイベント情報を連携 システム担当 SE メールでアラート情報を通知 Private Cloud用 監視コンソール Public Cloudの 監視コンソール 監視オペレーター 担当者に電話 複数の監視コンソールを目視で確認 | 解決策1.Datadogによる一元監視
 Part3. Datadogを活用したインシデント対応ご紹介 <AsIs> <ToBe> Datadog導入による監視フローのAsIsとToBe
 インシデント対応の迅速化と、監視ツールの管理工数削減が可能

  6. | Datadogによるインシデント対応効果まとめ
 Part3. Datadogを活用したインシデント対応ご紹介 Datadogの導入により、御社のインシデント対応の大幅な迅速化、工数削減を実現
 RPA+PowerShell Private Cloud用 監視サーバー Public

    Cloudの 監視サービス Private Cloud用 監視コンソール Public Cloudの 監視コンソール Datadog 全てを集約 <変更概要> SaaS Private Cloud Public Cloud Datadog ServiceNow ダッシュボード システム担当 SE 監視オペレーター 担当者に電話 単一のDatadogコンソールでの確認 一元監視 Slackへグラフ付きの通知 <導入後監視アーキテクチャ >