Upgrade to Pro — share decks privately, control downloads, hide ads and more …

AIOps:運用における AI の活用

bee3
November 01, 2019

AIOps:運用における AI の活用

devlopers.io2019 #cmdevio

bee3

November 01, 2019
Tweet

More Decks by bee3

Other Decks in Technology

Transcript

  1. 2 ⾃⼰紹介 園部 治 • AWS 事業本部 オペレーション部 • 2019.01

    Join (10ヶ⽉) • 好きな AWS サービス • CloudWatch • Systems Manager • 課外活動 • OpsJAWS 運営メンバー Solutions Architect - Associate Developer - Associate SysOps Administrator - Associate
  2. 5 AIOps 市場は成⻑の真っ只中︕ Gartner predicts that large enterprise exclusive use

    of AIOps and digital experience monitoring tools to monitor applications and infrastructure will rise from 5% in 2018 to 30% in 2023. (2018 年の 5% から 2023 年には 30% に増加すると予測しています) (引⽤元︓ How to Get Started With AIOps) 世界のAIOps (IT運⽤向け⼈⼯知能) プラットフォーム市場は、2018年の25億5000万⽶ドルから、2023年 までに110億2000万⽶ドルまで拡⼤すると⾒られています。市場は、2018年〜2023年のCAGR (複合年間成 ⻑率) で、34.0%の成⻑ が予測されています。 (引⽤元︓ AIOps Platform Market by Component, Application, Vertical, and Region - Global Forecast to 2023)
  3. 10

  4. 11

  5. 12

  6. 13

  7. 14 What is AIOps 2016 年 Gartner によって提唱されましたが Ø Algorithmic

    IT Operations 後に市場の動向などから 以下に再定義されています。 Ø Artificial Intelligence for IT Operations (IT運⽤のための⼈⼯知能 By Google 翻訳) (引⽤元︓ Gartner Blog Network AIOps Platforms )
  8. 15

  9. 17 MLOps MLOps とは違うの︖︕ 異なります。 MLOps は ML (Machine Learning)

    を運⽤・改善する 活動を指すことが多く、ML を 運⽤に活⽤することとは 異なります。
  10. 24 Operations あなたの運⽤を⼀⾔でいうと︖︖ サービスの監視、インシデント対応、セキュリティ対策の 実施、ジョブ管理、アカウント・権限管理 のこと 利⽤者からのお問い合わせへの対応や FAQ 作成、ユーザー 棚卸しなどの定期・季節的な対応

    のこと SLO の設定や管理、運⽤体制や共通ルールを策定を⾏い 状況をクリアにし最適化、他連携をスムーズにすること 基盤運⽤ AIOps は、運⽤エンジニア が対応する IT 運⽤ 領域をターゲットとしています。
  11. 33 Why is need AIOps サービスを細分化し、⾃律性が⾼くなる。 Ø コンポーネントの増加 Ø (全体としての)サービスの複雑化

    可視性や障害対応の難しさという課題がある。 マイクロサービスを否定している訳ではありませんし、モノリシックを推奨している訳でもありません。
  12. 35 Why is need AIOps 【 可観測性 】 3つ要素からサービスの状態 の可視性を得る。

    既存 Monitoring ⼿法と対 ⽐されることが多く、クラ ウドネイティブなシステム に必要な考え⽅とされる。 Logs Traces Metrics
  13. 43 パフォーマンス分析 〜事例2〜 (Datadog Watchdog) (引⽤元︓ Datadog Document Watchdog) APM

    に対する異常検出機能。設定不要で、アプ リケーションメトリック(エラー率、要求率、待 ち時間など)の傾向とパターン、および予期しな い動作を監視します。
  14. 47 異常検出 〜事例〜 サービス 名称 特徴 Amazon CloudWatch Anomaly Detection

    対象メトリクスの過去値からモデ ルを作成し、正常・異常を判断 ロール内異常検知 設定したロール内の過去のメトリ クスから学習し、それと⽐べて新 しい値が正常・異常を判断 • Anomaly Detection • Outlier Detection • 設定したスコープの過去の動 作と⽐較し判断 • 過去は考慮せず、グルーピン グした中での違いを判断
  15. 48 異常検出 〜まとめ〜 l 「ペットと家畜」モデル Ø サービスとして捉え、傾向を学習させることで柔軟性を 持った監視を実現 l リアクションな対応でのサービス影響

    Ø 機械学習を⽤いて、予兆・予測、早期発⾒し、プロアク ティブな対応・準備を⾏うことでサービス影響を回避
  16. 51 イベントの相関と分析 〜 事例1 〜 (Event Intelligence) (引⽤元︓ PagerDuty Document

    PagerDuty Event Intelligence) 1) 多くのコンポーネントから 簡単に取り込み、かつノイズを 抑制 2) ML を⽤いて、関連アラー トからインシデントに変換 3) 過去の類似インシデントか ら⾼いコンテキストを取得 4) チームが⼀つの場所から対 応が⾏える 4) 対応者が ML にフィード バックされて改善
  17. 52 イベントの相関と分析 〜 事例2 〜 (引⽤元︓ AWS Management & Governance

    Blog) Systems Manager OpsCenter 0) AWS サービスから OpsCenter へインシデントを 送信 1) OpeCenter が Moogsoft へ OpsItems を連携 2) 関連する Opsitems クラ スター化 3) 根本原因を追加 4) コンテキストなデータを 利⽤して対応
  18. 53 イベントの相関と分析 〜まとめ〜 l 既存アプローチ(ルールベース)の限界 Ø 新しい⼿法として、機械学習を⽤いてノイズを軽減 l ナレッジの有効活⽤(割と進まない...) Ø

    過去インシデント対応を学習、インシデントを分析、類 似や関連インシデントを提⽰することで、平均復旧時間 の短縮や根本原因の早期発⾒を⽀援
  19. 56 ITサービスの管理と⾃動化 〜事例〜 (IT Service Intelligence) (引⽤元︓ ITインフラSummit 夏) KPI

    や SLA(SLO) を設け、サービス状況を 可視化、予測モデルから近い将来の状況を予 測します。 また多くのデータから関連が⾼い指標を提⽰ し、事前に対処することを可能とします。
  20. 60 どう始めたらいいのか︖ AIOps Platform を活⽤する︕ (Gartner によるレポートによる AIOps コア機能を提供するプラットフォーム) 1.

    (ベンダーにとらわれない) 複数リ ソースからのデータ取り込み 2. リアルタイムおよび過去履歴データ 分析 の実⾏ 3. 機械学習の活⽤ 4. 分析に基づいたネクストアクション の実⾏
  21. 65 まとめ l AIOps とは︖ IT運⽤(主に基盤運⽤)の課題に対して AI を⽤いる⼿法 l なぜ必要なのか︖

    複雑化したシステム・増加するデータの中から、可視性を保ちプロアク ティブな対応を⾏うには、⼈間・ツールは限界に達している l どうしたら良いのか︖ ⽬的を明らかにし、スモールスタートするのが吉
  22. 68 参考⽂献 l How to Get Started With AIOps <

    https://www.gartner.com/smarterwithgartner/how-to-get-started-with-aiops/ > l AIOps Platform Market by Component, Service (Implementation, Consulting, and Managed Services), Application (Real-time Analytics, Infrastructure Management, and Application Performance Management), Vertical, and Region - Global Forecast to 2023 < https://www.gii.co.jp/report/mama665460-aiops-platform-market-by-component-service.html > l Gartner Blog Network AIOps Platforms < https://blogs.gartner.com/andrew-lerner/2017/08/09/aiops-platforms/ > l Shoko Utsunomiya 『Game 開発で活⽤するAWS の AI/ML サービスのご紹介』 l 梅⽥弘之(2019) 『エンジニアなら知っておきたいAIのキホン』 l Moogsoft AIOps Blog < https://www.moogsoft.com/blog/ >
  23. 69 参考⽂献 l PagerDuty Blog Cut Through the Chaos With

    PagerDuty Event Intelligence < https://www.pagerduty.com/blog/suppress-noise-event-intelligence/ > l 近藤誠司(2019)『運⽤設計の教科書』 l @it AIPos とは何か < https://www.atmarkit.co.jp/ait/subtop/features/systemdesign/aiops.html > l @it 「AIOps」で運⽤管理者の働き⽅はどう変わるのか < https://www.atmarkit.co.jp/ait/articles/1910/30/news023.html > l @it 「AIOps」とは何か、どのように始めるべきなのか < https://www.atmarkit.co.jp/ait/articles/1910/04/news007.html > l PagerDuty Document PagerDuty Event Intelligence < https://support.pagerduty.com/docs/event-intelligence >
  24. 70 参考⽂献 l Mackerel Blog 新機能・ロール内異常検知の使いかた < https://mackerel.io/ja/blog/entry/anomaly-detection-for-roles/about > l

    Datadog Engineering Blog Rethinking UX for AI-driven Alerting < https://www.datadoghq.com/blog/engineering/rethinking-ux-for-ai-driven-alerting/ > l AWS Web Services Blog 新規 – Amazon CloudWatch anomaly detection – 異常検出 < https://aws.amazon.com/jp/blogs/news/new-amazon-cloudwatch-anomaly-detection/ > l AWS Management & Governance Blog < https://aws.amazon.com/jp/blogs/mt/detect-and-remediate-issues-faster-with-aws-systems-manager-opscenter-and-moogsoft-aiops/ > l AWS マイクロサービス < https://aws.amazon.com/jp/microservices/ > l Gartner-Market-Guide-for-AIOps-Platforms-Nov-18
  25. 71 参考⽂献 l Datadog Document Metric Correlations < https://docs.datadoghq.com/graphing/correlations/ >

    l Datadog Document Watchdog < https://docs.datadoghq.com/watchdog/ > l ITインフラSummit 夏 < https://special.nikkeibp.co.jp/atclh/NXT/19/splunk0829/ >
  26. 72