Slide 1

Slide 1 text

AIOps︓運⽤における AI の活⽤ AWS 事業本部 オペレーション部 園部 治 #cmdevio #cmdevioH

Slide 2

Slide 2 text

2 ⾃⼰紹介 園部 治 • AWS 事業本部 オペレーション部 • 2019.01 Join (10ヶ⽉) • 好きな AWS サービス • CloudWatch • Systems Manager • 課外活動 • OpsJAWS 運営メンバー Solutions Architect - Associate Developer - Associate SysOps Administrator - Associate

Slide 3

Slide 3 text

スライドは後で⼊⼿することが出来ますので 発表中の内容をメモする必要はありません。 写真撮影をする場合は フラッシュ・シャッター⾳が出ないようにご配慮ください Attention

Slide 4

Slide 4 text

4 はじめに… 私は、機械学習エンジニアではありません。 機械学習のデープなアルゴリズムな話は登場しません。 (ごめんなさい…)

Slide 5

Slide 5 text

5 AIOps 市場は成⻑の真っ只中︕ Gartner predicts that large enterprise exclusive use of AIOps and digital experience monitoring tools to monitor applications and infrastructure will rise from 5% in 2018 to 30% in 2023. (2018 年の 5% から 2023 年には 30% に増加すると予測しています) (引⽤元︓ How to Get Started With AIOps) 世界のAIOps (IT運⽤向け⼈⼯知能) プラットフォーム市場は、2018年の25億5000万⽶ドルから、2023年 までに110億2000万⽶ドルまで拡⼤すると⾒られています。市場は、2018年〜2023年のCAGR (複合年間成 ⻑率) で、34.0%の成⻑ が予測されています。 (引⽤元︓ AIOps Platform Market by Component, Application, Vertical, and Region - Global Forecast to 2023)

Slide 6

Slide 6 text

6 AIOps への関⼼も増えている︖︕ (Google Trends 「AIOps」検索結果)

Slide 7

Slide 7 text

No content

Slide 8

Slide 8 text

8 国内でも徐々に情報が (引⽤元︓@it)

Slide 9

Slide 9 text

9 What is AIOps

Slide 10

Slide 10 text

10

Slide 11

Slide 11 text

11

Slide 12

Slide 12 text

12

Slide 13

Slide 13 text

13

Slide 14

Slide 14 text

14 What is AIOps 2016 年 Gartner によって提唱されましたが Ø Algorithmic IT Operations 後に市場の動向などから 以下に再定義されています。 Ø Artificial Intelligence for IT Operations (IT運⽤のための⼈⼯知能 By Google 翻訳) (引⽤元︓ Gartner Blog Network AIOps Platforms )

Slide 15

Slide 15 text

15

Slide 16

Slide 16 text

16 寄り道します (急がばなんとか…ワン)

Slide 17

Slide 17 text

17 MLOps MLOps とは違うの︖︕ 異なります。 MLOps は ML (Machine Learning) を運⽤・改善する 活動を指すことが多く、ML を 運⽤に活⽤することとは 異なります。

Slide 18

Slide 18 text

18 What is AIOps

Slide 19

Slide 19 text

19 What is AI AI 関連技術をレイヤーで分けて考える 引⽤元︓(左)エンジニアなら知っておきたいAIのキホン、(右) Game 開発で活⽤するAWS の AI/ML サービスのご紹介

Slide 20

Slide 20 text

20 What is AI AI サービス 学習モデルが構築されており、⽤途・出来ることがある 程度決まっている。利⽤者はそれらを確認し、必要な データを⽤意してサービスを利⽤する。 (イメージとしては SaaS に近しい)

Slide 21

Slide 21 text

21 What is AIOps

Slide 22

Slide 22 text

22 Operations あなたの運⽤を⼀⾔でいうと︖︖ サービスの監視、インシデント対応、セキュリティ対策の 実施、ジョブ管理、アカウント・権限管理 のこと 利⽤者からのお問い合わせへの対応や FAQ 作成、ユーザー 棚卸しなどの定期・季節的な対応 のこと SLO の設定や管理、運⽤体制や共通ルールを策定を⾏い 状況をクリアにし最適化、他連携をスムーズにすること 業務運⽤ 基盤運⽤ 運 ⽤ 管 理

Slide 23

Slide 23 text

23 Operations 運⽤、運⽤設計のエッセンスが盛り沢⼭︕︕ 前ページの 運⽤の3分類は参考にさせていただきました。

Slide 24

Slide 24 text

24 Operations あなたの運⽤を⼀⾔でいうと︖︖ サービスの監視、インシデント対応、セキュリティ対策の 実施、ジョブ管理、アカウント・権限管理 のこと 利⽤者からのお問い合わせへの対応や FAQ 作成、ユーザー 棚卸しなどの定期・季節的な対応 のこと SLO の設定や管理、運⽤体制や共通ルールを策定を⾏い 状況をクリアにし最適化、他連携をスムーズにすること 基盤運⽤ AIOps は、運⽤エンジニア が対応する IT 運⽤ 領域をターゲットとしています。

Slide 25

Slide 25 text

25 What is AIOps

Slide 26

Slide 26 text

26 What is AIOps AIサービス(機械学習、ビッグデータ)を応⽤して IT 基盤運⽤における問題を分析・改善、⾃動化する⼿ 法。 • パフォーマンス分析 • 異常検出 • イベントの相関と分析 • ITサービスの管理と⾃動化

Slide 27

Slide 27 text

27 What is AIOps AIサービス(機械学習、ビッグデータ)を応⽤して IT 基盤運⽤における問題を分析・改善、⾃動化する⼿ 法。 • パフォーマンス分析 • 異常検出 • イベントの相関と分析 • ITサービスの管理と⾃動化

Slide 28

Slide 28 text

28 What is AIOps これらの課題は今に始まったことではない︖

Slide 29

Slide 29 text

29 Why is need AIOps

Slide 30

Slide 30 text

30 Why is need AIOps

Slide 31

Slide 31 text

31 Why is need AIOps マイクロサービスの登場

Slide 32

Slide 32 text

32 Why is need AIOps マイクロサービスは、⼩さな独⽴した複数のサービスでソフトウェアを構成する、ソフトウェア開発に対する アーキテクチャ的、組織的アプローチです。各サービスは、正確に定義された API を通じてやり取りします。 これらのサービスは、⼩規模の⾃⼰完結型のチームが所有します。 俊敏性 柔軟性のあるスケーリング 容易なデプロイ 耐障害性 技術的な⾃由 再利⽤可能なコード (引⽤元︓ AWS マイクロサービス概要)

Slide 33

Slide 33 text

33 Why is need AIOps サービスを細分化し、⾃律性が⾼くなる。 Ø コンポーネントの増加 Ø (全体としての)サービスの複雑化 可視性や障害対応の難しさという課題がある。 マイクロサービスを否定している訳ではありませんし、モノリシックを推奨している訳でもありません。

Slide 34

Slide 34 text

34 Why is need AIOps Observability という考え⽅

Slide 35

Slide 35 text

35 Why is need AIOps 【 可観測性 】 3つ要素からサービスの状態 の可視性を得る。 既存 Monitoring ⼿法と対 ⽐されることが多く、クラ ウドネイティブなシステム に必要な考え⽅とされる。 Logs Traces Metrics

Slide 36

Slide 36 text

36 Why is need AIOps マイクロサービス等の潮流により運⽤対象は以前より ⾶躍的に増加・複雑化 している。 個⼈/⼈間の⼒の限界 既存ツールの限界

Slide 37

Slide 37 text

37 Why is need AIOps AI 出番だ︕

Slide 38

Slide 38 text

38 課題と事例

Slide 39

Slide 39 text

39 お詫び 本来 Developer.IO の中の⼈としては 「やってみた」内容をお伝えしたかったのですが サービスの性質や現在の状況・ プラン都合等の理由から 「 やってみたつもり 」でお話します。

Slide 40

Slide 40 text

40 課題と事例 l パフォーマンス分析 l 異常検出 l イベントの相関と分析 l ITサービスの管理と⾃動化

Slide 41

Slide 41 text

41 パフォーマンス分析 〜課題〜 複雑化したシステムから、より深い洞察や根本原因へ迅 速に到達するには、Flat Metrics ではなく Dimensional Data として多くの情報を収集し、的確 に分析・観察する必要があります。これは⾔うは易し⾏ うは難しです。

Slide 42

Slide 42 text

42 パフォーマンス分析 〜事例1〜 (Metric Correlations) 相関分析により、異常を⽰しているメトリクスと 同様のパターンのメトリクスを検索し、表⽰しま す。潜在的な問題の根本原因を発⾒することをサ ポートする機能。 対象︓ APM service, integration, dashboard, or custom metric (引⽤元︓ Datadog Document Metric Correlations)

Slide 43

Slide 43 text

43 パフォーマンス分析 〜事例2〜 (Datadog Watchdog) (引⽤元︓ Datadog Document Watchdog) APM に対する異常検出機能。設定不要で、アプ リケーションメトリック(エラー率、要求率、待 ち時間など)の傾向とパターン、および予期しな い動作を監視します。

Slide 44

Slide 44 text

44 パフォーマンス分析 〜まとめ〜 l ⼈間では捌き切れない情報量になっている Ø 分散トレーシングやサービスメッシュ等に加えて、機械 学習を⽤いてアプローチすることで、データの海から必 要な情報・洞察を⼿に⼊れます。

Slide 45

Slide 45 text

45 課題と事例 l パフォーマンス分析 l 異常検出 l イベントの相関と分析 l ITサービスの管理と⾃動化

Slide 46

Slide 46 text

46 異常検出 〜課題〜 オートスケールやコンテナ化により、動的で(各コン ポーネントが)短命になったシステムでは、個別に閾値 調整や予測することが困難です。 またアラートを受けてからのリアクションなスタイルで は、常に対応が後⼿に回ります。結果、ビジネスへの影 響に直結します。

Slide 47

Slide 47 text

47 異常検出 〜事例〜 サービス 名称 特徴 Amazon CloudWatch Anomaly Detection 対象メトリクスの過去値からモデ ルを作成し、正常・異常を判断 ロール内異常検知 設定したロール内の過去のメトリ クスから学習し、それと⽐べて新 しい値が正常・異常を判断 • Anomaly Detection • Outlier Detection • 設定したスコープの過去の動 作と⽐較し判断 • 過去は考慮せず、グルーピン グした中での違いを判断

Slide 48

Slide 48 text

48 異常検出 〜まとめ〜 l 「ペットと家畜」モデル Ø サービスとして捉え、傾向を学習させることで柔軟性を 持った監視を実現 l リアクションな対応でのサービス影響 Ø 機械学習を⽤いて、予兆・予測、早期発⾒し、プロアク ティブな対応・準備を⾏うことでサービス影響を回避

Slide 49

Slide 49 text

49 課題と事例 l パフォーマンス分析 l 異常検出 l イベントの相関と分析 l ITサービスの管理と⾃動化

Slide 50

Slide 50 text

50 イベントの相関と分析 〜課題〜 多様なコンポーネントから⼤量のイベント通知されるこ とが ノイズ となり、イベントの確認漏れ・担当者が疲 弊します。 根本的な原因(Root Cause)の発⾒ や 平均復旧時間 (MTTR) が遅れる要因となる。

Slide 51

Slide 51 text

51 イベントの相関と分析 〜 事例1 〜 (Event Intelligence) (引⽤元︓ PagerDuty Document PagerDuty Event Intelligence) 1) 多くのコンポーネントから 簡単に取り込み、かつノイズを 抑制 2) ML を⽤いて、関連アラー トからインシデントに変換 3) 過去の類似インシデントか ら⾼いコンテキストを取得 4) チームが⼀つの場所から対 応が⾏える 4) 対応者が ML にフィード バックされて改善

Slide 52

Slide 52 text

52 イベントの相関と分析 〜 事例2 〜 (引⽤元︓ AWS Management & Governance Blog) Systems Manager OpsCenter 0) AWS サービスから OpsCenter へインシデントを 送信 1) OpeCenter が Moogsoft へ OpsItems を連携 2) 関連する Opsitems クラ スター化 3) 根本原因を追加 4) コンテキストなデータを 利⽤して対応

Slide 53

Slide 53 text

53 イベントの相関と分析 〜まとめ〜 l 既存アプローチ(ルールベース)の限界 Ø 新しい⼿法として、機械学習を⽤いてノイズを軽減 l ナレッジの有効活⽤(割と進まない...) Ø 過去インシデント対応を学習、インシデントを分析、類 似や関連インシデントを提⽰することで、平均復旧時間 の短縮や根本原因の早期発⾒を⽀援

Slide 54

Slide 54 text

54 課題とユースケース l パフォーマンス分析 l 異常検出 l イベントの相関と分析 l ITサービスの管理と⾃動化

Slide 55

Slide 55 text

55 ITサービスの管理と⾃動化 〜課題〜 ITサービスの状況を管理する⼿法として、 SLA や SLO、 KPI が取り⼊られています。しかし管理対象が増え、複 雑化することで、それらの因果関係が不透明となり、ま た予測が困難になっています。

Slide 56

Slide 56 text

56 ITサービスの管理と⾃動化 〜事例〜 (IT Service Intelligence) (引⽤元︓ ITインフラSummit 夏) KPI や SLA(SLO) を設け、サービス状況を 可視化、予測モデルから近い将来の状況を予 測します。 また多くのデータから関連が⾼い指標を提⽰ し、事前に対処することを可能とします。

Slide 57

Slide 57 text

57 ITサービスの管理と⾃動化 〜まとめ〜 l ITサービスの管理・⾒通しの難しさ Ø 機械学習を⽤いて、予測・相関分析を⾏うことで、根本 原因への対応、事前対応を可能として、サービス品質を 確保・向上させます。

Slide 58

Slide 58 text

58 AI と Operations は相性が良い︕…はず 1. 学習材料となるデータが豊富 2. ⼈間の限界をカバー 3. 集合知の実現への⼀⼿

Slide 59

Slide 59 text

59 どう始めたらいいのか︖

Slide 60

Slide 60 text

60 どう始めたらいいのか︖ AIOps Platform を活⽤する︕ (Gartner によるレポートによる AIOps コア機能を提供するプラットフォーム) 1. (ベンダーにとらわれない) 複数リ ソースからのデータ取り込み 2. リアルタイムおよび過去履歴データ 分析 の実⾏ 3. 機械学習の活⽤ 4. 分析に基づいたネクストアクション の実⾏

Slide 61

Slide 61 text

61 どう始めたらいいのか︖ (引⽤元︓ Gartner-Market-Guide-for-AIOps-Platforms-Nov-18)

Slide 62

Slide 62 text

62 どう始めたらいいのか︖ 私⾒︔ 最初から AIOps Platform を扱うのは 敷居が⾼い。 部分的に⼩さくトライするのが良い。 既存で利⽤している サービスで AI(機械学習)が 利⽤した機能の有無をチェックすることをお勧めします。

Slide 63

Slide 63 text

63 どう始めたらいいのか︖ ⽬的・課題を明確にすることが⼤切 l 運⽤コスト(仕事)が減るよね︖ Ø コストは物差しでしかない。 l いい感じにやってくれるんでしょ︖ Ø これも銀の弾丸ではない。

Slide 64

Slide 64 text

64 まとめ

Slide 65

Slide 65 text

65 まとめ l AIOps とは︖ IT運⽤(主に基盤運⽤)の課題に対して AI を⽤いる⼿法 l なぜ必要なのか︖ 複雑化したシステム・増加するデータの中から、可視性を保ちプロアク ティブな対応を⾏うには、⼈間・ツールは限界に達している l どうしたら良いのか︖ ⽬的を明らかにし、スモールスタートするのが吉

Slide 66

Slide 66 text

66 さいごに l 巨⼈の肩に乗る l AI の頭脳も借りる

Slide 67

Slide 67 text

67 ご清聴ありがとうございました︕

Slide 68

Slide 68 text

68 参考⽂献 l How to Get Started With AIOps < https://www.gartner.com/smarterwithgartner/how-to-get-started-with-aiops/ > l AIOps Platform Market by Component, Service (Implementation, Consulting, and Managed Services), Application (Real-time Analytics, Infrastructure Management, and Application Performance Management), Vertical, and Region - Global Forecast to 2023 < https://www.gii.co.jp/report/mama665460-aiops-platform-market-by-component-service.html > l Gartner Blog Network AIOps Platforms < https://blogs.gartner.com/andrew-lerner/2017/08/09/aiops-platforms/ > l Shoko Utsunomiya 『Game 開発で活⽤するAWS の AI/ML サービスのご紹介』 l 梅⽥弘之(2019) 『エンジニアなら知っておきたいAIのキホン』 l Moogsoft AIOps Blog < https://www.moogsoft.com/blog/ >

Slide 69

Slide 69 text

69 参考⽂献 l PagerDuty Blog Cut Through the Chaos With PagerDuty Event Intelligence < https://www.pagerduty.com/blog/suppress-noise-event-intelligence/ > l 近藤誠司(2019)『運⽤設計の教科書』 l @it AIPos とは何か < https://www.atmarkit.co.jp/ait/subtop/features/systemdesign/aiops.html > l @it 「AIOps」で運⽤管理者の働き⽅はどう変わるのか < https://www.atmarkit.co.jp/ait/articles/1910/30/news023.html > l @it 「AIOps」とは何か、どのように始めるべきなのか < https://www.atmarkit.co.jp/ait/articles/1910/04/news007.html > l PagerDuty Document PagerDuty Event Intelligence < https://support.pagerduty.com/docs/event-intelligence >

Slide 70

Slide 70 text

70 参考⽂献 l Mackerel Blog 新機能・ロール内異常検知の使いかた < https://mackerel.io/ja/blog/entry/anomaly-detection-for-roles/about > l Datadog Engineering Blog Rethinking UX for AI-driven Alerting < https://www.datadoghq.com/blog/engineering/rethinking-ux-for-ai-driven-alerting/ > l AWS Web Services Blog 新規 – Amazon CloudWatch anomaly detection – 異常検出 < https://aws.amazon.com/jp/blogs/news/new-amazon-cloudwatch-anomaly-detection/ > l AWS Management & Governance Blog < https://aws.amazon.com/jp/blogs/mt/detect-and-remediate-issues-faster-with-aws-systems-manager-opscenter-and-moogsoft-aiops/ > l AWS マイクロサービス < https://aws.amazon.com/jp/microservices/ > l Gartner-Market-Guide-for-AIOps-Platforms-Nov-18

Slide 71

Slide 71 text

71 参考⽂献 l Datadog Document Metric Correlations < https://docs.datadoghq.com/graphing/correlations/ > l Datadog Document Watchdog < https://docs.datadoghq.com/watchdog/ > l ITインフラSummit 夏 < https://special.nikkeibp.co.jp/atclh/NXT/19/splunk0829/ >

Slide 72

Slide 72 text

72