Slide 1

Slide 1 text

Copyright ©2024 IBM Corporation. 多様なメトリックとシステムの健全性維持 - ゴールデンシグナルや機械学習 - 日本アイ・ビー・エム株式会社 テクノロジー事業本部 デジタルカスタマーサクセスマネージャー 小石川 将晃

Slide 2

Slide 2 text

Copyright ©2024 IBM Corporation. 免責事項 本資料に含まれる情報は可能な限り正確を期しておりますが、 記載された内容に関して、日本アイ・ビー・エム株式会社が 何ら保証するものではありません。 従って、本資料の情報の利用は使用者の責任において 為されるものであり、資料の内容によって受けた 如何なる被害に関しても一切の補償をするものではありません。 何卒、ご了承ください。

Slide 3

Slide 3 text

Copyright ©2024 IBM Corporation. 健全なシステムを維持するための理解を深める システムにはメトリックという多くの指標があります。 メトリックという用語で意識しているかは別として、障害特定に利用しています。 その詳細を理解して、さらに健全なシステム維持を目標にしましょう。 今回の資料で押さえるべきポイント ・メトリックの意味と種類の理解 ・ゴールデンシグナルとはなにか ・メトリックを理解して、アラートの効果を高め、予兆検知に繋げる さっそく内容に入りましょう! 今回の資料で伝えたいこと

Slide 4

Slide 4 text

Copyright ©2024 IBM Corporation. ・メトリック システムやアプリケーションの「状態」のことです。 人間でいう血圧や心拍数、血中濃度などの「指標」をメトリック( Metric )と呼びます。 多くのメトリックが存在しています。 メトリックは、常にデータポイントと一体となっています。 データポイントは指標の「値」のことであり、測定時の「数値」です。 メトリックのデータポイント=指標の数値といえます。 ・予兆検知 システム障害やパフォーマンスの問題を、兆候から把握することです。 事前に検知することで、問題を顕在化させないようにします。 放置すれば起こっていたであろう問題を、未然に防ぐことが目的です。 メトリックと予兆検知の意味とは?

Slide 5

Slide 5 text

Copyright ©2024 IBM Corporation. メトリック 名前のついたカテゴリ メトリック=状態=指標 名前のついたカテゴリであるといえます。 心拍数 60 体重 60Kg 基礎代謝 1500 CPU使用率 XX% 呼び出し XX件 リクエスト XX件 人間 システム データポイント メトリックの数値 メトリックを人間に例えて考える

Slide 6

Slide 6 text

Copyright ©2024 IBM Corporation. ・一般的なメトリック CPU使用率 :コンピュータのCPUの稼働率を表します。 メモリ使用率 :コンピュータのメモリ使用率を表します。 リクエスト数 :ユーザーからのリクエスト(要求)を表します。 レイテンシ(遅延) :リクエストに対して、応答する時間を表します。 エラー率 :失敗したリクエストの割合を表します。 ディスクI/O :ディスクのデータの読み書きの量を表します。 ・その他のメトリック APIの応答時間 :APIの応答を測定し、時間で表します。 データベースクエリ応答時間 :クエリにかかる応答を測定し、時間で表します。 ネットワーク遅延 :ネットワーク上で送受信する際にかかる時間を表します。 セッション数 :同時接続ユーザーやクライアントのセッションの数を表します。 UX数値 :ユーザー体験の数値化、読み込みなどUXに関わる時間を表します。 スレッド数 :システムやアプリケーションが処理している作業単位を表します。 など、多様にあります。 →従来から多く監視されてきた指標。 →見ることはできたが、APMで容易に見られるようになった指標。 メトリックの種類を理解する

Slide 7

Slide 7 text

Copyright ©2024 IBM Corporation. メトリックの中でも重要な指針をゴールデンシグナルと呼ぶ 参考: https://cloud.google.com/blog/ja/products/management-tools/the-right-metrics-to-monitor-cloud-data-pipelines レイテンシ トラフィック エラー 飽和度 ゴールデンシグナルとは、システムの健全性を把握するための重要な指標です。 メトリックの一部であり、上記の4つに注目することで潜在的な問題を早期に発見できます。 飽和度(サチュレーション):システムの使用率、リソースがフルになるまでどれだけ近いかを表します。 ゴールデンシグナルとメトリックについて

Slide 8

Slide 8 text

Copyright ©2024 IBM Corporation. レイテンシ トラフィック エラー 飽和度 レイテンシを監視することで、 パフォーマンスの悪いサービスの 特定が早くなります。 ユーザーからのトランザクション が与える負荷を監視することで、 負荷の変化によるシステムの変化 を把握することができます。 エラーを監視することは、重大か どうかの判断に役立ちます。 頻度の高いエラーは素早く解決し、 重要度で対応も変化できます。 システムは100%になる前に パフォーマンスが低下し始めます。 そのためどの程度リソースを利用 して良いのかの指針となります。 健全なシステムとはシステム利用者にとって「いつでも利用可能な状態であること」です。 4つのメトリックを監視することが、健全なシステム運用に繋がります。 ゴールデンシグナルの活用でなにが変わる?

Slide 9

Slide 9 text

Copyright ©2024 IBM Corporation. ところで、APMと従来の監視は何が違うのか 監視 Monitoring APM Application Performance Management 可観測性 Observability – データの収集 – 閾値設定とアラート – 基盤的観点が注視 • プロセス監視 • ログ・メッセージ監視 • メトリック監視 – インシデントへの対応 – 事後的 Passive – アプリケーション層まで 含めたデータの収集 – サービスレベルの把握 • スループット • エラー発生率 • 応答性能 – ビジュアル・ダッシュボード – システムの複数の層にわたる データの収集と リアルタイムの分析 – 複雑化したシステムを 「積極的に」理解し 問題状況の把握を行う 動的なプラクティス インフラのリソースの監視

Slide 10

Slide 10 text

Copyright ©2024 IBM Corporation. AI/ML(機械学習)によるインテリジェントなアクション 10 ✓ 固定的なしきい値監視だけ では拾えない ✓ 大量のイベント通知 ✓ メトリック値だけでは なにが起きているか わからない ! 従来型モニタリングの課題 APMは問題の要因を理解して、迅速に解決に導きます 要求数、エラー数、応答性能などのゴールデン・シグナルに対して 機械学習が適応され、通常と違う振る舞いを検知します。

Slide 11

Slide 11 text

Copyright ©2024 IBM Corporation. ・監視対象 従来の監視ツールはインフラのリソースに焦点を当てているのが特徴です。 APMはアプリケーションの動作やトランザクションのレベルで追跡しています。 APM利用による3つの変わった点 ・多様なメトリックによる、細かなアラート 従来はCPU使用率やメモリ使用率などが閾値を超えた時に、アラートを通知しています。 APMではAPIの応答時間やエラー発生をトリガーにすることができます。 ・AI/MLの活用による迅速かつ的確な検知 AI/MLによって、異変を検知し的確なアラートを通知します。 また、APMでは細かなポイントを可視化しており、影響範囲を含めて検知します。

Slide 12

Slide 12 text

Copyright ©2024 IBM Corporation. 多様な メトリック アラートの 通知を行う 予兆検知 リアルタイム監視によって、 メトリックから警告を検出 各状況から潜在的な課題を 洗い出し、アラートとして通知する 予兆検知によって、問題が解決する データは蓄積され、繰り返される 可用性を高めるために、障害が起きる前に対応できれば理想的な運用になります。 従来の監視では、障害が起きてからの通知となります。 多様なメトリックを監視できるAPMでは、予兆的な検知を行なえます。 ・予兆検知サイクルの略図 インテリジェントなアクションで予兆検知も可能になる AI/MLの活用

Slide 13

Slide 13 text

Copyright ©2024 IBM Corporation. リアルタイム検知 優先度の決定 早期対応 常に健全な システム ゴールデンシグナルを含むメトリックの監視により障害を検知。 リアルタイムで検知/通知が可能となります。 エラーや飽和度のアラートによって、 影響が大きい問題の優先度が決まります。 トラフィックやレイテンシによって、 重大な障害につながる前に対応ができます。 多くのメトリックを監視するAPMによって、 システムを健全に維持できます。 APMによる検知とアラートまでの流れ

Slide 14

Slide 14 text

Copyright ©2024 IBM Corporation. ・データによる意思決定 メトリックによって、アーキテクチャの見直しや容量に対する 事前計画をデータドリブンで行うことができます。 ・顧客満足度の向上 レスポンスが改善すること、システムが長期間安定稼動することによって、 顧客のサービス体験は向上が期待できます。 ・パターン蓄積による運用簡易化 飽和のシグナルによって、リソース不足になるパターンの蓄積が行われます。 予測的なリソース管理が可能となります。 ゴールデンシグナル以外のメトリックの監視も重要です。 各メトリックが見れることで、得られる可能性が広がります。 メトリックは多様な可能性を持っている

Slide 15

Slide 15 text

Copyright ©2024 IBM Corporation. ・多くのメトリックを活用することで、障害発見を早めることができます。 →多様なメトリックを監視できることが効果を高めます。 ・ゴールデンシグナルは健全性に繋がっています。 →ゴールデンシグナルだけ監視すれば良いわけではないことも押さえましょう。 ・各メトリックのリアルタイム検知は、効果的なアラート通知に繋がります。 →機械学習によって、健全性に繋がる指標を取得し、障害を通知します。 各メトリックの特性を理解して、健全性を保ちましょう 最後に:効果的にメトリックを利用する

Slide 16

Slide 16 text

Copyright ©2024 IBM Corporation. 閲覧ありがとうございました。 別途資料はCSMまでお問い合わせください。