Slide 1

Slide 1 text

Copyright ©2024 IBM Corporation. 運用者が見るべき、ダッシュボードと問題の把握 - 基本の見方を理解する - 日本アイ・ビー・エム株式会社 テクノロジー事業本部 デジタルカスタマーサクセスマネージャー 小石川 将晃

Slide 2

Slide 2 text

Copyright ©2024 IBM Corporation. 免責事項 本資料に含まれる情報は可能な限り正確を期しておりますが、 記載された内容に関して、日本アイ・ビー・エム株式会社が 何ら保証するものではありません。 従って、本資料の情報の利用は使用者の責任において 為されるものであり、資料の内容によって受けた 如何なる被害に関しても一切の補償をするものではありません。 何卒、ご了承ください。

Slide 3

Slide 3 text

Copyright ©2024 IBM Corporation. 運用する人は、APMのどこを押さえるべきか どこを見るのか? ダッシュボードを開けば、多くの情報を 見ることができます。 しかしどこを見ていくのでしょうか? 何のために見るのか? 障害対応のために見るのでしょうか? それとも日々の様子を見るためですか? 意図を持った情報収集が必要です。 運用側にとって見える項目が増えるのは効果的なトラブルシュートに役立てることができます。 しかし、見なければならない項目が増えるのは、苦痛となってしまいます。 まず見れば良い情報や見る意味によって参照する場所を理解して、 能動的なシステム監視に役立てていくことを目標にしましょう!

Slide 4

Slide 4 text

Copyright ©2024 IBM Corporation. Instanaで見る、基本のダッシュボード ・アプリケーション 監視対象のアプリケーションが一覧で表示されます。 呼び出し、待ち時間、エラーのある呼び出し率、正常性 といった上記の項目が一目でわかります。 ・インフラストラクチャー 物理、仮想、クラウド、ハイブリッド、コンテナといった、 各種インフラをモニターすることが可能です。 ・イベント レベル別のインシデントの一覧が表示されており、 障害が起きた時は、詳細の把握ができます。 サイドバーの基本で使う項目

Slide 5

Slide 5 text

Copyright ©2024 IBM Corporation. CPUとメモリ使用率を把握する(1/2) ・マッピングによって視覚的 に把握します インフラの情報を選択して、 ダッシュボードで詳細を把握が できます。 フィルターによって、インフラ のホストやノードを絞り込むこ とも可能です。 多くのインフラが表示されてい ても特定が容易になります。 インフラストラクチャーを選択する

Slide 6

Slide 6 text

Copyright ©2024 IBM Corporation. CPUとメモリ使用率を把握する(2/2) ・システムの状況を把握する システムの概要が表示される。 時間ごとの使用率を視覚的に把 握することができる。負荷のか かる時間の把握ができる。 サイジングの妥当性を判断する 時に活用できる グラフから視覚的に直感的理解ができる

Slide 7

Slide 7 text

Copyright ©2024 IBM Corporation. ディスクI/Oを把握する ・ディスクI/Oを見る I/Oの情報を把握可能。 ボトルネック、リソース不足を 直感的に理解できる。 負荷のかかっているサーバーや アプリケーションを特定し、分 散させる目安になる。 CPUやメモリだけではない、ダッシュボード

Slide 8

Slide 8 text

Copyright ©2024 IBM Corporation. 障害発見時のフロー – APM未導入の流れ - インシデント 発生 情報 収集 障害 場所 障害 内容 対処 方法 障害の レベル 原因 解析 障害 対処 復旧 IBM Instana Observabilityが カバーしているエリア。 原因 特定

Slide 9

Slide 9 text

Copyright ©2024 IBM Corporation. 障害発見時のフロー – Instana導入後の場合 - インシデント 発生 情報 収集 障害 対処 復旧 原因 特定 一覧画面から 問題の把握 問題の詳 細を閲覧 エラーまでの イベント確認 ツリーから 原因解析 数クリックで特定できることで、従来の障害発見より解決が速くなります。 今回は問題発見から特定までの流れを見ていきましょう。 Instanaで確認 →数クリックで特定 従来よりも 早く解決する

Slide 10

Slide 10 text

Copyright ©2024 IBM Corporation. 障害原因特定までのシナリオ 一覧画面から 問題の把握 問題の詳 細を閲覧 エラーまでの イベント確認 ツリーから 原因解析 ・一覧画面から問題の把握 今回はリクエストの急激な現象という問題を見ていきます。 ・問題の詳細を閲覧 問題の箇所は自動でツリー表示されるので、状況を把握していきます。 ・エラーまでのイベント確認 エラーが起こってからのイベントが表示されるので、関連する情報を精査します。 ・ツリーから原因解析 把握した情報の分析をさらに行い、原因を解析します。

Slide 11

Slide 11 text

Copyright ©2024 IBM Corporation. 一覧画面から問題を把握 ・インシデントを把握 どのようなインシデントなのか、 重大度、発生時間をすぐに把握 が可能です。 今回はわかりやすいエラーの内 容として、上から2つ目の箇所 を見ていきます。 リクエストの急激な減少 という問題

Slide 12

Slide 12 text

Copyright ©2024 IBM Corporation. 問題の詳細を閲覧 ・インシデント情報の選択 イベント情報は左図のように表 示され、重要な問題は赤、警告 は黄色で表示されています。 ツリーを開くと、MySQLの呼 び出しを確認することができま す。 次に中身を見てみます。

Slide 13

Slide 13 text

Copyright ©2024 IBM Corporation. エラーまでのイベント確認 ・原因と関わる現象を確認 ツリーの各箇所を開いていくと、 データベースの呼び出しに異変 があることがわかります。 この時点では現象であり、障害 として確定したと言えないで しょう。 呼び出しの分析をクリックして、 内容を見ていきます。

Slide 14

Slide 14 text

Copyright ©2024 IBM Corporation. 原因解析 ・原因の特定まで 大きな問題が発生する前には、 必ず小さな問題があります。 エラーの内容を確認すると、呼 び出しに時間がかかっており、 データベースが問題だとわかり ました。 数クリックで原因まで見つける ことが可能です。

Slide 15

Slide 15 text

Copyright ©2024 IBM Corporation. 運用者が見るべきポイントをもう一度 どこを見るのか? ダッシュボードを開けば、多くの情報を 見ることができます。 しかしどこを見ていくのでしょうか? 何のために見るのか? 障害対応のために見るのでしょうか? それとも日々の様子を見るためですか? 意図を持った情報収集が必要です。 問題特定が早いこと、そして監視のポイントを確認します。 Instanaは既存の製品とは違った視点から問題にアプローチしています。 インフラストラクチャーやCPU使用率、ディスクI/Oなどを取得することです。 従来の監視は全体的なログ収集から問題を見つけるものです。 Instanaはトランザクションからリクエストなど、細かい監視を行っています。 今まで技術者が調べていた詳細なシグナルを拾い、問題特定までを早くしています。 AIと機械学習による自動的な分析を実現したツールです。

Slide 16

Slide 16 text

Copyright ©2024 IBM Corporation. 最後に:インシデントに焦らず対応するために 下記の理解を深めて、問題解決を早めていきましょう ・Instanaのダッシュボードでは多くの情報を見ることができます。 ・エラーが起きた前後の変化を時間単位で把握することが可能です。 ・過去のインシデントから、解決までの流れをなぞる事ができます。 ダッシュボードの把握、日々の情報を把握しよう さらに効果的に活用するために、 別の資料でアラートについて、説明していきます。

Slide 17

Slide 17 text

Copyright ©2024 IBM Corporation. 閲覧ありがとうございました。 別途資料はCSMまでお問い合わせください。