Observability & APM 入門〜2023年のIT運用/監視の流行語はこれだ！

- 1 - - 1 - Observability & APM ⼊⾨
〜2023年のIT運⽤/監視の流⾏語はこれだ︕ - Instanaのデモンストレーションを添えてご紹介 2023/01/12 Takahiro Esaki 1

- 2 - - 2 - 講師紹介【経歴】 n東京⼤学⽂学部
⼼理学専修課程卒業 • 専⾨︓⾼次認知（記憶・学習・⾏動など） n業務/ITコンサルティング • 基幹システム運⽤保守業務改⾰ • 基幹システム刷新PMO • サプライチェーン最適化/需要予測最適化 • データ分析システム刷新PM/アーキテクチャ設計など n新規事業開発・アジャイル開発・ローコード開発 • クラウドソーシングプラットフォームサービス • アパレルプラットフォームサービス • 海外クリエーター向けe-Learningサービスなど nCSM (カスタマーサクセスマネージャー) @IBM Japan※ • AI & Cloudソリューションの活⽤促進 • コミュニティ活動・アドボケート活動など ※本講演・本資料は IBM Japan, Ltd. を代表するものではございません江﨑崇浩（Takahiro Esaki） Twitter @t_esaking LinkedIn CSMをご紹介する記事を執筆しましたので、ぜひご確認ください︕ https://www.imagazine.co.jp/customer-success-manager/

- 3 - - 3 - アジェンダ 1 ͸͡Ίʹ 2
Observabilityͷઆ໌ 3 APMͷઆ໌ɾInstanaͷσϞ 4 ͓ΘΓʹ

- 4 - - 4 - アジェンダ 1 ͸͡Ίʹ 2

- 5 - - 5 - はじめにみなさん、 2022年どうでした︖

- 6 - - 6 - 2022年を流⾏語で振り返ってみよう（ユーキャン ver）図表参考︓https://www.nikkansports.com/general/nikkan/news/202212010000406.html ユーキャン
新語・流⾏語⼤賞︓https://www.jiyu.co.jp/singo/index.php

- 7 - - 7 - 2022年を流⾏語で振り返ってみよう（SNS ver）参考︓https://webtan.impress.co.jp/n/2022/12/02/43812

- 8 - - 8 - 個⼈的な流⾏語は・・・ Observability 今⽇は「Observability」の話をする・・・ってコト︕︖
参考︓ちいかわ

- 9 - - 9 - みなさん、こう思っていませんか︖ 参考︓ちいかわ

- 10 - - 10 - まあ、落ち着いてくださいおそろ
しく速い⾃然な導⼊参考︓HUNTER×HUNTER 本⽇は個⼈的な流⾏語の1つ「Observability」の話をします︕ （⼤事なことなので2回良いましたが、団⻑の⼿⼑を⾒逃さなかった⼈のおかげで⼤丈夫ですね︕）

- 11 - - 11 - 本⽇のモチベと期待 n 本⽇はソフトウェアライフサイクルの中の、「Day2オペレーション」のテーマになります Day0
• 計画 • 設計 • 調達 Day1 • 構築 • 初期設定 Day2 • 運⽤ (監視/メンテナンス/トラブル対応など) 本⽇のテーマ（講師のモチベ） n 2022年のふりかえり︓「開発」する視点だけでなく、「運⽤」する視点も⼤事︕ n 2023年も「Observability」がもっと熱くなってくると思うので伝えたい︕ （期待） n 「運⽤」「Observability」「APM」をよく知らない⼈たち︓ 興味を持っていただく。知識をつけていただく。周りに伝えていただく n 「運⽤」「Observability」「APM」を知っている⼈たち︓ 改めて整理して、より⾝近に感じていただく。講師の説明不⾜があれば、宜しければフォロー願います ※Observability = 可観測性 ※APM (Application Performance Management) = アプリケーション性能管理

- 12 - - 12 - 本⽇のテーマの概念イメージ従来の監視 Monitoring 可観測性
Observability APM Application Performance Management n 従来の監視 & Observability & APM

- 13 - - 13 - アジェンダ 1 ͸͡Ίʹ 2

- 14 - - 14 - 従来の監視 vs Observability (可観測性)
n マイクロサービス化など環境変化を背景に、従来の監視に対するアンチテーゼとしてObservabilityが注⽬されている従来の監視 Monitoring 可観測性 Observability APM Application Performance Management • レガシー/モノシリック • オンプレ中⼼ • マイクロサービス • クラウドネイティブ環境の変化 • 複数のシステム/基盤にわたるデータの収集 • システム全体の振る舞いを理解して、サービス改善に取り組む • 主要シグナルは、メトリック・トレース・ログ • 積極的な対応 (Proactive)を⽬指す • 特定のシステム/基盤の視点でデータの収集 • あらかじめ閾値を設定。障害アラートを受けてインシデント対応 • 事後的な対応 (Passive) になりがち

- 15 - - 15 - 参考︓監視 (Monitoring) n 監視についての全体的な整理をするための参考情報は次の通り
監視観点⽬的具体的な監視対象ビジネスKPI ユーザがサービスを利⽤できているか、サービスは期待効果を創出しているか、システムがどのライフサイクルに位置しているかなどを確認する • アクティブユーザ数、ログイン数、アクセスルート、キャッシュコンバージョンレートなどフロントエンドブラウザやモバイルアプリのフロントエンドのパフォーマンス/エラーを監視し、ユーザ満⾜・売り上げに貢献しているか確認する • レンダリングパフォーマンス • JavaScriptエラーなどアプリケーションアプリ単位でのパフォーマンスやエラーなどを測定し、期待通りの動作をしているか確認する。障害原因の調査を実施する • クエリ実⾏時間、外部API応答時間 • デプロイパイプラインメタ情報 • ヘルスチェックなどリソース（サーバ）アプリが稼働しているサーバの物理的なメトリクスを測定し、スケーリング検討や障害原因の調査を実施する • CPU/メモリ/ディスクなどの共通メトリクス • WebサーバのHTTPステータスコード、 DBサーバのスロークエリなどの特有メトリクスネットワークネットワークの疎通/パフォーマンスなどからアプリが期待通りの動作をしているかを確認する。障害原因の調査を実施する • インバウンド/アウトバンドのIPアドレス、パケット、アクセス頻度、ルーティングなどセキュリティ不正アクセス/悪意的な攻撃などからユーザ情報や企業機密などのデータを保護するための検知/追跡の仕組みを構築する • ユーザ、コマンド、ファイルシステムの実⾏履歴など

- 16 - - 16 - Observability (可観測性) とは︖ n
CNCF (Cloud Native Computing Foundation) TAG (Technical Advisory Group) Observability whitepaperより＜What＞可観測性とは外部出⼒の情報からシステムの内部状態をどれだけうまく推測できるかを⽰す尺度である＜Why＞ • システムの複雑さと毎秒処理するデータの継続的な増加に伴い、私たちはワークロードの状態を理解するためにより良い観測性を必要としている • 観測可能なツールに加え、サービスとしてのソフトウェアの実⾏に責任を持つすべてのエンジニアが、アプリケーションの監視と観測の⽅法を理解していることが、現在では⼀般的になっている • 顧客の期待が⾼まり、サービスレベルの⽬標が厳しくなる中、エンジニアはこれまで以上に迅速にデバッグし、問題の根本原因を突き⽌めなければならない参考︓https://github.com/cncf/tag-observability/blob/main/whitepaper.md

- 17 - - 17 - 参考︓サービスレベル管理 n ビジネスとシステムの安定性のバランスを採るための考え⽅ •
必ずしも、すべてのサービスで 99.999% の可⽤性は必要とされないリスクと報酬のバランス︓企業はどれだけのダウンタイムに耐えられるか︖ • 明確な SLA を確⽴し、サービスに対して問題を測定することで、 SREは意⾒を数学の問題に変えることができます n エラー・バジェット 1 • SLI (Service Level Indicator サービスレベル指標）サービスの信頼性を計測するためのメトリック etc) 応答性能、エラー率 • SLO（Service Level Objective サービスレベル⽬標）達成すべきゴール etc) 応答の98%が750ミリ秒未満 • SLA（Service Level Agreement） Stakeholderと合意された契約 100% 99.9% SLA (99.9% に設定されている場合) 可⽤性システム停⽌エラー・バジェット SLA SLA 確保が危うい状態このサイクルでは、これ以上のリリースはなし︕ SLA SLA を⼗分に確保できている状態変更をより積極的にロールアウト可能新機能を開拓または l プロダクトチームと SRE が、共通の⽬標に向けて協⼒します。イノベーションと安定性を両⽴させます。 l 開発チームが⾃らリスクを管理できます。エラー・バジェットをどう活⽤するか⾃発的に判断できます。 l ⾮現実的な信頼性の⽬標が設定されにくくなります。⾮現実的な⽬標は、イノベーションを減速させます

- 18 - - 18 - Observability (可観測性) とは︖ n
CNCF (Cloud Native Computing Foundation) TAG (Technical Advisory Group) Observability whitepaperより l メトリック ü ある⼀定期間の状態を集計可能な数値で表現したもの l トレース（分散トレーシング） ü １つのトランザクション（要求）のインスタンスが、ライフサイクルに渡り、複数コンポーネントでどのように処理されたか l ログ ü 個別の事象を表す、構造化された、⼈間が読める詳細な情報 üWhitepaper ではさらに２つを有益なシグナルとして紹介 – プロファイル • システム内のリソース配分の把握 CPUプロファイル、ヒープ・プロファイルetc • サンプリング・プロファイラーの普及により、本番での取得も現実的に – ダンプ • クラッシュしたプロセスのトラブル・シューティングに有益＜How＞可観測性の主要シグナルを収集して計測する参考︓https://github.com/cncf/tag-observability/blob/main/whitepaper.md

- 19 - - 19 - Observability (可観測性) を実現するOSS n
メトリック・データの取得 • Prometheus n メトリック・データの集約（グラフィカルに把握するためのツールなど） • Grafana ü OpenShift ではOpenShift Monitoring として提供 • Thano ü マルチクラスター環境でのPrometheusメトリクスを集約 ü OpenShift Advanced Cluster Managementで提供 n トレーシング • Zipkin • Jaeger︓ ü OpenShift では、 OpenShift Distributed Tracing として Jaegerを提供 • OpenTelemetry ü またOpenTracing や OpenCensus というプロジェクトが統合 n ログ • LogStash • Fluentd ü OpenShift では、OpenShift Logging として EFK (ElasticSearch, Fluentd, Kibana)のスタックが提供参考︓https://www.ibm.com/blogs/solutions/jp-ja/container-cocreation-center-15/

- 20 - - 20 - 【再掲】従来の監視 vs Observability (可観測性)
n マイクロサービス化など環境変化を背景に、従来の監視に対するアンチテーゼとしてObservabilityが注⽬されている従来の監視 Monitoring 可観測性 Observability APM Application Performance Management • レガシー/モノシリック • オンプレ中⼼ • マイクロサービス • クラウドネイティブ環境の変化 • 複数のシステム/基盤にわたるデータの収集 • システム全体の振る舞いを理解して、サービス改善に取り組む • 主要シグナルは、メトリック・トレース・ログ • 積極的な対応 (Proactive)を⽬指す • 特定のシステム/基盤の視点でデータの収集 • あらかじめ閾値を設定。障害アラートを受けてインシデント対応 • 事後的な対応 (Passive) になりがち

- 21 - - 21 - 閑話休題 n 個⼈的ちいかわ名シーン参考︓ちいかわ
https://twitter.com/purinchankawaii/status/1533295097022148608

- 22 - - 22 - アジェンダ 1 ͸͡Ίʹ 2
Observabilityͷઆ໌ 3 APMͷઆ໌ɾσϞ 4 ͓ΘΓʹ

- 23 - - 23 - 概念イメージ︓APM n 今回はObservabilityを実現するための要素/⼿段の⼀つとして、広義の意味でのAPMを紹介する従来の監視
Monitoring 可観測性 Observability APM Application Performance Management <狭義> • アプリケーションレベルに閉じてパフォーマンスを計測・管理する。特にゴールデンシグナルの計測（レスポンスタイム、スループット、エラー率）＜広義＞ • アプリケーションからインフラまでを監視/追跡し、システム全体のパフォーマンス問題の特定や解決を⽀援する。ゴールデンシグナルの計測だけでなく、トレーシング/サービスマップ/エンドユーザーモニタリング/ビジュアルダッシュボードなども含む • 今回はObservabilityを実現するための要素/⼿段の⼀つとして、広義の意味でのAPMをご紹介 • APM以外のObservabilityを実現するための要素例 ü NPM (Network Performance Management) ü Continuous Optimization ü AIOps など

- 24 - - 24 - APMが重要視されている背景 n パフォーマンス低下によるユーザーへの悪影響が広く認知されている参考︓https://prtimes.jp/main/html/rd/p/000000001.000031546.html

- 25 - - 25 - APMとは（広義の意味で） n アプリケーションからインフラまでを監視/追跡し、パフォーマンス問題の特定や解決を⽀援する n
サービス影響の未然防⽌と迅速な問題解決を通じて安定稼働を実現し、UX/⽣産性の向上に寄与するアプリケーションからインフラストラクチャまでの性能／応答時間の監視と追跡性能基準 SLAの策定と性能問題時のシステム管理者へのアラート洞察を得るための視覚化された統計情報の提供アプリケーション性能問題の解消⽀援 Application Performance Management 監視と追跡基準策定と検知通知情報の可視化根本原因特定プラットフォームリソースユーザー体験パフォーマンス性能アプリケーションクラウドサービスコード最適化 < / > ランタイム .Net ミドルウェア安定稼働の実現サービス影響の未然防⽌障害の迅速な解決顧客体験価値＋⽣産性の向上

- 26 - - 26 - APMのソリューション例 n APMソリューションの代表例今回デモでご紹介

- 27 - - 27 - IBM Observability by Instana
n 次世代アプリケーション・パフォーマンス・モニタリング従来型監視基盤 ü 個別導⼊とセットアップ - 監視対象に応じて導⼊ - 監視対象の設計と設定が必要 ü 得られる情報が少ない - OSレベルの情報のみ - 5秒-30秒の平均値の値 - アプリケーションの挙動が掴めず改善につなげられない ü オンプレミスとクラウド別管理基盤 - ユーザーの体験を理解できない - ツールとして情報を追えない次世代可観測性基盤 ü ゼロ構成と⾃動監視、環境変化にも⾃動追随 - 監視対象を検知し⾃動構成 - 監視対象に対する専⾨知識を反映済み ü ⾼精細データでシステムを可視化 - 全要求トレース+１秒単位メトリック - 基盤からアプリまで多様に渡り可視化 - AIと機械学習で問題を⾃動検知 - 関連コンポーネントの情報も整理して提⽰ ü オンプレミスとクラウドも統合して監視 - WebUIから基幹システムの呼出しまで - 挙動を理解しユーザー体験改善につなげる多様な観点での解析 AI/MLによるアクションコンテキストの可視化

- 28 - - 28 - 監視構成の⾃動化 n 動的環境に⾃動的に対応、環境の完全な観測性を得ることができます •
１ホストに１つのエージェントがコンポーネントの監視に必要なセンサーを⾃動構成 • 環境の変化にも⾃動追随し、監視を継続します • すべての要求をトレース、１秒単位のメトリクス、すべての構成変更を記録アプリケーションのすべてのリクエストを完全に可視化サンプリング、部分的なトレースではありません。スパイクを⾒逃すことがないように、すべてのメトリックは、毎秒収集されます。 ü 環境にあわせて事前に導⼊・構成が必要 ü 監視対象の再起動が必要 ü 基盤だけのモニタリング・データ ü サンプリング・データ 28 ︕ 従来型モニタリングの課題 28

- 29 - - 29 - コンテキストの提供 n サービスの依存関係をリアルタイムで提⽰します
• 取得した要求トレースの解析により、各コンポーネントが他のすべてのコンポーネントやサービスに、どう依存しているかをリアルタイムで可視化します • すべてのサービスの品質に関する即時のコンテキスト情報により顧客に影響を与える前にパフォーマンスを最適化することができます Instana は収集したデータを継続的に依存関係モデルに編成します。コンポーネント、サービス、リクエストを論理的にグループ化し、気になるサービスを簡単に可視化します。 29 ü サービスの依存関係が把握できない ü ハイブリッド・クラウドの挙動を追えない ü 問題が与える可能性のある影響範囲がわからない従来型モニタリングの課題 ︕ 29

- 30 - - 30 - AI/MLによるインテリジェントなアクション n 問題の要因を理解して、迅速に問題を解決に導きます •
各テクノロジーのセンサーには各テクノロジーの専⾨知識に基づいてあらかじめデフォルトの監視設定が構成されている • ランタイムにおける警告/エラーのログは⾃動的に記録されます • 要求数、エラー数、応答性能などのゴールデン・シグナルに対し機械学習を適⽤、通常と違う振る舞いを検知し通知します根本原因に関連するすべてのイベントを含む単⼀のアクション可能なアラート 30 ü 固定的なしきい値監視だけでは拾えない ü ⼤量のイベント通知 ü メトリック値だけではなにが起きているかわからない ︕ 従来型モニタリングの課題 30

- 31 - - 31 - Instanaのデモンストレーション n 「Play with
Instanaʼs APM Observability sandbox」の環境を利⽤ • https://www.instana.com/getting-started-with-apm/ • Instanaの操作性を体験するためのサンドボックス環境 • 「Robot Shop」というマイクロサービスをモニタリングしている ü デモ⽤に定期的に障害が起きているようになっているECサイト ü GKEやECSなどで構築されている

- 32 - - 32 - アジェンダ 1 ͸͡Ίʹ 2

- 33 - - 33 - まとめ n ちいかわでも分かる「Observability」「APM」のまとめ︕ 従来の監視
Monitoring 可観測性 Observability APM Application Performance Management • レガシー/モノシリック • オンプレ中⼼ • マイクロサービス • クラウドネイティブ環境の変化 • 複数のシステム/基盤にわたるデータの収集 • システム全体の振る舞いを理解して、サービス改善に取り組む • 主要シグナルは、メトリック・トレース・ログ • 積極的な対応 (Proactive)を⽬指す • 特定のシステム/基盤の視点でデータの収集 • あらかじめ閾値を設定。障害アラートを受けてインシデント対応 • 事後的な対応 (Passive) になりがち • 今回はObservabilityを実現するための要素/⼿段の⼀つとして、広義の意味で紹介 • ゴールデンシグナルは、レスポンスタイム、スループット、エラー率 • トレーシング/サービスマップ/エンドユーザーモニタリング/ビジュアルダッシュボードなども • 代表例として、Instanaのデモンストレーションを実施参考︓ちいかわ

- 34 - - 34 - みなさんへのお願い n 2023年の流⾏語にしようぜ︕ 「Observability」「APM」を周りに広めてください︕
あと良ければInstanaも触ってみてください︕https://www.instana.com/getting-started-with-apm/ Observability 参考︓ちいかわ

Observability & APM 入門 〜2023年のIT運用/監視の流行語はこれだ！

Observability & APM 入門 〜2023年のIT運用/監視の流行語はこれだ！

More Decks by Takahiro Esaki

Other Decks in Technology

Featured

Transcript

Observability & APM 入門〜2023年のIT運用/監視の流行語はこれだ！

Observability & APM 入門〜2023年のIT運用/監視の流行語はこれだ！