Upgrade to Pro — share decks privately, control downloads, hide ads and more …

AMP, AMG, X-Ray等、AWSマネージドサービスを活用した監視環境構築

72c25016e1baff3eb99a80dfc1e95ca1?s=47 nutslove
February 22, 2022
340

AMP, AMG, X-Ray等、AWSマネージドサービスを活用した監視環境構築

2021年9月にGAされたAMP(Amazon Managed Service for Prometheus)、AMG(Amazon Managed Grafana)やX-Ray等、AWSマネージドサービスの導入を検討されている方のお役に立てばと思います。

72c25016e1baff3eb99a80dfc1e95ca1?s=128

nutslove

February 22, 2022
Tweet

Transcript

  1. A M P 等 、 A W S マ ネ

    ー ジ ド サ ー ビ ス を 活 用 し た 監 視 環 境 構 築 2 0 2 2 年 2 月 2 2 日 李 俊 起
  2. 自己紹介 い じゅんぎ 李 俊起 ・ KDDI株式会社/SRE(with 御田) ・ 運用自動化、運用共通機能提供

    ・ AWS歴1年半 ・ 好きなAWSサービス - EKS - AMP - X-Ray @minorun365
  3. 本日のアジェンダ ・ DatadogからOSS監視ツールへの移行(PoC) ・ PoC中に気づいた課題 ・ AMP等、マネージドサービスを活用した構成への見直し ・ AMP、AMG利用時の注意点 ・

    まとめ
  4. クラウドネイティブ環境の監視 ・ オンプレ/モノリシックアーキテクチャの環境で 使っていたZabbix等、従来の監視ツールでは不十分 ・ CloudWatchだけでやっているところもあれば、 New RelicやDatadog等のSaaSを使っているところもある。 ・ KDDIではDatadogを採用

  5. を使ってみて - Metrics、Logs、Traces、ダッシュボード等、All-In-One - SaaSのため、管理が楽 - サブスクリプションモデルで、 監視対象が増えるにつれ料金が高くなる

  6. Datadog以外の OSS監視ツールを探してみよう!

  7. OSS監視ツールが多い・・ 何を使えば良いの?

  8. 選択したOSSツール Grafana Prometheus VictoriaMetrics OpenTelemetry Grafana Tempo DashBoard メトリクス長期保存 ログ保存

    ログ転送 トレース取得 トレース保存 メトリクス取得 データ可視化 Grafana promtail Grafana Loki
  9. vmalert 構成 Remote Write Prometheus Pull VictoriaMetrics アラート 連携 クエリー

    SNS Lambda アラートシステム Push Grafana Tempo OpenTelemetry Push Metrics Logs Traces EC2 Instance 各exporter アプリ 運用共通基盤 監視対象システム EKS Cluster Grafana EKS Cluster 各exporter EC2 Instance 各exporter Alertmanager クエリー
  10. 機能的には検証できたものの・・ ・ ツールが多く、学習コストが高い ・ 少人数のチームメンバーで構築/運用するには負担が高い Architecture Grafana Tempo すべて別のPODとして 起動し、各コンポーネント

    ごとにスケーリング可能
  11. AMP、AMG、ADOTがGA! ・ AMP、AMG、ADOTが2021年9月にGAされ、 東京リージョンから利用可能となったので、 AWSマネージドサービスを活用した構成に再度見直しを実施 ※AMP(Amazon Managed Service for Prometheus)

    ※AMG(Amazon Managed Grafana) ※ADOT(AWS Distro for Opentelemetry) → Opentelemetryから取得したトレースをX-Rayに 連携できるように機能追加したAWS提供ディストリビューション
  12. AMPはPrometheusの代替ではない!? ・ AMPはPrometheus自体に置き換わるものではなく、 メトリクス長期保存のためのRemote Write先を提供するもの メトリクスをスクレイピングするためにPrometheusは必要 運用共通基盤 EKS Cluster EC2

    Instance 各exporter 監視対象システム EKS Cluster vmalert VictoriaMetrics Prometheus 各exporter Remote Write この部分が AMPの対応範囲 Alertmanager
  13. AMGはまだ制約が多い印象 ・ 現在利用できる認証方式は①AWS SSO②SAML認証の2つ。 しかし、Root以外のアカウントは②SAML認証しか使えず、 SAML認証基盤を用意する必要がある。 ・ AMGからプライベートサブネット上のツールにクエリーできない 運用共通基盤 EKS

    Cluster 監視対象システム EKS Cluster Private Subnet AMG Grafana Loki AMGは Global Serviceで、 VPCの外側にある Push
  14. Grafana Alertmanager たどり着いた構成 Remote Write Prometheus Pull アラート 連携 クエリー

    SNS Lambda アラートシステム Push Push Metrics Logs Traces EC2 Instance 各exporter アプリ 運用共通基盤 監視対象システム EKS Cluster EKS Cluster 各exporter EC2 Instance 各exporter クエリー ADOT Collector ADOT クエリー 変更となった箇所
  15. AMP、AMG利用時注意点 サービス 注意点 備考 AMP メトリクス保存期間が 150日固定 ハードリミットのため上限緩和不可。 150日より前のデータが必要な場合は、 別のツールと組み合わせた利用を検討。

    取込可能サンプル/sの上限 ※70,000/s 下記PromQLでPrometheusのサンプル数を確認 prometheus_tsdb_head_samples_appended_total AMG 認証方式 AWS SSOとSAML認証のみ ※SAML認証の場合はAzure AD等、 Third Partyと連携した方が手っ取り早い Private Subnetへのクエリー不可 どうしてもAMGを使いたい場合はPublic Subnetに するか、AWSサービスのみの構成を検討 1アカウントで利用可能な WorkSpaceは5つまで ハードリミットのため上限緩和不可。 ※AMPのservice quotas https://docs.aws.amazon.com/ja_jp/prometheus/latest/userguide/AMP_quotas.html ※AMGのservice quotas https://docs.aws.amazon.com/ja_jp/grafana/latest/userguide/AMG_quotas.html
  16. まとめ ・ マネージドサービスを活用して煩雑な運用業務から解放 ・ ツールを選定する前にまず監視項目を整理して、 要件を満たすツールを選択 ・ 各システムの状況に適した監視ツールを選択

  17. ご清聴ありがとうございました。