Upgrade to Pro — share decks privately, control downloads, hide ads and more …

20250617_ガバクラ移行と共に考えるアプリケーションのオブザーバビリティ

Avatar for kenicazu kenicazu
May 09, 2026
3

 20250617_ガバクラ移行と共に考えるアプリケーションのオブザーバビリティ

Avatar for kenicazu

kenicazu

May 09, 2026

More Decks by kenicazu

Transcript

  1. © 2024, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. AWS Azuma Kenichi 2025/06/17 ガバクラ移⾏と共に考える アプリケーションのオブザーバビリティ ガ バ メ ン ト ク ラ ウ ド ワ ー ク シ ョ ッ プ
  2. © 2026, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. 自己紹介 2 東 健⼀ (あずま けんいち) AWS ジャパン ソリューションアーキテクト • 中央省庁のお客様を担当するSA ガバメントクラウド、医療DX案件を中⼼に対応 • Containers TFC Japan Lead 社内のコンテナサービスに関する コミュニティの ECS 領域の Japan Lead • AWS Summit で ECS のブースオーナー担当します︕ -> Harmonix (Platform Engineering), ECS MCP Server 等
  3. © 2026, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. • 本セッションはこれからガバメントクラウドを含め、クラウドにシステム移⾏する際に検討するべき アプリケーションのオブザーバビリティの観点をお話しいたします。 • なお、本セッションの中ではあまりAWSのサービスや技術のお話はしません。 • 今年の4⽉に開催された AWS 春の Observability 祭りの内容を中⼼に⾮常に参考とな る資料があるため、そちらもご覧いただければと思います。 https://aws.amazon.com/jp/blogs/news/awsobservabilityfes2025spring/ はじめに 3
  4. © 2026, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. 今日に向けて読んだでいる本 4
  5. © 2026, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. • なぜ オブザーバビリティが重要なのか • ガバクラにおける SLI/SLO・KPI/KGI を考える • オブザーバリティの実現に向けてのステップ • サンプルアプリケーションを⽤いたデモ • まとめ 本日のアジェンダ 5
  6. © 2026, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. なぜオブザーバビリティが 重要なのか 6
  7. © 2026, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. シンプルなシステムの場合 ユーザー DB サーバ Web/AP サーバ 7
  8. © 2026, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. シンプルなシステムの場合 ユーザー DB サーバ Web/AP サーバ スケーリングはなく、⾃⾝の管理する特定のインフラストラクチャを利⽤し、 閉域NW等、特定の経路を利⽤したシステムにおいては ログとメトリクスを中⼼にシステムの状態を確認可能 8 メトリクス • CPU使⽤率 • メモリ使⽤率 • ストレージ使⽤率 ログ • アプリケーションログ • サーバログ メトリクス • CPU使⽤率 • メモリ使⽤率 • ストレージ使⽤率 ログ • DBMSログ • サーバログ
  9. © 2026, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. シンプルなシステムの場合 ユーザー DB サーバ Web/AP サーバ 9 メトリクス • CPU使⽤率 • メモリ使⽤率 • ストレージ使⽤率 ログ • アプリケーションログ • サーバログ メトリクス • CPU使⽤率 • メモリ使⽤率 • ストレージ使⽤率 ログ • DBMSログ • サーバログ いつもよりちょっと サイトが重いな・・・ 運⽤者 アクセスが集中してCPU使⽤率が⾼くなっているようです。 それに伴い⼀部の処理が遅延していることがわかりました
  10. © 2026, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. ユーザー バックエンドAPI データベース システムの構成要素が増えてきた場合 10 ロードバランサー フロントエンド
  11. © 2026, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. ユーザー ロードバランサー バックエンドAPI フロントエンド データベース システムの構成要素が増えてきた場合 ガバクラでもよく使われるコンテナやサーバレスは動的にスケールする前提かつ 不特定多数のインフラストラクチャを利⽤ また、さまざまなユーザのアクセス経路があり、トランザクション量も増加。 以前よりも、システム全体の状態を把握することは難しい 11 ︖ いつもよりちょっと サイトが重いな・・・
  12. © 2026, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. オブザーバビリティの実現に向けて • 可観測性(オブザーバビリティ)を⾼めるため、 オブザーバビリティの3本柱である以下のデータを収集する • メトリクス、ログ、トレース • メトリクス︓問題が起きているのか • ログ ︓なぜ問題が起きているのか • トレース ︓どこで問題が起きているのか
  13. © 2026, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. メトリクス、ログ、トレース メトリクス ログ トレース 時間間隔で計測されたデータ の数値表現 傾向の把握、予測に 役⽴つ タイムスタンプが記録された、 時間の経過とともに起こった イベントの記録 予測不可能な振る舞いの発⾒に 役⽴つ リクエストの流れと構造の両⽅を 可視化することで因果関係の追跡 に役⽴つ エンドツーエンドの リクエストフローの記録 13
  14. © 2026, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. ユーザー バックエンドAPI データベース オブザーバビリティの実現に向けて 14 メトリクス • リクエスト数 • 3XXコード • ProcessedBytes • Etc. ログ • アクセスログ トレース • リクエスト情報 メトリクス • CPU使⽤率 • メモリ使⽤率 • リクエスト数 • Etc. ログ • アプリケーションログ トレース • リクエスト情報 ロードバランサー フロントエンド メトリクス • CPU使⽤率 • メモリ使⽤率 • リクエスト数 • Etc. ログ • アプリケーションログ トレース • リクエスト情報 メトリクス • レイテンシー • Readリクエスト数 • Etc. ログ • クエリログ トレース • リクエスト情報 メトリクス、ログ トレースを各サービスで 収集する
  15. © 2026, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. オブザーバビリティの実現に向けて • 可観測性(オブザーバビリティ)を⾼めるため、 オブザーバビリティの3本柱である以下のデータを収集する • メトリクス、ログ、トレース • メトリクス︓問題が起きているのか • ログ ︓なぜ問題が起きているのか • トレース ︓どこで問題が起きているのか • マネージドサービスを活⽤することで死活監視に関連するメトリクスや ログの関⼼ごとは減らす
  16. © 2026, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. ユーザー バックエンドAPI DynamoDB オブザーバビリティの実現に向けて 16 メトリクス • リクエスト数 • 3XXコード • ProcessedBytes • Etc. ログ • アクセスログ トレース • リクエスト情報 メトリクス • CPU使⽤率 • メモリ使⽤率 • リクエスト数 • Etc. ログ • アプリケーションログ トレース • リクエスト情報 ELB フロントエンド メトリクス • CPU使⽤率 • メモリ使⽤率 • リクエスト数 • Etc. ログ • アプリケーションログ トレース • リクエスト情報 メトリクス • レイテンシー • Readリクエスト数 • Etc. ログ • クエリログ トレース • リクエスト情報 ELBやDynamoDBを利⽤し、 CPUやメモリなどの インフラ監視負荷を軽減
  17. © 2026, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. オブザーバビリティの実現に向けて • 可観測性(オブザーバビリティ)を⾼めるため、 オブザーバビリティの3本柱である以下のデータを収集する • メトリクス、ログ、トレース • メトリクス︓問題が起きているのか • ログ ︓なぜ問題が起きているのか • トレース ︓どこで問題が起きているのか • マネージドサービスを活⽤することで死活監視に関連するメトリクスや ログの関⼼ごとは減らす • ユーザー体験を中⼼とした計測を⾏うことも意識する
  18. © 2026, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. ユーザー バックエンドAPI データベース オブザーバビリティの実現に向けて 18 メトリクス • リクエスト数 • 3XXコード • ProcessedBytes • Etc. ログ • アクセスログ トレース • リクエスト情報 メトリクス • CPU使⽤率 • メモリ使⽤率 • リクエスト数 • Etc. ログ • アプリケーションログ トレース • リクエスト情報 ロードバランサー フロントエンド メトリクス • CPU使⽤率 • メモリ使⽤率 • リクエスト数 • Etc. ログ • アプリケーションログ トレース • リクエスト情報 メトリクス • レイテンシー • Readリクエスト数 • Etc. ログ • クエリログ トレース • リクエスト情報 Synthetics メトリクス • 成功数 • 処理時間 • エラー数 ログ・アーティファクト • スクリプト実⾏ログ • HARファイル • スクリーンショット トレース • リクエスト情報 ユーザの⼀番の関⼼ごとはサービスが正常に動いているかどうか 極端な話、内部のサービスがスケーリング有無には興味はない(はず)
  19. © 2026, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. 本章のまとめ • クラウドに移⾏することで必然的にシステムが複雑化、利⽤者やトランザク ション量が増加する傾向にある。 • そのため、メトリクス、ログ、トレースをしっかりと取得することが重要 裏を返すとクラウドでは簡単にテレメトリーが収集可能 • ユーザ⽬線での監視も⾮常に重要なため忘れないこと
  20. © 2026, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. 20 (参考)GCASにおける記載 https://guide.gcas.clo ud.go.jp/general/ove rview-explanation- chapter-06/
  21. © 2026, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. ガバクラにおける SLI/SLO・KPI/KGI を考える 21
  22. © 2026, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. はじめに • 調達仕様書の閲覧やお客様と会話していく中で、 SLA というキーワードは⾒ る/聞くことが多い。 • ⼀⽅で(AWSという⽴場上、ディスカッションの機会がすくない、ご相談さ れないケースも多分にあるが)SLI (Service Level Indicator) やSLO (Service Level Objective) などはあまり議論にでない • 同様にKPI (Key Performance Indicator)/ KGI (Key Goal Indicator) についても あまり聞く機会が少ない • どんなシステムでもユーザがいて、⽬的がある。 どのような⽬標が⾃分たちのシステムにあるのか考えることが重要
  23. © 2026, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. (参考)GCASにおける定量的計測の考え⽅
  24. © 2026, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. マイナンバー関連システムの KGI/KPI の例 マイナポータル KGI • マイナポータル経由の⾏政⼿続き電⼦化率を80%以上にする KPI︓ • ⽉間新規マイナンバーカード発⾏件数 • マイナポータル経由の電⼦申請件数 マイナンバー保険証(オンライン資格確認等システム) KGI • マイナ保険証の利⽤率を2025年度末までに70%以上にする KPI • マイナンバー保険証を利⽤した医療機関での資格確認件数
  25. © 2026, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. マイナンバー関連システムの SLI/SLO の例 マイナポータル KGI • マイナポータル経由の⾏政⼿続き電⼦化率を80%以上にする KPI • ⽉間新規マイナンバーカード発⾏件数 • マイナポータル経由の電⼦申請件数 SLO • マイナポータルの⽉間稼働率99.95%以上 • エラー発⽣率0.05%未満 SLI • 実際の稼働率 • 実際のエラー発⽣率
  26. © 2026, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. SLI / SLO とは︖ 優れた SLI は、ユーザーの視点 (ユーザージャーニー) から計測 -> システムメトリクスではない ユーザーがサービスに期待する性能品質を⽰す指標 SLI 良いイベント/時間 全イベント/時間 = 例1: チケットの予約にかかる時間 (レイテンシー) 500ms 以内のレスポンス数 全レスポンス数 例2: 予約ページにアクセス可能な時間 (可⽤性) アクセス可能な期間 計測期間 サービスレベル指標 (Service Level Indicator) 26
  27. © 2026, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. SLI / SLO とは︖ ⽬指すべき SLI の⽬標値 サービスレベル⽬標 (Service Level Objective) SLI/SLOの設定例: SLI: チケットの予約にかかる時間 (レイテンシー) 500ms 以内で完了したリクエストの割合 SLO: 500ms 以内で完了したリクエストの割合が 28 ⽇間で 99 % SLI SLO 27 SLO
  28. © 2026, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. (参考)NewRelic社 資料 - SLIの定義 28
  29. © 2026, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. (参考)NewRelic社 資料 - SLIの計測 29
  30. © 2026, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. エラーバジェットによる評価 エラー バジェット エラーバジェット: 許容できる異常系の量 100 % - SLO SLI SLO 例: 500ms 以内で完了したリクエストの割合 例: 500ms 以内で完了したリクエストの割合が 28 ⽇間で 99 % SLOが99パーセントだとすると、1パーセントがエラーバジェット -> この量の消費状況・速度を⾒ることが重要。まさに予算
  31. © 2026, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. SLO/SLIの⾒直しの流れ(⼀例) ⾒直しが必要 ⾒直しが不要 SLO/SLIの定期的な⾒直し (エラーバジェット等の確認) ユーザに沿ったSLOの再設定 SLIの再実装 追加機能開発 原因分析・原因特定 機能修正・機能追加 これらの実現のためにも オブザーバビリティが必要︕
  32. © 2026, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. オブザーバリティの実現に 向けてのステップ 32
  33. © 2026, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. AWS オブザーバビリティ成熟度モデル 33
  34. © 2026, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. AWS オブザーバビリティ成熟度モデル 34 ステップ1は ガバクラ移⾏でクリアしているケースが多い ネクストステップ
  35. © 2026, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. 35 ネクストステップに向けて アプリで取得するテレメトリデータを ⼿動で計装する作業コスト 収集したテレメトリデータの 統合ダッシュボードの構築と 効果的な分析の難しさ Challenges SLO 計算とアラートの⼤変さ
  36. © 2026, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. 36 ネクストステップに向けて アプリで取得するテレメトリデータを ⼿動で計装する作業コスト 収集したテレメトリデータの 統合ダッシュボードの構築と 効果的な分析の難しさ Challenges SLO 計算とアラートの⼤変さ 極⼒ 実装のコストはかけたくない
  37. © 2026, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. 37 ネクストステップに向けて アプリで取得するテレメトリデータを ⼿動で計装する作業コスト 収集したテレメトリデータの 統合ダッシュボードの構築と 効果的な分析の難しさ Challenges SLO 計算とアラートの⼤変さ Application Signals • テレメトリデータを“⾃動で”⽣成・収集 • ”⾃動で”トポロジーの抽出、可視化 • ⼀般的によく利⽤されるメトリクスを 含む事前作成のダッシュボード提供 • 簡単に設定できる SLO モニタリング
  38. © 2025, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. 38 Application Signals による⾃動計装・収集 CloudWatch AWS X-Ray メトリクス・トレースの 収集・転送を担う ・EC2: インストール ・ECS: タスク定義に 追加可能 ・EKS: アドオンで 有効化可能 ・Lambda: コンソールで収集機能を 有効化可能 CloudWatch Agent ADOT Auto Instrumentation によって コード変更なく メトリクス・トレースを 生成する EC2 ECS EKS Lambda ⾃動計装 収集 保存 ⾔語の対応バージョン https://docs.aws.amazon.com/AmazonCloudWatch/latest/moni toring/CloudWatch-Application-Signals-supportmatrix.html Java Python Node.js .NET
  39. © 2025, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. 39 トポロジー抽出と可視化 CloudWatch AWS X-Ray アプリケーションの トポロジーを発⾒し可視化 健全性を評価するための事前 構築されたダッシュボード 各テレメトリ、Synthetics、 RUMを相関付け Application Signals
  40. © 2025, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. ⾃動構築済みのダッシュボード ※必ず利⽤しなければならないわけではありません Services dashboard SLO dashboard Service map Service diagnostics Synthetic canaries Real user monitoring Resources ※ ※ Metrics + traces + logs 1. Understand the whole picture 2. Diagnose and resolve 3. Expand perspectives
  41. © 2025, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. 41 SLO モニタリング Services Dashboard SLO Dashboard
  42. © 2026, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. さらなる機能拡張や運⽤の最適化が必要な場合 • Application Signalsを使いつつ、よりビジネスメトリクス(KGI、KPI)に フォーカスしたい場合はオリジナルのカスタムダッシュボードの作成を検討 する • Application Signalsは裏側でADOTの⾃動計測を利⽤しているため、さらに細 かくテレメトリーを取りたい場合はADOT・X-Ray等の⼿動計測を検討する。 • X-Ray、CloudWatch以外に連携したい場合もApplication Signalsではなく、 直接ADOT等の利⽤を検討する
  43. © 2026, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. Application Signals デモ 43
  44. © 2026, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. アンケートシステムを⽤いたデモ
  45. © 2026, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. アンケートシステムを⽤いたデモ Amazon CloudFront Amazon Cognito Amazon S3 Application Load Balancer ECS/Fargate Amazon DynamoDB 一般ユーザ 管理者 Synthetics Application Signals(ADOT)
  46. © 2026, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. ECS/Fargate with Application Signals の構成 46 Amazon ECS ECS Service ECS Task NodeJS サイドカーコンテナ (cloudwatch-agent) アプリケーションコンテナ aws- opentelemetry -agent OpenTelemetryに 基づいてメトリクス送信
  47. © 2026, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. CloudWatch Agent サイドカー 47
  48. © 2026, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. まとめ • マネージドサービスの利⽤等によりシステム構成は以前ほどシンプルな構成 ではなくなっているため、オブザーバビリティの重要性が⾼まっている。 • システムの設計・開発〜運⽤をしていくなかでKPI/KGIとSLI/SLOは適切に設 定するべきであり、かつ定期的な⾒直しが重要 • まずはスモールスタートするためにApplication Signals等が活⽤可能 • フェーズ等に応じてカスタマイズしていくことでステップバイステップで始 めていく • 本⽇ご紹介したApplication Signals以外にも多数の機能がCloudWatchにはあ るのでぜひお試しください。
  49. © 2026, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. ご清聴ありがとうございました 50