Datadog

2 1 AWS へのワークロードの移行 3 ページ 2 AWS における
サーバーレスアプリケーション 19 ページ 3 AWS におけるコンテナ化されたアプリケーション 45 ページ

5 Datadog を使用して AWS 上のワークロードを監視アマゾンウェブサービス（AWS）への移行 AWS に移行するメリット
– 使いやすさ – 費用対効果が高く、スケーラブルなプラットフォーム – 耐障害性の高いアプリケーションの構築における柔軟性の向上クラウド移行の課題クラウド移行のフェーズ – 既存のインフラストラクチャと組織の準備状況を評価する – チームとリソースを動員する – ワークロードを移行してモダナイズする Datadog を使用して AWS への移行を監視移行前にサービス間の依存関係を可視化する移行時に、オンプレミスホストとクラウドホストの高レベルのパフォーマンスを比較する新しいホストをオンライン後すぐに検出する新たに移行したサービスをプロアクティブに監視する移行：要点参考資料 6 8 8 9 9 10 10 11 11 12 13 14 15 16 17 17 18 18 AWS と Datadog によるクラウドスケールの監視 AWS へのワークロードの移行

6 Datadog を使用して AWS 上のワークロードを監視アマゾンウェブサービス（AWS）は、グローバル規模の分散型アプリケーションを構築するために幅広く採用されているクラウドプラットフォームです。オンプレミス
のワークロードを AWS に移行することで、包括的な一連のサービスを活用して、耐障害性および費用対効果の高いアプリケーションを構築できるようになります。チームでは、フルマネージドサービスを使用して既存のリソースを最適化し、アプリケーションを再構築して、コンテナによって独立したマイクロサービスにワークロードを分離できます。加えて、クラウドを使用してサーバーレスアプリケーションを構築することで、物理サーバーへの依存度を下げ、運用コストをさらに削減できます。 AWS は、このようなタイプのインフラストラクチャのサポートや、クラウドへの容易なワークロード移行に必要なサービスを提供します。Amazon Elastic Compute Cloud （Amazon EC2）を使用して環境のホスティング構成やリソースのコントロールを強化することも、AWS Lambda や AWS Fargate などのサービスを活用してサーバーレスコードやコンテナを自動管理することもできます。また、AWS ではコンテナオーケストレーターとして、Amazon Elastic Kubernetes Service（Amazon EKS）または Amazon Elastic Container Service （Amazon ECS）を選択できます。オーケストレーターはそれぞれ、他の AWS サービスと緊密に統合され、フルマネージドアプリケーションの容易な構築を可能にします。

7 本 eBook では、AWS へのワークロード移行に伴うメリットと複雑さのほか、コンテナやサーバーレスコンピューティング向けに AWS で提供しているサービスについて詳しく説明します。また、ワークロードが効率的に実行されているか確認するために追跡できる、
各サービスの主要なパフォーマンスメトリクスについても取り上げます。最後に、Datadog のような監視ソリューションを使用することで、AWS への移行の各段階のほか、各 AWS サービスのパフォーマンスについても容易に追跡できることを解説します。アプリケーションリソースをクラウドに移行する際に Datadog を使用すれば、データベース、API、コンテナ、サーバーレス関数などの依存関係を可視化し、オンプレミスのホストから AWS に流れるデータをシームレスに監視できるようになります。

8 アマゾンウェブサービス（AWS）への移行 AWS のようなクラウドプラットフォームは、オンプレミスのインフラストラクチャからアプリケーションやワークロードを移行する際に、独自のメリット（および課題）をもたらします。移行を成功させるには、既存のワークロードの状態とその依存関係を評価するだけでなく、要件を満たした候補（データベース、ホスト、ワークロード
など）の最適な移行パスを判断する必要もあります。AWS では、移行プロセスをスムーズに進めるための戦略がいくつか提供されており、Datadog を使用すると、プロセスの各ステップを監視できるようになります。 AWS に移行するメリットクラウド移行の主な要因として、組織で検討されることが多いのは、以下のとおりです。 – コスト削減またはコストコントロールの向上 – チームの俊敏性と生産性の向上 – 耐障害性とセキュリティの高いアプリケーションの構築 – 運用責任のクラウドへの移行 – ハードウェアやソフトウェアのサポート終了の到来 – データセンターや他のアプリケーションリソースの統合 – 旧式のサービスの入れ替えを目的としたデジタルテクノロジーの導入 – グローバル規模のアプリケーションのデプロイ – 最先端テクノロジーへのアクセス

9 AWS は、クラウドへのワークロード移行に対するこうした動機に対処するために、アプリケーションをデプロイおよび管理するための使いやすいツール、アプリケーションリソースを最適化する費用対効果の高いプラットフォーム、そしてワークロードの複雑さに関係なく、耐障害性が高く、スケーラブルなアプリケーションをオンデマンドで構築するための幅広いフルマネージドサービスを提供しています。使いやすさ AWS では、新規アプリケーションの構築や既存アプリケーションへの機能実装を行う
方法として、 AWS マネジメントコンソール、一連のサービス API、 AWS コマンドラインインターフェイス（AWS CLI）の 3 つを提供しています。ユーザーフレンドリーなコンソールを活用すれば、200 以上の AWS サービスに対し、作成、設定、デプロイを 1 か所で行うことができます。AWS が提供するあらゆる種類の製品をサポートする包括的な API セットにより、既存のアプリケーション機能にプログラムを使ってサービスを統合したり、AWS プラットフォームでアプリケーション全体を構築したりすることが可能になります。また、AWS CLI を使用すれば、ターミナルプログラムから AWS サービスを操作できるため、アプリケーション管理の柔軟性が大幅に高まります。AWS では、必要に応じたリソースのスピンアップが可能なため、本番環境に対応したアプリケーションやサービスを容易にデプロイできます。費用対効果が高く、スケーラブルなプラットフォーム総所有コスト（TOC）の計算式は、組織が新しい IT システムやリソースの直接 / 間接コストを評価するのに役立ちます。ユースケースに応じて、これには、サーバー（ハードウェア、OS、仮想化など）、ストレージ、インフラストラクチャのネットワークやデータセンター、人件費といった運用 / メンテナンスのコストを織り込むことができます。クラウドプロバイダーに移行する際には、新しいプラットフォームでアプリケーションやインフラストラクチャの運用に関連するコスト削減を確実に実現する必要があります。 AWS では、リソースに応じた従量課金制モデルを提供しているため、使用した分だけ料金を支払えばよく、インフラストラクチャの管理コストを全体的に削減できます。さらに、多くの AWS サービスでは、需要に基づいて自動的にリソースをスケーリングしてくれるため、ビジネス目標を達成するために必要な分のみをスピンアップでき、容量を無駄にせずに済みます。つまり、より多くのアプリケーションサービスをクラウドに移行し、サードパーティ製ツールやカスタムツールの依存度を下げ、チームの俊敏性、スピード、生産性を向上させることができるということです。

10 耐障害性の高いアプリケーションの構築における柔軟性の向上 AWS では、EC2 インスタンスの OS や AWS Lambda 関数のプログラミング言語など、
インフラストラクチャを構成するコンポーネントに対するコントロールを向上させることができます。これにより、アプリケーションの設計と構築において、よりきめ細かなカスタマイズオプションを得られます。たとえば、Go アプリケーションを構築している場合は、AWS SDK for Go を使用すれば、Amazon DynamoDB、Amazon S3、 Amazon EKS などの AWS サービスとアプリケーションを容易に統合できるようになります。また、多くの AWS サービスはフルマネージドサービスのため、ハードウェアやソフトウェアのパッチ適用について心配する必要がありません。さらに開発環境を中断することなく、移行を達成できます。AWS は 24 の異なる地域にわたる 76 のアベイラビリティゾーンをサポートしているため、AWS を使用すれば、グローバル規模の高可用性アプリケーションを構築できます。いずれかのアベイラビリティゾーンでアプリケーションコンポーネントの障害が発生しても、トラフィックを別のゾーンに容易にルーティングできるため、顧客は継続してアプリケーションを利用できます。クラウド移行の課題ワークロードを AWS に移行する際には、移行プロセス全体の摩擦を減らすために、エンドツーエンドの可視化が必要になります。アプリケーションサービスがオンプレミスとクラウドの両方のリソースに配置されるハイブリッド環境では、特に必要です。エンドツーエンドで可視化できない場合は、移行によってワークロード監視に死角が生じ、コストのかかるシステム停止やその他のパフォーマンスインシデントにつながる可能性があります。また、移行が完了したら、問題のトラブルシューティングや顧客向けアプリケーションの可用性確保のために、シームレスにアプリケーションの監視を継続し、各 AWS サービスから主要なパフォーマンスメトリクスを追跡できるようにすることが重要となります。クラウド移行においては、特に移行する必要のあるワークロードを判断する場合、事前にコストがかかることもあります。移行プロセス中にアプリケーションに何らかの変更を加えると、多くの場合、既存のワークロードをサポートするのに適切なツールがあるか確認するために、最初に多くの時間と資金を投入する必要があります。たとえば、新しいクラウドサービスを活用して相互運用性を確保するために、既存のアプリケーションアーキテクチャやインフラストラクチャの一部または全部のリファクタリングが必要な場合や、モノリシックなアプリケーションを複数の異なるマイクロサービスに分割する場合が考えられます。このような場合は、新しいクラウドインスタンス、コンテナ、ストレージ、API、関数などへの先行投資が必要になります。

11 アプリケーションをクラウドに移行する際の 2 つ目の課題は、新しいシステムや慣れないツールにより、安定していた開発環境やプロセスに混乱が生じることです。新しいクラウドテクノロジーとプロセスについてチームメンバーのトレーニングを実施することは、スムーズな移行を実現する上で重要な役割を果たします。チームの目標や帯域幅に合った移行計画が確立されていないと、クラウドサービスの利用や移行プロセスの複雑さに慣れていないメンバーがいる場合は特に、チーム（およびリーダー層）
の賛同を得ることが難しくなります。チームに共通する懸念事項として、新たに移行したサービスのセキュリティを確保することが挙げられます。クラウドプラットフォームには、セキュリティロール、ポリシー、パーミッション設定の複数のレイヤーがあります。新たに移行したサービスのセキュリティを適切に確保しないと、機密情報が流出するリスクにさらされます。また、適切なセキュリティポリシーを策定しないと、移行したサービスに対して、チームからアクセスや作業ができなくなる可能性があります。クラウド移行のフェーズここまで、クラウドへの移行のメリットと課題について説明してきましたが、次にクラウドへの移行を始めるにあたっての注意点を見ていきます。クラウド移行には慎重な計画が必要です。AWS では、移行をサポートするために、「評価」「モビライズ（動員）」「移行とモダナイゼーション」の 3 フェーズの移行プロセスを推奨しています。このプロセスに従うことで、確実に移行を成功させることができます。既存のインフラストラクチャと組織の準備状況を評価する移行の第 1 フェーズでは、オンプレミスの既存リソースと、AWS への移行に向けての組織の準備状況を評価します。AWS では、サービスをクラウドに移行する際のコストや価値を判断するのに役立つさまざまなツールを提供しています。たとえば、 Migration Evaluator と Cost Explorer は、既存のオンサイト IT リソース（ネットワークハードウェア、ストレージ、帯域幅など）を維持した場合と、クラウドへ移行した場合の初期費用と毎月のコストを比較するのに役立ちます。また、AWS で提供している AWS Cloud Adoption Framework（AWS CAF）を使用すれば、移行プロセスの次のフェーズに対する組織の準備状況を評価できます。

12 チームとリソースを動員するモビライズ（動員）フェーズでは、AWS への移行に向けて、チーム、ツール、文化、プロセスの準備を整えます。このフェーズでは、詳細なポートフォリオの発見を行えます。既存インフラストラクチャのリソースと依存関係を調べることで、リソースの動員に向けて、以下のような最適な候補を特定できます。 – 利用を停止する必要があるレガシーシステム –
スループットは低いが、多くのコンピューティングリソースを使用しているため、費用対効果が見込めないアプリケーション – 依存関係が少ないため、移行が容易なアプリケーション – 拡大する顧客基盤をサポートするために迅速なスケーリングが必要なアプリケーション – グローバル規模のアプリケーションをサポートする必要があるサービス要件を満たす候補を特定したら、それらの移行に最適な戦略を決定する必要があります。たとえば、レガシーシステム / アプリケーションは、クラウドに移行するのではなく、単にリタイアさせた方が適切なこともあります。こうすることで、クラウドプラットフォームへの移行が必要なアプリケーションに焦点を絞ることができます。ほかにも、以下のような共通戦略があります。 – リホスト：クラウドの最適化を行わずに、サービスをクラウドに移行（またはインポート）する（例：Oracle Database を、Amazon EC2 インスタンス上の Oracle に移行する） – リプラットフォーム：オンプレミスのサービスをマネージドサービスに移行する（例：オンプレミスのデータベースを Amazon DynamoDB に移行する） – リファクタリング：クラウドの機能を活用するためにアプリケーションサービスを再設計する（例：モノリシックアプリケーションのリファクタリングを行い、コンテナ化されたアーキテクチャを使用する） – リロケート：構造を変えずに、仮想化されたアプリケーションを AWS に移行する

13 クラウドへの移行には、チームのワークフローにおいて大きな変化を伴うため、移行のためにリソースを動員することに加え、移行に向けて組織の準備を整えることが非常に重要です。チームの動員には、組織の移行をスムーズに進めるために、リスク軽減、トレーニング、コミュニケーションといった領域の戦略を策定することが含まれる場合があります。既存のインフラストラクチャやビジネスニーズに対して、どの戦略が最も有用かを評価することが重要です。
最初に概念実証を構築することは、ビジネスに不可欠なワークロードを移行する前に、 AWS サービスをテストして慣れるのに役立ちます。戦略によっては、アプリケーションだけでなく、アプリケーションデータも新しいクラウドベースのサービスに移行することが含まれている場合があります。たとえば、バックアップやファイルサーバーを Amazon S3 に移行することを検討できます。しかし、アプリケーション全体とそのデータを一度に移行することには、顧客向けサービスの停止のほか、予期せぬパフォーマンス問題が生じるリスクが伴います。こうしたリスクを軽減するために、時間をかけて移行を展開し、AWS サービスの十分なテストを行うまでは、アプリケーションの特定の部分だけをクラウドに移行することになる可能性もあります。これにより、アプリケーションコンポーネントを安全に移行し、それらを 1 つずつ最適化できます。ワークロードを移行してモダナイズする移行の最終フェーズでは、要件を満たすワークロードを移行し、それらを運用するために AWS で提供されている機能を活用します。AWS では、ワークロードの最適化、自動スケーリング、プロビジョニング、保護のためのサービスがいくつか提供されています。たとえば、CloudEndure Migration は、物理環境、仮想環境、その他のクラウド環境から AWS への迅速なリソース移行を可能にします。新たに移行したサービスについては、AWS CloudFormation を使用すれば、コードとしてインフラストラクチャを構築し、デプロイとアップグレードを自動化できます。また、AWS ではさまざまなセキュリティポリシー、パーミッション、ロールを提供しているため、クラウドサービスのセキュリティコントロールを向上させることができます。たとえば、チーム向けに多要素認証を実装する、チームベースのセキュリティポリシーを作成して S3 バケットなどの特定の AWS リソースへのアクセスを制限する、データを自動的に暗号化する、といったことが可能です。慎重に計画を策定することで、重要なアプリケーションのワークロードの移行を成功させることができます。

14 Datadog を使用して AWS への移行を監視サービスの実行場所を問わず、移行する際には、サービスのパフォーマンスを可視化することが重要となります。Datadog は、オンプレミス環境、ハイブリッド環境、クラウド環境からデータを収集し、移行プロセス全体ですべてのサービスを監視できるようにします。

15 Datadog を使用すると、クラウドへの移行に適したサービスを評価し、新たに移行したホストをスピンアップ後すぐに監視できるほか、オンプレミスとクラウドのサービス間のパフォーマンスを容易に比較することも可能になります。また、Datadog の機能は相互に緊密に統合されているため、たとえば分散トレースから関連ログやインフラストラクチャのメトリクスに至るまで、あらゆるデータポイント間でピボットし、トラブルシューティングのための豊富なコンテキストを取得できます。さらに、移行プロセス全体にわたってすべてのサービスのワークロードパフォーマンスを追跡する
ための専用ダッシュボードを構築することも、パフォーマンスの異常を通知するアラートを作成することもできます。移行前にサービス間の依存関係を可視化する前述したように、まず既存アプリケーションのワークロードを評価して、要件を満たす移行候補を特定することが非常に重要となります。Datadog のサービスマップを使用すると、アーキテクチャのコンポーネントとそれぞれの依存関係を可視化できるようになるため、どのサービスをクラウドに移行できるかについて、多くの情報に基づいて判断することが可能になります。たとえば、サービスマップでアプリケーションデータベースの依存関係があまりにも多ければ、ワークロードを中断せずに安全にクラウドに移行できないと判断できます。

16 移行時に、オンプレミスホストとクラウドホストの高レベルのパフォーマンスを比較する Datadog のホストマップを使用すると、CPU の使用率やリクエストのスループットなど、ホストの主要なパフォーマンスメトリクスの高レベルビューを得られます。これにより、過少または過剰にプロビジョニングされているリソースを容易に特定し、オン
プレミスのホストと、移行先の新たなホストのパフォーマンスを比較できます。たとえば、ホストマップを使用すれば、オンプレミスのサービスと Amazon EC2 インスタンスに（「リホスト」などで）移行したサービスのパフォーマンスを比較できるため、概念実証を行って AWS サービスをテストした上で、残りのワークロードの移行について判断することが可能になります。 Datadog は自動的に、オンプレミスのすべてのホストから「host」や「service」といったタグを取得し、 AWS サービスから「availability zone」や「autoscaling_group」といったインフラストラクチャタグを取得するため、オンプレミス環境やクラウド環境全体で特定のリソースを検索してドリルダウンできます。

17 新しいホストをオンライン後すぐに検出するワークロードを AWS に移行する主なメリットは、プロビジョニングとスケーリングの機能を活用できることです。 AWS では、需要に応じてリソースを自動的にスケーリングし、Datadog
を使用してそうしたリソースをスピンアップ後すぐに監視できます。ライブコンテナの監視機能を使用すると、すべての Kubernetes クラスターと、EKS または ECS でホスティングされている個々のコンテナのステータスとパフォーマンスをリアルタイムで把握できます。Datadog は 2 秒の解像度でリソースメトリクスを収集するため、コンテナ環境の最新の状態を継続的に把握できます。新たに移行したサービスをプロアクティブに監視する移行の最終フェーズにおいて、AWS の機能をさらに活用してワークロードのプロビジョニング、最適化、セキュリティ保護を行うには、オンプレミスや新たに移行したサービスを完全に可視化する必要があります。Datadog では、以下のようなコア機能を提供しており、サービスをさらに AWS に移行する際も、継続してインフラストラクチャを監視できます。 – Datadog Agent：あらゆる環境のホストやアプリケーションから、メトリクス、プロセスデータ、ネットワークパフォーマンスデータ、トレースデータ、ログを収集する – AWS インテグレーション：AWS のすべてのサービスについて、Amazon CloudWatch を通じてサービス固有のメトリクスとログを収集する – Synthetic 監視：API テストと UI テストを通じてアプリケーションの機能性を検証する – ログ管理：ログを一元的に監視および分析する。ログは Amazon S3 にアーカイブできるインフラストラクチャをデプロイするための新しいワークフローに、Datadog を容易に統合できます。たとえば、AWS CloudFormation を使用して、運用監視データを自動的に Datadog に送信するインフラストラクチャリソースをデプロイおよび構成できます。また、Datadog を使用すれば、AWS 固有の脅威検出ルールによって、新たに移行したサービスをセキュリティで保護できるため、AWS IAM ユーザーの不審なログイン操作、EC2 インスタンスへの DoS 攻撃、S3 バケットへのポリシー変更といった問題を検出できるようになります。

18 移行：要点これまで、AWS に移行して費用対効果および耐障害性の高いアプリケーションを構築することで得られるメリットのほか、サービスをクラウドに移行する際の課題を説明してきました。重要なのは、ワークロード移行時の予期せぬパフォーマンス問題を軽減できるように、移行戦略を策定することです。そして、移行プロセスを開始した後は、
クロスプラットフォームの可視化が、移行を成功させるための鍵となります。レガシーアプリケーションとその依存関係についての理解を深められるように、移行前にオンプレミスインフラストラクチャの状態を可視化し、各リソースのパフォーマンスを詳しく把握できる Datadog の機能についても紹介しました。リソースを移行する際には、Datadog を使用すれば、AWS でのスピンアップ後すぐにリソースを監視できます。移行後も、残っているオンプレミス環境と、AWS　でホスティングされている新しいインフラストラクチャの両方のパフォーマンスを引き続き監視できます。ホストマップ / サービスマップやライブコンテナ監視などの Datadog 機能を使用することに加え、環境のパフォーマンス異常を通知するためのアラートを作成することも可能です。また、Synthetics を使用すると、新たに移行したアプリケーションの機能を検証するためのブラウザテストを構築できます。Datadog の広範な機能セットにより、移行のすべてのフェーズにおいて、あらゆるリソースを監視できるようになります。参考資料移行の監視に関する詳細については、以下のガイドを参照してください。 – Ensuring successful cloud migrations with cross-platform visibility from Datadog（Datadog のクロスプラットフォーム可視化機能でクラウド移行を確実に成功させる） – Key metrics for AWS monitoring (AWS を監視するための重要なメトリクス ) – Datadog's 1-click integration for AWS（Datadog の AWS 向けワンクリック統合）また、AWS へのワークロード移行に関するこれらの監視戦略を実践したい場合は、 www.datadog.com において、Datadog のフル機能を利用できるトライアル版をお申し込みください。

21 22 23 23 33 33 34 34 35 35
36 38 39 40 43 44 AWS におけるサーバーレスアプリケーションの監視 AWS Lambda – AWS Lambda の監視方法 Amazon API Gateway – API Gateway の監視方法 AWS Step Functions – AWS Step Functions の監視方法 AWS Fargate – AWS Fargate の監視方法 Datadog を使用して AWS サーバーレスプラットフォームを監視 – サーバーレスメトリクスを可視化する – サーバーレスログを 1 か所で検索および分析する – Datadog APM を使用してトレースデータを調査する – サーバーレスエコシステムを完全に可視化する参考資料 AWS と Datadog によるクラウドスケールの監視 AWS におけるサーバーレスアプリケーション

22 AWS におけるサーバーレスアプリケーションの監視サーバーレスアーキテクチャを採用することで、サーバーのプロビジョニングや管理など、アプリケーションに関する従来のオペレーションの責任をチームからクラウドへ移行できます。クラウドプロバイダーは、インフラストラクチャのリソースを管理し、必要に応じてそれらを利用してサーバーレスコードをデプロイする責任を担うようになりつつあります。サーバーレスをアプリケーションに活用することで、常時稼働するアプリケーションリソース（サーバー容量、ネットワーク、セキュリティパッ
チなど）の支払いや管理が不要になるため、費用対効果が高くなります。課金されるのは、関数に使用するリソースに対してのみです。また、サーバーレスアーキテクチャは、需要に応じて容易にスケーリングすることもできます。サーバーレスアーキテクチャを使用してワークロードを実行すると、監視に関する新たな課題が生じます。サーバーレスアプリケーションは、従来のハードウェア上で実行されるものとは根本的に異なります。一例として、一般的なシステムメトリクスを収集できないことが挙げられます。しかし、サーバーレス関数のパフォーマンスを監視するために、運用監視データの収集が重要であることは変わりません。たとえば、 AWS Lambda 関数は、同時実行数の上限と割り当てメモリによってコントロールされます。上限を超えると、関数がタイムアウトするか、ランタイムによって強制終了となります。こうしたシナリオの一部のほか、 AWSのサーバーレスツールプラットフォームを監視するための主要なメトリクスを紹介します。取り上げるプラットフォームは以下のとおりです。 – AWS Lambda – AWS Fargate – Amazon API Gateway – AWS Step Functions

23 また、Datadog を使用することで、どのようにサーバーレスアーキテクチャ全体を 1 か所で監視できるようになり、AWS のサーバーレスツールのパフォーマンスに関する知識を深められるかについても説明します。 AWS Lambda AWS
Lambda は、AWS サーバーレスプラットフォームの中心となるコンピュートサービスであり、サーバーレスコードを関数としてデプロイします。関数はイベント駆動型であり、メッセージキュー、ファイルのアップロード、HTTP リクエスト、cron ジョブなどのイベントでトリガーできます。Lambda 関数は、Amazon API Gateway からの API コールや DynamoDB テーブルへの変更など、別の AWS サービスからのイベントを使用してトリガーすることが可能です。サービスが初めて関数を呼び出したときに、関数のランタイムとハンドラーメソッドが初期化されます。AWS Lambda はさまざまなランタイムをサポートしているため、好みのプログラミング言語（Go、 Python、Node.js など）で関数を記述し、同一環境内でそれらを実行できます。 AWS Lambda の監視方法 AWS Lambda はユーザーに代わってインフラストラクチャのリソースを管理するため、ユーザーは CPU 使用率などの一般的なシステムメトリクスを取得することはできません。その代わり、Lambda は関数を実行したときのパフォーマンスと効率をレポートするため、関数を監視すれば、関数の使用率、呼び出し、同時実行数（プロビジョニング済み同時実行数を含む）を追跡できます。主要関数のパフォーマンスと使用率のメトリクス Lambda は、関数が使用されている時間（パフォーマンス）と、呼び出し中に関数が使用するメモリの量（使用率）を自動的に追跡します。このデータを監視することで、関数を最適化し、コストを管理できます。関数使用率のメトリクスは、以下のログの例で示すように、CloudWatch のログに含まれています。 ``` REPORT RequestId: f1d3fc9a-4875-4c34-b280-a5fae40abcf9 Duration: 72.51 ms Billed Duration: 100 ms Memory Size: 128 MB Max Memory Used: 58 MB Init Duration: 2.04 ms ```

24 期間と課金期間：関数の実行時間（期間）を監視することで、どの関数を最適化できるか（または最適化すべきか）を判断できるようになります。コードの実行に時間がかかる理由としては、コールドスタート（非アクティブな Lambda 関数のレスポンス時間における初期遅延）、過度に複雑なコードのほか、サードパーティや他の AWS サービスを利用する関数の場合はネットワークレイテンシーなどが挙げられます。
Lambda では、総実行時間を 15 分に制限しており、制限時間に達すると、関数を終了してタイムアウトエラーを発行します。このため、期間を監視することで、このしきい値に達するタイミングを確認できるようになります。課金される期間は、100 ミリ秒単位で切り上げられた実行時間に基づきます。課金期間は、関数のメモリサイズと共に、AWS Lambda の価格設定のベースとなります。これについては、後述します。関数の期間とその課金期間を比較して、実行時間を短縮してコストを削減できるかどうかを確認できます。たとえば、以下の関数のログを見てみましょう。 ``` REPORT RequestId: f1d3fc9a-4875-4c34-b280-a5fae40abcf9 Duration: 102.25 ms Billed Duration: 200 ms Memory Size: 128 MB Max Memory Used: 120 MB Init Duration: 2.04 ms ```

25 関数の期間（Duration）は 102 ミリ秒ですが、支払いは 200 ミリ秒の課金期間（Billed Duration）に基づきます。期間が一定している場合は（約 102 ミリ秒など）
、期間と課金期間を短縮するためにメモリを追加できることがあります。たとえば、関数のメモリを 128 MB から 192 MB に増やして期間が 98 ミリ秒になれば、課金期間は 100 ミリ秒になります。これはつまり、課金期間の対象ブロックが 200 ミリ秒ではなく、 100 ミリ秒になるため、課金額が少なくなるということです。簡単な例を紹介しましたが、特に何百もの関数にまたがる大量のリクエストを管理している場合、この 2 つのメトリクスを監視することは、関数のコストを理解する上で重要です。メモリサイズと最大使用メモリ：関数の期間と課金期間は、関数に割り当てられているメモリ量によって部分的な影響を受けます。実行に時間がかかる場合は、リクエストを処理するのに十分なメモリがない可能性があります。また、関数で必要な量よりも多くのメモリを割り当ててしまう場合も考えられます。いずれの場合もコストに影響するため、メモリ使用量を追跡することで、処理能力と実行時間のバランスを取ることができます。関数には、AWS Lambda クォータの範囲内でメモリを割り当てることができます。Lambda ログでは関数のメモリサイズと記述されます。以下のように、CloudWatch のログで、関数のメモリ使用量とその割り当てメモリを比較できます。 ``` REPORT RequestId: f1d3fc9a-4875-4c34-b280-a5fae40abcf9 Duration: 102.25 ms Billed Duration: 200 ms Memory Size: 512 MB Max Memory Used: 58 MB Init Duration: 2.04 ms ``` 関数で使用しているメモリ（Max Memory Used）が、割り当てられたメモリのごく一部であることがわかります。この状況が続いている場合は、関数のメモリサイズを調整してコストを削減することをお勧めします。一方、関数のメモリ使用量が常にメモリサイズに達している場合は、受信したリクエストを処理するのに十分なメモリがないため、実行時間が長くなります。主要な関数呼び出しメトリクス Lambda 関数は、同期、非同期、イベントソースマッピング経由の 3 つの方法のいずれかで呼び出すことができます。同期サービスでは、イベントを作成し、それを Lambda が直接関数に渡し、関数がレスポンスを返すのを待ってから結果をサービスに戻します。これは、アプリケーションのワークフローにおいて、次のステップに移る前に関数の結果が必要な場合に役立ちます。エラーが発生した場合は、最初に Lambda にイベントを送信した　AWS　サービスが呼び出しを再試行します。

26 非同期の呼び出しでは、サービスが関数を呼び出すとすぐに呼び出しイベントを手放して、Lambda がそれをキューに追加します。サービスは、イベントが正常にキューに追加されたというレスポンスを受け取るとすぐに次のリクエストに移ります。非同期の呼び出しは、 Lambda によるリクエスト処理が終了するまで待つ必要がないため、サービスの待ち時間を短縮するのに役立ちます。タイムアウトや関数コードの問題が生じて、関数からエラーが返される場合、Lambda
はイベントの処理を最大 2 回再試行し、それでもエラーが返されるときはそのイベントを放棄します。Lambda はまた、関数の同時実行数がイベントを処理するのに十分ではない場合に、イベントをキューに戻し、エラーを発生させることもあります。さらに、ユーザーはイベントソースマッピングを使用して、Amazon Kinesis や DynamoDB ストリームなどのイベントソースを Lambda 関数にリンクさせることもできます。マッピングは、Lambda 関数のトリガーとして機能するようにデータストリームやキューを構成するリソースです。たとえば、Kinesis のデータストリームを関数にマッピングすると、Lambda ランタイムは、ストリーム内のシャード（レコードのシーケンス番号）からイベントのバッチ（レコード）を読み取り、それらのバッチを関数に送信して処理します。デフォルトでは、エラーを返してバッチを処理できない関数の場合は、バッチが成功するか、またはバッチ内のレコードが期限切れになるまで（データストリームの場合）、バッチを再試行します。レコードの処理中に関数が停止しないようにするために、イベントソースマッピングを作成する際に、再試行回数、バッチ内のレコードの最大有効期間、バッチサイズを設定できます。これらの呼び出しメソッドはそれぞれ、すべての呼び出しタイプに適用される標準的なメトリクスに加え、監視すべきメトリクスが異なります（呼び出し回数やイテレーター経過時間など）。呼び出し回数：呼び出し回数を監視することで、アプリケーションのアクティビティや関数の全体的なパフォーマンスを把握できるようになります。呼び出し回数に異常な変化が生じた場合は、関数のコードか、接続されている AWS サービスのいずれかに問題があることを示している可能性があります。たとえば、関数のダウンストリームサービスが停止した場合、複数回の再試行が強制的に行われ、関数の呼び出し回数が増える可能性があります。さらに、関数が複数のリージョンに配置されている場合は、呼び出し回数を使用して、関数が最小限のレイテンシーで効率的に実行されているかどうかを判断できます。たとえば、どの関数がどのリージョンで最も頻繁に呼び出されているかを素早く確認し、それらを別のリージョンやアベイラビリティゾーンに移動させる必要や、レイテンシーを改善するために負荷分散を変更する必要があるかどうかを評価できます。 Lambda@Edge のようなサービスは、顧客に近いリージョンでコードを自動的に実行することでレイテンシーを改善できます。

27 イテレーターの経過時間：ストリームベースの呼び出しの場合、Lambda はイテレーター経過時間のメトリクスを発行します。イテレーター経過時間とは、バッチの最後のレコードがストリーム（Kinesis、 DynamoDB など）に記述されてから Lambda
がバッチを受信するまでの間の時間です。これにより、ストリームに記述されているデータ量が多すぎて関数が処理しきれない場合を把握できるようになります。イテレーター経過時間が長くなるシナリオがいくつかあります。 – 関数の実行期間が長い – ストリーム内のシャード数が十分ではない – 呼び出しエラーがある – バッチサイズが不足しているイテレーター経過時間が増えている場合、関数がデータのバッチを処理するのに時間がかかりすぎて、アプリケーションに未処理イベントの大量のバックログが構築されている可能性があります。イテレーター経過時間を短縮するには、Lambda 関数がレコードをバッチで処理するのにかかる時間を減らす必要があります。処理時間が長い原因として、関数が効率的に動作するのに十分なメモリがないことが考えられます。関数に割り当てるメモリ量を増やすか、関数コードを最適化する方法を見つけることをお勧めします。

28 バッチ処理可能な最大レコード数を決定するストリームのバッチサイズを調整することで、場合によってはイテレーター経過時間を短くすることができます。別のダウンストリームサービスを単にトリガーするためのコールで大半が構成されているバッチの場合、バッチサイズを大きくすることで、1 回の呼び出しで処理するレコードを増やすことができ、スループットが向上します。しかし、追加の処理を必要とするレコードがバッチに含まれている場合は、バッチサイズを小さくしてシャードの停滞を回避
する必要があるかもしれません。関数のイテレーター経過時間を監視するためのもう 1 つの主要な要素は、呼び出しエラーの追跡です。呼び出しエラーは Lambda のログで確認できます。呼び出しエラーは、関数のイベント処理時間に影響することがあります。レコードのバッチが常にエラーを発生させていると、その関数は次のバッチに進むことができなくなり、イテレーター経過時間が長くなります。呼び出しエラーは、関数にアクセスしているストリームの問題（不正なパーミッションなど）や、Lambda の同時実行数の上限を超えていることを示している場合があります。関数の同時実行数の監視関数の同時実行数は、関数が一度に処理できる呼び出しの数を表す指標です。サービスが初めて関数を呼び出したときに、Lambda ランタイムは、イベントを処理する関数のインスタンスを新規作成します。サービスがイベントを処理しているときに関数を呼び出した場合、Lambda は別のインスタンスを作成します。このサイクルは、受信したリクエストに対応するのに十分な関数インスタンス数になるまで、または関数が同時実行数の上限に達してスロットリングされるまで続きます。デフォルトでは、Lambda はリージョンあたり 1000 件の同時実行が可能な初期プールを作成し、そのリージョン内のすべての関数で共有されます。AWS サポートにリクエストを提出することで、リージョンあたりの上限を増やすことができます。また、 Lambda では、リージョンごとの同時実行数のプールにおいて、すべての関数で少なくとも 100 件の同時実行が常に可能な状態にしておく必要があります。関数の呼び出し回数と共に同時実行数を監視することで、オーバープロビジョニングされた関数を管理し、アプリケーショントラフィックのフローをサポートするよう関数をスケーリングできます。たとえば、新しい呼び出しのバーストが発生したときに、受信したトラフィックを処理できるだけの十分な同時実行数がない場合、関数がスロットリングされる可能性があります。

29 Lambda は、受信したリクエスト数に基づいて自動的に関数インスタンスをスケーリングしますが、最初のバースト時に作成できるインスタンス数には上限があります。この上限に達すると（リージョンに応じて 500 ～ 3,000 のインスタンス）
、利用可能な同時実行数をすべて使い果たすまで、1 分あたり 500 インスタンスの速度で関数がスケーリングされます。この利用可能な同時実行数は、リージョンごとの同時実行数の上限や、関数の予約済み同時実行数から引き出されています。予約済み同時実行数は、1 つまたは複数の関数に割り当てる利用可能な同時実行数のプールに含まれているものです。予約済み同時実行数を設定することで、関数がスケーリングするのに十分な同時実行数を確保できるようになります。また、コントロール不能な状態でスケーリングしたり、同時実行数のプールを占有したりすることも回避できます。関数の同時実行数の予約は、比較的多くの同時実行数を定期的に必要とする関数を把握している場合に役立ちます。また、同時実行数を予約することで、関数があまりにも多くのリクエストを処理してダウンストリームサービスをあふれさせるような事態も回避できます。関数が予約済み同時実行数を使い果たした場合、予約していないプールから同時実行数を追加して使用することはできません。関数の同時実行数を予約すると、利用可能な同時実行数のプールサイズが小さくなるため、他の関数のパフォーマンスに影響を与えない場合にのみ予約するようにしてください。

30 同時実行数：同時実行数を監視するために、Lambda は同時実行数メトリクスを発行します。このメトリクスを使用すると、関数がプール内の同時実行数をすべて使い切るタイミングを追跡できます。上図の例では、特定の関数の実行数にスパイク（急激な増加）が見られます。前述のように、共通の実行数プールから同時実行数を予約することで、関数の同時実行数を制限できます。これは、関数があまりにも多くのリクエストを同時に処理しないようにする必要がある場合に役立ちます。ただし、Lambda では、予約済みの同時
実行数を使い果たすと、関数をスロットリングすることに留意する必要があります。予約されていない同時実行数：予約されていない実行数は、アカウントで利用可能な同時実行の総数から、予約済みの同時実行数を差し引いたものに相当します。予約されていない同時実行数のメトリクスと、同時実行数のメトリクスを比較して、重いワークロード時にどの関数が残りの同時実行数プールを使い果たすかを監視できます。前掲のグラフは、予約されていない同時実行数のスパイクと、1 つの関数が利用可能な同時実行数の大半を使用している状況を示しています。これは、アップストリームサービスがあまりに多くのリクエストを関数に送信していることが原因となっている可能性があります。

31 プロビジョニング済み同時実行数の監視： Lambda は必要なときにしか関数コードを実行しないため、しばらく関数を使用していない場合、追加のレイテンシー（コールドスタート）が発生することがあります。これは、Lambda では新しいコンテナを初期化し、非アクティブな関数に対してパッケージ化された依存関係をプロビジョニングする必要があるためです。初期化のたびに、関数の実行をさらに数秒遅らせることがあります。Lambda はコンテナを約
45 分間起動させたままにしますが、この時間はリージョンによっても、VPC を使用しているかどうかによっても異なります。関数の起動時間が長いと（依存関係が多い場合など）、リクエストのレイテンシーが大きくなる可能性があります。Lambda がリクエストの急増に対応するために新しいインスタンスを初期化する必要がある場合は、特にそうなります。これを軽減するには、プロビジョニング済み同時実行数を使用します。これにより、自動的に関数インスタンスが事前に初期化されるため、リクエストが迅速に処理されるようになります。

32 十分なレベルのプロビジョニング済み同時実行数（ウォームインスタンス数など）を関数に割り当てることで、コールドスタートが発生する可能性を低下させることができます。これは 1 日の特定の時間帯にトラフィックが急増するアプリケーション（フードデリバリアプリケーションなど）にとって非常に重要となります。プロビジョニング済み同時実行数は、Application
Auto Scaling で管理できます。これにより、スケーリングのスケジュールや使用率に基づいて同時実行数を自動的に調整して、受信するトラフィックに備えることができます。プロビジョニング済み同時実行数は、アカウントのリージョンにおける同時実行数プールから引き出されており、異なる価格モデルを使用していることに留意する必要があります。プロビジョニング済み同時実行数の使用率：関数のプロビジョニング済み同時実行数の効率を監視するための主要なメトリクスの 1 つが、プロビジョニング済み同時実行数の使用率です。利用可能なプロビジョニング済み同時実行数をすべて使い切っている（使用率のしきい値に達している）関数は、同時実行数の追加が必要な場合があります。また、使用率が常に低い場合は、関数をオーバープロビジョニングしている可能性があります。その関数のプロビジョニング済み同時実行数を無効にするか削減して、コストを調整できます。

33 Amazon API Gateway Amazon API Gateway は、専用の API
サーバーを管理することなく、アプリケーションの API を作成して公開できるサービスです。サーバーレスエコシステムにおいて、 API Gateway は、適切な関数、クラスター、またはインスタンスに HTTP リクエストをルーティングして処理を行えるほか、Amazon Cognito のような他の AWS サービスと接続した際に認証と認可のレイヤーを提供します。 Amazon API Gateway の監視方法 API に依存している関数は、API が失敗した場合や、API のレイテンシーで大幅な増加が発生した場合に機能しなくなります。特にエラーやレイテンシーのメトリクスを調べて、API のパフォーマンスを監視することは、サーバーレスアプリケーションが顧客に利用可能であることを確認するための重要な要素となります。 API Gateway の主要なメトリクス 5xx エラー：クライアントから API エンドポイントにリクエストが送信されると、エンドポイントはリクエストが成功したかどうかを示す HTTP レスポンスコードを返します。たとえば、HTTP レスポンスが 200 の場合はリクエストが受信されたことを示し、レスポンスが 5xx の場合はサーバー側でエラーが発生したことを示します。503 （Service Unavailable）は、API Gateway でよくあるサーバーエラーです。こうしたエラーは通常、API Gateway で構成ミスがある場合や（存在していない関数を参照しているなど）、処理するリクエストが多すぎる場合に発生します。インテグレーションレイテンシーとレイテンシー：Amazon CloudWatch には、API Gateway 向けにレイテンシー関連の 2 つのメトリクスがあります。インテグレーションレイテンシーのメトリクスは、関数がリクエストを送信してから API Gateway にレスポンスを返すまでの時間を測定し、関数のレスポンス状態を監視するのに役立ちます。レイテンシーのメトリクスは、API コールのエンドツーエンドのレスポンス状態、つまり、 API Gateway がクライアントからリクエストを受け取ってからレスポンスを返すまでの時間を測定します。インテグレーションレイテンシーの増加は、API Gateway がアイドル状態の関数を呼び出そうとする「コールドリクエスト」や、API Gateway が別の AWS リージョンにある関数や他のリソースを呼び出すことが原因で発生することがあります。API コールのエンドツーエンドのレスポンス状態（レイテンシーなど）は、AWS サービスの一般的なレイテンシーの影響を受ける可能性があるため、インテグレーションレイテンシーとレイテンシーの両方のメトリクスを比較して、問題の原因を特定することが重要となります。

34 API Gateway ログの監視 API に関する問題をデバッグする際に、API のレイテンシーとエラーのメトリクスからわかることは、全体の一部だけです。異常な動作が発生した理由を理解しておく必要もあります。API Gateway
の実行ログとアクセスログを使用し、CloudWatch で API コールをログに記録することで、API のアクティビティに関する豊富なコンテキストを得ることができます。実行ログには、エラー / リクエスト / レスポンスのパラメーターや、ペイロードの情報をはじめ、実行されたコールのタイプについての詳細情報が記述されます。アクセスログでは、誰がどのように API にアクセスしたかが示されます。たとえば、API Gateway のログを監視することで、API エラーの増加が、特定の API にアクセスするクライアントのパーミッションが不十分なために発生したのか、ダウンストリームの Lambda 関数が不正なレスポンスを返したために発生したのかを判断できます。API Gateway のログにより、API に関するトラブルシューティングに必要なコンテキストを得られるため、誤って設定された各 API エンドポイントの IAM ロールをエンドツーエンドで可視化できます。 AWS Step Functions AWS Step Functions は、分散アプリケーションのコンポーネントを個々のステートマシンに分割できるサービスです。これにより、アプリケーションワークロード内のステップを容易に管理し、可視化できるようになります。Step Functions を使用して実行できるタスクとしては、アプリケーションの登録ステップを管理する、複数のシステムからのデータを単一の形式にマージして処理する、購買システムに手動の承認プロセスを組み込む、といったものが挙げられます。 AWS Step Functions の監視方法 Amazon CloudWatch は、ステートマシンの実行を追跡するメトリクスをはじめ、 Step Functions を監視するためのさまざまなメトリクスを提供します。実行を監視することで、AWS クォータに達しないようにしたり、ステートマシンを無期限に実行させるリスクを回避したりすることができます。 AWS Step Functions の主要なメトリクス Execution time（実行時間）：ステートマシンは、タイムアウトするまで 1 年間実行できますが、現在の実行が終了する前に新たな実行をトリガーすることができるため、結果として無期限の実行ループになる可能性があります。実行時間として、ステートマシンが実行されている時間が測定されるため、実行時間があまりにも長いステートマシンを特定してトラブルシューティングすることが可能です。

35 Failed executions（失敗した実行数）: 失敗した実行数は、サーバーレスアプリケーションのヘルスを監視するためのもう 1 つの主要なメトリクスです。AWS Lambda のメトリクスと相関させることで、Step
Functions と Lambda 関数の間のブレークダウンの原因を特定できます。たとえば、失敗したステートマシンの実行数と Lambda のエラー数の両方が等しく増加している場合、問題は特定の Lambda 関数に関連している可能性があります。Lambda のエラー数が少ない場合は、実行エラーの原因として IAM ロールの構成ミスが考えられます。 AWS Fargate AWS Fargate は、サーバーレスアーキテクチャを構築するためのもう 1 つのツールです。Fargate は、Amazon Elastic Container Service（ECS）と Amazon Elastic Kubernetes Service（EKS）の両方と統合されます。これにより、サーバーや Amazon EC2 インスタンスを手動でプロビジョニングすることなくコンテナを実行できるようになります。Fargate は Lambda よりも多くの CPU と RAM 容量をインスタンスに提供しており、ランタイムの制限はありません。 ECS で Fargate を使用してアプリケーションを起動するには、ネットワーク、IAM ポリシー、CPU、メモリの要件を自動的にプロビジョニングするタスクを定義します。 Fargate は、その構成に基づいてコンテナを起動し、アプリケーションを実行します。 EKS の場合は、どの Kubernetes ポッドを実行すべきかを決定する Fargate プロファイルを作成します。AWS は、ポッドのリソース要件に最適な Fargate コンピュートリソースを使用して、それらを自動的にプロビジョニングします。 AWS Fargate の監視方法 AWS Fargate の主要なメトリクス Fargate は、EKS と ECS の両方で使用できるため、両方のプラットフォームで Fargate のパフォーマンスを監視するための主要なメトリクスをいくつか説明します。メモリと CPU 使用率：AWS の価格設定は、タスクやポッドの構成済み CPU とメモリリソースに基づきます。このため、メモリと CPU 使用率は、コンテナのプロビジョニングが過不足なく行われているかどうかを確認するための重要なメトリクスとなります。通常の使用量よりも多くのメモリをタスクに割り当てている場合は、必要以上に多く支払っている可能性があります。たとえば、2 GB しか使用しないタスクに 8GB のメモリを割り当てている場合は、プロビジョニングされたメモリ量を減らすことで、パフォーマンスに影響が及ぶリスクをそれほど負うことなく、コストを削減できます。反対に、EKS ポッドのメモリ使用量が、設定した制限を超えた場合には、EKS ポッドが終了する可能性があります。 EKS ポッドと ECS クラスターの CPU 使用率を監視することで、コンピュートリソースがスロットリングに近い状態にあるかどうかを判断できます。CPU のしきい値に達しそうになったら、負荷に対応できるように環境をスケーリングできます。

36 Datadog を使用して AWS サーバーレスプラットフォームを監視サーバーレスアプリケーションは、監視に関する新たな課題をもたらします。受信したリクエストや他のサービスがどのように関数とやりとりしているか、また、高い需要やエラーに対する関数の耐障害性はどの程度かに留意する必要があります。たとえば、新しいリクエストが殺到した際に、そのトラフィックを処理するのに十分な同時実行数がない場合は、AWS
で関数がスロットリングされる可能性があります。また、アップストリームのサービスからエラーが発生し、関数コードの実行が阻止される可能性もあります。サーバーレスアプリケーションを効果的に監視するには、サーバーレスアーキテクチャ全体を可視化して、関数と他の AWS サービスがどのように相互運用しているかを把握できるようにする必要があります。 Datadog は、サーバーレスアプリケーションの状態を 1 か所で完全に可視化します。エンドツーエンドのトレースでサービスのボトルネックを特定し、カスタムメトリクスを追跡し、データを相関させ、関数のパフォーマンスに関する有用な情報を得ることができます。

37 高度なレベルでは、Datadog ではビルトインの AWS インテグレーションを提供しており、サ
ーバーレスアプリケーション（Lambda、Fargate、API Gateway、 Step Functions など）に使用されているものを含め、すべての AWS サービスから CloudWatch データを収集しています。Datadog のサービスマップを使用すると、すべてのサーバーレスコンポーネントを 1 か所で可視化し、環境内のアップストリームとダウンストリームの依存関係全体におけるトラフィックフローを把握できるようになります。サーバーレス関数の理解を深めるために、Datadog では専用の Lambda レイヤーと Forwarder を使用して、ユーザーの関数から運用監視データを収集します。Datadog の Lambda レイヤーは、各関数のランタイムの一部として実行され、Datadog Forwarder Lambda 関数と連携して、標準的な CloudWatch メトリクスよりも詳細な拡張メトリクスを生成します。Lambda レイヤーで収集したデータは、Datadog のすぐに使える AWS インテグレーション経由で既に収集しているメトリクス、ログ、その他のトレースを補完します。

38 サーバーレスメトリクスを可視化する AWS Lambda メトリクスの収集 Datadog は Lambda レイヤーと Forwarder
を使用してカスタムメトリクスを収集し、リアルタイムの拡張メトリクスを生成します。これは、Datadog がユーザーの AWS 関数ログから自動的に抽出する、課金期間、タイムアウト、予測コストなどのメトリクスです。Lambda レイヤーは、（同期または非同期で）カスタムメトリクスを送信することもできるため、アプリケーションワークフローに固有のユースケースについて、アプリケーションへのユーザーログイン、アイテムの購入、ユーザープロファイルの更新など、さらに有用な情報を得ることが可能です。コードにオーバーヘッドを追加しないことから、メトリクスの非同期送信が推奨されています。これは、アプリケーションのパフォーマンス重視のタスクに対応する関数にとって、最適なソリューションとなります。 Datadog では、Lambda、Step Functions、Fargate のダッシュボードなど、すぐに使えるインテグレーションダッシュボードを AWS インフラストラクチャ向けに提供しています。これにより、サーバーレスアプリケーションのパフォーマンスの概要を把握できるようになります。

39 たとえば、前掲のダッシュボードでは、すべての Lambda 関数のコールドスタート、エラー、メモリ使用量を容易に追跡できます。また、ダッシュボードをカスタマイズして、関数ログやトレースデータのほか、他のサービスからのメトリクスも含め、容易に相関させることもできます。サーバーレスログを 1 か所で検索および分析する
AWS Lambda によるログ作成 Datadog の Lambda レイヤーは、CloudWatch のログを自動的に Datadog Forwarder に転送し、Datadog Forwarder がそれを Datadog にプッシュします。Forwarder は、Amazon S3 のイベントや Amazon Kinesis のデータストリームイベントなど、ログやその他のテレメトリをアカウントに送信できます。CloudFormation 経由で Forwarder をデプロイすることが推奨されています。そうすると、自動的に AWS が適切なロールで Lambda 関数を作成し、Datadog の Lambda レイヤーを追加し、さらに「functionname」「region」「account_id」などの関連タグを作成するためです。これらを使用して、ユーザーは Datadog でログを検索できるようになります。 Forwarder は Lambda 関数であるため、実行はトリガーに依存します。Datadog でこれらのトリガーを自動的に設定することも、手動で設定して、S3 バケットまたは CloudWatch ロググループに追加されたらすぐにデータを転送することもできます。設定が完了すると、Datadog の Lambda Forwarder は、Lambda（および設定した他の AWS サービス）から Datadog アカウントへのログ送信を開始します。 Lambda 関数は大量のログを生成するため、インシデント発生時に問題を特定することや、単に関数の現状を監視することが困難になります。Datadog のログパターンを使用すると、ログの中で気になる動向を明らかにするのに役立ちます。たとえば、ダッシュボードで Lambda エラーでスパイクが見られる場合は、ログパターンを使用して、最もよくあるエラーのタイプを素早く検索できます。以下の例では、「AccessDeniedException」のパーミッションエラーを記録した関数ログのクラスターを確認できます。ログからスタックトレースを得られるため、詳細なトラブルシューティングを行うことができます。

40 Datadog のログアラートを Amazon EventBridge へルーティングする Datadog ではさらに、ログからアラートを作成して問題が通知されるようにすることも、Amazon EventBridge
インテグレーションによって関数管理のワークフローを自動化することもできます。たとえば、メモリ不足エラーに対して Lambda 関数が Datadog のログアラートをトリガーする場合、EventBridge を使用してその関数のメモリ量を自動的に増やすことができます。これにより、修復パイプラインを簡素化できるため、アプリケーションを確実に稼働し続けることが可能となります。 Datadog APM を使用してトレースデータを調査する AWS Lambda によるトレース Datadog Lambda レイヤーは、トレースヘッダーをサービス間で自動的に伝達し、サーバーレスアプリケーションにエンドツーエンドの分散トレースを提供します。 Datadog APM は、サーバーレスアーキテクチャ全体でリクエストトラフィックをネイティブにトレースするために、Lambda レイヤーと一緒に使用できるトレースライブラリを提供します。トレースは非同期送信されるため、サーバーレスアプリケーションにレイテンシーのオーバーヘッドが追加されることはありません。

41 また、Datadog では、AWS Fargate、Amazon API Gateway、Amazon SNS、Amazon SQS など、サーバーレスアプリケーションと一緒に使用できる他のサービス向けのインテグレーションも提供します。これにより、サーバーレスアーキテクチャのすべ
てのレイヤーを可視化できるようになります。これらのインテグレーションを有効にすると、エラーやコールドスタートを発生させている特定の関数にドリルダウンしてパフォーマンスを最適化できます。AWS では、関数の実行にかかる時間、各関数に割り当てられたメモリ量、関数に対するリクエスト数に基づいて課金されます。これはつまり、コストが急増する可能性があるということです。たとえば、ネットワーク障害が発生している API Gateway サービスに対して大量の関数が呼び出しを行い、レスポンスを待機しなければならない場合にはコストが急増します。トレースを使用すると、API Gateway などのアップストリームとダウンストリームの依存関係をマップし、スタック全体でリクエストをトレースして、レイテンシーのボトルネックを特定できるようになります。また、Datadog Forwarder を使用すると、サーバーレスログを分析し、関数が生成するエラーのタイプを素早く特定することも可能になります。サーバーレス関数からのトレースデータの分析を開始するには、Datadog の Serverless ビューを使用します。このビューでは、すべての関数を包括的に表示し、呼び出し回数やメモリ使用量などの主要なメトリクスを含めることができます。特定の関数を検索したり、すべての関数にわたってパフォーマンスメトリクスを表示したりすることも可能です。Serverless ビューでは、以下の例のように、特定のメトリクスごとに関数を並べ替えれば、大量のメモリを使用している関数や、最も呼び出されている関数を明確にすることができます。

42 関数をクリックすると、関連するすべてのトレースとログのほか、各呼び出しの詳細な情報（期間、関連するエラーメッセージ、呼び出し中に関数でコールドスタートが発生したかどうかなど）も表示されます。 API のレイテンシーとコールドスタートの 2 つは、サーバーレス関数に関するよくある問題であり、どちらも関数の実行時間を大幅に増加させることがあります。コールドスタートは通常、より多くのリクエストを処理するために関数がバックグラウンド
でスケーリングするときに発生します。API のレイテンシーは、ネットワークやその他のサービスの停止が原因で起こることがあります。Datadog を使用すると、すべての関数について、レイテンシーとコールドスタートをプロアクティブに監視できるようになります。たとえば、通常と異なるレイテンシーが関数で発生したときに通知が届くように、異常値のアラートを作成できます。トリガーされたアラートから、トレースやログに切り替えて、レイテンシーの原因がコールドスタートなのか、API サービスの依存関係における問題なのかを判断できます。Datadog ではまた、コールドスタートの発生を自動的に検出し、トレースに「cold_start」タグを適用するため、コールドスタートが発生している関数を容易に特定し、詳細なトラブルシューティングを行うことができます。

43 関数の実行時間が増大している原因がコールドスタートの過多である場合は、プロビジョニング済み同時実行数を使用することで、初期化のレイテンシーを減らすよう Lambda を構成できます。一方、API サービスからレイテンシーが発生している場合は、リージョンをまたぐ呼び出しが原因の可能性があります。その場合は、アプリケーションリソースの配置場所を同じ
AWS リージョン内に変更する必要があるかもしれません。サーバーレスエコシステムを完全に可視化するこれまで、サーバーレスアプリケーションを監視するための主要なメトリクスのほか、よくあるサーバーレス問題のトラブルシューティング方法について説明してきました。AWS は包括的なツールスイートを提供しており、ユーザーはプロビジョニングやインフラストラクチャリソース管理ではなく、スケーラブルなサービスの構築に注力できるようになります。 Datadog は、こうしたサーバーレスアプリケーションを深部まで可視化し、ビルトインのサービスインテグレーション、専用の Lambda レイヤー、インストールしやすい Forwarder を使用して、運用監視データを容易に収集できるようにしています。ユーザーは、インテグレーションダッシュボードでサーバーレスのメトリクスを可視化し、 Datadog の Log Explorer でログをふるいにかけ、Datadog APM で分散リクエストトレースを分析できます。

44 参考資料サーバーレスアプリケーションの監視に関する詳細については、以下のガイドを参照してください。 – AWS Lambda monitoring series（AWS Lambda
の監視シリーズ） – Monitoring Amazon EKS on AWS Fargate（AWS Fargate で Amazon EKS を監視する） – Monitoring AWS Step Functions（AWS Step Functions の監視）また、お使いのサーバーレス環境でこれらの監視戦略を実践したい場合は、www. datadog.com において、Datadog のフル機能を利用できるトライアル版をお申し込みください。

47 クラウドにおけるコンテナの進化絶えず変化するコンテナ化されたワークロード Amazon Elastic Container Service（ECS） Amazon ECS の仕組み
– EC2 インフラストラクチャ上の ECS – Fargate 上の ECS Amazon ECS の監視方法 – ECS ステータスの監視 – 監視のための主要な ECS リソースメトリクス Amazon Elastic Kubernetes Service（EKS） Amazon EKS の仕組み – EKS によるワークロードの管理方法 Amazon EKS の監視方法 – EKS ステータスの監視 – コントロールプレーンの監視 – EKS リソースメトリクスの監視オーケストレーションされたクラスターをサポートする AWS サービスの監視 AWS コンテナ環境の包括的な監視コンテナスタックの可視化 – カスタマイズ可能なダッシュボード – ライブコンテナビュー – コンテナマップ自動アラート全体監視とインシデント対応動的な環境のフルスタック運用監視参考資料 48 48 50 50 52 53 54 54 55 59 60 61 63 63 67 71 75 76 78 78 79 80 81 83 87 87 AWS と Datadog によるクラウドスケールの監視 AWS におけるコンテナ化されたアプリケーション

48 クラウドにおけるコンテナの進化コンテナは、日常的に使用されている多くのアプリケーションを強力にサポートします。特にマイクロサービス指向アーキテクチャやアジャイルワークフローに適しているコンテナは、開発者の効率性、機能速度、リソースの最適化を向上させるのに役立ちます。このセクションでは、クラウドにおいて変化し続けているコンテナの現状を説明し、オーケストレーションテクノロジーが今日のコンテナエコシステムに欠かせないものになっている理由を探ります。そして、Amazon
Elastic Container Service（ECS）と Amazon Elastic Kubernetes Service（EKS）という 2 つのコンテナオーケストレーションシステムを活用する際に監視すべき主要なメトリクスを紹介します。最後に、 Datadog などの包括的な監視プラットフォームを使用して、これらのメトリクスをすべて収集し、コンテナ化された環境のフルスタックの可視化を実現する方法について説明します。絶えず変化するコンテナ化されたワークロードコンテナとは、最も基本的なレベルでは、分離された仮想の実行環境（ランタイム）であり、必要な依存関係もすべて含んだパッケージで提供されます。これにより、アプリケーションのデプロイ先がローカル環境、企業のプライベートデータセンター、パブリッククラウドのいずれであっても、場所を問わず常にアプリケーションが実行されるようになり、開発プロセスが簡素化されます。コンテナ化では、仮想マシン（VM）よりも軽量で、デプロイやスケーリングがしやすい、個別のソフトウェア単位にアプリケーションを分割することで、リソースのプロビジョニングをさらに効率化し、アジャイルなワークフローと迅速なリリースサイクルをサポートします。

49 コンテナ環境が複雑化するにつれ、動的なコンテナインフラストラクチャの管理、スケーリング、運用に関する作業（利用可能なリソースが十分にあるノードへのコンテナのデプロイ、異常があるコンテナの再起動、望ましいすべてのリージョンでコンテナが実行され高可用性が確保されていることの確認といったタスク）を容易にするために、Kubernetes などのコンテナオーケストレーションソリューションを導入する開発チームが増えています。オーケストレーションは、チームが動的なコンテナ環境を大規模に管理し、インフラストラクチャリソースをより効率的に使用できるようにします。Docker
を採用している 1 万社以上の企業の使用状況データをまとめたレポートによると、ホストあたりの実行中のコンテナ数（中央値）は、オーケストレーション環境では 11.5 個に対し、非オーケストレーション環境では 6.5 個です。これは、オーケストレーターによって、組織がより多くのコンテナを実行し、各ホストで利用可能なリソースをより多く活用して、インフラストラクチャのコストを効果的に削減できるという考えを裏付けています。クラウドプロバイダーは、コンテナオーケストレーションをさまざまな組織で利用できるようにするために、高可用性、セキュリティ、ネットワークのビルトインサポートを備えるマネージドサービスを提供し、コンテナオーケストレーションに関連する運用上の課題の多くに対処しています。このセクションでは、AWS クラウドにおいて、コンテナ化されたアプリケーションを効果的に実行するために特別に設計された 2 つのマネージドコンテナオーケストレーションテクノロジー、Amazon Elastic Container Service（ECS）と Amazon Elastic Kubernetes Service（EKS）に焦点を当てます。この 2 つのコンテナオーケストレーションテクノロジーの概要と、それらを使用する際に監視すべき主要なメトリクスを探ります。また、そうしたサービスのために AWS Fargate によるサーバーレスインフラストラクチャを導入することで、自社ホストのプロビジョニングや管理が不要になることについても説明します。

50 Amazon Elastic Container Service（ECS） Amazon ECS の仕組み 2015 年に初めてリリースされた
Amazon Elastic Container Service（ECS）は、 AWS クラウドでのコンテナの効率的な管理とスケーリングを支援するものです。ECS を使用することで、Amazon EC2 インフラストラクチャ、AWS Fargate によるマネージドコンピュートリソース、またはその両方を組み合わせた環境でコンテナを起動できるようになります。 EC2 インフラストラクチャ上にコンテナをデプロイすることで、コンテナをホスティングするサーバーをより直接的にコントロールできるようになります。一方 AWS Fargate からは、コンテナを実行するインフラストラクチャのプロビジョニング、管理、監視を行う必要がないという利便性を得られます。タスクは、ECS ワークロードの基礎となるものです。各タスクは、タスク定義（実行するコンテナイメージ、各コンテナに割り当てるリソース数などの情報を記述できる指示書）に従ってコンテナの起動、終了、構成を担います。タスク定義では、 Amazon Elastic Container Registry（ECR）、Docker Hub、またはその他のレジストリからイメージに名前を付けることができます。タスク定義に記述されている仕様に従ってタスクを自動的にスケジューリングするサービスを作成できます。サービス定義内では、タスクを実行するのに望ましいインスタンス数を指定できます。サービスは、タスクのステータスを継続的に追跡し、それに応じてタスクの起動と終了を行うため、望ましい数のタスクインスタンスを実行しているかどうかをいつでも確認できるようになります。

51 キャパシティプロバイダー戦略を設定するか、タスク定義で起動タイプを指定することで、ECS タスクで使用するインフラストラクチャのタイプ（EC2、 Fargate、またはその組み合わせなど）を決定できます。たとえば、以下のタスク定義では、Flask アプリケーションコンテナと Redis コンテナを指定しています。 requiresCompatibilities
パラメーターは、このタスクでは Fargate 起動タイプを使用する必要があることを示しています。 { ″family″: ″my-flask-app-family″, ″executionRoleArn″: ″arn:aws:iam::<ACCOUNT_ID>:role/ecsTaskExecutionRole″, ″compatibilities″: [ ″EC2″, ″FARGATE″ ], ″″containerDefinitions″: [ { ″entryPoint″: [ ″python″, ″app.py″ ], ″essential″: true, ″image″: ″my-flask-app″, ″name″: ″app″, ″portMappings″: [ { ″containerPort″: 4999, ″hostPort″: 4999, ″protocol″: ″tcp″ } ] }, { ″essential″: true, ″image″: ″redis:latest″, ″name″: ″redis″, ″portMappings″: [ { ″containerPort″: 6379, ″hostPort″: 6379, ″protocol″: ″tcp″ } ] }, ], ″cpu″: ″256″, ″memory″: ″512″, ″networkMode″: ″awsvpc″, ″requiresCompatibilities″: [ ″FARGATE″ ], ″revision″: 11, ″status″: ″ACTIVE″ }

52 EC2 インフラストラクチャ上の ECS ECS タスクを Amazon EC2 にデプロイすることで、ワークロードを実行する仮想インスタンスのプロビジョニング、管理、スケーリングを柔軟に行うことができるように
なります。この設定では、ECS コンテナインスタンス—として知られる EC2 インスタンスはそれぞれ、ECS コンテナエージェントを実行し、そのインスタンス上で実行されるコンテナの管理を担います。エージェントは、実行中のタスクについての情報を ECS API に渡し、ECS からのリクエストに応じてタスクを管理します。 EC2 インフラストラクチャ上で実行されるタスクの場合、利用可能なリソースの量は、タスク定義で指定されたリソース要件によって決まります。タスク定義でリソースが設定されていない場合、リソースはタスクをホスティングするコンテナインスタンスの容量によって自動的に制限されます。 ECS リソースのメトリクスを監視することは、 ECS サービスに適したスケーリングポリシーを作成し、ワークロードがスムーズに実行できるだけの十分な容量を確保するために非常に重要です。これらのメトリクスやその他のメトリクスについては、後ほど詳しく説明します。

53 Fargate 上の ECS Fargate を使用すれば、ECS のタスクを AWS のマネージドインフラストラクチャに配置することで、EC2
インスタンスの管理やプロビジョニングが不要になります。ECS は、タスク定義のリソース要件に応じたサイズの Fargate コンピュートリソースを自動的にプロビジョニングします。ECS タスクを実行するのに利用可能なリソース量が EC2 コンテナインスタンスに十分にないと、ECS タスクのスケジュール設定が失敗する場合がありますが、 Fargate はそうした不確実性を取り除いてエンジニアリングチームが運用上の問題への対処に費やす時間を減らすことができるようにします。 ECS で使用しているインフラストラクチャのタイプに関係なく、コンテナ化されたアプリケーションがスムーズに実行されるように、以下の主要なメトリクスに注意を払う必要があります。

54 Amazon ECS の監視方法 Amazon ECS で自動デプロイメントを実行する際には、コンテナが期待どおりに起動し、終了しているかを確認するために、クラスターのステータスを監視する必要があります。また、ECS ワークロードのリソース使用状況を監視し、Fargate
を使用していない場合は、それらが実行されているコンテナインスタンスを監視する必要があります。 ECS ステータスの監視「望ましいタスク数」と「サービスごとの実行中のタスク数」の比較：ECS サービスは自動的に、望ましいタスク数が常に実行されるようにします。タスクの停止や失敗が予期せず発生した場合、ECS サービスがそれの代わりになる別のタスクを起動するまで、実行中のタスク数は、望ましいタスク数を下回ります。望ましいタスクインスタンス数を増加させる新バージョンのサービスをデプロイした直後は、ECS サービスが新しい要件を満たすためにタスクを自動的に起動します。その結果、新しいタスクが初期化されているときには、望ましいタスク数と実行中のタスク数が一時的に不一致になることがあります。しかし、望ましいタスク数よりも実行中のタスク数が常に下回っているように見える場合は、それらのタスクが実行されていない理由を調査する必要があります。たとえば、最新のタスク定義に誤字がある、タスクが Elastic Load Balancing のヘルスチェックに失敗した、タスクを実行しているコンテナインスタンスが停止または終了した、といった理由が考えられます。サービスイベントは、望ましいタスク数と実行中のタスク数の比較のほか、クラスターにタスクを配置する際に ECS で問題が発生していないかどうかを把握するのに役立ちます。

55 監視のための主要な ECS リソースメトリクス ECS タスク定義では、ECS がタスクや個々のコンテナに割り当てるリソースの最大量を指定できます。タスクレベルのリソースの上限は、ECS がタスク内のすべてのコンテナで共有可能にするリソースの最大量として機能します。また、さらに詳細なレベ
ルでリソースを管理するために、タスク内の個々のコンテナのリソースに上限を指定することもできます。 Fargate を使用している場合は、タスクレベルでリソースの上限（タスクサイズとも呼ばれる）を設定する必要があります。ECS はそれを使用して、タスクにプロビジョニングするコンピュートリソース量を決定します。これはまた、タスクが使用できる CPU とメモリの最大量にもなります。EC2 インフラストラクチャにデプロイされるタスクの場合、タスクレベルでのリソースの上限はオプションとなります。タスクに利用可能なリソースの最大量は、そのタスクが実行されるコンテナインスタンスのリソース量に自動的に制限されるためです。 EC2 で実行される ECS タスクでは、コンテナレベルでメモリの上限を指定することが求められます。しかし、コンテナレベルでの CPU の上限はオプションとなります。特に指定がない限り、ECS は各コンテナに対して、デフォルトの CPU ユニット数を予約するためです。タスク内のコンテナに対し、ハードメモリまたはソフトメモリの上限（もしくはその両方）を設定できます。ソフトメモリの上限を指定すると、ECS はその値を使用して、予約するメモリ量を決定します。ソフトメモリの上限を指定せず、ハードメモリの上限のみを指定すると、その値は ECS が予約するメモリ量となります。ソフトメモリの上限を適度に小さい値に設定することで、少ないコンテナインスタンスで多くのタスクをスケジューリングできる柔軟性が ECS にもたらされ、コスト削減につながる場合があります。しかし、予約した量よりも多くのリソースをコンテナで実際に必要とする場合は、パフォーマンス問題を引き起こす可能性もあります。

56 リソース予約のメトリクスは、EC2 で実行されている ECS タスクによって現在予約されている総リソース量の割合を追跡するために利用できます。予約されたリソース量は、タスク定義で定義されたコンテナレベルでのリソースの上限（CPU の場合は、上限が指定されていなければ、デフォルトの予約ユニット数）に基づいて計算されます。
この場合、総リソース量はクラスター内のコンテナインスタンスのサイズに基づいて計算されます。以下のリソース使用量メトリクスを監視することで、EC2 および Fargate 上のワークロードに対して、効果的な Auto Scaling ポリシーを作成できます。EC2 コンテナインスタンス上で実行されているタスクにのみ適用されるメトリクスは、それに応じてマークが表示されます。メモリ使用率：タスク内のコンテナにハードメモリの上限を設定している場合に、コンテナレベルのメモリ使用率が常に高いときは、ECS がハードメモリの上限を超えたコンテナを終了させるため、チームに注意喚起することをお勧めします。また、タスク定義を更新して、このハードメモリの上限を増加または削除することもお勧めします。EC2 を使用している場合は、タスク定義内でコンテナのスワップ容量を設定できます。これは、OOM-kill（メモリ不足によって停止）されるプロセスの可能性を減らすのに役立ちますが、レイテンシー重視のアプリケーションには適していない場合があります。 CPU 使用率：EC2 を使用してタスクを実行している場合、クラスターレベルの CPU 使用率を監視することで、十分なコンテナインスタンスが実行されているか、それともワークロードをサポートするために追加する必要があるかを判断できます。EC2 においてこのメトリクスは、サービスまたはクラスター全体で現在使用中の予約済み CPU の割合を測定します。そのため、サービス内のコンテナの合計 CPU 使用率が、それらのコンテナに最初に予約された CPU 使用率を超えた場合、このメトリクスが 100% を上回ることがあります（注：これは、CPU の予約がハードメモリの上限として機能する Windows コンテナインスタンスの場合は、該当しません）。このメトリクスを監視し、そして、リアルタイムの CPU 使用率に基づいて ECS サービスのサイズを自動的に調整するポリシーを構成するのに使用できます。 ECS タスクを実行しているのが EC2 か Fargate かに関係なく、コンテナレベルでの CPU 使用率メトリクスは、特に CPU 負荷の高いコンテナを特定するのに役立ちます。たとえば、特定のコンテナがリソースを占有してしまい、それを必要とするタスク内の他のコンテナで作業を完了できなくなることを防ぐために、コンテナレベルで CPU の上限を設定する必要があると判断する場合があります。 CPU とメモリの予約（EC2 のみ）：予約メトリクスは、EC2 コンテナインスタンスで実行されている ECS タスクにのみ適用されます。CPU とメモリの予約メトリクスは、実行中のタスクによって予約されているすべての CPU またはメモリの割合を測定します（クラスター内のすべてのインスタンスの合計容量に基づいて計算されます）。これらのメトリクスを監視することで、ECS でワークロードのスケジューリングと起動を成功させることができます。

57 たとえば、タスクを実行するのに十分な空きメモリがあるコンテナインスタンスを ECS で検出できなかった場合、そのタスクは保留状態のままになります。ECS サービスイベントには、「すべての要件を満たすコンテナインスタンスがないため、サービス < サービス名
> にタスクを配置できませんでした」というようなメッセージが表示されます。この問題を解決するには、タスク定義で予約されているメモリの量を減らすか、タスクのリソース要件を満たす十分なメモリがあるコンテナインスタンスを追加します。リソース量に関する問題は、実行中のタスク数が望ましいタスク数を下回ったままである理由を説明するのに役立つ可能性があります。こうした問題が発生しないように、メモリまたは CPU の予約が一定レベルを超えた場合に、コンテナインスタンスをプロビジョニングするよう Auto Scaling ポリシーを作成できます。 I/O メトリクス：ECS では、各 EC2 コンテナインスタンスまたはコンテナから読み書きされるバイト数の予期せぬ低下を監視して、必要とされるストレージにタスクから確実にアクセスできるようにします。ECS タスクでは、Amazon Elastic File System （EFS）ボリュームを使用すれば、高度にスケーラブルで永続的なストレージにコンテナからアクセスできるようになります。あるいは、バインドマウント（すでにコンテナインスタンスにアタッチされている Amazon Elastic Block Store ボリュームをマウントするなど）といった他のストレージオプションを指定することもできます。

58 ECS では、配置前にタスクのディスク要件が考慮されないため、ストレージ要件を満たさないコンテナインスタンスでタスクが実行される可能性があります。EFS を使用するメリットの 1 つは、ボリュームに残っているストレージ容量を監視する必要がないことです。クラスターにデータを追加すると、EFS によって自動的にスケーリング
されます。EC2 タスクで EFS を使用していない場合は、コンテナインスタンスで利用可能なディスク容量を監視し、十分なストレージがある新しいインスタンスにワークロードを移行する必要があります。ネットワークのスループット：クラスター内のネットワーク接続の状態を監視すること（コンテナ化された独自のマイクロサービス間だけでなく、 ECS コンテナエージェントと ECS API 間のネットワーク接続の状態も監視すること）は非常に重要です。コンテナインスタンス（該当する場合）やコンテナに対する送受信のネットワークスループットに関する問題を検出するために、アラートを設定できます。これは構成に問題があることを示している場合があるためです。Application Load Balancer（ALB）を使用して ECS サービスのタスク間でトラフィックを分散させている場合、ALB のメトリクスとログは、サービスがトラフィックを受信できない問題を調査するのにも役立ちます。

59 Amazon Elastic Kubernetes Service （EKS） Kubernetes（K8s）は、2014 年に Google がオープンソース化した、人気の高いコン
テナオーケストレーションソリューションです。多くの組織では AWS で自己管理型 Kubernetes クラスターを運用していますが、Kubernetes インフラストラクチャの運用は専任の技術チームでなければ難しい場合があります。Amazon Elastic Kubernetes Service（EKS）を使用すると、Kubernetes に組み込まれているすべての機能にアクセスしながら、運用上のオーバーヘッドを削減できます。

60 Amazon EKS の仕組み Amazon EKS は、フルマネージド Kubernetes コントロールプレーンを提供します。これは、クラスターの状態維持やワークロードの管理
/ スケジューリングなどの重要なタスクを担います。コントロールプレーンは、以下の要素で構成されています。 – API サーバー：クライアント / アプリケーションやワーカーノードがクラスターに関する情報にアクセスできる API を公開する – コントローラーマネージャー：望ましい状態にクラスターを近づける処理を担う – スケジューラー：クラスターの状態についてクエリを実行し、ワーカーノードへのワークロードの割り当て方法を決定する – etcd：クラスターの状態、クラスター構成データ、その他の情報を追跡する分散型キー値ストアコントロールプレーンはクラスターのブレインとして機能するため、正常で高い可用性を維持することが非常に重要です。1 つのノードでコントロールプレーンを実行することもできますが、少なくとも 3 つのコントロールプレーンノードをプロビジョニングすることが推奨されています。Amazon EKS は、複数の AWS アベイラビリティゾーンにコントロールプレーンノードをデプロイして、高可用性を確保します。また、コントロールプレーンノードを継続的に監視し、異常がある場合は交換します。 EKS は、フルマネージドのコントロールプレーンのほか、コントロールプレーンとワーカーノード間だけでなく、各ノードにあるポッド間でも、ビルトインのネットワークをクラスターに提供します。また、EKS は Kubernetes 準拠の認定を受けているため、 Kubernetes のワークロードを EKS に移行する場合でも、新しいクラスターを立ち上げる場合でも、容易に始めることができます。 EKS は、AWS App Mesh（アプリケーションのネットワークを提供）や AWS CloudFormation（EKS インフラストラクチャをコードとしてデプロイ）といった補完的なサービスとシームレスに統合し、AWS クラウドで Kubernetes クラスターを容易に実行できるようにします。

61 EKS によるワークロードの管理方法 EKS クラスターは、コントロールプレーンノード（AWS が管理）とワーカーノード（EC2
インスタンスまたは Fargate が管理するコンピュートリソース）の 2 タイプのノードで構成されます。各ワーカーノードでは、ノードの監視とコントロールプレーンとの通信を行う kubelet プロセスを実行します。ワーカーノードでは、Kubernetes にデプロイできる最小単位であるポッドも 1 つ以上実行します。ポッドは、アプリケーションのワークロードを実行する 1 つ以上のコンテナによるグループであり、容易にスケーリングできます。同一ポッド内のコンテナは、共有ストレージと単一のネットワーク IP へのアクセスが許可されています。ポッドは、アプリケーションのインスタンスか、単一のコンポーネント（NGINX など）かを問わず、クラスター内でワークロードを実行する任意の単位になります。マニフェストは、クラスター内のオブジェクトについて、望ましい状態を定義する設定ファイル（YAML または JSON 形式）です。マニフェストには、起動するポッド数と、各ポッドを構成するコンテナが記述されており、場合によっては、ワークロードのリソース要件も含まれています。コントロールプレーンは、マニフェストの情報を使用して、クラスター全体でポッドをスケジューリングする場所を決定します。

62 EKS は ECS と同様に、EC2 ワーカーノードまたは Fargate でワークロードを起動できます。EKS を
EC2 インフラストラクチャ上にデプロイした場合、 Kubernetes ワーカーノードは、下図のように実質的に EC2 インスタンスになります。EKS は、クラスターを分離する仮想プライベートクラウド（VPC）で実行されます。

63 EKS を使用すると Kubernetes コントロールプレーンノードを管理する必要がなくなりますが、Fargate 上で EKS を使用すると、さらに一歩進んで、ワーカーノードをすべて管理する必要もなくなります。Fargate
プロファイルに記述されている仕様を満たしている EKS ポッドの場合、AWS はポッドのリソース仕様に準じるサイズで、 Fargate による専用マネージドコンピュートリソースを使用して、そのポッドを起動します。ポッド仕様にリソースリクエストが含まれていない場合、Fargate はデフォルトで最小のリソース仕様を使用してフリートからコンピュートリソースをプロビジョニングします。 Amazon EKS の監視方法 Amazon EKS のワークロードをスケーリングして運用する際には、クラスターとコントロールプレーンのステータスを監視して、すべてがスムーズに稼働していることを確認する必要があります。また、リソースの制約が原因で EKS がポッドの削除やワークロードのスロットリングを行うことがないように、EKS のコンテナ、ポッド、（該当する場合は）ホスト全体のリソース使用量を監視することも重要です。 EKS ステータスの監視 Kubernetes API サーバーは、ポッドなどの Kubernetes オブジェクトの数量、ヘルス、可用性について、クラスター状態情報を出力します。Kubernetes はこのデータを使用して、望ましい状態にクラスターを近づけるためにポッドの起動、スケジューリング、終了が必要かどうかを決定します。

64 Kubernetes はコントローラーを使用してクラスターの状態を管理します。コントローラーの主なタイプは、DaemonSet と Deployment の 2 つです。DaemonSet （Fargate
ではサポートされていません）は、特定のポッドがクラスター内のすべてのノード（または指定されたノードセット）で実行されるようにします。Deployment は、ワークロードを実行するための特定数のポッドを起動します。ポッドの状態は短期的であるため、Deployment マニフェストでは一般にサービスも定義しており、これは Deployment で実行されているポッドへの永続的なアクセスを提供します。以下のマニフェストは、3 つのポッドを作成し、それぞれが Redis コンテナを実行する Deployment を定義しています。また、この Deployment のポッドへのアクセスを可能にするサービスも定義しています。 apiVersion: apps/v1 kind: Deployment metadata: name: redis spec: replicas: 3 template: metadata: labels: role: redis spec: containers: - name: redis image: redis:5.0 ports: - name: redis containerPort: 6379 --- apiVersion: v1 kind: Service metadata: name: redis labels: role: redis spec: ports: - port: 6379 targetPort: 6379 selector: role: redis Kubernetes は、使用しているコントローラーに応じて変化するクラスター状態のメトリクスを発行します（たとえば、望ましいポッド数は、Deployment 内の kube_deployment_spec_replicas と、DaemonSet 内の kube_daemonset_status_ desired_number_scheduled を比較することで測定されます）。こうした少しの違いはありますが、クラスター状態に関するすべてのメトリクスによって、クラスター全体のオブジェクトの状態が可視化されます。その際は、DaemonSet、Deployment、または別のタイプのコントローラーとして実行されているかどうかは関係ありません。

65 以下のクラスター状態メトリクスは、ワークロードの起動に関する問題を明らかにし、クラスターのサイズが適切であることを確認するのに役立ちます。EC2 ワーカーノード上で実行されているポッドにのみ適用されるメトリクスは、それに応じてマークが表示されます。望ましいポッド数と現在のポッド数の比較：すべてがスムーズに進んでいれば、これらの数は一致するはずです。こうしたメトリクスが長期にわたって不一致のときにアラートを出すことで、ポッドが失敗する原因となっている設定エラーなどの問題を検
出できます。ポッドのログを調べることで、トラブルシューティングのための非常に有用な情報を得ることができます。望ましいポッド数がクラスターで実行されていない場合は、ノードでリソース量の問題が発生している可能性があります。EKS が EC2 インフラストラクチャにポッドをデプロイする場合、リソースリクエストに対応できるリソースがあるワーカーノードでのみポッドをスケジューリングします。ポッドを実行できるほど十分な利用可能リソースを持つノードがない場合は、保留中の状態でポッドが停止してしまうことがあります。その場合は、こうした問題に陥らないように、クラスターの自動スケーリングポリシーを変更する必要があるかもしれません。EKS ポッドを Fargate にデプロイする場合には、AWS がポッド専用のコンピュートリソースをプロビジョニングして、ポッドのリソースリクエストに確実に対応できるようにするため、この問題はあまり気になりません。

66 ノードのステータス（EC2 のみ）：このメトリクスは、EC2 インスタンスを使用して EKS ポッドを実行している場合にのみ適用されます。各 EKS ワーカーノードは、
ステータスの変化を検出するたびに、またはデフォルトでは 5 分ごとに（この間隔は設定可能）、以下のヘルス状態をコントロールプレーンに送信します。 – Ready ：ノードがポッドを受け入れる準備ができている場合に True になる – MemoryPressure：ノードメモリの空き容量が少なすぎる場合に True になる – PIDPressure：実行しているプロセス数が多すぎる場合に True になる – DiskPressure：残りのディスク容量が少なすぎる場合に True になる – NetworkUnavailable：ネットワークが適切に設定されていない場合に True になる Ready と NetworkUnavailable のチェックを監視することで、ポッドを実行できないノードを検出し、そのノードに関するトラブルシューティングを行えるようになります。ノードが Ready 状態で、設定されているタイムアウト（デフォルトは 5 分）を超えても、 Unknown や False が返される場合は、Kubernetes がそのノードのすべてのポッドを削除します。MemoryPressure または DiskPressure のチェックで、ノードが True を返す場合は、kubelet がリソースの解放を試行します。ポッドの容量（EC2 のみ）：EKS では、インスタンスタイプによって、サポートされる Elastic Network Interface（ENI）の数が決まり、各 ENI は有限数の IP アドレスしかサポートしません。各ポッドはそれぞれ独自の IP アドレスを持つため、どのノードやクラスターでも、限られた数のポッドしかサポートできません。各インスタンスタイプで許可されている IP アドレスの最大数、つまりポッドの最大数を追跡し、実行中のポッド数 / 望ましいポッド数や kubelet のポッド上限（デフォルトではノードあたり 110 ポッド）と比較することで、フリート内のノード数をスケールアップする必要があるかどうかを判断できるようになります。

67 利用可能なポッドと利用不可のポッド：利用不可のポッドが増えていることを検出した場合や、特定のポッドが常に利用不可の状態である場合は、設定に問題がある可能性があります。たとえば、リクエストの受け入れを開始する前に、特定のタスク（キャッシュをメモリにロードするなど）を完了するための時間をコンテナで確保するよう Readiness
Probe を設定する場合があります。Readiness Probe の要求が厳しすぎる場合（厳密には不要なサードパーティの依存関係を必要とするなど）、ポッドが利用不可になる可能性があります。詳細については、ポッドのログを参照してください。利用不可のポッドは、クラスターに容量の問題があることを示唆している可能性があります。新たに起動したポッドを受け入れるのに十分なリソース量がノードにないかもしれません。クラスターが EC2 ワーカーノードで実行される場合に、リソース量の問題でポッドがスケジューリングできないときは、Kubernetes Cluster Autoscaler を使用して、より多くのワーカーノードをプロビジョニングできます。コントロールプレーンの監視コントロールプレーンが残りのクラスターと効率的に通信できない場合は、アプリケーションも適切に実行できません。EKS において、コントロールプレーンはフルマネージドであり、ビューから抽象化されたものですが、コントロールプレーンのメトリクスを監視してクラスター全体の問題を検出することは可能です。そのメトリクスには、API サーバーへのリクエストのレイテンシーや、Kubernetes と AWS 間の抽象化レイヤーである AWS クラウドコントローラーマネージャーへのリクエストのレイテンシーが含まれています。

68 さらに細分化するには、コントロールプレーンの監査ログを収集して、API サーバーへのリクエストのうち、特定のタイプのレイテンシーを監視することもできます。 API サーバーは、Kubernetes の状態へのすべての変更を処理し、このアクティビティを監査ログという形ですべて追跡するため、クラスターに影響を及ぼす重要な操作をさかのぼって調べるのに役立ちます。 EKS
のようなマネージドサービスを運用している場合でも、自己ホスト型の Kubernetes クラスターを運用している場合でも、以下のコントロールプレーンデータは、監視する上で特に役立ちます。ユーザーあたりの累積 API クエリ時間：この情報は、監査ログから計算し、メトリクスに変換できます。このメトリクスは、API サーバーのレスポンスに時間がかかっている場合に、特定のサービスやユーザーによるリクエストで API サーバーに過剰な負荷がかかっているかどうかを検出するのに役立ちます。スケーリング操作を含むすべてのリクエストが API サーバーを経由する必要があるため、API サーバーのレスポンスに時間がかかると、最終的にはユーザーに対するパフォーマンスが低下します。たとえば、API サーバーに過剰な負荷がかかっていると、Horizontal Pod Autoscaler はトラフィックの増加に対処できるほど迅速にポッドをスケールアップできないため、アプリケーションのロードに時間がかかることがあります。

69 このメトリクスで予期せぬスパイクが見られた場合、それらのクエリの発生元を調べることができます。これにより、設定に誤りがあるために、API サーバーに不必要に高い負荷をかけているサービスを特定できるようになります。たとえば、kube2iam を使用していて、API サーバーへのクエリに異常に長い時間がかかっている場合（上掲のグラフにおける青色のスパイク）、最近何か設定に変更を加えたかどうかを確認することで、詳細を調査できます。
kube2iam の各ポッドが、ローカルノード上で実行されているポッドだけでなく、クラスター内のすべてのポッドに関するデータについて API サーバーにクエリを実行するよう誤って設定してしまった場合（--node flag を使用）API クエリ時間の増加を監視することで、クラスターがダウンする前に、そのような問題を検出して修復できます。スケジューリング期間：このメトリクスにスパイクが見られる場合、ポッドがノードでのスケジューリングに長い時間がかかっていることを意味し、これはアプリケーションの他の問題に波及する可能性があります。

70 また、スケジューリングの試行回数を結果（エラー、スケジュール内、スケジュール外）ごとに分割して監視することもできます。スケジュール外のイベントが多数発生している場合は、設定ミスを示している可能性があります（テイントと容認が過度に制限されており、スケジューラーがクラスター内で適切なノードを検出できないなど）。また、ポッドの要件を満たすほど十分な割り当て可能リソースがノードにないことを
示している可能性もあります。Kubernetes の監査ログを参照することで、スケジュール外のポッドの発生理由を判断できます。

71 EKS リソースメトリクスの監視 EKS がノード全体にわたるポッドをスケジューリングすると、ノード上の利用可能なリソースをすべて使い果たし、ひいては CPU のスロットリングやポッドの削除を引き起こすことがあります。Kubernetes のマニフェストには、各コンテナが使用する
CPU（コア単位）とメモリの量を指定するリクエストと上限（リミット）を追加できるオプションがあります。リクエストとはコンテナに割り当てられる CPU やメモリの最小量のことであり、上限とはコンテナで使用可能な最大量のことです。ポッドレベルのリクエストと上限は、ポッドで実行されるコンテナのリクエストと上限を加算して計算されます。リソースのリクエストと上限を適切に指定することで、それらをバランスよく維持し、使用されないリソースに対して過剰なプロビジョニング（および支払い）をすることなく、ポッドが作業を実行するのに十分な利用可能リソースを確保できます。以下のリソースメトリクスは、ポッドが正常で、スムーズに実行できることを確認するのに役立ちます。 EC2 インフラストラクチャにポッドをデプロイする場合は、各ワーカーノードのリソース使用状況も監視する必要があります。Fargate はこのインフラストラクチャレイヤーを抽象化しますが、これはつまり、注力する必要があるのはコンテナレベルとポッドレベルのリソースメトリクスだけでよいということです。メモリ使用率：kubelet は、実行されているノードのヘルスを監視します。kubelet がノードのメモリ不足を検出した場合（すなわち MemoryPressure のチェックで True が出力される）、リソースを解放するためにポッドの削除を開始する可能性があります。このような状況において、リクエストを上回るメモリを使用しているポッドは、削除候補になります。

72 EC2 インスタンスで実行されるポッドのメモリ上限を指定しないと、ノードで利用可能なメモリがすべて使用される可能性があります。このシナリオを回避するために、メモリの上限、またはポッドが使用できるメモリの最大量を指定できます。メモリ使用率と設定済みのメモリ上限を比較することで、実際の需要を満たすために上限を増減させる必要があるかどうかを判断できます。メモリ上限を設定する際には、システムデーモンや kubelet 用のメモリを予約することを忘れないでください。
リソース使用率のメトリクスを監視することで、ポッドの仕様において不必要に高いリソース要件を設定するのを防ぐこともできます。Fargate は、ポッドのリソースリクエストを使用して、それらのポッドにプロビジョニングするコンピュートリソース量を決定します。ポッドのメモリ使用量が、リクエストした量を常に下回っている場合は、EKS ポッドの仕様でリクエスト量を減らすことができることがあります。そのような場合、Fargate では、パフォーマンスを低下させることなく、より少なく低コストのコンピュートリソースで、ワークロードをスケジューリングできる可能性があります。ノードあたりのメモリのリクエスト量と、ノードあたりの割り当て可能メモリ量の比較（EC2 のみ）：EC2 ノードで EKS ポッドを実行している場合、これらのメトリクスを比較してノードのサイズが適切かどうかを判断したり、ポッドの仕様でリソース要件を調整する必要があるかどうかを確認したりするのに役立ちます。各ノードの割り当て可能メモリは、そのノードで実行されているポッドにまだ割り当てられるメモリ量を表します。割り当て可能メモリは、ワーカーノードのインスタンスタイプの全容量と同じではありません。実際の値を計算するには、OS と Kubernetes のシステムプロセスで予約されているメモリ量を差し引く必要があります。（すでにノードが実行されているポッドのメモリのリクエスト量を合計した後に）ポッドの最小メモリのリクエストに対応できるだけの十分な割り当て可能メモリがノードにない場合、ポッドはそのノードではスケジューリングできません。これら 2 つのメトリクスを、望ましいポッド数と現在のポッド数と一緒に監視し続けることで、新しいポッドに対応できるだけの十分な容量がノードにない場合に検出できます。

73 ディスク使用率：Kubelet がノードのディスク容量が少ないことを検出した場合（ DiskPressure のチェックを通じてなど）、リソースを解放するためにポッドの削除が始まる可能性があります。EKS ポッドが実行されているのが Fargate か
EC2 かによって、ストレージの設定が異なります。Fargate は、各ポッド内のコンテナで共有できる短期的なローカルストレージを提供します。永続的なストレージの場合、ポッドからアクセスできる Amazon Elastic File System（EFS）ボリュームをプロビジョニングできます。EC2 を使用している場合、ポッドは EBS ボリュームを使用できます。EBS ボリュームは、EC2 インスタンスのルートボリュームか、永続的なストレージのための永続的なボリューム（PV）のいずれかになります。これらのボリュームの使用レベルを監視することで、ボリュームを使用するサービスに影響が出る前に、潜在的な問題を把握するのに役立ちます。 CPU 使用率：メモリとは異なり、CPU は圧縮可能なリソースであるため、ポッドが CPU の上限を超えた場合、ノード上の kubelet は、ポッドで利用可能な CPU の容量をスロットリングしますが、 CPU の削除は行いません。高い CPU 使用率とアプリケーションパフォーマンスのメトリクスを相関させることで、CPU のスロットリングがユーザー向けサービスの速度低下を引き起こしているかどうかを把握できるようになります。

74 また、CPU 使用率を監視すると、ポッドのワークロードへのクラスターの適合性を向上させるためには、CPU のリクエストと上限を調整する必要があるのか、それとも自動スケーリングポリシーを調整する必要があるのかを判断できるようにもなります。ノードあたりの CPU リクエスト数とノードあたりの割り当て可能 CPU
数の比較（EC2 のみ）：割り当て可能な CPU は、ノード上で新たにスケジューリングされたポッドに対応するために利用可能な CPU リソースの量を測定します。Kubernetes は CPU をコア単位で測定します。EKS クラスターで 1 つの CPU コアは、EC2 インスタンスでの 1 つの AWS vCPU に相当します。リクエストされたコア数と、ノードで利用可能な vCPU 数を比較することで、キャパシティプランニングに役立つ情報を得ることができます。下図は、各ノードで実行されているポッドの CPU リクエスト数の合計を、インスタンスタイプに基づいて、ノードあたりの割り当て可能な最大 CPU 数（青色の表示）と比較したものです。ネットワークインとネットワークアウト： EKS では、ポッド同士、およびポッドとコントロールプレーン間で正常に通信できるように、ネットワークを設定します。ポッドとの送受信および（EC2 を使用している場合は）ノードとの送受信のトラフィックを監視することで、修正が必要なネットワーク問題があるか判断できます。また、ネットワークのメトリクスをロードバランサーのメトリクスと相関させて、ネットワーク問題が負荷分散のエラーに関連しているか確認することもお勧めします。 Fargate で現在サポートしているのは Application Load Balancer（ALB）だけですが、 EC2 インスタンスでは、ALB のほか、Classic Elastic Load Balancer と Network Load Balancer も使用できます。

75 オーケストレーションされたクラスターをサポートする AWS サービスの監視 Amazon ECS や EKS のようなマネージドオーケストレーションサービスを使用している
場合でも、EC2 インスタンスでコンテナをセルフ管理している場合でも、クラスターが依存している可能性が高いのは、 AWS クラウドにおける以下のような別のサービスです。 – Amazon EC2：EKS ワーカーノードや ECS コンテナインスタンスをプロビジョニング – Elastic Load Balancing – AWS Auto Scaling：クラスターを動的にスケーリング – Amazon EBS ： EC2 インスタンス上で実行されている ECS や EKS のワークロードに永続的なストレージボリュームを提供 – AWS App Mesh：アプリケーションネットワーキング向け – AWS CloudFormation：インフラストラクチャをコードとしてデプロイ – Amazon Elastic Container Registry：コンテナイメージを管理包括的な監視ソリューションは、オーケストレーションされたアプリケーションやそれらが依存しているサービスのすべてのレイヤーにわたって可視化できます。次に、 Datadog がどのようにしてクラスターからのメトリクス、トレース、ログ、そしてクラスターが実行しているサービスを統合し、1 つのプラットフォームでコンテナワークロードに関する深く有用な情報を得られるようにしているかを探ります。

76 AWS コンテナ環境の包括的な監視オーケストレーションされた環境は複雑かつ短期的であり、監視すべき抽象化レイヤーが数多く存在します。完全な運用監視を実現するには、インフラストラクチャ全体で、コンテナのスピンアップ、シャットダウン、シフトに合わせて、コンテナを動的に追跡する必要があります。マネ
ージドサービスを実行している場合でも、自社の EC2 インスタンスで Kubernetes クラスターをホスティングしている場合でも、Datadog は、以下のようにさまざまな方法で、オーケストレーションされた環境のあらゆるコンポーネントから運用監視データを収集できるようにします。 – EC2 および Fargate で実行されている Amazon ECS タスク – EC2 および Fargate にデプロイされた Amazon EKS のポッド – kube-state-metrics（クラスター状態のメトリクス向け）、 Metrics Server（コンテナとノードからのリソース使用状況のメトリクス向け）、コントロールプレーンデータによる Kubernetes 環境 – Amazon EC2、AWS App Mesh、Elastic Load Balancing、Amazon EBS などとのターンキーインテグレーションにより、オーケストレーションされたクラスターをサポートする AWS サービス

77 このセクションの前半で説明したメトリクスに加え、オープンソースの Datadog Agent を使用して、クラスター内のコンテナ、ポッド、ノードから分散トレースとログを収集できます。Datadog プラットフォームでは、これらすべてのデータソースを容易に相関付けて、アプリケーションに関する知識を深めることができます。たとえば、下図のログでは、ノードが DiskPressure
のチェックで True を返した後に、 kubelet がリソースの解放を開始したことを示しています。このログから直接 [Metrics （メトリクス）] タブをクリックすると、ノードから収集した相関性のあるリソース使用率メトリクスが表示され、より詳細なコンテキストを得ることができます。 Agent には、Redis や NGINX などのクラスターで実行されているサービスの監視を自動的に設定する Autodiscovery 機能も含まれています。また、何百ものインテグレーションを設定して、自社環境のすべてのシステム、サービス、コンポーネントからテレメトリデータを収集することもできます。これらのインテグレーションの詳細については、ドキュメントを参照してください。

78 コンテナスタックの可視化クラスターからのリアルタイムの監視データを Datadog で収集したら、以下を使用して、コンテナアプリケーションとインフラストラクチャをすぐに可視化できます。 – すぐに使えるダッシュボード：Amazon ECS、Kubernetes、その他のサービス向けに使用できる
– ライブコンテナビュー：プロセスレベルの詳細な知識を得ることができる – コンテナマップ：コンテナインフラストラクチャを俯瞰的に表示できるカスタマイズ可能なダッシュボード Datadog では、Amazon ECS、Kubernetes、およびその他のサービス向けに、すぐに使えるダッシュボードを提供しているため、環境の主要なメトリクスを素早く可視化できます。ECS ダッシュボード（下図参照）には、クラスター内のタスクやコンテナのステータス、サービスイベントやリソース使用率のメトリクスが表示されます。スタックの可視化を強化するために、あらゆるダッシュボードのクローンを作成してカスタマイズし、ロードバランサー、データベース、その他のサービスからの関連データを含めることができます。

79 ライブコンテナビュー Datadog のライブコンテナビューでは、すべてのコンテナからリアルタイムのリソース消費メトリクスが表示されます。テレメトリデータは、Amazon CloudWatch や Kubernetes ラベルなどのソースから Datadog
がインポートした豊富なメタデータで自動的にタグ付けされます。Datadog を使用すると、統一されたサービスタグ付けを実装することもできます。これにより、すべてのテレメトリデータに対し、クリティカルタグ（env、service、version）を付け、相関させて操作できます。これらのタグやその他のタグを使用して、Kubernetes Deployment や ECS タスクファミリーなど、あらゆる要素に関してライブコンテナビューをグループ化およびフィルタリングし、個々のコンテナにドリルダウンして問題をデバッグできます。Datadog Agent は、 2 秒の解像度でコンテナからメトリクスを収集するため、アプリケーションのどこかで問題を引き起こしている可能性のあるリソース使用量の重要なスパイクを特定できます。

80 コンテナマップ Datadog コンテナマップでは、コンテナインフラストラクチャ全体を俯瞰的に表示できます。コンテナレベルのメトリクスを選択し、タグでグループ化およびフィルタリングすることで、環境のあらゆる要素に関してホットスポットを特定できます。以下の例では、ECS タグを使用して特定の
task_family をフィルタリングしてから、それらのコンテナを task_version でグループ化しています。これにより、タスクバージョン 2 の ECS コンテナでは、タスクバージョン 1 のコンテナと比較して大量の CPU を使用していることを見つけることができます。これは、バージョン 2 には、CPU 使用量を増加させるような変更を含んでいる可能性があることを示しています。デバッグを続けるために、チームはコードの変更を確認し、更新が必要かどうかを判断できます。コンテナマップは、自社がベストプラクティスに従っているかどうかを把握するのにも役立ちます。Kubernetes の推奨事項は、デフォルトの latest にするのではなく、コンテナのイメージタグごとにバージョン番号を明示的に定義することです。これにより、自社環境で実行されているバージョンを追跡できるため、更新してリグレッションや設定エラーが発生した場合に、安定したバージョンに戻すことができます。下図では、corp-site という Kubernetes サービスを image_tag でグループ化することにより、latest のバージョンを使用しているコンテナの数を確認できます。推奨されている特定のイメージダイジェストを使用する場合とは対照的です。

81 自動アラートモニターは、アプリケーションの高レイテンシーから、メモリ不足エラーなどのリソース量の問題に至るまで、自動的に問題を追跡するのに役立ちます。ここでは、オーケストレーションされたクラスター内の潜在的な問題を即座に顕在化させることができるアラートの例をいくつか紹介します。 Datadog を使用すれば、モニターを作成して、終了したポッド、Kubernetes
ノードでの大量のディスク使用量、CrashLoopBackoff ステータスのポッドなど、重要な問題について自動的にチームに通知できるようになります。以下の例では、複数のコンテナがメモリの上限に達したために終了したことを検出するモニターを構成しています。

82 以下のモニターは、一定時間にわたり少なくとも 1 つのノードが Unknown の状態のままであることを Datadog で検出すると、チームベースの Slack
チャンネルに通知を送信します。このモニターでは、Kubernetes のテレメトリデータは環境ごとにタグ付けされるため、ステージングからのデータは除外されます。ノードコントローラーが一定時間（デフォルトでは 40 秒）にわたってノードからレスポンスを受信できない場合、そのノードの状態を Unknown としてマーク付けします。ノードが特定の期間（設定した pod-eviction-timeout の長さ）にわたって Unknown の状態が続くと、ノードコントローラーはノード上のポッドの削除を開始します。 Unknown の状態に陥っているノードについてアラートを受け取るよう Datadog を設定することで、ポッドが削除される前に、問題を検出して解決できます。包括的な監視を行う上で、アラートは重要な要素ですが、それはパズルの 1 つのピースに過ぎません。アラートを受信したらすぐに問題を調査できなければなりません。 Datadog を使用すると、コンテナ化されたアプリケーションから、相関関係のあるメトリクス、分散トレース、ログを容易に操作できるようになり、インシデント対応プロセスが促進されるため、根本原因分析に必要なすべてのコンテキストを得ることができます。

83 全体監視とインシデント対応複雑な分散型システムを運用している場合、障害や停止は避けられません。動的で短期的な環境では、リソースの容量問題やスケジューリングのエラーについてすべてアラートを出すことは不可能です。特に、Kubernetes は自己修復するよう設計されており、多くの問題が自動的に解決される可能性が高くなっています。アラート疲れを軽減するには、ユーザーに直接影響するとは限らない根本的な原因ではなく、問題の現象に対してアラートを発行することをお勧めします。つまり、たとえば、
ユーザーエクスペリエンスの低下につながるとは限らないリソースの問題（CPU 使用率が高いなど）ではなく、ユーザーが直面するエラーやパフォーマンスの問題（ロード時間が非常に長い、アプリケーションのエンドポイントにアクセスできないなど）に対してアラートを発行するということです。アラート通知の中に、調査に役立つリソースとして、ダッシュボードへのリンクを含めることができます。ここでは、Kubernetes でオーケストレーションされた環境における可用性の問題を調査する方法の例を見ていきましょう。ユーザー向けエンドポイントにおいて 500 件もの高率のエラーが発生したというアラートを受信したとします。これは何か誤りがあることを示す重大な兆候です。このエンドポイントでは、 Elasticsearch を使用して、ユーザーにデータのクエリと表示を行っています。アラート通知には、このサービスのために構築したダッシュボードへのリンクが含まれていたため、何が起こっているかを素早く把握できました。ダッシュボードでは、サービスでの 500 件のエラーとほぼ同時期に Elasticsearch のクエリエラーが高率で発生したことがわかります。

84 コンテナレベルのリソースメトリクスは、Elasticsearch のデータポッドで「CPU スロットリング」と「検索スレッドプールでの拒否」の増加があることを示しています。Elasticsearch はスレッドプールを使用して、ワークロードを管理しています。処理しきれないほど多くのリクエストを受け取ると、それらをスレッドプールのキューに追加します。この場合、検索スレッドプールのキューが最大サイズに達したため、 Elasticsearch
はリクエストを拒否し始めました。問題の周辺の状況をより詳細に把握するために、Datadog APM でサービスレベルのダッシュボードを確認することにします。このダッシュボードから、最近になってこのサービスが異常に多いクエリを受信するようになったことがわかります。

85 リクエストスループットのメトリクスを version タグごとに分類すると、最新のリリース（青色）は明らかに、以前のリリース（灰色）に比べて、クエリのスループットが向上していることがわかります。さらに詳細に調査するために、そのバージョンで更新されたアプリケーションコードを調べます。すると、検索クエリをあまりにも積極的に再試行する（バックオフロジックを使用せずに、最大 6 回）という不具合を
見つけました。これが、Datadog APM ダッシュボードで見られたリクエスト率の増加の原因です。調査の一環として、このクラスターで設定されたリソースのリクエストと上限についても詳しく調べることにします。そして、使用中の EC2 インスタンスタイプの CPU 容量よりも、CPU の上限が大幅に低いことを見つけます。Kubernetes は、コンテナが不必要に低い CPU の上限に達するたびに、ノードがまだ CPU の全容量を使用していないにもかかわらず、コンテナの CPU をスロットリングしていました。

86 このクラスターではノードごとに Elasticsearch ポッドを 1 つだけスケジューリングするよう Kubernetes を設定しているため、実行中の EC2
インスタンスの CPU 容量をコンテナでより多く活用できるように、CPU の上限を引き上げることにしました（ただし、システムデーモンと kubelet を実行するための CPU 容量は予約したままとしておきます）。CPU の上限を高く設定し、再試行ロジックの不具合を修正すると、サービスが回復します。このサービスレベルのダッシュボードには、ポッドレベルの CPU 使用率と CPU 上限のメトリクスが自動的に含まれるため、将来的に、CPU スロットリングとアプリケーションのパフォーマンス問題と相関性があるかどうかを容易に見極めることができるようになります。

87 動的な環境のフルスタック運用監視このセクションでは、Amazon ECS や Amazon EKS などのマネージドオーケストレーションサービスが、コンテナワークロードを大規模にデプロイするのにいかに役立つか、そして、これらの各サービスを使用する際に監視すべき主要なメトリクスについ
て説明してきました。また、Fargate がサーバーレスのコンピュートエンジンで ECS コンテナや EKS コンテナを実行するオプションを提供し、独自のインフラストラクチャを管理する必要性を軽減することも解説しました。マネージドサービスを使用している場合でも、自社の EC2 インスタンスで Kubernetes を運用している場合でも、ユーザーが直面する問題をトラブルシューティングするためには、フルスタックの運用監視が非常に重要となります。Datadog がスタックの全レイヤーからテレメトリデータを集約することで、不良コードのデプロイから Kubernetes のリソース上限の設定ミスに至るまで、重大な問題における潜在的な根本原因を効果的に調査できるようになります。参考資料コンテナ化されたアプリケーションの監視の詳細については、以下のリソースを参照してください。 – Amazon ECS monitoring guide（Amazon ECS 監視ガイド） – Amazon EKS monitoring guide（Amazon EKS 監視ガイド） – Kubernetes audit logs monitoring guide（Kubernetes 監査ログの監視ガイド）お使いの環境でこれらの監視戦略を実践したい場合は、www.datadog.com において、 Datadog のフル機能を利用できるトライアル版をお申し込みください。

Datadog

Datadog

Other Decks in Education

Featured

Transcript