Azure Monitoring and Alert v0.1.21.0422

Ayumu Inaba Cloud Solution Architect Microsoft Japan Microsoft Azure 監視と通知
1

監視の目的障害は発生させないことが理想だが、発生してしまったら迅速に対応することが重要検出診断修復検
出診断修復

クラウドサービスの監視プラットフォームの障害もアプリケーションの障害も、一元管理できる仕組みが重要 3

Agenda Azure Monitor Overview プラットフォームとしての正常性評価 - Service Health リソース個別の正常性評価 -
Resource Health その他のアクティビティログの活用 - Activity Log 問題の早期発見と通知 - Resource Metric 各種リソースイベントの高度な分析 - Resource Log 4

Azure 監視の全体像メトリックログアプリケーションコンテナ VM Monitoring Solutions Insights
ダッシュボード Views Power BI Workbooks Visualize Metrics Explorer Log Analytics Analyze Alerts Autoscal e Respond Event Hubs Ingest & Export APIs Logic Apps Integrate Azure Monitor カスタムソースアプリケーションオペレーティングシステム Azure リソース Azure サブスクリプション Azure テナント

監視対象データソース 7 ソース内容収集方法アプリケーションアプリケーションで発生する各種イベント、テレメトリ、例外等 Application Insight SDK
を使用したインストルメンテーション Application Insight Agent による自動収集オペレーティングシステム Azure 仮想マシンのメトリックおよびログ Azure Diagnostics 拡張機能任意の環境で動作するサーバーのメトリックおよびログ Log Analytics Agent プロセスの依存関係やネットワーク呼び出しのメトリック Dependency Agent （VM Insights） Azure リソースリソースログ（診断ログ）と各種メトリック診断設定 Azure サブスクリプションアクティビティログ（サービス操作の監査、サービスやリソースの正常性、計画メンテナンスなど）診断設定 Azure AD テナントサインインアクティビティ履歴、変更の監査証跡カスタムソース外部のログデータコレクター API 外部のメトリックカスタムメトリック API その他 Azure Security Center Azure Sentinel

２種類のデータ形式メトリック一定の間隔で収集される時系列の数値データで、特定時刻における対象リソースの特性を表現する Azure リソースからは構成不要で収集されメトリックエクスプローラで可視化・分析ができるデータとしては軽量のため、ほぼリアルタイムでのアラートをサポートする
ログ対象リソースで発生したイベントを記録する文字データで、不定期に発生する Log Analytics や Storage に明示的に送信することでクエリや保管が可能になるクエリ条件を元にしたアラートも可能だが、遅延は大きくリアルタイム監視には不向き 8 ※ VM やアプリのメトリックについては構成や設定等が必要になる ※ 93日間を超えて保存・分析する場合へエクスポート設定が必要 ※ プラットフォームが出力するアクティビティログは自動で保存されるがログの活用の観点からは Log Analytics 等への送信がほぼ必須 ※ 保存期間は送信先のストレージに依存する

収集したデータの活用 9 Integrate ：連携 Analyze ：分析 Visualize ：可視化
Insights : 洞察 Respond ：対応

Azure プラットフォームの正常性評価 10

アクティビティログ Azure プラットフォームが出力する各種イベントの記録システムによって自動生成され、変更や削除ができず、90日間保存される Azure ポータルの各リソースの画面で確認できる 11 カテゴリ内容主な用途
Administrative Azure Resource Manager に対して行われた各種操作が記録される監査証跡 ServiceHealth Azure 全体や各種サービスレベルでのインシデントが記録される大規模障害の検知や更新履歴 ResourceHealth ユーザーがデプロイした特定の Azure リソースの正常性の状態変化と理由が記録される利用するサービス障害や自動シャットダウン等の検知 Alert 実際に発砲されたアラートが記録されるアラート履歴や傾向分析 Autoscale オートスケールが動作履歴が記録されるコストやキャパシティの最適化 Recommendation Azure Advisor によって提示された推奨事項推奨事項や対象変化の追跡 Security Azure Security Center によって検知された警告セキュリティインシデントの確認 Policy Azure Policy による評価とアクションの履歴ガバナンス適用状況の追跡

Service Health ServiceHealth カテゴリ専用の画面が用意されている現在の問題だけでなく、過去の履歴、将来のメンテナンス予定なども表示される何かおかしいと思ったらまずココを開く 12 アラートも設定可能

サービス正常性の通知サービス正常性アラートで受信したメールのサンプル 2021年3月に発生した Azure AD 障害の RCA が通知されている例
先はメール通知の例だが、SMS や Webhook への通知も可能ログが記録されるのは障害だけでなく一連の経緯アラートとして必要なイベントが何かを精査する 13

[補足] Azure の状態 Azure ポータルにアクセスできない場合は「Azure の状態」を確認する https://status.azure.com/ Service
Health とは異なり、Azure 全サービスとリージョンのインシデントが記録される（＝必ずしも影響を受けているとは限らない）外出先や自宅では Azure AD 認証が通らないなどの制約があると、サービス正常性画面が開けないのでこちらも確認 RSS フィードが取得できるためこちらもサブスクライブしておくと良い 14

再起動を伴う計画メンテナンスを検知する仮想マシンの再起動を伴うメンテの事前通知は Service Health で確認できる Service Health は正常性に関わるイベントなので、必ずしも障害とは限らない 15 ※
再起動を伴わないメンテナンスは含まれない計画メンテナンスの通知メール（探す）

Azure リソースの正常性評価 16

アクティビティログ Azure プラットフォームが出力する各種イベントの記録システムによって自動生成され、変更や削除ができず、90日間保存される Azure ポータルのほぼすべての画面で確認できる 17 カテゴリ内容主な用途
Administrative Azure Resource Manager に対して行われた各種操作が記録される監査証跡 Service Health Azure 全体や各種サービスレベルでのインシデントが記録される大規模障害の検知や更新履歴 Resource Health ユーザーがデプロイした特定の Azure リソースの正常性の状態変化と理由が記録される利用するサービス障害や自動シャットダウン等の検知 Alert 実際に発砲されたアラートが記録されるアラート履歴や傾向分析 Autoscale オートスケールが動作履歴が記録されるコストやキャパシティの最適化 Recommendation Azure Advisor によって提示された推奨事項推奨事項や対象変化の追跡 Security Azure Security Center によって検知された警告セキュリティインシデントの確認 Policy Azure Policy による評価とアクションの履歴ガバナンス適用状況の追跡

Resource Health Resource Health は各リソース毎に確認できる報告されるステータスは３つ（使用可能、使用不可、不明）チェック内容はリソース種別によって異なる 18 個々のリソースの
画面から確認

リソース正常性の監視異常が検知されると・・・ 19

リソース正常性の監視リソース正常性アラートで受信したメールのサンプル Spot VM が容量不足で強制的に割り当て解除されたことが報告されている VM の停止なので Resource
Health からアラート通知されているこれ自体は想定された挙動なので実際には障害ではない 20

複数リソースの正常性を横断的に取得サービス正常性の画面でリソース種類ごとに一覧表示可能特定サービスの大規模障害が起こっている状況において影響を受けているリソースを特定システム単位などで複数リソース種類を横断的に確認したい場合は REST API を利用するとよい
Azure リソース正常性 REST API REST API をオンプレミスや他社クラウドから呼び出すことで外部監視とすることも可能 21

リソース正常性の監視 - サブスクリプション一括 Azure CLI の az rest コマンド az
rest --method get --url https://management.azure.com/subscriptions/${SubscriptionId}/providers/Microsoft.ResourceHealth/availabilityStatuses?api-version=2018-07-01 22

リソース正常性の監視 - サブスクリプション一括 Azure PowerShell の Invoke-AzRest コマンド $path =
“/subscriptions/${SubscriptionId}/providers/Microsoft.ResourceHealth/availabilityStatuses?api-version=2018-07-01” $res = Invoke-AzRestMethod -Method GET –Path $path ($res.Content | ConvertFrom-Json).value | foreach {…} 23

アクティビティログの活用 24

アクティビティログの活用正常性以外のカテゴリにも重要なイベントが記録されている 25 カテゴリ内容主な用途 Administrative Azure Resource Manager
に対して行われた各種操作が記録される監査証跡 Service Health Azure 全体や各種サービスレベルでのインシデントが記録される大規模障害の検知や更新履歴 Resource Health ユーザーがデプロイした特定の Azure リソースの正常性の状態変化と理由が記録される利用するサービス障害や自動シャットダウン等の検知 Alert 実際に発砲されたアラートが記録されるアラート履歴や傾向分析 Autoscale オートスケールが動作履歴が記録されるコストやキャパシティの最適化 Recommendation Azure Advisor によって提示された推奨事項推奨事項や対象変化の追跡 Security Azure Security Center によって検知された警告セキュリティインシデントの確認 Policy Azure Policy による評価とアクションの履歴ガバナンス適用状況の追跡

アクティビティログアラートアクティビティログは既定で保存されており、それを元にしたアラート発報が可能ある１つのログのプロパティが条件に合致するか否かというシンプルな基準クエリ結果を基にした複雑な条件指定で発報したい場合は、後述の診断設定とログアラートを併用すると良い 26 query Threshould Alert

アクティビティログの活用アクティビティログは診断設定をして別サービスに送信するとよいアクティビティログ自体は 90 日しか保存されず、クエリなどによる活用が難しい複数の診断設定をすることが可能（インフラ運用分析＋セキュリティ監査用途など）送信先サービスによる料金が別途発生することに注意 27
その他の監視データとの関連付け複雑な条件によるアラート発報長期データの横断的な分析監査証跡としての長期保存ローカル端末にダウンロードした分析 3rd Party ソリューションとの連携 SIEMやログ分析ソリューションなど

アクティビティログのクエリアクティビティログを Log Analytics に送信することで複数のイベントを横断した解析が可能になる 28

問題の早期発見と通知 29

Azure Monitor メトリックリソースレベルのメトリック設定不要で分析・可視化が可能 Azure ポータルで各サービスの概要画面にグラフが表示されるものが多い詳細な分析を行いたい場合はメトリックエクスプローラを使用するほぼリアルタイムのシナリオに対応するため問題の通知や迅速な検出に有用 30 多次元メトリックデータを
活用したフィルタと分割

メトリックアラートとその対応観測されたメトリックに対して静的／動的な条件によってアラートを発報することができる静的 : 前述のリソース制限などをベースに閾値が固定できるもの動的 : 閾値を固定せず過去データの機械学習を元に判定するもの 31
- 対人通知 - E-mail 、SMS、電話音声、 Azure モバイルアプリ - 自動対応 - Automation Runbook、 Logic Apps、Functions - 外部連携 - WebHook、ITSM Azure Monitor を使用してメトリックアラートを作成、表示、管理する

メトリックデータの長期保管既定では93日間保存されるが、さらに長期的な分析を行いたい場合は診断設定によって外部にエクスポート可能ただし一部のメトリックは非対応、単一ディメンジョンにフラット化されてしまうことに注意リアルタイム性も劣化するため、タイムリーな検知にはメトリックアラートを使用した方が良い 32 各種リソース

エラーの予兆と発生を検知各リソース制限に抵触するとエラーの発生や性能劣化につながるため、まずは制限値に対するメトリックに着目するとよい Azure サブスクリプションの制限とクォータ Azure Monitor でサポートされているメトリック (リソースの種類別) 33
エラー性能劣化警告保守対応障害対応

メトリック表示名ユニット Used capacity Bytes Transactions Count Ingress Bytes Egress
Bytes Success E2E Latency Millisecounds Success Server Latency Millisecounds Storage Account ストレージで懸念されるエラーの検知と対応策の例 34 リソース制限サブスクリプションあたりの各リージョンのストレージアカウント数 250 ストレージアカウントの最大容量 5 PiB 1 ストレージアカウントあたりの BLOB コンテナー、BLOB、ファイル共有、テーブル、キュー、エンティティ、メッセージの最大数制限なしストレージアカウントあたりの最大要求レート1 1 秒あたり 20,000 要求ストレージアカウントあたりの最大イングレス 1 (米国、ヨーロッパリージョン) 10 Gbps ストレージアカウントあたりの最大イングレス 1 (米国とヨーロッパ以外のリージョン) RA-GRS/GRS が有効な場合は 5 Gbps、LRS / ZRS の場合は 10 Gbps 汎用 v2 および BLOB ストレージアカウントの最大送信速度 (すべてのリージョン) 50 Gbps ストレージアカウントごとの仮想ネットワーク規則の最大数 200 ストレージアカウントごとの IP アドレス規則の最大数 200 Microsoft.Storage/storageAccounts 名前空間のメトリック（一部抜粋）

SQL Database 単一データベースで懸念されるエラーの検知と対応策の例 35 Microsoft.Sql/servers/databases 名前空間のメトリック（一部抜粋）メトリック表示名ユニット Data space
used percent Percent Data space used Bytes Data space allocated Bytes Data IO percentage Percent Workers percentage Percent Successful Connections Count Failed Connections Count Deadlocks Count 監視とパフォーマンスのチューニング - Azure SQL Database

Synapse Analytics Synapseで懸念されるエラーの検知と対策の例 36 管理と監視 - クエリアクティビティ、リソース使用状況 - Azure
Synapse Analytics カテゴリ説明最大値 Data Warehouse ユニット (DWU) 1 つの専用 SQL プールに対する最大 DWU Gen1:DW6000 Gen2:DW30000c Data Warehouse ユニット (DWU) サーバーあたりの既定の DTU 54,000 データベース接続同時に開かれる最大セッション数 1024 データベース接続準備されたステートメントに対する最大メモリ容量 20 MB ワークロードの管理同時クエリの最大数 128 tempdb 最大 GB DW100c あたり 399 GB 専用 SQL プールの容量制限（一部抜粋） Microsoft.Synapse/workspaces/sqlPools 名前空間のメトリック（一部抜粋）メトリック表示名ユニット DWU used percentage Percent Connections Count Active queries Count Queued queries Count Workload group active queries Count Workload group queued queries Count

Data Factory Azure Monitor には完了済みのイベントのみが出力されるこのため事後データの解析を主眼にした監視となる 37 リソース既定の制限
データファクトリあたりの同時実行パイプラインの実行数 (ファクトリ内のすべてのパイプライン間で共有) 10,000 パイプラインあたりの最大アクティビティ数 (コンテナーの内部アクティビティを含む) 40 単一のセルフホステッド統合ランタイムに対して作成できる、リンクされた統合ランタイムの最大数 100 パイプラインあたりの最大パラメーター数 50 ForEach 項目数 100,000 ForEach 並列処理 20 パイプラインあたりのキューに入れられた実行の最大数 100 式ごとの文字数 8,192 最小タンブリングウィンドウトリガー間隔 15 分パイプラインのアクティビティ実行の最大タイムアウト 7 日パイプラインオブジェクトのオブジェクトあたりのバイト数3 200 KB データセットおよびリンクされたサービスオブジェクトのオブジェクトあたりのバイト数3 100 KB 各アクティビティの実行のペイロードあたりのバイト数4 896 KB コピーアクティビティの実行あたりのデータ統合単位1 256 API 呼び出しの書き込み 1,200/h API 呼び出しの読み取り 12,500/時 1 分あたりの監視クエリ 1,000 データフローデバッグセッションの最大時間 8 時間統合ランタイムごとのデータフロー同時実行数 50 Data Flow の Azure IR の TTL 制限 4 時間 Metric display name Unit Cancelled activity runs metrics Count Failed activity runs metrics Count Succeeded activity runs metrics Count Cancelled pipeline runs metrics Count Failed pipeline runs metrics Count Succeeded pipeline runs metrics Count Cancelled trigger runs metrics Count Failed trigger runs metrics Count Succeeded trigger runs metrics Count Microsoft.DataFactory/factories 名前空間のメトリック（一部抜粋） Azure Monitor を使用して、データファクトリを監視する - Azure Data Factory

Logic Apps 38 状態を監視し、履歴を表示し、アラートを設定する - Azure Logic Apps 名前制限
実行継続時間 90 日間ストレージでの実行履歴の保持期間 90 日間最小の繰り返し間隔 1 秒最大の繰り返し間隔 500 日アクション: 5 分間隔ごとに実行 100,000 回の実行 (既定) 300,000 回の実行 (高スループットモードで最大) アクション:同時送信呼び出し～ 2,500 ランタイムエンドポイント: 同時受信呼び出し～ 1,000 ランタイムエンドポイント: 5 分あたりの読み取り呼び出し数 60,000 ランタイムエンドポイント: 5 分あたりの起動呼び出し数 45,000 5 分あたりのコンテンツのスループット 600 MB トリガーのコンカレンシーコンカレンシーがオフの場合:無制限コンカレンシーがオンの場合: 既定：25、最小：1、最大：50 待機中の実行の最大数コンカレンシーがオフの場合: 最小：1、最大：50 コンカレンシーがオンの場合: 最小：10+同時実行数、最大：100 SplitOn 項目数コンカレンシーがオフの場合:100,000 コンカレンシーがオンの場合:100 Logic Apps の制限（一部のみ抜粋） Microsoft.Logic/workflows 名前空間のメトリック（一部抜粋）メトリック表示名 Unit Run Failure Percentage Percent Run Latency Seconds Runs Cancelled Count Runs Completed Count Runs Failed Count Runs Started Count Runs Succeeded Count Run Start Throttled Events Count Run Success Latency Seconds Run Throttled Events Count

Web Apps 39 リソース Standard Premium (v1 から v3) プランあたりのアプリ数
無制限無制限 App Service プランリソースグループあたり 100 リソースグループあたり 100 スケールアウト (最大インスタンス) 10 専用インスタンス 20 専用インスタンス (v1,v2)、 30 専用インスタンス (v3)。ストレージ 50 GB 250 GB CPU 時間無制限無制限メモリ制限該当なし該当なし帯域幅無制限無制限アプリケーションのアーキテクチャ 32 ビット/64 ビット 32 ビット/64 ビットインスタンスごとの Web ソケット数無制限無制限インスタンスあたりの送信 IP 接続数インスタンスサイズによって異なるインスタンスサイズによって異なるサブスクリプションあたりの App Service 証明書数 10 10 アプリケーションごとのカスタムドメイン数 500 500 Hybrid Connections (ハイブリッド接続) プランあたり 25 アプリあたり 200 メトリック表示名 Unit CPU Percentage Percent Memory Percentage Percent Disk Queue Length Count Http Queue Length Count Socket Outbound All Count Microsoft.Web/serverfarms 名前空間のメトリック（一部抜粋）メトリック表示名 Unit Response Time Seconds Requests Count Http Server Error Count Microsoft .Web/sites 名前空間

自動スケール一部のサービスはメトリックや時間に応じた水平方向の自動スケールに対応しているエラーの予兆検知に対して人的な判断を介在させずに緩和することができるため、システムの信頼性品質を安定させる上で非常に有用スケールアウトとスケールインの両方を組み込むことでコストの最適化にも寄与非対応サービスの自動スケールを実現
したい場合はアラートと Automation を組み合わせて実装すると良い 40 Microsoft Azure の自動スケール - Azure Monitor | Microsoft Docs App Service, VM Scale Sets, API Management, Data Explorer, など

各種イベントの高度な分析 41

Azure リソースログの収集各種リソースで発生したイベント記録は既定で保存されないログを元にした分析や可視化のためには、まず診断設定をして送信してやる必要がある Log Analytics ： Kusto によるクエリと可視化（オススメ） Storage
：長期保管と JSON 形式の生データに対する独自の分析 EventHub ：外部サービスへの送信 42

Log Analytics によるリソースログの分析診断設定で Log Analytics に送信されたデータは AzureDiagnostics テーブルに格納される格納されるデータはサービス固有部分が多いため、Azure
リソースログでサポートされているサービスとスキーマを参考にすると良い 43 各種リソース Kusto クエリ言語 Azure Monitor でのログクエリ

実装済みの監視ソリューションの活用一部のサービスでは収集したリソースログやメトリックに対する実装済みの解析ソリューションをインストールすることができるログやメトリックのスキーマを把握して独自のソリューションを構築するには時間と経験も必要まずは実装済みのソリューションを活用ないしは参考にすると良い 44 Azure Monitor での監視ソリューション -
Azure Monitor | Microsoft Docs

ログアラートクエリを定期実行し結果を元にアラートを発報することもできる時系列データに対して一定頻度でクエリが評価されるため、各クエリが対象とするデータ範囲に留意 45 各種リソース

Microsoft Confidential ◼ 本資料は情報提供のみを目的としており、本資料に記載されている情報は、本資料作成時点でのマイクロソフトの見解を示したものです。状況等の変化により、内容は変更される場合があります。本資料に特別条件等が提示されている場合、かかる条件等は、貴社との有効な契約を通じて決定されます。それまでは、正式に確定するものではありません。従って、本資料の記載内容とは異なる場合があります。また、本資料に記載されている価格はいずれも、別段の表記がない限り、参考価格となります。貴社の最終的な購入価格は、貴社のリセラー様により決定されます。マイクロソフトは、本資料の情報に対して明示的、黙示的または法的な、いかなる保証も行いません。 © ２０２０ Microsoft
Corporation. All rights reserved. Microsoft, Windows, その他本文中に登場した各製品名は、Microsoft Corporation の米国およびその他の国における登録商標または商標です。その他、記載されている会社名および製品名は、一般に各社の商標です。 46

Azure Monitoring and Alert v0.1.21.0422

Azure Monitoring and Alert v0.1.21.0422

More Decks by Ayumu Inaba

Other Decks in Technology

Featured

Transcript