Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Azure SRE Agent - YonaYona Azure Club

Sponsored · Ship Features Fearlessly Turn features on and off without deploys. Used by thousands of Ruby developers.

Azure SRE Agent - YonaYona Azure Club

YonaYona SRE Agentを学ぶ会 第15回イベントで Azure SRE Agent について話をしました。
https://yonayona.connpass.com/event/389895/

2026/05/15(金) 21:00 〜 22:00

Avatar for Kodai Sakabe

Kodai Sakabe

June 29, 2026

More Decks by Kodai Sakabe

Other Decks in Technology

Transcript

  1. Site Reliability Engineering マインドマップ Site Reliability Engineering は、全方 位的に Skill

    や Task が求められる さまざまなシステムやデータと連携して、信 頼性向上させるロール
  2. SRE Agent AIを活用したインシデント管理と 本番環境でのリソース最適化 自動のインシデント管理により、 人間の SRE に送られるアラートの数が減少 アプリケーションの稼働時間を改善し、 収益と評判を保護するためのプロアクティブな診断と軽減

    自動化されたデプロイとロールバックにより、 大規模な運用が合理化され、 手作業のオーバーヘッドとリスクを最低限に抑制 Azure の正常性とパフォーマンスを継続的に監視して、 人間しか出来ない影響力の大きい作業に人材を解放 GA
  3. Azure リソースを理解して診断 AZ CLI / REST API / kubectl サポート

    Azure VM、Container Apps、Function Apps、AKS、API Management、Azure VM、CosmosDB、PostgreSQL など の診断や軽減のための指示やツールをサポート https://learn.microsoft.com/azure/sre-agent/starter-prompts 根本原因の分析と軽減策 ログ、メトリック、コンテキストデータの分析 根本原因に関する仮説の生成(複数) 各仮説の検証 軽減策の提案
  4. レポート生成と通知 インシデント分析や推奨事項を含むチケットを作成 コーディングエージェントにハンドオフ インシデント管理の自動化と拡張 Azure Monitor アラートはデフォルトで接続 フィルター付きのインシデントハンドラ Pager Duty,

    Service Now のインシデントをトリガーとして利 用可能に。 MCP Server を介して外部サービス のテレメトリ データや専用のツールの利用可能。 サブエージェントによる拡張
  5. Team onboarding で team.md にコンテキストを貯める GitHub 上の情報 チームの役割 担当チームの話す言語 どのようにインシデント時に対応したい

    か アプリケーションの特徴 インシデントの際に Agent 読む資料 Agent が利用できるツール( MCP サ ーバーなど
  6. Azure SRE Agent AI を活用したインシデント管理とリソース最適化 Sub Agent Builder カテゴリによってSREの動き方・運用方法を変えることができる 例:

    DBパフォーマンス、 アプリ監視、セキュリティチェッカー etc. Custom MCP Connectors Azure以外のデータソースの利用が可能 AWS, Datadog、New Relic、Slack、 ServiceNow、Grafana、Prometheus etc. Scheduled Tasks チャット作業不要な定型ワークフローの自動化・統合が可能 システムヘルスチェック、 パフォーマンスチェック etc.
  7. 負荷試験 4/6 Worker 数と Timeout を一次対応 Memory の増加 Revision 0000002

    として Agent によ り Deploy される Root Cause として LIMIT を 入れる追加方針
  8. 負荷試験 5/6 Revision 更新 Memory 増強 根本原因対策開始 => GitHub 側に制限かけて

    いるためこのフェーズでは失敗 一時区切り(この後、継続して 2 回目実施)
  9. 負荷試験 6/6 * GitHub の Push 権限がないため、繰り返しチャレンジ GitHub の Push

    権限がないため、 issue 作成 他の方法での復旧へ方針変更(Revision 0000003 へ)
  10. 2nd 負荷試験 2/5 Agent 用に自作した MCP サーバーを利用してさらにテーブル情報など調査、 Python ツール経由で INDEX

    追加 200 万行に対してスキャン + ソートである ことを発見 SELECT * していることを発見 インデックス追加 LIMIT 追加
  11. Agent より 500 error 調査 0000003 – 0000006 revision 2nd

    負荷試験 3/5 対応方法でつまづき 仮説 => 調査 => 対策の繰り返し
  12. 2nd 負荷試験 5/5  負荷試験中書き込み権限がない 状態での試み GitHub の書き込み制限あり DockerHub /

    ACR の制限あり Azure Container Registry 制限あり  最終的に revision を変えて sed コ マンドでソースコード書き換えての緊 急復旧対応 => 0000006 revision で完全復旧 sed
  13. Agent が Re-Deploy 1/2 Agent による LIMIT の追記で bug があった際の調査

    現状のデプロイ状態からの調査以外にこ れまでのデプロイ履歴を比較しながら調 査を実施している
  14. Agent が Re-Deploy 2/2 Agent による LIMIT の追記で bug があった際の調査

    ログから分析、並びにサマリーの作成 メトリクスからログ分析し、サマリーの作成
  15. 運用基準に合わせて拡張およびカスタマイズ 各自のベストプラクティスを導入 GitHub Copilot コラボレーション サブエージェントを使用して、データソー スを統合し、ナレッジベースを充実さ せ、ワークフローを自動化 再発防止、根本解決には GitHub

    に issue として記録し、フォローアップ と解決を効率化 Intelligent Insights サブスクリプション全体にわたるリアル タイムデータとマルチソース分析により、 異常やパターンを検出
  16. エージェント プラットフォーム コネクター Knowledge Source Skill Python Tool 外部のモデルコンテキストプロトコル (MCP)サーバーに接続することで、

    エージェントの機能を拡張 Observability Data Sources Knowledge Base Sources DevOps Incident Management A2A integration Built-in connectors • Datadog • New Relic • Dynatrace • Atlassian • Elasticsearch • Splunk • Atlassian • PagerDuty • GitHub • Azure DevOps • PagerDuty • Service Now • PagerDuty • Neubird • Microsoft Outlook • Microsoft Teams
  17. Skill builder で ppt skill を用いてレポート作成すれば、デモのリキャッ プは AI で作成可能 Skill

    builder で SKILL を作成 ファイルまたはアップロード可能 Agent Canvas で Agent を作成 SKILL を選択する
  18. Azure SRE Agent with Elasticsearch and PagerDuty Azure PagerDuty Elasticsearch

    Application Azure SRE Agent アプリケーション障害 Azure SRE Agent 一次対応開始 1 4 PagerDuty 検知から Azure SRE Agent トリガー Azure SRE Agent 調査開始 Azure, Elasticsearch, PagerDuty から収集 2 3 PagerDuty Get Started!
  19. チャット MCP サブエージェント Build-in Skill & Az CLI スケジュールタスク インシデント

    Interactive Reactive Proactive Skill Azure/EOL RSS ツール: Notify-teams Skill ツール: fetch-azure-update ナレッジベース Azure Monitor Metrics Application Insights Log Analytics Resource Graph & Activity ツール: fetch-azure-eol /agent コマンド 自動読込 Handoff Hook Service ツール指定 サブエージェント指定 ツール: mcp mcp-for-azure-sre RSS 取得 リタイアメント取得 Teams 投稿 検索 関連付け 外部リソース Azure SRE Agent Demo Overview - azure-retirement-agent - azure-update-agent - elasticsearch-agent - usage-agent - pager-duty-incident-expert - data-analyst - 影響ユーザーの確認 - ガイダンスを作りたい - Error Rate - 10 * * * * anomaly detection - 10 * * * 1 retirement detection Http triggers *1 *1 Enable an HTTP trigger to invoke this task from external services like Azure Logic Apps, Event Grid, or Functions.
  20. Azure SRE Agent 社内例: Miles 光ファイバーの調査分析点検を何マイルに渡って行うための Agent https://azureinfrasummit.com/#about KEYNOTE: Inside

    Azure's Engineering Priorities - A Fireside Chat with Jeremy Winter https://www.youtube.com/live/_coWHZuUjzU?si=Sd6OutMFjvTxBzF1&t=835
  21. 根本原因分析のスピードアップ メトリックやログを分析するエージェントを使え ば、アプリの問題をより早く診断できます。 アプリケーションの信頼性とパフォーマンスを向上 自動インシデント対応 Azure Monitor のアラートやサードパーティ システムから自動的に分析をトリガーします。 高度なインフラストラクチャ分析

    複数の情報源やリアルタイムデータを分析 して、サブスクリプション間の異常やパターン を検出します。 自動軽減 一般的な問題を積極的に解決して アップタイムを向上します。 (エージェントは承認を得て対応) Azure のベストプラクティス 診断データを使って問題を検出し、修正を 推奨し、信頼性を向上させましょう。 GitHub Copilot 連携 修正作業を GitHub Issue に記録し、 フォローアップと解決を効率化します。
  22. 課金について AAU(Azure Agent Unit)単価 $0.10 / AAU 固定(Always-on) = 4

    AAU / 時間 / エージェント * 4AAU/hour 消費しているため $0.40/h 従量(Active flow) = タスクに応じて $0.10 / AAU (制限可能) Minimum 500, maximum 1,000,000 AAUs 合計 = Always-on + Active flow 項目 通常 今回の制限設定 Always-on 固定 固定 Active flow 無制限(従量) 上限あり(500 – 1,000,000 AAU) 最大コスト 不定 上限 500 AAU にした場合は、 $342でキャップ
  23. Azure SRE Agent の export 稼働中の Azure SRE Agent の

    構成を ARM とデータプレーンの両 方から取得し、再デプロイできる形 式に書きだし console cd ./sreagent-templates ./bin/export-agent.sh \ --subscription $SUB \ --resource-group <rg> \ --agent-name <name> \ --output <your_dir> 目的 コマンド例 バックアップ(全部入り) ./bin/export-agent.sh -s $SUB \ -g my-rg \ -n my-agent \ -o backups/my-agent \ --include-all 別環境にクローン ./bin/export-agent.sh -s $SUB \ -g rg-src \ -n my-agent \ -o my-clone \ --set agentName=my-clone \ --set resourceGroup=rg-clone \ --set location=swedencentral 何が出るか確認だけ --dry-run 大きいデータは除外 --no-knowledge --no-memories(既定で repo-instructions は OFF) ファイル本体もダウンロード --download-files(既定 ON) https://github.com/microsoft/sre-agent