Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Make SRE Operations Easier with Azure SRE Agent

Make SRE Operations Easier with Azure SRE Agent

In this talk, I introduce Azure SRE Agent and how it helps simplify operations using AI.
I cover what Azure SRE Agent can do, how it automates incident response and routine tasks, and how it reduces manual work while improving consistency. I also explain how it works together with Azure Observability Agent and Copilot in Azure, and when to use each.
Through demos and practical examples, I share how to get started, key setup points, and lessons learned from real usage.
If you want to reduce MTTR, standardize operations, and make better use of AI in your Azure environment, this session will give you useful ideas.

Avatar for KAMEGAWA Kazushi

KAMEGAWA Kazushi

May 30, 2026

More Decks by KAMEGAWA Kazushi

Other Decks in Programming

Transcript

  1. This contents based on 2026/5/29 Images created by Adobe Firefly

    and Microsoft Copilot Gemini 3.1 w/ Nano Banana 2)
  2. 監視していないと… ステータス正常でも、 ユーザー影響は見逃される 01 見るべき対象は多岐にわたる VM、アプリ、ネットワーク、依存サービス、ロ グ/メトリックまで 設計が必要。 02 “グリーン”だけでは不十分

    Azure 側が正常でも、認証・メール・遅延など利 用者体験は別に崩れる。 03 漏れは問い合わせとして表面化 検知できない不調ほど、ユーザーからの確認・問 い合わせが先に増える。 監視漏れの最初のアラートは、ダッシュボードではなく ユーザーの問い合わせ になる。
  3. 運用アクションを自動化し、チームの知識を蓄積するエージェント 自動操作 調査・変更を実行 知識化 運用ノウハウを蓄積 連携 監視・ITSMと接続 主な機能 1 Azureリソース管理

    VM、App Service、AKS、Functionsに対応 2 インシデント自動化 トリアージ、軽減、解決アクションを支援 3 スケジュール実行 定期タスクや事前アラートへの対応を実施 主な用途 障害の初動対応 状況確認と復旧候補を提示 定常運用の省力化 確認作業を自動化し手作業を削減 品質の標準化 同じ手順・判断で品質を維持 ポイント:属人化しがちな運用判断を、再利用できる知識と自動アクションに変える
  4. 概要説明:どんな場面で使い、どの手順で導入するか 活用シーン 障害一次対応 障害・失敗ジョブの初動を整理 運用の自動化 定期点検を自動化し対応漏れを防止 ナレッジ継承 手順・方針を蓄積して再利用 始め方 1.

    Agentリソースを作成 Portalで作成し対象サブスクリプションを選択 2. 対象と権限を設定 対象グループを選び実行権限を付与 3. チャットで運用開始 自然言語で調査・確認・実行を依頼 手作業を減らし、MTTR短縮と対応品質の標準化
  5. Azure Observability Agent 監視データを会話で探索・分析 できること できること 監視データを探索 メトリック・ログ・アラートを関連付け 会話で分析 自然言語で質問し、重要シグナルを絞り込む

    原因と影響を把握 異常検出・変更影響・問題範囲を評価 用途:Azure Monitorアラートから調査を始め、関 連データの読み解きを支援 インシデント調査で、見るべきデータと起きた変 化を素早く把握 主な用途 1 アラート起点の調査 Azure Monitorアラートから調査開始 2 ログ・メトリック分析 ログとメトリックを横断確認 3 影響範囲の把握 異常・変更の影響を整理 4 調査結果の共有 会話と結果を残し再開を容易に
  6. 概要説明:監視データの調査を、会話と分析で素早く進める 活用シーン トラブルシューティング 根本原因を短時間で特定 性能・利用状況の把握 エラー・使用量・時間変化を確認 調査結果の保存・再開 文脈と結果を保持し再開 始め方 1.

    対象リソースを選択 対象ワークスペースを開く 2. ログ画面で起動 Observability Agentを起動 3. 質問・調査を実行 状況・原因・影響範囲を分析 補足:Application Insights / Log Analyticsに対応し、調査データは一定期間保持されます
  7. Observability Agent SRE Agent Copilot in Azure 位置づけ Azure Monitor

    の監視データ を調査・分析するための エージェント SRE/運用業務を自動化するため のエージェント Azure 全体を自然言語で操作・ 理解するための汎用AIアシス タント できること 監視データの分析・相関・ 深堀 インシデント対応の自動化 リソースの検索、クエリ生成 参照するデー タ Application Insights, Log Analytics, Monitor Azure Monitor, Grafana, ServiceNow, PagerDuty, GitHub, Azure DevOps等 Azureコントロールプレーン 自動化 調査開始や分析は支援して くれる 運用フローを含めた自動化 ほとんどなし 権限 監視データの参照のみ 書き込みを許可すればSKILL, Hook, Connector, Pluginといった エージェントを使った操作がで きる 操作ごとにユーザーの承認が 必要 ユースケース 障害の原因調査、アラート の影響範囲分析 復旧時間短縮、インシデントの 自動化、定期運用の自動化 チャットUIでAzure操作すると き 課金 従量課金(現在は無料) 固定+従量課金 今のところ無料