「さらばアラートノイズ！」 AIエージェントでインシデント対応を自動化する

話すこと • なぜAIエージェントが必要だったのか • ADKを使ったインシデント対応エージェントの開発 • AIエージェントのオブザーバビリティ

スピーカー 1 髙橋和真 (Takahashi Kazuma) クラウドエース株式会社 DevSecOps事業部 Engineer Work
Google Cloudを中心としたシステムの開発、運用を担当 Tech SRE O11y Serverless Award Google Cloud Partner Top Engineer 2025 SNS X：@kazzuvi Github：@kazuvi

なぜAIエージェントが必要だったのか

アラートノイズとの戦い • アラートノイズシステムに影響がなく優先度の低い、対応不要なアラートにより対応の時間だけが奪われていく現象。弊社の運用保守チームでは、特に高頻度で Cloud IDSによる攻撃検知アラートが鳴ることに悩まされていた。
このアラートを確認し調査することはセキュリティ上重要だが、そのほとんどはシステムに実害のない攻撃の"試み"だった。実態として対応が不要であっても、攻撃の調査時間は必要になり、その分睡眠や開発にさける時間が減ってしまっていた。

アラートをミュートすれば良いのでは？実際に攻撃されている以上無視はできない。閾値を上げすぎて、本当に危険なアラートを見逃すことだけは避けないといけない。結果として、「復旧作業は不要だが、ログを確認して影響の有無を判断する」という人間による調査作業が残ってしまった。

問題の焦点をシフトさせるノイズを減らすべく閾値を調整するのは、本当に対処すべきアラートを考慮すると非常に難しい。ノイズが多いことを問題とするのではなく、睡眠や開発にさける時間が減っているという部分に焦点を当て、人間が対処する必要のない作業をさせられている、ことに原因があるとした。 AIエージェントにインシデント対応させて、
空いた時間で開発とかしよう

一次対応エージェントの構築 AIエージェントをここでは目標達成のため、繰り返し推論し、ツールを使って行動するソフトウェアと定義する。インシデントの一次対応として AIエージェントが入り、システムに影響がある、もしくは調査が必要なインシデントだけを人間に通知する。結果的に人間がアラートノイズに対処することない運用保守が可能に！

負担の改善 Primary, Secondaryの2人のエンジニアで対応していた運用保守チームに、 AIエージェントが加わることで、実質的に 3人体制に。人間にエスカレーションされる =システムに問題がある、なので電話が鳴る恐怖は倍増...？

ADKを使ったインシデント対応エージェントの開発

エージェント構築のために AIエージェントは大きく分けて、ワークフロー型と自律型に分けられる。 • ワークフロー型事前に定義されたフロー、ツールの指定にしたがってタスクを実行する • 自律型目標だけを与え、ワークフローやツールの選定は全てエージェントに任せるそれぞれの中間をとったハイブリッド型もある。

エージェント構築のために AIエージェントを構築のためのフレームワークがたくさん出てきた何を使うかによって、実装方式や思想も異なってくる。 • LangGraph（ハイブリッド） • LangManus（自律） • Mastra（ハイブリッド） •
ADK（ハイブリッド）など

ADKとは Agent Development Kit（ADK） Google Cloudから提供されているAIエージェントを構築するためのフレームワーク外部ツールを使ったり、複数のエージェントを使ったシステムを構築できる。自律ベースでありながら、挙動を制御する
ための仕組みも提供してくれている。

スピーカー 2 三原知樹 (Mihara Tomoki) クラウドエース株式会社 DevSecOps事業部 Engineer Work
Google Cloudを中心としたシステムの開発、運用を担当 SNS Github：@TomokiMihara

エージェントのライフサイクル責務ごとにエージェントを分離するマルチエージェントアーキテクチャ SequentialAgentでワークフローのように順番にエージェントを実行

エージェントとツールエージェントごとにツールを定義

エージェントのライフサイクルエスカレーションが必要なしと判断された場合エスカレーションが必要ありと判断された場合

・ツールが適切に利用されない　→ツールの関数名やdoc stringが実際にツールの呼び出しの性能に関わってくる　→クリーンコードがメンテナビリティのみならず、性能に影響を及ぼす →ツールの呼び出しが確実に実行される保証は無いため、ツールの呼び出しが無かったらリトライ処理なども別途必要ハマった事

AIエージェントのオブザーバビリティ

エージェントの抱える課題 AIエージェントの挙動はそのままではブラックボックス化してしまう。動作に問題が起きても、なぜそうなったか分からない。プロンプトのチューニング、モデルの更新、実行時間やお金など、様々な考慮すべきことがあるため、 AIエージェントのオブザーバビリティが重要となってくる。

Langfuseの導入 Langfuse LLMアプリケーション向けに設計された観測・分析プラットフォームできること • トレースの可視化 • プロンプトの評価と管理 •
フィードバック収集などなど

一次対応 AIエージェントもLangfuseにトレースを送り、チューニングの参考にしていたりします。各エージェントのレイテンシも計測できるので、マルチエージェントアーキテクチャはオブザーバビリティ
観点でも重要だと言えます。

作って・自動化させて終わりではないエージェント自身の運用管理が増えてしまう挙動を見て、分析し、改善するというサイクルは AIエージェントにも必要。銀の弾丸ではない。 Langfuseをはじめとした LLMオブザーバビリティツールを活用しましょう。

「さらばアラートノイズ！」 AIエージェントでインシデント対応を自動化する

「さらばアラートノイズ！」 AIエージェントでインシデント対応を自動化する

Cloud Ace

More Decks by Cloud Ace

Other Decks in Technology

Featured

Transcript