Upgrade to Pro — share decks privately, control downloads, hide ads and more …

LangGraphで作ったアラート原因分析エージェントについて

Avatar for nutslove nutslove
November 27, 2025
9

 LangGraphで作ったアラート原因分析エージェントについて

LangChain Meetup Tokyo #7のLT資料です。
よろしくお願いします。

Avatar for nutslove

nutslove

November 27, 2025
Tweet

Transcript

  1. 自己紹介 2025/11/27 2 名前 李 俊起(イ ジュンギ) / Joonki Lee

    所属 KINTOテクノロジーズ株式会社 Platform Group / Platform Engineer 関心分野 Observability Kubernetes 生成AI
  2. 話す内容 2025/11/27 3 • アラート原因分析AI Agent導入背景 • アーキテクチャ & 処理フロー

    • 分析結果例 • 現在直面している課題 • 今後について
  3. 現在のアーキテクチャ(2025/11時点) 2025/11/27 9 VPC API Gateway SlackBot Lambda SQS NewRelic

    Lambda CMDB Health Dashboard リカバリー基盤 SQS Recovery Lambda Agent ECS EventBridge Pipes Step Functions NLB EKS 該当システムの HealthCheck Endpoint EFS CloudWatch Alarm o11y Lambda Incident Manager Aurora (Vector Store)
  4. 処理の流れ 1/4 2025/11/27 10 VPC NewRelic Lambda CMDB Health Dashboard

    リカバリー基盤 SQS Recovery Lambda Agent Lambda 該当システムの HealthCheck Endpoint API Gateway SlackBot Lambda SQS アラートが発報されると、Lambdaが Slackにアラート内容の通知と 原因分析処理開始のお知らせをする。 それと同時に原因分析処理を 非同期で行うため、SQSキューに メッセージを送信する WebHook CloudWatch Alarm
  5. API Gateway SlackBot Lambda 処理の流れ 2/4 2025/11/27 11 VPC NewRelic

    Lambda リカバリー基盤 SQS Recovery Lambda CMDB Health Dashboard 該当システムの HealthCheck Endpoint SQSからキューを取得し、AI Agentが処理を開始する。 Agentによる原因分析処理の前に、CMDBから取得した アラートが発生したシステムの情報(e.g. リソース一覧)や AWS Health Dashboardなどの情報をSystem Promptに入れる SQS Agent ECS EventBridge Pipes Step Functions
  6. SQS EventBridge Pipes Step Functions CMDB Health Dashboard 該当システムの HealthCheck

    Endpoint API Gateway SlackBot Lambda 処理の流れ 3/4 2025/11/27 12 VPC リカバリー基盤 SQS Recovery Lambda NewRelic Lambda CloudWatch Aurora ECS ELB その他 リソース アラートが発生した システムのリソース 『AWS CLI』と『NewRelicのクエリーを実行できるtool』を使って、 React Agentが、CMDBから取得したシステム情報を元に対象システム のアラートが発生したシステムのリソース(+関連するリソース)の状態や NewRelic上のメトリクス・ログ・トレースを確認しながら、 原因分析と暫定対応コマンドの生成を行う Agent ECS Aurora (Vector Store) NLB EKS o11y Lambda
  7. NewRelic Lambda CMDB Health Dashboard 該当システムの HealthCheck Endpoint SQS API

    Gateway SlackBot Lambda 処理の流れ 4/4 2025/11/27 13 VPC リカバリー基盤 SQS Recovery Lambda 原因分析結果と暫定対応コマンドを Slackに通知 Agent ECS
  8. 評価について 2025/11/27 20 • 評価が人に依存 ➢ Good/Badボタンを設けているが、なかなか押してくれない • 正解データの不在 ➢

    同じアラートでも毎回原因が同じとは限らないため、正解データの作成 が難しい • 色々基準を設けてLLM as a Judgeでの評価を検討中 ➢ Toolの選択は適切か ➢ ToolのOutputと最終的な分析結果に相違はないか ➢ etc.