Upgrade to Pro — share decks privately, control downloads, hide ads and more …

全社RAGの精度チェック、エージェントに丸投げしてみた話

Sponsored · Your Podcast. Everywhere. Effortlessly. Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
Avatar for 原田新也 原田新也
February 17, 2026
2k

 全社RAGの精度チェック、エージェントに丸投げしてみた話

三菱重工業の全社向けRAG基盤「ΣSynX EX(AIワークスペース)」における精度評価を、人手中心の運用から脱却し、Langfuse × AI-as-a-Judge によるエージェント主導の自動評価へと移行した取り組みを紹介します。

利用ユーザー拡大に伴い増大するRAG精度チェックの運用負荷に対し、

 - 全会話トレースの自動収集

 - GitHub Actionsによる定期評価

 - MCP Gateway経由のログ取得

 - 4指標(Faithfulness / Context Recall / Answer Relevancy / Context Precision)による自動スコアリング

といった仕組みを構築。

小規模チーム(4名)でも運用を回し続けるための「エージェント活用による評価自動化」の実践例と、その効果・課題・今後の展望を共有します。

Avatar for 原田新也

原田新也

February 17, 2026
Tweet

Transcript

  1. © MITSUBISHI HEAVY INDUSTRIES, LTD. All Rights Reserved. 全社向け の精度チェック、

    エージェントに丸投げしてみた話 2026/02/17 三菱重工業株式会社 デジタルイノベーション本部 DPI部 SoEグループ 原田 新也
  2. © MITSUBISHI HEAVY INDUSTRIES, LTD. All Rights Reserved. 2 ▪

    自己紹介 ◆ 氏名 原田新也 ◆ 業務 デジタルイノベーション本部 DPI部 SoEグループ 社内向けプロダクトの企画・開発・運用を担当 全社向けRAGチャットボット基盤: ΣSynX EX(通称:AI ワークスペース) の開発リード 経歴 ~2020 2021 2022 2023 2024 2025 2026 金融SE 問合せ管理システムの開発 問合せ管理システムのAWSリフト 全社RAG 立上げ ▲三菱重工入社 ▲ AWS利用開始 ▲ 生成AI組込プロダクト開発 (半年) 利用拡大
  3. © MITSUBISHI HEAVY INDUSTRIES, LTD. All Rights Reserved. 3 従業員が生成AIを利用して社内ナレッジの検索や申請処理など

    様々な業務が実施できる総合プラットフォーム チャット画面 AI ワークスペース モバイル対応 グラフィカルなUI 採用技術 利用方法 4つの特徴 • 生成AIを活用したBedrock Knowledge Base • エージェント基盤にAgent Coreシリーズを採用 1. 最先端のライブラリを利用した先進的なプロダクトを内製 2. Bedrock KBを中心に社内データのAdvanced RAG化 3. AIエージェントを作成し、ユーザのニーズに応じた業務の 実施・支援を自律的に実行 4. モバイル向けにレスポンシブ対応済
  4. © MITSUBISHI HEAVY INDUSTRIES, LTD. All Rights Reserved. 4 データの可視化

    エージェントの実行/システム間連携 機能も順次拡充予定・社内の注目度も徐々に上がってきており利用ユーザーも拡大中 従業員が出社後AIワークスペースにログインしあらゆる業務を完結する世界を目指す
  5. © MITSUBISHI HEAVY INDUSTRIES, LTD. All Rights Reserved. 5 ▪

    主なアーキテクチャリソース
  6. © MITSUBISHI HEAVY INDUSTRIES, LTD. All Rights Reserved. 6 ▪

    の精度評価については・・・ Langfuseのメトリクスやトレースで人が手動で分析・評価しているがユーザ増に伴い負荷も増加 メトリクス トレース
  7. © MITSUBISHI HEAVY INDUSTRIES, LTD. All Rights Reserved. 7 ▪課題:システム運用負荷が高まってきた

    社内データ連携やユーザ連携等手動運用の部分もあり 立上げから半年でリリースへ。実開発メンバは4人 システム運用項目の中でも負荷の高いRAGの精度評価を負荷軽減できないか 利用者が増えるほど、手が回らなくなる
  8. © MITSUBISHI HEAVY INDUSTRIES, LTD. All Rights Reserved. 8 ▪

    エージェントに丸投げしてみた 仕組み 4つの評価指標 Faithfulness 回答がコンテキストに裏付けされてるか Context Recall 必要な情報を検索できたか Answer Relevancy 質問に的確に答えているか Context Precision 検索結果にノイズがないか Langfuse × AI-as-a-Judge で RAG の精度を自動チェックしてみることにした ➀ Langfuse で全会話のトレースを自動収集 Vercel AI SDK + OpenTelemetry ➁ 評価用の質問セットを定期的に自動送信 GitHub Actions で毎日実行 ➂Langfuse MCP Gateway でトレースを取得 エージェントがチャット経由でログを取得 ➃ AI-as-a-Judge で採点 4指標でスコアリング
  9. © MITSUBISHI HEAVY INDUSTRIES, LTD. All Rights Reserved. 9 ▪処理パイプラインとプロンプト

    プロンプトサンプル(一部抜粋) 処理パイプライン
  10. © MITSUBISHI HEAVY INDUSTRIES, LTD. All Rights Reserved. 10 ▪どうだった①

    改善の提案 問題のあったトレースのピックアップ
  11. © MITSUBISHI HEAVY INDUSTRIES, LTD. All Rights Reserved. 11 ▪

    どうだった② エージェントに任せられたこと 任せられてない / 課題 ・取得ログデータ量のLLMのトークン制限 - LLMの判断力を落とさずにトークンを節約する必要がある - 現在はトークンアナライザーでコンテキストを制限中 ・より発展的なアクション - 推定した理由に基づいて、アプリのプロンプトを自動調整 - 不足してるデータの関連部署への自動通知 ・データ更新系の評価の確立 ・ 精度の低い質問を早期に特定し理由を推定 - 従業員にとって不足しているデータが何なのか特定 ・人間の評価と異なり常に同じ基準で評価 ・ KBデータ更新後の品質変化を定量的に把握 ・ チャット/slackで品質レポートを定期確認
  12. © MITSUBISHI HEAVY INDUSTRIES, LTD. All Rights Reserved. 12 ▪

    まとめ 今後の展望 今回やったこと Langfuse × AI-as-a-Judge で RAGの精度チェックをエージェントに委譲 ・ 全会話トレースの自動収集 ・ プロンプト設計で分析観点を制御 ・ MCP Gateway 経由でチャットから分析 ・ 4指標での自動スコアリング 今後の展望 評価の自動化は運用負荷軽減の第一歩 ・ トークン制限の克服(要約・チャンク分割) ・ ユーザー管理のエージェント化 ・ オンプレ文書連携の自動化 ・ 4人の小さなチームだからこそエージェントの力で 運用を回していく 小さなチームでも、エージェントと一緒なら運用は回せる。
  13. © MITSUBISHI HEAVY INDUSTRIES, LTD. All Rights Reserved. 13 ▪さいごに

    三菱重工業のDPI部では積極採用中です! 「私たちの取り組みに興味ある!」「私たちと一緒に働いてみたい!」と思われた 方は 「Findy 三菱重工」で検索! https://findy-code.io/companies/501