Upgrade to Pro — share decks privately, control downloads, hide ads and more …

AIエージェントの評価ポイント紹介

Avatar for AITC - DENTSU SOKEN AITC - DENTSU SOKEN
November 07, 2025
10

 AIエージェントの評価ポイント紹介

AIエージェントについて、「何を評価するか」「いつ評価するか」「どう評価するか」という観点から、ポイントを絞って解説します。
※本資料はWeights & Biases主催のFully Connected 2025 Tokyoのワークショップで発表した資料になります。

Avatar for AITC - DENTSU SOKEN

AITC - DENTSU SOKEN

November 07, 2025
Tweet

More Decks by AITC - DENTSU SOKEN

Transcript

  1. 2 © DENTSU SOKEN INC. 自己紹介 所属 • 株式会社 電通総研

    クロスイノベーション本部 AIトランスフォーメーションセンター 業務 • AIエンジニアとして、 生成AIソリューションの開発やAIエージェントの研究開発、PoCに従事 出版系 • 「現場で活用するためのAIエージェント実践入門」の3章, 7章執筆 Kaggle(趣味) • Competitions Master (tacoriceとして活動中) 阿田木 勇八
  2. 3 © DENTSU SOKEN INC. なぜ評価が必要か AIエージェントは不確実性が高く、さまざまなリスクへの対応が求められます 評価を行わない場合のリスク 評価によってリスクを事前に把握して改善につなげる •

    出力品質を事前に把握し改善できる • ユーザーの不満を早期に把握し改善につなげられる 本番環境での誤作動やコスト増大、ユーザー不満を招き、 結果としてAIエージェントが使われなくなる 評価は、現場で”使われる”AIエージェントを開発・運用するために必要です 不確実性の要因 • LLM固有の課題(ハルシネーション、ツール誤用など) • 多段階処理による出力品質のばらつき
  3. 5 © DENTSU SOKEN INC. ① 何を評価するか AIエージェントの能力は「頭の良さ」と「仕事ができるか」の2つの観点に分類できます 頭の良さ =

    知識や理解力、判断力などの基礎能力 仕事ができるか =タスクを効率的・安定的・安全に遂行する実行能力 両方の観点を評価してAIエージェント性能を担保することで、提供価値を最大化できます ▪評価観点 推論や説明の正確さなどの出力品質 必要な情報やツールを適切に活用できて いるかという知識・ツール活用の適切さ ▪評価観点 処理時間や成功率などのパフォーマンス 出力の安全性・信頼性
  4. 6 © DENTSU SOKEN INC. ② いつ評価が必要か 評価は一度きりの工程ではなく、 AIエージェント開発・運用・改善の各段階で必要です 開発

    導入・運用 改善 • 評価基準の明確化 • 評価データセットの準備 • 評価の実施と改善 • 原因分析と改善 • 評価指標、データセット、 モデル更新 • モニタリング • ユーザーフィードバック (Good/Badボタン評価など) 開発チーム 主体 運用担当・ユーザー 開発・運用チーム 内容 工程 ポイント 評価基準や評価指標の設計は目的や段階に合わせて決定します また、ドメインエキスパートを巻き込んで明確な基準に落としこむことが大切です
  5. 7 © DENTSU SOKEN INC. ② いつ評価が必要か 評価は一度きりの工程ではなく、 AIエージェント開発・運用・改善の各段階で必要です 開発

    導入・運用 改善 • 評価基準の明確化 • 評価データセットの準備 • 評価の実施と改善 • 原因分析と改善 • 評価指標、データセット、 モデル更新 • モニタリング • ユーザーフィードバック (Good/Badボタン評価など) 開発チーム 主体 内容 工程 全て人手で評価するのは大変 → 評価の自動化の検討も必要 運用担当・ユーザー 開発・運用チーム
  6. 8 © DENTSU SOKEN INC. 人手での評価の難しさ AIエージェントの「頭の良さ」や「仕事ができるか」の評価は簡単ではありません 自然言語の定量化の難しさ • 「良い回答」の定義が曖昧

    • 主観的要素が多い • 確認に時間がかかる LLM-as-a-Judgeの活用 LLMを評価者として活用することで、 人間の評価基準を模倣した自動評価が可能に 多段階処理による複雑性 • エラーの伝播と増幅 • 中間処理の可視性欠如 • デバッグの困難さ トレーサビリティツールの導入 各処理ステップにおけるログを追跡・記録することで、 エラー発生箇所を迅速に特定可能に 評価の自動化においてはLLM-as-a-Judgeが活用できます 課題 解決策
  7. 9 © DENTSU SOKEN INC. 参考:評価指標(LLM-as-a-Judge)の例 スコアリング指標 • 完全性:質問のすべての側面をカバーしているか(◦ 正解あり)

    • 根拠性:事実や根拠に基づいているか • 安全性:有害・不適切な内容を含まないか • 応答の関連性:質問文との関連度が高いか • 類似性:応答が正解とどの程度一致しているか(◦ 正解あり) RAG評価 (RAGAS) • Context Precision - 関連情報の精度 • AnswerCorrectness - 回答と正解の正確さ◦(正解あり) • Faithfulness -回答が与えられたコンテキスト(RAGで取得した情報)に基づいているか ◦ のついた正解がある評価指標の方がより改善の参考になります。 特に、「完全性」が汎用的が高く利用しやすいです。 評価ツールによって様々な定義が存在します。また、カスタム評価指標を独自に定義することもできます
  8. 10 © DENTSU SOKEN INC. ポイント 評価データセットはhard, normal, easy など難易度別に用意することで段階的に評価しやすく、

    開発や運用段階で集めたデータの分析に活用できます。 ③どう評価するか 人間による評価をLLM-as-a-Judgeに委任していき、評価・改善のサイクルを高速に回すことが大切です 運用していく中で、評価指標や評価データセットも継続的に改善していきましょう 開発 導入・運用 改善 開発チーム 主体 工程 • 評価基準の明確化 • 評価データセットの準備 • 評価の実施と改善 • 原因分析と改善 • 評価指標、データセット、 モデル更新 • モニタリング • ユーザーフィードバック (Good/Badボタン評価など) 内容 運用担当・ユーザー 開発・運用チーム
  9. 11 © DENTSU SOKEN INC. 評価のポイントまとめ AIエージェントは不確実性が高いため、評価においても確かなベストプラクティスは存在しません。 評価・改善サイクルを回し、評価の方法も共に育てていくことが大切です。 評価ポイントを踏まえて改善サイクルを回すことで、 現場で”使われ続ける”AIエージェントを開発・運用することができます。

    • ポイント① : AIエージェントには「頭の良さ」と「仕事ができるか」の2つの観点があり、両方が大事 • ポイント②: 開発・運用・改善の各段階で異なる観点での評価が必要 • ポイント③: 人手評価から自動評価(LLM-as-a-Judgeも活用)に移行しつつ、 評価指標とデータセットを継続的に見直すことが大切