AIエージェントの評価ポイント紹介

Fully Connected 2025年10月30日株式会社電通総研阿田木勇八 AIエージェントの評価ポイント紹介

2 © DENTSU SOKEN INC. 自己紹介所属 • 株式会社電通総研
クロスイノベーション本部 AIトランスフォーメーションセンター業務 • AIエンジニアとして、生成AIソリューションの開発やAIエージェントの研究開発、PoCに従事出版系 • 「現場で活用するためのAIエージェント実践入門」の3章, 7章執筆 Kaggle（趣味） • Competitions Master （tacoriceとして活動中）阿田木勇八

3 © DENTSU SOKEN INC. なぜ評価が必要か AIエージェントは不確実性が高く、さまざまなリスクへの対応が求められます評価を行わない場合のリスク評価によってリスクを事前に把握して改善につなげる •
出力品質を事前に把握し改善できる • ユーザーの不満を早期に把握し改善につなげられる本番環境での誤作動やコスト増大、ユーザー不満を招き、結果としてAIエージェントが使われなくなる評価は、現場で”使われる”AIエージェントを開発・運用するために必要です不確実性の要因 • LLM固有の課題（ハルシネーション、ツール誤用など） • 多段階処理による出力品質のばらつき

4 本日お話すること ① ：何を評価するか「頭の良さ」と「仕事ができるか」の２つの観点について ②：いつ評価が必要か開発・運用・改善の各段階における評価について ③：どう評価するか LLM as
a judgeの活用について

5 © DENTSU SOKEN INC. ① 何を評価するか AIエージェントの能力は「頭の良さ」と「仕事ができるか」の2つの観点に分類できます頭の良さ =
知識や理解力、判断力などの基礎能力仕事ができるか＝タスクを効率的・安定的・安全に遂行する実行能力両方の観点を評価してAIエージェント性能を担保することで、提供価値を最大化できます ▪評価観点推論や説明の正確さなどの出力品質必要な情報やツールを適切に活用できているかという知識・ツール活用の適切さ ▪評価観点処理時間や成功率などのパフォーマンス出力の安全性・信頼性

6 © DENTSU SOKEN INC. ② いつ評価が必要か評価は一度きりの工程ではなく、 AIエージェント開発・運用・改善の各段階で必要です開発
導入・運用改善 • 評価基準の明確化 • 評価データセットの準備 • 評価の実施と改善 • 原因分析と改善 • 評価指標、データセット、モデル更新 • モニタリング • ユーザーフィードバック（Good/Badボタン評価など）開発チーム主体運用担当・ユーザー開発・運用チーム内容工程ポイント評価基準や評価指標の設計は目的や段階に合わせて決定しますまた、ドメインエキスパートを巻き込んで明確な基準に落としこむことが大切です

7 © DENTSU SOKEN INC. ② いつ評価が必要か評価は一度きりの工程ではなく、 AIエージェント開発・運用・改善の各段階で必要です開発
導入・運用改善 • 評価基準の明確化 • 評価データセットの準備 • 評価の実施と改善 • 原因分析と改善 • 評価指標、データセット、モデル更新 • モニタリング • ユーザーフィードバック（Good/Badボタン評価など）開発チーム主体内容工程全て人手で評価するのは大変 → 評価の自動化の検討も必要運用担当・ユーザー開発・運用チーム

8 © DENTSU SOKEN INC. 人手での評価の難しさ AIエージェントの「頭の良さ」や「仕事ができるか」の評価は簡単ではありません自然言語の定量化の難しさ • 「良い回答」の定義が曖昧
• 主観的要素が多い • 確認に時間がかかる LLM-as-a-Judgeの活用 LLMを評価者として活用することで、人間の評価基準を模倣した自動評価が可能に多段階処理による複雑性 • エラーの伝播と増幅 • 中間処理の可視性欠如 • デバッグの困難さトレーサビリティツールの導入各処理ステップにおけるログを追跡・記録することで、エラー発生箇所を迅速に特定可能に評価の自動化においてはLLM-as-a-Judgeが活用できます課題解決策

9 © DENTSU SOKEN INC. 参考：評価指標（LLM-as-a-Judge）の例スコアリング指標 • 完全性：質問のすべての側面をカバーしているか（◦ 正解あり）
• 根拠性：事実や根拠に基づいているか • 安全性：有害・不適切な内容を含まないか • 応答の関連性：質問文との関連度が高いか • 類似性：応答が正解とどの程度一致しているか（◦ 正解あり） RAG評価 (RAGAS) • Context Precision - 関連情報の精度 • AnswerCorrectness - 回答と正解の正確さ◦（正解あり） • Faithfulness -回答が与えられたコンテキスト（RAGで取得した情報）に基づいているか ◦ のついた正解がある評価指標の方がより改善の参考になります。特に、「完全性」が汎用的が高く利用しやすいです。評価ツールによって様々な定義が存在します。また、カスタム評価指標を独自に定義することもできます

10 © DENTSU SOKEN INC. ポイント評価データセットはhard, normal, easy など難易度別に用意することで段階的に評価しやすく、
開発や運用段階で集めたデータの分析に活用できます。 ③どう評価するか人間による評価をLLM-as-a-Judgeに委任していき、評価・改善のサイクルを高速に回すことが大切です運用していく中で、評価指標や評価データセットも継続的に改善していきましょう開発導入・運用改善開発チーム主体工程 • 評価基準の明確化 • 評価データセットの準備 • 評価の実施と改善 • 原因分析と改善 • 評価指標、データセット、モデル更新 • モニタリング • ユーザーフィードバック（Good/Badボタン評価など）内容運用担当・ユーザー開発・運用チーム

11 © DENTSU SOKEN INC. 評価のポイントまとめ AIエージェントは不確実性が高いため、評価においても確かなベストプラクティスは存在しません。評価・改善サイクルを回し、評価の方法も共に育てていくことが大切です。評価ポイントを踏まえて改善サイクルを回すことで、現場で”使われ続ける”AIエージェントを開発・運用することができます。
• ポイント① ： AIエージェントには「頭の良さ」と「仕事ができるか」の２つの観点があり、両方が大事 • ポイント②：開発・運用・改善の各段階で異なる観点での評価が必要 • ポイント③：人手評価から自動評価（LLM-as-a-Judgeも活用）に移行しつつ、評価指標とデータセットを継続的に見直すことが大切

AIエージェントの評価ポイント紹介

AIエージェントの評価ポイント紹介

AITC - DENTSU SOKEN

More Decks by AITC - DENTSU SOKEN

Featured

Transcript

Fully Connected 2025年10月30日株式会社電通総研阿田木勇八 AIエージェントの評価ポイント紹介

2 © DENTSU SOKEN INC. 自己紹介所属 • 株式会社電通総研

3 © DENTSU SOKEN INC. なぜ評価が必要か AIエージェントは不確実性が高く、さまざまなリスクへの対応が求められます評価を行わない場合のリスク評価によってリスクを事前に把握して改善につなげる •

4 本日お話すること ① ：何を評価するか「頭の良さ」と「仕事ができるか」の２つの観点について ②：いつ評価が必要か開発・運用・改善の各段階における評価について ③：どう評価するか LLM as

5 © DENTSU SOKEN INC. ① 何を評価するか AIエージェントの能力は「頭の良さ」と「仕事ができるか」の2つの観点に分類できます頭の良さ =

6 © DENTSU SOKEN INC. ② いつ評価が必要か評価は一度きりの工程ではなく、 AIエージェント開発・運用・改善の各段階で必要です開発

7 © DENTSU SOKEN INC. ② いつ評価が必要か評価は一度きりの工程ではなく、 AIエージェント開発・運用・改善の各段階で必要です開発

8 © DENTSU SOKEN INC. 人手での評価の難しさ AIエージェントの「頭の良さ」や「仕事ができるか」の評価は簡単ではありません自然言語の定量化の難しさ • 「良い回答」の定義が曖昧

9 © DENTSU SOKEN INC. 参考：評価指標（LLM-as-a-Judge）の例スコアリング指標 • 完全性：質問のすべての側面をカバーしているか（◦ 正解あり）

10 © DENTSU SOKEN INC. ポイント評価データセットはhard, normal, easy など難易度別に用意することで段階的に評価しやすく、