Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
AIは公平な評価, 決断を行えるか? 〜 LLM-as-a-Judgeの限界と意思決定バイア...
Search
Sponsored
·
Ship Features Fearlessly
Turn features on and off without deploys. Used by thousands of Ruby developers.
→
Neurogica
May 04, 2026
Technology
47
0
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
AIは公平な評価, 決断を行えるか? 〜 LLM-as-a-Judgeの限界と意思決定バイアス 〜 Can AI Make Fair Evaluations and Decisions?
Neurogica
May 04, 2026
More Decks by Neurogica
See All by Neurogica
DBコネクションプール Database Connection Pooling
neurogica
0
8
時系列基盤モデルは作れるのか? Can We Build a Foundation Model for Time Series?
neurogica
0
64
双曲空間と機械学習 〜 階層性を活かした学習〜 Hyperbolic Space and Machine Learning ~ Learning that Leverages Hierarchical Structure ~
neurogica
0
22
PENGUIN: General Vital Sign Reconstruction from PPG with Flow Matching State Space Models | ICASSP 2026
neurogica
0
30
DecompSSM: A Decomposition-based State Space Model for Multivariate Time-Series Forecasting | ICASSP 2026
neurogica
0
50
最新の物体検出モデルに関するサーベイ A Survey of the Latest Object Detection Models
neurogica
0
60
強化学習はLLMの能力に何をもたらしたのか What has reinforcement learning added to LLM capabilities?
neurogica
0
36
生成モデルを用いた意味論的に自然な画像編集 Semantically coherent image editing with generative models
neurogica
0
23
複雑系科学を知ろう Introduction to Complex Systems
neurogica
0
37
Other Decks in Technology
See All in Technology
小さくはじめるSLI/SLO ~育てながら組織に定着させる実践知~ / Starting Small with SLI/SLOs: Building Adoption Through Continuous Growth
nari_ex
7
2k
AmazonRoute 53ではじめてのドメイン取得!HTTPS化までの道のりを整理してみた
usanchuu
3
140
日本 Fintech 未来予測レポート 2027〜2028年(オリジナル版)
8maki
0
2.2k
FinOps × AIエージェントで実現する コストインシデントの自動調査
oasis1994liveforever
0
150
Agent Skills設計で柔軟性と硬さのバランスが難しい話
nassy20
0
130
エンジニアリング戦略の作り方 / Crafting Engineering Strategy
iwashi86
21
7k
現地で盛り上がった WWDC26 Keynote
zozotech
PRO
1
250
就職⽀援サービスにおけるキャリアアドバイザーのシフトスケジューリング
recruitengineers
PRO
1
150
Bedrock AgentCore RuntimeでAuth0 Changelog調査AIをアップグレードした話
t5u8a5a
1
160
GitHub Copilot 最新アップデート – 「一歩先」の実践活用術
moulongzhang
4
1.2k
AGENTS.mdとSkillsで始めるAIエージェント活用
sonoda_mj
3
220
エラーバジェットのアラートのタイミングを考える.pdf
kairim0
0
150
Featured
See All Featured
Done Done
chrislema
186
16k
Easily Structure & Communicate Ideas using Wireframe
afnizarnur
194
17k
First, design no harm
axbom
PRO
2
1.2k
Practical Orchestrator
shlominoach
191
11k
Pawsitive SEO: Lessons from My Dog (and Many Mistakes) on Thriving as a Consultant in the Age of AI
davidcarrasco
0
160
The Director’s Chair: Orchestrating AI for Truly Effective Learning
tmiket
1
190
Noah Learner - AI + Me: how we built a GSC Bulk Export data pipeline
techseoconnect
PRO
0
200
Building the Perfect Custom Keyboard
takai
2
790
New Earth Scene 8
popppiees
3
2.3k
ラッコキーワード サービス紹介資料
rakko
1
3.7M
RailsConf 2023
tenderlove
30
1.5k
GitHub's CSS Performance
jonrohan
1033
470k
Transcript
AIは公平な評価, 決断を⾏えるか? 〜 LLM-as-a-Judgeの限界と意思決定バイアス 〜 株式会社ニューロジカ 開発部 三ツ井 智哉 AIは公平な評価,
決断を⾏えるか? 〜 LLM-as-a-Judgeの限界と意思決定バイアス 〜
⾃然⾔語⽣成(NLG)の評価 • ⼈間による評価:コストが⾼く時間がかかる • Large Language Models (LLMs) による評価:低コスト、時短 G-Eval
(EMNLP 2023) [1] • GPT-4などのLLMをNLGの評価者として利⽤ • Chain-of-Thought(CoT)などを活⽤し, ⼈間の評価との⾼い相関を実現 1,000件のモデル応答 LLM as a Judge とは © Neurogica Inc. はじめに [1] Liu, Yang, et al. "G-eval: NLG evaluation using gpt-4 with better human alignment." Proceedings of the 2023 conference on empirical methods in natural language processing. 2023. 問題点 解決案 エージェント まとめ 数⽇〜数週間 数⼗万円 ⼈によりばらつき 数分 数万円 同⼀の基準 ⼈間 LLM
Large Language Models are not Fair Evaluators (ACL 2024) [2]
• LLMの位置バイアスの実証 • “AとB, どちらの出⼒が良いか?” という⽐較において, 選択肢の提⽰順(AとB)を⼊れ替えるだけで勝敗判定が変化 • 順番を⼊れ替えた結果を平均化する⼯夫が必要 LLM as a Judge の問題点 ① はじめに [2] Wang, Peiyi, et al. "Large language models are not fair evaluators." Proceedings of the 62nd Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). 2024. 問題点 解決案 エージェント まとめ Which response is better? Response 1: … Response 2: … Which response is better? Response 1: … Response 2: … Response 1: … Response 2: … LLM Judge © Neurogica Inc.
Self-Preference Bias in LLM-as-a-Judge (NeurIPS 2024 Workshop) [3] • LLMは⾃⾝の⽣成物を不当に⾼く評価してしまう傾向
• モデルにとって馴染みやすい, 予測しやすい⽂章を⾼く評価 • ⽣成側と評価側のスタイルの相性が混⼊ LLM as a Judge の問題点 ② はじめに [3] Wataoka, Koki, Tsubasa Takahashi, and Ryokan Ri. "Self-Preference Bias in LLM-as-a-Judge." Neurips Safe Generative AI Workshop 2024. 問題点 解決案 エージェント まとめ © Neurogica Inc.
Pairwise or Pointwise? (COLM 2025) [4] • 評価プロトコル⾃体の違いによるバイアスの受けやすさを⽐較 • Pairwise(A/B⽐較):順番の⼊れ替えなどで評価が逆転する割合が約35%
と⾼い • Pointwise(絶対評価・スコアリング):評価のブレが約9%に留まり, より ノイズに対して頑健 問題の解決案 はじめに [4] Tripathi, Tuhina, et al. "Pairwise or Pointwise? Evaluating Feedback Protocols for Bias in LLM-Based Evaluation." Second Conference on Language Modeling., 2025 問題点 解決案 エージェント まとめ Which response is better? Response 1: … Response 2: … Scoring this response Response 1: … Pairwise Pointwise © Neurogica Inc..
• LLM-as-a-Judge:出⼒を評価 • LLM Agent:検索・ブラウザ操作・外部ツール実⾏・購買・予約・調査 評価から意思決定(エージェント)へ はじめに 問題点 解決案 エージェント
まとめ • Claudeは画⾯操作・クリック・⼊⼒を⾏う Computer Useを提供 • OpenAI Operatorはブラウザを使ってタスクを 実⾏するAgentとして公開 © Neurogica Inc.
Actions Speak Louder than Words [5] • 差別的な回答をしないよう調整されたLLMでも, エージェントとしての意思決 定には潜在的な社会的バイアス
エージェントにおけるバイアス ① はじめに [5] Li, Yuxuan, Hirokazu Shirado, and Sauvik Das. "Actions speak louder than words: Agent decisions reveal implicit biases in language models." Proceedings of the 2025 ACM Conference on Fairness, Accountability, and Transparency. 2025. 問題点 解決案 エージェント まとめ • LLMにペルソナを与え, 避難・融資・採⽤などの 意思決定シナリオで⽐較 • ほぼすべてのシミュレー ションで有意な意思決定 格差が観測 © Neurogica Inc.
What Is Your AI Agent Buying? [6] • LLM購買エージェントについて, モデルごとの選好バ
イアスを実証 • 商品の位置, 価格, レビュー数, 広告タグの有無などに 対する感応度がモデルごと, 世代ごとに異なる. エージェントにおけるバイアス ② はじめに [6] Allouah, Amine, et al. "What Is Your AI Agent Buying? Evaluation, Biases, Model Dependence, & Emerging Implications of Agentic E-Commerce." Proceedings of the ACM Web Conference 2026. 問題点 解決案 エージェント まとめ ←位置バイアスを⽰す タグや評価による→ 影響を⽰す © Neurogica Inc.
まとめ はじめに 問題点 解決案 エージェント まとめ LLM評価の問題 • 選択肢の順番にバイア スが存在
• 評価するモデルと同じ モデルの⽣成物を⾼く 評価 エージェントへの進化 • テキスト評価だけでな く操作, 意思決定も • LLMの意思決定にもバ イアスが存在 © Neurogica Inc.. LLM as a Judge ⼈間と近い評価を⼈間よりは るかに短時間低コストで実⾏ 可能