Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
AIは公平な評価, 決断を行えるか? 〜 LLM-as-a-Judgeの限界と意思決定バイア...
Search
Neurogica
May 04, 2026
Technology
47
0
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
AIは公平な評価, 決断を行えるか? 〜 LLM-as-a-Judgeの限界と意思決定バイアス 〜 Can AI Make Fair Evaluations and Decisions?
Neurogica
May 04, 2026
More Decks by Neurogica
See All by Neurogica
DBコネクションプール Database Connection Pooling
neurogica
0
8
時系列基盤モデルは作れるのか? Can We Build a Foundation Model for Time Series?
neurogica
0
64
双曲空間と機械学習 〜 階層性を活かした学習〜 Hyperbolic Space and Machine Learning ~ Learning that Leverages Hierarchical Structure ~
neurogica
0
22
PENGUIN: General Vital Sign Reconstruction from PPG with Flow Matching State Space Models | ICASSP 2026
neurogica
0
30
DecompSSM: A Decomposition-based State Space Model for Multivariate Time-Series Forecasting | ICASSP 2026
neurogica
0
51
最新の物体検出モデルに関するサーベイ A Survey of the Latest Object Detection Models
neurogica
0
60
強化学習はLLMの能力に何をもたらしたのか What has reinforcement learning added to LLM capabilities?
neurogica
0
36
生成モデルを用いた意味論的に自然な画像編集 Semantically coherent image editing with generative models
neurogica
0
23
複雑系科学を知ろう Introduction to Complex Systems
neurogica
0
37
Other Decks in Technology
See All in Technology
エンジニアリング戦略の作り方 / Crafting Engineering Strategy
iwashi86
21
7k
人材育成分科会.pdf
_awache
4
270
AAIFに入ってみた ~内から見えるコミュニティ動向~
sato4
0
240
【NRUG vol.18】KubernetesにおけるNew Relicデータ取得量削減の考え方
nrug_member
0
150
自宅LLMの話
jacopen
1
600
アンオフィシャルな、オフィシャルからのお願い
wyamazak_devrel
0
120
不要なレビューをAIにまかせて AIコーディングの環境改善を加速した
shoota
1
180
ルールやカスタム機能、どう活かす?ハンズオンで体感するIBM Bobの出力コントロール
muehara
1
170
あなたの知らないPDFのアクセシビリティ
lycorptech_jp
PRO
0
200
SONiCのLinuxベースを活かしたZabbix監視
sonic
0
180
就職⽀援サービスにおけるキャリアアドバイザーのシフトスケジューリング
recruitengineers
PRO
1
150
入門!AWS Blocks
ysuzuki
1
140
Featured
See All Featured
Discover your Explorer Soul
emna__ayadi
2
1.1k
Technical Leadership for Architectural Decision Making
baasie
3
410
Ten Tips & Tricks for a 🌱 transition
stuffmc
0
130
Exploring anti-patterns in Rails
aemeredith
3
410
Everyday Curiosity
cassininazir
0
230
The innovator’s Mindset - Leading Through an Era of Exponential Change - McGill University 2025
jdejongh
PRO
1
200
Leveraging LLMs for student feedback in introductory data science courses - posit::conf(2025)
minecr
1
290
Understanding Cognitive Biases in Performance Measurement
bluesmoon
32
2.9k
How GitHub (no longer) Works
holman
316
150k
Reality Check: Gamification 10 Years Later
codingconduct
0
2.2k
How to Align SEO within the Product Triangle To Get Buy-In & Support - #RIMC
aleyda
2
1.5k
We Are The Robots
honzajavorek
0
250
Transcript
AIは公平な評価, 決断を⾏えるか? 〜 LLM-as-a-Judgeの限界と意思決定バイアス 〜 株式会社ニューロジカ 開発部 三ツ井 智哉 AIは公平な評価,
決断を⾏えるか? 〜 LLM-as-a-Judgeの限界と意思決定バイアス 〜
⾃然⾔語⽣成(NLG)の評価 • ⼈間による評価:コストが⾼く時間がかかる • Large Language Models (LLMs) による評価:低コスト、時短 G-Eval
(EMNLP 2023) [1] • GPT-4などのLLMをNLGの評価者として利⽤ • Chain-of-Thought(CoT)などを活⽤し, ⼈間の評価との⾼い相関を実現 1,000件のモデル応答 LLM as a Judge とは © Neurogica Inc. はじめに [1] Liu, Yang, et al. "G-eval: NLG evaluation using gpt-4 with better human alignment." Proceedings of the 2023 conference on empirical methods in natural language processing. 2023. 問題点 解決案 エージェント まとめ 数⽇〜数週間 数⼗万円 ⼈によりばらつき 数分 数万円 同⼀の基準 ⼈間 LLM
Large Language Models are not Fair Evaluators (ACL 2024) [2]
• LLMの位置バイアスの実証 • “AとB, どちらの出⼒が良いか?” という⽐較において, 選択肢の提⽰順(AとB)を⼊れ替えるだけで勝敗判定が変化 • 順番を⼊れ替えた結果を平均化する⼯夫が必要 LLM as a Judge の問題点 ① はじめに [2] Wang, Peiyi, et al. "Large language models are not fair evaluators." Proceedings of the 62nd Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). 2024. 問題点 解決案 エージェント まとめ Which response is better? Response 1: … Response 2: … Which response is better? Response 1: … Response 2: … Response 1: … Response 2: … LLM Judge © Neurogica Inc.
Self-Preference Bias in LLM-as-a-Judge (NeurIPS 2024 Workshop) [3] • LLMは⾃⾝の⽣成物を不当に⾼く評価してしまう傾向
• モデルにとって馴染みやすい, 予測しやすい⽂章を⾼く評価 • ⽣成側と評価側のスタイルの相性が混⼊ LLM as a Judge の問題点 ② はじめに [3] Wataoka, Koki, Tsubasa Takahashi, and Ryokan Ri. "Self-Preference Bias in LLM-as-a-Judge." Neurips Safe Generative AI Workshop 2024. 問題点 解決案 エージェント まとめ © Neurogica Inc.
Pairwise or Pointwise? (COLM 2025) [4] • 評価プロトコル⾃体の違いによるバイアスの受けやすさを⽐較 • Pairwise(A/B⽐較):順番の⼊れ替えなどで評価が逆転する割合が約35%
と⾼い • Pointwise(絶対評価・スコアリング):評価のブレが約9%に留まり, より ノイズに対して頑健 問題の解決案 はじめに [4] Tripathi, Tuhina, et al. "Pairwise or Pointwise? Evaluating Feedback Protocols for Bias in LLM-Based Evaluation." Second Conference on Language Modeling., 2025 問題点 解決案 エージェント まとめ Which response is better? Response 1: … Response 2: … Scoring this response Response 1: … Pairwise Pointwise © Neurogica Inc..
• LLM-as-a-Judge:出⼒を評価 • LLM Agent:検索・ブラウザ操作・外部ツール実⾏・購買・予約・調査 評価から意思決定(エージェント)へ はじめに 問題点 解決案 エージェント
まとめ • Claudeは画⾯操作・クリック・⼊⼒を⾏う Computer Useを提供 • OpenAI Operatorはブラウザを使ってタスクを 実⾏するAgentとして公開 © Neurogica Inc.
Actions Speak Louder than Words [5] • 差別的な回答をしないよう調整されたLLMでも, エージェントとしての意思決 定には潜在的な社会的バイアス
エージェントにおけるバイアス ① はじめに [5] Li, Yuxuan, Hirokazu Shirado, and Sauvik Das. "Actions speak louder than words: Agent decisions reveal implicit biases in language models." Proceedings of the 2025 ACM Conference on Fairness, Accountability, and Transparency. 2025. 問題点 解決案 エージェント まとめ • LLMにペルソナを与え, 避難・融資・採⽤などの 意思決定シナリオで⽐較 • ほぼすべてのシミュレー ションで有意な意思決定 格差が観測 © Neurogica Inc.
What Is Your AI Agent Buying? [6] • LLM購買エージェントについて, モデルごとの選好バ
イアスを実証 • 商品の位置, 価格, レビュー数, 広告タグの有無などに 対する感応度がモデルごと, 世代ごとに異なる. エージェントにおけるバイアス ② はじめに [6] Allouah, Amine, et al. "What Is Your AI Agent Buying? Evaluation, Biases, Model Dependence, & Emerging Implications of Agentic E-Commerce." Proceedings of the ACM Web Conference 2026. 問題点 解決案 エージェント まとめ ←位置バイアスを⽰す タグや評価による→ 影響を⽰す © Neurogica Inc.
まとめ はじめに 問題点 解決案 エージェント まとめ LLM評価の問題 • 選択肢の順番にバイア スが存在
• 評価するモデルと同じ モデルの⽣成物を⾼く 評価 エージェントへの進化 • テキスト評価だけでな く操作, 意思決定も • LLMの意思決定にもバ イアスが存在 © Neurogica Inc.. LLM as a Judge ⼈間と近い評価を⼈間よりは るかに短時間低コストで実⾏ 可能