Slide 27
Slide 27 text
27
まとめ
● Research Question
1. MCQにおいてLLMはどのくらい提示順に対して感度が高いか: 〜75%の性能差
2. 提示順に対する感度にはどのような要因があるか: 不確実性, 位置バイアス
3. 提示順に対するLLMの頑健性を改善させる方法: Majority vote > MEC
● 今後の課題
○ より効率的なキャリブレーション手法の開発
■ Majority voteは有用だが, 何度も予測する必要があり計算量が大きい
○ 評価指標の改良
■ 感度に頑健な評価ができるようにしたい