【論文紹介】Large Language Models Sensitivity to The Order of Options in Multiple-Choice Questions

Soichiro MURAKAKAMI Large Language Models Sensitivity to The Order of
Options in Multiple-Choice Questions https://arxiv.org/abs/2308.11483v1

2 紹介する論文 • 多肢選択問題における選択肢の提示順に対する感度（sensitivity）を調査 ◦ 著者はMegagon Labs（リクルート）

3 概要 • 背景 ◦ LLMはプロンプトやサンプルの提示順序に対して感度が高い（ sensitive） ▪ e.g., プロンプトを少し変えるだけで生成内容が変わる
• 本研究 ◦ MCQ（Multiple-Choice Question;多肢選択問題）における選択肢の提示順に対する感度（sensitivity）を調査する • 結果 ◦ 選択肢の提示順によって75%も性能差があった ◦ 位置バイアスを増幅・減衰させる方法を明らかにした ◦ キャリブレーションの手法を有用性を明らかにした

4 背景: 多肢選択問題（Multiple-Choice Question; MCQ） • 質問に対する回答を複数選択肢の中から回答するタスク [Q] アメリカの首都はどこですか？ A:
ニューヨーク B: トーキョー C: ボストン D: ワシントンD.C. D: ワシントンD.C.

5 背景: 多肢選択問題（MCQ）におけるLLMの感度 • 選択肢の順番を入れ替えることで、生成内容が変化する

6 Research Question 1. MCQにおいてLLMはどのくらい提示順に対して感度が高いか 2. 提示順に対する感度にはどのような要因があるか 3. 提示順に対するLLMの頑健性を改善させる方法

7 実験設定 • タスク ◦ 多肢選択問題（Multiple-Choice Question） • モデル ◦
InstructGPT ◦ GPT4 • データセット ◦ 5つのMCQベンチマークデータ ◦ 選定基準: ドメインの多様性, 選択肢の数（3〜5）, LLMにとっての難易度

8 RQ1. 提示順に対する感度の調査 • 目的 ◦ Zero-shot / Few-shot設定における提示順に対する感度を調査する •
方法 ◦ 感度を定量化するために性能が最も良かった・悪かった順序の性能差（Sensitivity gap）を算出した

9 • GPT-4がInstructGPTよりも性能差（MaxとMinの差）が小さい ◦ より強力なモデルの方が性能が安定しやすいのではないか RQ1. 提示順に対する感度の調査 (zero-shot設定の結果)

10 • GPT-4が精度高いベンチマークでも13.1%の性能差が生じている ◦ モデルにとって（比較的）簡単なタスクでも性能差は生じる RQ1. 提示順に対する感度の調査 (zero-shot設定の結果)

11 • 予測性能が低いタスクで必ずしも大きな性能差があるわけではない ◦ e.g., Professional Law • 選択肢の数やドメインと感度には明らかな相関は見受けられなかった RQ1.
提示順に対する感度の調査 (zero-shot設定の結果) → 何か他の要因があるのでは？

12 • Few-shotであっても依然として性能差は大きい RQ1. 提示順に対する感度の調査 (few-shot設定の結果)

13 • 予測性能が向上するにつれて性能差は小さくなっている ◦ ただしサンプルを増やしても性能差が小さくなるわけではない RQ1. 提示順に対する感度の調査 (few-shot設定の結果)

14 RQ2. 提示順に対する感度の要因は何か • 事例分析を通して、2つの仮説を立てた ◦ (1) 予測の不確実性 ▪ 最もらしい選択肢（上位の候補選択肢）の中から正解を選ぶことはより難しい
◦ (2) 位置バイアス ▪ 特定の位置にある選択肢を好んで選ぶ傾向がある

15 RQ2. 提示順に対する感度の要因は何か - (1) 予測の不確実性- • 予測の誤り率と性能差は相関している ◦ 2モデル
× 5データセットで検証したので10点をプロット性能差予測の誤り率

16 RQ2. 提示順に対する感度の要因は何か - (1) 予測の不確実性- • 可能性の高い回答候補に類似した選択肢がある時、予測がブレやすい A) overpriced
B) purchase C) expensive D) park E) buying Most items in retail stores are what even when they are on sale? 可能性の高い回答候補

17 RQ2. 提示順に対する感度の要因は何か - (1) 予測の不確実性- • LLMに可能性の高い選択肢が2つ以上あるかを聞いた ◦ 提示順に対して感度が高い事例の
94%について、モデルがyesと答えた A) overpriced B) purchase C) expensive D) park E) buying Most items in retail stores are what even when they are on sale? 可能性の高い回答候補

18 RQ2. 提示順に対する感度の要因は何か - (2) 位置バイアス - • 各事例をより簡易化して、選択肢の提示順が与える影響を調査したい ◦
提示順以外の他の何らかの要因を切り離すために、選択肢の数を削減 ◦ LLMに選択肢をランキングさせて、可能性が高い選択肢だけ残すランキングにより、正解を選べているか ?

19 RQ2. 提示順に対する感度の要因は何か - (2) 位置バイアス - • 可能性の高い選択肢だけに絞ってみたが、予測性能はあまり変わらない ◦
提示順に対する感度は位置バイアスが影響していることを示唆全選択肢を残している場合と比べて、性能は殆ど変わっていない

20 提示順における位置バイアスを増幅/軽減させる方法 • 位置バイアスを増幅 / 軽減させる方法を調査 ◦ 可能性の高い2つの選択肢（Top-2 choices）の配置に焦点を当てて調査【5つの選択肢
増幅パターン】先頭に最も可能性の高い選択肢、末尾に次に可能性の高い選択肢

21 提示順における位置バイアスを増幅/軽減させる方法位置バイアスを軽減させる位置バイアスを増幅させる [Q] アメリカの首都はどこですか？ A: ニューヨーク B: トーキョー
C: ボストン D: ワシントンD.C. [Q] アメリカの首都はどこですか？ A: ニューヨーク B: ワシントンD.C. C: トーキョー D: ボストン Top-2 choicesを先頭と末尾に配置 Top-2 choicesを先頭, 2番目に隣接して配置

22 提示順における位置バイアスを増幅/軽減させる方法 • 位置バイアス増幅/軽減パターンの有用性を検証する • 増幅パターンの検証方法 ◦ (1) 最も性能が高くなる配置 →
(2) Top-1とTop-2の配置を交換 ◦ (1)と(2)の性能差を計測 ◦ seino 性能差が大きくなることを確認（ 20〜72%）

23 提示順における位置バイアスを増幅/軽減させる方法 • 軽減パターンの検証方法 ◦ (1) Top-2 choicesの位置を固定 ◦ (2)
他の選択肢の位置を並び替えたときの性能を計測 ◦ (3) (2)における最高/最低性能の差を算出性能差が小さいことを確認（ 0.9〜38%）

24 RQ3. 提示順に対するLLMの頑健性を改善させる方法 • MCQタスクのためのキャリブレーションとして2手法を検証 • (1) Majority vote (Bootstrapping
Approach) ◦ 選択肢のランダム並び替え & 予測を10回繰り返し、majorityを採用性能改善に寄与・GPT-4のほうがより安定

25 RQ3. 提示順に対するLLMの頑健性を改善させる方法 • (2) Multiple Evidence Calibration (MEC) [Wang
et al. (2023)] ◦ 根拠を説明をしてから予測するようにプロンプトで指示する方法 ◦ 先行研究においてLLMの感度を和らげることを確認 InstructGPTで性能劣化を確認 Majority voteとは異なる傾向

26 RQ3. 提示順に対するLLMの頑健性を改善させる方法 • (2) Multiple Evidence Calibration (MEC) [Wang
et al. (2023)] ◦ 【性能劣化の要因】モデルのconfidenceが高くないときに推論根拠を説明させることで（hallucinationが発生し）不確実性を増幅させていた InstructGPTで性能劣化を確認 Majority voteとは異なる傾向

27 まとめ • Research Question 1. MCQにおいてLLMはどのくらい提示順に対して感度が高いか: 〜75%の性能差 2. 提示順に対する感度にはどのような要因があるか:
不確実性, 位置バイアス 3. 提示順に対するLLMの頑健性を改善させる方法: Majority vote > MEC • 今後の課題 ◦ より効率的なキャリブレーション手法の開発 ▪ Majority voteは有用だが, 何度も予測する必要があり計算量が大きい ◦ 評価指標の改良 ▪ 感度に頑健な評価ができるようにしたい

【論文紹介】Large Language Models Sensitivity to The ...

【論文紹介】Large Language Models Sensitivity to The Order of Options in Multiple-Choice Questions

Soichiro Murakami

More Decks by Soichiro Murakami

Other Decks in Research

Featured

Transcript

Soichiro MURAKAKAMI Large Language Models Sensitivity to The Order of

2 紹介する論文 • 多肢選択問題における選択肢の提示順に対する感度（sensitivity）を調査 ◦ 著者はMegagon Labs（リクルート）

3 概要 • 背景 ◦ LLMはプロンプトやサンプルの提示順序に対して感度が高い（ sensitive） ▪ e.g., プロンプトを少し変えるだけで生成内容が変わる

4 背景: 多肢選択問題（Multiple-Choice Question; MCQ） • 質問に対する回答を複数選択肢の中から回答するタスク [Q] アメリカの首都はどこですか？ A:

5 背景: 多肢選択問題（MCQ）におけるLLMの感度 • 選択肢の順番を入れ替えることで、生成内容が変化する

6 Research Question 1. MCQにおいてLLMはどのくらい提示順に対して感度が高いか 2. 提示順に対する感度にはどのような要因があるか 3. 提示順に対するLLMの頑健性を改善させる方法

7 実験設定 • タスク ◦ 多肢選択問題（Multiple-Choice Question） • モデル ◦

8 RQ1. 提示順に対する感度の調査 • 目的 ◦ Zero-shot / Few-shot設定における提示順に対する感度を調査する •

9 • GPT-4がInstructGPTよりも性能差（MaxとMinの差）が小さい ◦ より強力なモデルの方が性能が安定しやすいのではないか RQ1. 提示順に対する感度の調査 (zero-shot設定の結果)

10 • GPT-4が精度高いベンチマークでも13.1%の性能差が生じている ◦ モデルにとって（比較的）簡単なタスクでも性能差は生じる RQ1. 提示順に対する感度の調査 (zero-shot設定の結果)

11 • 予測性能が低いタスクで必ずしも大きな性能差があるわけではない ◦ e.g., Professional Law • 選択肢の数やドメインと感度には明らかな相関は見受けられなかった RQ1.

12 • Few-shotであっても依然として性能差は大きい RQ1. 提示順に対する感度の調査 (few-shot設定の結果)

13 • 予測性能が向上するにつれて性能差は小さくなっている ◦ ただしサンプルを増やしても性能差が小さくなるわけではない RQ1. 提示順に対する感度の調査 (few-shot設定の結果)

14 RQ2. 提示順に対する感度の要因は何か • 事例分析を通して、2つの仮説を立てた ◦ (1) 予測の不確実性 ▪ 最もらしい選択肢（上位の候補選択肢）の中から正解を選ぶことはより難しい

15 RQ2. 提示順に対する感度の要因は何か - (1) 予測の不確実性- • 予測の誤り率と性能差は相関している ◦ 2モデル

16 RQ2. 提示順に対する感度の要因は何か - (1) 予測の不確実性- • 可能性の高い回答候補に類似した選択肢がある時、予測がブレやすい A) overpriced

17 RQ2. 提示順に対する感度の要因は何か - (1) 予測の不確実性- • LLMに可能性の高い選択肢が2つ以上あるかを聞いた ◦ 提示順に対して感度が高い事例の

18 RQ2. 提示順に対する感度の要因は何か - (2) 位置バイアス - • 各事例をより簡易化して、選択肢の提示順が与える影響を調査したい ◦

19 RQ2. 提示順に対する感度の要因は何か - (2) 位置バイアス - • 可能性の高い選択肢だけに絞ってみたが、予測性能はあまり変わらない ◦

20 提示順における位置バイアスを増幅/軽減させる方法 • 位置バイアスを増幅 / 軽減させる方法を調査 ◦ 可能性の高い2つの選択肢（Top-2 choices）の配置に焦点を当てて調査【5つの選択肢

21 提示順における位置バイアスを増幅/軽減させる方法位置バイアスを軽減させる位置バイアスを増幅させる [Q] アメリカの首都はどこですか？ A: ニューヨーク B: トーキョー

22 提示順における位置バイアスを増幅/軽減させる方法 • 位置バイアス増幅/軽減パターンの有用性を検証する • 増幅パターンの検証方法 ◦ (1) 最も性能が高くなる配置 →

23 提示順における位置バイアスを増幅/軽減させる方法 • 軽減パターンの検証方法 ◦ (1) Top-2 choicesの位置を固定 ◦ (2)

24 RQ3. 提示順に対するLLMの頑健性を改善させる方法 • MCQタスクのためのキャリブレーションとして2手法を検証 • (1) Majority vote (Bootstrapping

25 RQ3. 提示順に対するLLMの頑健性を改善させる方法 • (2) Multiple Evidence Calibration (MEC) [Wang

26 RQ3. 提示順に対するLLMの頑健性を改善させる方法 • (2) Multiple Evidence Calibration (MEC) [Wang

27 まとめ • Research Question 1. MCQにおいてLLMはどのくらい提示順に対して感度が高いか: 〜75%の性能差 2. 提示順に対する感度にはどのような要因があるか: