Upgrade to Pro — share decks privately, control downloads, hide ads and more …

【論文紹介】Large Language Models Sensitivity to The Order of Options in Multiple-Choice Questions

【論文紹介】Large Language Models Sensitivity to The Order of Options in Multiple-Choice Questions

社内論文読み会で使用した資料です。

元論文はこちらです。
Pezeshkpour, Pouya, and Estevam Hruschka. 2023. “Large Language Models Sensitivity to The Order of Options in Multiple-Choice Questions.” arXiv [cs.CL]. arXiv. http://arxiv.org/abs/2308.11483.

Soichiro Murakami

December 18, 2023
Tweet

More Decks by Soichiro Murakami

Other Decks in Research

Transcript

  1. Soichiro MURAKAKAMI Large Language Models Sensitivity to The Order of

    Options in Multiple-Choice Questions https://arxiv.org/abs/2308.11483v1
  2. 3 概要 • 背景 ◦ LLMはプロンプトやサンプルの提示順序に対して感度が高い( sensitive) ▪ e.g., プロンプトを少し変えるだけで生成内容が変わる

    • 本研究 ◦ MCQ(Multiple-Choice Question;多肢選択問題)における選択肢の提示順に 対する感度(sensitivity)を調査する • 結果 ◦ 選択肢の提示順によって75%も性能差があった ◦ 位置バイアスを増幅・減衰させる方法を明らかにした ◦ キャリブレーションの手法を有用性を明らかにした
  3. 7 実験設定 • タスク ◦ 多肢選択問題(Multiple-Choice Question) • モデル ◦

    InstructGPT ◦ GPT4 • データセット ◦ 5つのMCQベンチマークデータ ◦ 選定基準: ドメインの多様性, 選択肢の数(3〜5), LLMにとっての難易度
  4. 8 RQ1. 提示順に対する感度の調査 • 目的 ◦ Zero-shot / Few-shot設定における提示順に対する感度を調査する •

    方法 ◦ 感度を定量化するために性能が最も良かった・悪かった順序の 性能差 (Sensitivity gap)を算出した
  5. 16 RQ2. 提示順に対する感度の要因は何か - (1) 予測の不確実性- • 可能性の高い回答候補に類似した選択肢がある時、予測がブレやすい A) overpriced

    B) purchase C) expensive D) park E) buying Most items in retail stores are what even when they are on sale? 可能性の高い 回答候補
  6. 17 RQ2. 提示順に対する感度の要因は何か - (1) 予測の不確実性- • LLMに可能性の高い選択肢が2つ以上あるかを聞いた ◦ 提示順に対して感度が高い事例の

    94%について、モデルがyesと答えた A) overpriced B) purchase C) expensive D) park E) buying Most items in retail stores are what even when they are on sale? 可能性の高い 回答候補
  7. 18 RQ2. 提示順に対する感度の要因は何か - (2) 位置バイアス - • 各事例をより簡易化して、選択肢の提示順が与える影響を調査したい ◦

    提示順以外の他の何らかの要因を切り離すために、選択肢の数を削減 ◦ LLMに選択肢をランキングさせて、可能性が高い選択肢だけ残す ランキングにより、 正解を選べているか ?
  8. 19 RQ2. 提示順に対する感度の要因は何か - (2) 位置バイアス - • 可能性の高い選択肢だけに絞ってみたが、予測性能はあまり変わらない ◦

    提示順に対する感度は位置バイアスが影響していることを示唆 全選択肢を残している場合と比べて、性能 は殆ど変わっていない
  9. 21 提示順における位置バイアスを増幅/軽減させる方法 位置バイアスを軽減させる 位置バイアスを増幅させる [Q] アメリカの首都はどこですか? A: ニューヨーク B: トーキョー

    C: ボストン D: ワシントンD.C. [Q] アメリカの首都はどこですか? A: ニューヨーク B: ワシントンD.C. C: トーキョー D: ボストン Top-2 choicesを先頭と末尾に配置 Top-2 choicesを先頭, 2番目に隣接して配置
  10. 23 提示順における位置バイアスを増幅/軽減させる方法 • 軽減パターンの検証方法 ◦ (1) Top-2 choicesの位置を固定 ◦ (2)

    他の選択肢の位置を並び替えたときの性能を計測 ◦ (3) (2)における最高/最低性能の差を算出 性能差が小さいことを確認( 0.9〜38%)
  11. 24 RQ3. 提示順に対するLLMの頑健性を改善させる方法 • MCQタスクのためのキャリブレーションとして2手法を検証 • (1) Majority vote (Bootstrapping

    Approach) ◦ 選択肢のランダム並び替え & 予測を10回繰り返し、majorityを採用 性能改善に寄与・GPT-4のほうがより安定
  12. 25 RQ3. 提示順に対するLLMの頑健性を改善させる方法 • (2) Multiple Evidence Calibration (MEC) [Wang

    et al. (2023)] ◦ 根拠を説明をしてから予測するようにプロンプトで指示する方法 ◦ 先行研究においてLLMの感度を和らげることを確認 InstructGPTで性能劣化を確認 Majority voteとは異なる傾向
  13. 26 RQ3. 提示順に対するLLMの頑健性を改善させる方法 • (2) Multiple Evidence Calibration (MEC) [Wang

    et al. (2023)] ◦ 【性能劣化の要因】モデルのconfidenceが高くないときに推論根拠を説明させるこ とで(hallucinationが発生し)不確実性を増幅させていた InstructGPTで性能劣化を確認 Majority voteとは異なる傾向
  14. 27 まとめ • Research Question 1. MCQにおいてLLMはどのくらい提示順に対して感度が高いか: 〜75%の性能差 2. 提示順に対する感度にはどのような要因があるか:

    不確実性, 位置バイアス 3. 提示順に対するLLMの頑健性を改善させる方法: Majority vote > MEC • 今後の課題 ◦ より効率的なキャリブレーション手法の開発 ▪ Majority voteは有用だが, 何度も予測する必要があり計算量が大きい ◦ 評価指標の改良 ▪ 感度に頑健な評価ができるようにしたい