Upgrade to Pro — share decks privately, control downloads, hide ads and more …

snlp2024

kichi
August 20, 2024
290

 snlp2024

kichi

August 20, 2024
Tweet

Transcript

  1. 概要 • RQ: 最近のLLMは長い入力を扱えるが, 実際どの程度長い文章を正しく理解でき ているのか? • 結果: 抽出したい情報が入力文書中のど の位置にあるかによって,大きく精度が

    変化 • 特に,長い文章の先頭や最後の方に情報が ある時は正解率が高いが,中間にある場合 は正解率が低くなることが多かった.
  2. 背景: LLMが扱える入力長は長くなっている モデル名 最大入力長 (token) GPT4o 128,000 Gemini 1.5 Pro

    2,000,000 Claude 3 200,000 InternLM 2.5 1,000,000 Yi 200k 200,000 Llama 3.1 128,000 Phi3 128k 128,000 Deepseek-V2 128,000 • オープンなモデルでも,100K〜1Mの入力長を扱えるようになってきた • 長い文章をそのままモデルに入力できるように. • 一方で,長い入力に対してモデルがどのように振る舞うのかの検証は少ない • (注)下記は全て2024年以降のモデル.論文発表時点では16,000token程度が主流
  3. Lost in the middle論文のまとめ • LLMが長い入力を読むときに,入力の先頭や最後にある情報に比 べ,中間にある情報を正しく取り出すことができないという位置 バイアスがあることを実験的に明らかにした. • なぜこのような現象が起こるのかという原因を探るため,モデル

    構造やクエリ位置,指示チューニングなどの影響を調べたが,い ずれもUカーブが観測され,明確な原因はわからなかった. • 長い入力の理解に関して改善が必要であることを示した.
  4. より長い入力での調査: Needle In A HayStack • 入力長をシステムの最大長まで変化させ,正解の位置ごとの情報抽出精度を評 価するシステム.OpenAI, Anthropic, Cohereに対応

    • GPT-4の評価では,入力長が73Kあたりから中間位置での精度低下が見られる. ➢ Uカーブと類似した現象が観測された. https://github.com/gkamradt/LLMTest_NeedleInAHaystack?tab=readme-ov-file
  5. より長い入力での評価: ∞BENCH [ACL 2024] • 12種類のタスクを含む長い入力を評価するためのベンチーマークデー タセットを提案 • 入力長の平均は100Kを超える •

    彼らの評価では,Lost-in-the-middleの明確な傾向はみられなかった. • 入力長やタスクによって,Uカーブの傾向が見られる場合とそうでない場合がある? • ただし,正解の位置によって精度が大きく異なるという現象は存在. • 事前に学習されたデータやタスクの影響も大きそう. https://arxiv.org/abs/2402.13718
  6. アテンションバイアスの補正 Found in the middle [ACL findings 2024] • LLMのセルフアテンションを分析したところ,先頭と最後にattentionが強く

    かかるバイアスがあることを確認. • 文書の位置をランダムに入れ替えても同じようなバイアスが観測された. • Attentionの位置バイアスを補正する方法を提案し,精度向上を確認. https://arxiv.org/abs/2406.16008
  7. 位置バイアスの補正・改善 • 位置encodingを工夫する [Zhang+ 2024] • 位置情報を含む内部表現を特定し補正する [Yu+ 2024] •

    位置バイアスを補正するような学習データ・タスクを用いてモデルをfinetune する [Staniszewski+ 2023] [He+ 2023] [An+ 2024] • 入力を複数のchunkに区切って,複数のエージェントに処理させ,結果をマー ジする [Zhao+ 2024] • これらの手法によって正解が中間に位置する場合の精度は向上するが,先頭 に位置している時は精度が悪化してしまうこともある. https://arxiv.org/abs/2403.04797 https://arxiv.org/abs/2406.02536 https://arxiv.org/abs/2404.16811 https://arxiv.org/abs/2402.11550 https://arxiv.org/abs/2311.09198 https://arxiv.org/abs/2312.17296
  8. LLMを用いたランキングタスクにおける 位置バイアス • 長い入力とは無関係に,LLMを出力評価などのランキングタスクに用 いる場合にposition biasが存在することは以前から指摘されてきた. [Wang+ 2023] [Shi+ 2024]

    • E.g., 先頭の候補が選択されやすい. • 根本的には同じ問題? • ランキングタスクに対しては,入力の順序を複数パターン検証し結果 を統合することである程度位置バイアスが解消できることが報告され ている[Wang+ 2023] [Tang+ 2023] • 長い入力の場合コストが高すぎてこの方法は現実的ではなさそう https://arxiv.org/abs/2305.17926 https://arxiv.org/abs/2310.07712 https://arxiv.org/abs/2406.07791
  9. 所感 • なぜ位置のバイアスが生じるのか? • 学習データや次単語予測の影響?Positional encodingの影響? • 位置バイアスはどのような意味を持つのか? • テキストの構造や特徴を捉えた必要な(自然な)バイアスなのか,意図しない(排除すべ

    き)バイアスなのか • 位置のバイアスを軽減させるためには? • 事後学習の工夫やposition encodingの事後的な工夫が多い • 事前学習の時点での工夫が必要か? • 例えば,Instruction Pre-training [1]のような,事前学習で指示チューニングも合わせて行う ような手法も出てきているが,このようなモデルでは傾向が異なるか? [1] https://arxiv.org/abs/2406.14491