Upgrade to Pro — share decks privately, control downloads, hide ads and more …

NeurIPS 2023 論文読み会 Are Emergent Abilities of La...

Sponsored · Your Podcast. Everywhere. Effortlessly. Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
Avatar for Hiroaki Shioya Hiroaki Shioya
January 18, 2024
670

NeurIPS 2023 論文読み会 Are Emergent Abilities of Large Language Models a Mirage? / neurips2023_reading

Avatar for Hiroaki Shioya

Hiroaki Shioya

January 18, 2024
Tweet

Transcript

  1. 2 紹介する論⽂ Are Emergent Abilities of Large Language Models a

    Mirage? (⼤規模⾔語モデルの創発的な能⼒は幻想か︖) n ⼤規模⾔語モデルが持つとされる創発能⼒ (Emergent Abilities)がモデルの能⼒ではなく 評価指標によってもたらされている可能性を ⽰唆する論⽂ n Outstanding Main Track Papersに選定 https://blog.neurips.cc/2023/12/11/announcing-the-neurips-2023-paper-awards/
  2. 3 Emergent Abilitiesとは ⼩規模モデルには存在しないが、⼤規模モデルになると突然現れる能⼒。モデルを⼤きくしていくと、 あるところでパフォーマンスが急激に向上する現象が報告されている。 どのような現象か︖ n 右図のように、パラメータ(横軸)を⼤きくしてい くと突然パフォーマンス(縦軸)が上昇する n

    Emergent Abilities of Large Language Models[Wei, 2022]にて報告された なぜ重要か︖ n GPT-3で初めて発⾒され、⼤規模モデルに特有の 性質ではないかと考えられた n 急激な能⼒の発現は興味深い性質な⼀⽅、 予想できない危険な能⼒を習得する可能性も ⽰唆する “Are Emergent Abilities of Large Language Models a Mirage?” から引⽤。 以下、図表・数式は特に断りがなければ同論⽂から引⽤・加⼯
  3. 4 LLMのEmergent Abilitiesは本物か︖ 著者は、過去に報告された創発的な能⼒は特定の性質を持った指標の下で起こっていることを指摘。創発的 な能⼒はモデルの能⼒ではなく指標によるものであるという別の説明を提⽰し、検証した。 過去の報告結果の観察から得られる仮説 n 過去に報告された創発的な能⼒はモデルのトークン ごとのエラー率を⾮線形/不連続にスケールする 指標のもとで起きている

    → 創発的な能⼒はLLMではなく指標によって引き起こ されている可能性はないか︖ 仮説を検証するアプローチ n Step1. 創発的な能⼒が指標によって起こされる理由を単純化 された数学的モデルで説明 n Step2. 上記のモデルが正しい場合に予測されることが実際に 起こるかどうか3つの⽅法で検証 1. InstructGPTの出⼒を⽤いた検証 2. 過去論⽂で報告された結果のメタ分析 3. LLMでないビジョンタスクでの創発能⼒の誘発
  4. 5 トークンごとの正解確率 n スケーリング則により、クロスエントロピーが モデルパラメータの冪乗 (右図 A) n クロスエントロピーは n

    以上より、トークンごとの正解確率 (右図 B) 指標によって創発が起きる理由を単純な数学モデルで説明する スケーリング則により、トークンごとの正解確率はモデルパラメータに応じて滑らかに変化すると仮定する ことができる。
  5. 6 評価指標の値 n 正解との完全⼀致を測る指標の場合は、トークン ごとの正解確率の冪乗になる(右図 C) n 正解との⼀致度を測る指標の場合は、トークン ごとの正解確率に対して線形になる(右図 E)

    指標によって創発が起きる理由を単純な数学モデルで説明する 指標の選択により、トークンごとの正解確率に対して線形・滑らかに変化するか⾮線形・急激に変化するか が変わってしまう。 ※Lはトークン⻑を表す ※Accuracyは各トークンの正解確率が独⽴と仮定、トークン編集距離は追加・削除を無視 するなどして近似している。詳細は論⽂のAppendixを参照。
  6. 7 数学モデルから得られる予想 トークン正解率と評価指標に関する数学モデルが正しいとすると、LLMの挙動に関していくつかの予想が ⽴てられる。それらをLLMとベンチマークデータを⽤いて検証していく。 指標に関する数学的モデルから得られる予想 1. ⾮線形/不連続な指標から線形/連続な指標に 変えればパフォーマンスの向上は滑らかになる (右図 C

    → E や D → Fのような変更が⾒える) 2. ⾮線形な指標でも、テストデータセットを増や せば、パラメータの⼩さな領域での滑らかな改 善が⾒える(全く解けない訳ではない) 3. ターゲット⽂字列の増加に従い、トークン編集 距離は準線形的に、精度は幾何学的に影響を受 ける(数学モデルのカーブの形に近い)
  7. 8 線形な指標に代えることで創発が消失する 創発能⼒が報告されていた整数の乗算/加算タスクの両⽅で、⾮線形な指標(精度)から線形な指標 (トークン編集距離)に直すことでパフォーマンスの向上は予測可能で滑らかになる。 何を調べた︖ n 創発が報告された2桁整数の掛け算、4桁整数の ⾜し算におけるLLMの性能を線形/⾮線形の指標 で評価 n

    指標の変更により創発が消失するのか確認 n パラメータやターゲット⻑の増加に従い、性能が 事前に⽴てた数学モデルに近い挙動を⽰すか確認 何が分かった︖ n 指標を代えると創発が消失 n パラメータやターゲット⻑に対するパフォーマン スの挙動も数学モデルで⽴てた予想に近い 数学モデルによる予想 LLMの精度(中央: 2桁乗算 右︓4桁加算)
  8. 9 ⾼解像度な評価を⾏うことで創発が消失する 精度のような⾮線形な指標であっても、追加のテストデータを⽣成して精度の解像度を上げると パラメータの⼩さいモデルでも0以上の精度を⽰すことが分かる。 何を調べた︖ n テストデータを増やすことで精度をより正確に 推定する 何が分かった︖ n

    テストデータを増やし⼩さな確率でも評価可能な 状態にすると、パラメータが⼩さいモデルでも0 以上の正解確率を⽰す n 全く解けなかったというよりは、数学モデルで 予想したような変化に⾒合ったカーブを描いて 改善する 数学モデルによる予想 LLMの精度(中央: 2桁乗算 右︓4桁加算) ※⼩さい領域での変化が⾒えるように縦軸が対数軸に変更されている
  9. 15 まとめ n LLMの創発能⼒は指標によって引き起こされているという別の説明が可能 n トークンのエラー率がパラメータの増⼤によって滑らかに減少する場合でも、指標によっては⾮連続な 変化が起き得ることを単純な数学モデルで確認 n 過去に報告された創発能⼒は⾮連続な指標のもとで起こっていること、指標を変更することで創発が 消失することを確認

    n 逆に、指標を適当に設定すればLLMでなくとも創発に⾒える性能の急改善を導⼊することができる n ただし、本論⽂の内容はLLMが創発的な能⼒を発揮していない/できないと主張するものではなく、 あくまで既存の報告結果は指標によってそう⾒えている可能性があると解釈されるべき点に注意