NeurIPS 2023 論文読み会　Are Emergent Abilities of Large Language Models a Mirage? / neurips2023_reading

NeurIPS 2023 論⽂読み会 2024/01/18 Hiroaki Shioya Are Emergent Abilities of
Large Language Models a Mirage?

2 紹介する論⽂ Are Emergent Abilities of Large Language Models a
Mirage? (⼤規模⾔語モデルの創発的な能⼒は幻想か︖) n ⼤規模⾔語モデルが持つとされる創発能⼒ (Emergent Abilities)がモデルの能⼒ではなく評価指標によってもたらされている可能性を⽰唆する論⽂ n Outstanding Main Track Papersに選定 https://blog.neurips.cc/2023/12/11/announcing-the-neurips-2023-paper-awards/

3 Emergent Abilitiesとは⼩規模モデルには存在しないが、⼤規模モデルになると突然現れる能⼒。モデルを⼤きくしていくと、あるところでパフォーマンスが急激に向上する現象が報告されている。どのような現象か︖ n 右図のように、パラメータ(横軸)を⼤きくしていくと突然パフォーマンス(縦軸)が上昇する n
Emergent Abilities of Large Language Models[Wei, 2022]にて報告されたなぜ重要か︖ n GPT-3で初めて発⾒され、⼤規模モデルに特有の性質ではないかと考えられた n 急激な能⼒の発現は興味深い性質な⼀⽅、予想できない危険な能⼒を習得する可能性も⽰唆する “Are Emergent Abilities of Large Language Models a Mirage?” から引⽤。以下、図表・数式は特に断りがなければ同論⽂から引⽤・加⼯

4 LLMのEmergent Abilitiesは本物か︖ 著者は、過去に報告された創発的な能⼒は特定の性質を持った指標の下で起こっていることを指摘。創発的な能⼒はモデルの能⼒ではなく指標によるものであるという別の説明を提⽰し、検証した。過去の報告結果の観察から得られる仮説 n 過去に報告された創発的な能⼒はモデルのトークンごとのエラー率を⾮線形/不連続にスケールする指標のもとで起きている
→ 創発的な能⼒はLLMではなく指標によって引き起こされている可能性はないか︖ 仮説を検証するアプローチ n Step1. 創発的な能⼒が指標によって起こされる理由を単純化された数学的モデルで説明 n Step2. 上記のモデルが正しい場合に予測されることが実際に起こるかどうか3つの⽅法で検証 1. InstructGPTの出⼒を⽤いた検証 2. 過去論⽂で報告された結果のメタ分析 3. LLMでないビジョンタスクでの創発能⼒の誘発

5 トークンごとの正解確率 n スケーリング則により、クロスエントロピーがモデルパラメータの冪乗 (右図 A) n クロスエントロピーは n
以上より、トークンごとの正解確率 (右図 B) 指標によって創発が起きる理由を単純な数学モデルで説明するスケーリング則により、トークンごとの正解確率はモデルパラメータに応じて滑らかに変化すると仮定することができる。

6 評価指標の値 n 正解との完全⼀致を測る指標の場合は、トークンごとの正解確率の冪乗になる(右図 C) n 正解との⼀致度を測る指標の場合は、トークンごとの正解確率に対して線形になる(右図 E)
指標によって創発が起きる理由を単純な数学モデルで説明する指標の選択により、トークンごとの正解確率に対して線形・滑らかに変化するか⾮線形・急激に変化するかが変わってしまう。 ※Lはトークン⻑を表す ※Accuracyは各トークンの正解確率が独⽴と仮定、トークン編集距離は追加・削除を無視するなどして近似している。詳細は論⽂のAppendixを参照。

7 数学モデルから得られる予想トークン正解率と評価指標に関する数学モデルが正しいとすると、LLMの挙動に関していくつかの予想が⽴てられる。それらをLLMとベンチマークデータを⽤いて検証していく。指標に関する数学的モデルから得られる予想 1. ⾮線形/不連続な指標から線形/連続な指標に変えればパフォーマンスの向上は滑らかになる (右図 C
→ E や D → Fのような変更が⾒える) 2. ⾮線形な指標でも、テストデータセットを増やせば、パラメータの⼩さな領域での滑らかな改善が⾒える(全く解けない訳ではない) 3. ターゲット⽂字列の増加に従い、トークン編集距離は準線形的に、精度は幾何学的に影響を受ける(数学モデルのカーブの形に近い)

8 線形な指標に代えることで創発が消失する創発能⼒が報告されていた整数の乗算/加算タスクの両⽅で、⾮線形な指標(精度)から線形な指標 (トークン編集距離)に直すことでパフォーマンスの向上は予測可能で滑らかになる。何を調べた︖ n 創発が報告された2桁整数の掛け算、4桁整数の⾜し算におけるLLMの性能を線形/⾮線形の指標で評価 n
指標の変更により創発が消失するのか確認 n パラメータやターゲット⻑の増加に従い、性能が事前に⽴てた数学モデルに近い挙動を⽰すか確認何が分かった︖ n 指標を代えると創発が消失 n パラメータやターゲット⻑に対するパフォーマンスの挙動も数学モデルで⽴てた予想に近い数学モデルによる予想 LLMの精度(中央: 2桁乗算右︓4桁加算)

9 ⾼解像度な評価を⾏うことで創発が消失する精度のような⾮線形な指標であっても、追加のテストデータを⽣成して精度の解像度を上げるとパラメータの⼩さいモデルでも0以上の精度を⽰すことが分かる。何を調べた︖ n テストデータを増やすことで精度をより正確に推定する何が分かった︖ n
テストデータを増やし⼩さな確率でも評価可能な状態にすると、パラメータが⼩さいモデルでも0 以上の正解確率を⽰す n 全く解けなかったというよりは、数学モデルで予想したような変化に⾒合ったカーブを描いて改善する数学モデルによる予想 LLMの精度(中央: 2桁乗算右︓4桁加算) ※⼩さい領域での変化が⾒えるように縦軸が対数軸に変更されている

10 創発能⼒は⾮線形/不連続な指標に現れていた創発能⼒が報告されたBig-Benchによる評価をメタ分析すると、創発能⼒は限られた指標でのみ観察されており、その多くが⾮線形/不連続な指標であった。何を調べた︖ n Big-Benchにおける創発能⼒をEmergence Scoreにより評価何が分かった︖ n
創発能⼒を⽰したのは5/39個の指標で、それらは⾮線形/不連続な指標をだった (Exact String Match, Multiple Choice Grade, ROUGE-L-Sum など) Big-Benchにおける指標ごとのEmergence Scoreの分布

11 創発能⼒は⾮線形/不連続な指標に現れていた創発能⼒が報告されたBig-Benchによる評価をメタ分析すると、創発能⼒は限られた指標でのみ観察されており、その多くが⾮線形/不連続な指標であった。何を調べた︖ n Big-Benchにおける創発能⼒を⼿動で評価何が分かった︖ n 創発能⼒を⽰したのは4/39個の指標で、それら
は⾮線形/不連続な指標をだった (Exact String Match, Multiple Choice Gradeなど) 創発を⽰した指標の数創発を⽰した指標の内訳

12 ⾮線形/不連続な指標を置き換えると創発は消失した LaMDAモデルがBig-Benchにおいて創発能⼒を⽰すタスクを特定し、評価指標を別の指標で置き換えると創発能⼒が消失した。何を調べた︖ n LaMDAモデルがMultiple Choice Gradeで創発能⼒を⽰すタスクを特定し、別の指標(Brier
Score)で再評価し、創発が消失するか確認何が分かった︖ n 元々観察されていた創発が消失

13 LLMでなくとも指標を選べば創発を観測できるこれまで創発が観測されていなかったビジョンタスクで⼩規模のモデルを使⽤した場合でも、指標を⾮連続なものに変えれば創発が起こっているように⾒える性能の急改善を観測できる。何を調べた︖ n AutoEncoderによるCIFER100の再構成誤差を不連続な指標で評価し、創発が出現するか確認何が分かった︖ n
通常の再構成誤差では改善が滑らかだったが、代わりの指標では創発があるかのように急変化 n LLMで報告された創発と似たカーブを描く通常の再構成誤差不連続な再構成誤差 “創発”が発⽣似た挙動を⽰す LLMにおける創発の例

14 LLMでなくとも指標を選べば創発を観測できるこれまで創発が観測されていなかったビジョンタスクで⼩規模のモデルを使⽤した場合でも、指標を⾮連続なものに変えれば創発が起こっているように⾒える性能の急改善を観測できる。何を調べた︖ n TransformerによるOmniglot画像分類をL個の画像全て正しく分類できた時に1、そうでない場合に0を取るような不連続な指標で評価し、創発が出現するか確認
何が分かった︖ n 通常のAccuracy(L=1)では改善が滑らかだったが、L=3では創発があるかのように急変化 n LLMで報告された創発と似たカーブを描く LLMにおける創発の例 L=1の場合の精度 L=3の場合の精度 “創発”が発⽣似た挙動を⽰す

15 まとめ n LLMの創発能⼒は指標によって引き起こされているという別の説明が可能 n トークンのエラー率がパラメータの増⼤によって滑らかに減少する場合でも、指標によっては⾮連続な変化が起き得ることを単純な数学モデルで確認 n 過去に報告された創発能⼒は⾮連続な指標のもとで起こっていること、指標を変更することで創発が消失することを確認
n 逆に、指標を適当に設定すればLLMでなくとも創発に⾒える性能の急改善を導⼊することができる n ただし、本論⽂の内容はLLMが創発的な能⼒を発揮していない/できないと主張するものではなく、あくまで既存の報告結果は指標によってそう⾒えている可能性があると解釈されるべき点に注意

NeurIPS 2023 論文読み会　Are Emergent Abilities of La...

NeurIPS 2023 論文読み会　Are Emergent Abilities of Large Language Models a Mirage? / neurips2023_reading

Hiroaki Shioya

Featured

Transcript

NeurIPS 2023 論⽂読み会 2024/01/18 Hiroaki Shioya Are Emergent Abilities of

2 紹介する論⽂ Are Emergent Abilities of Large Language Models a

5 トークンごとの正解確率 n スケーリング則により、クロスエントロピーがモデルパラメータの冪乗 (右図 A) n クロスエントロピーは n

6 評価指標の値 n 正解との完全⼀致を測る指標の場合は、トークンごとの正解確率の冪乗になる(右図 C) n 正解との⼀致度を測る指標の場合は、トークンごとの正解確率に対して線形になる(右図 E)

NeurIPS 2023 論文読み会 Are Emergent Abilities of La...

NeurIPS 2023 論文読み会 Are Emergent Abilities of Large Language Models a Mirage? / neurips2023_reading

Featured

Transcript

NeurIPS 2023 論文読み会　Are Emergent Abilities of La...

NeurIPS 2023 論文読み会　Are Emergent Abilities of Large Language Models a Mirage? / neurips2023_reading