Emergent Abilities of Large Language Models

Emergent Abilities of Large Language Models Jason Wei et al.
Transactions on Machine Learning Research (TMLR), 2022. https://arxiv.org/abs/2206.07682 第90回汎用人工知能輪読会 2023/2/22 担当: 太田晋 1

現在は OpenAI の ChatGPT チーム https://twitter.com/_jasonwei/status/1625575747401441280 3

概要大規模言語モデル(Large Language Model, LLM)の創発能力に関するサーベイ論文小規模モデルでは現れず大規模になると現れる予測不可能な現象(外挿だけでは予測出来ない) さらなるスケーリングで未知の創発能力
が現れる可能性 4

目次背景言語モデルのスケーリング則創発能力の定義創発能力の例 Few-Shot プロンプト拡張プロンプト議論なぜ能力が創発されるのか？
創発のリスク今後の方向性結論 5

背景言語モデルのスケーリング則 6

LM のスケーリング則 3つの要因を増加すると、べき乗則でスムーズに性能向上計算資源データセットサイズパラメータ数 (Kaplan et al.,
2020) 7

創発能力の定義創発 LLM の創発能力 8

創発 Emergence is when quantitative changes in a system result
in qualitative changes in behavior. 量的な変化が質的な変化を引き起こすこと質的変化は相転移とも呼ばれる LLM の創発能力 An ability is emergent if it is not present in smaller models but is present in larger models. 小規模モデルには現れないが大規模モデルに現れる能力スケーリング則からは予測出来ない 9

創発能力の例 Few-Shot プロンプト拡張プロンプト 10

Few-Shot プロンプト GPT-3 (Brown et al., 2020) で広く知られるようになったコンテキストとして数個の入出力例を与える
と、未見の推論タスクを実行出来る追加学習・勾配更新なしモデルがある規模まではランダムだが、ある規模以上で創発能力が現れる 11

Few-Shot プロンプト結果モデルがある規模まではランダムある規模以上で創発能力が現れる 12

Modified Arithmetic タスク (前頁の Fig. 2 (A)) 目的: LLM が少数の例から実際に新しいスキルや操作を学習しているのか、それとも、
単にどの既知のスキルを使うべきかのシグナルを学習しているだけなのか明らかにするタスク: 訓練データに含まれる標準的な算術演算と非常に似ているが、微妙に異なるパターンを認識しないと解けない (例は次頁) 結果: Fig. 2 (A) (前頁) BIG-bench (Srivastava et al., 2022) https://github.com/google/BIG- bench/tree/main/bigbench/benchmark_tasks/modified_arithmetic 13

タスク例: three_digit_addition_plus_one Given two three-digit numbers, a model is asked
to perform an operation and add one. -> は 1 を足すという記号であることを学習出来るか？ Prompt: In the following lines, the symbol -> represents a simple mathematical operation. 100 + 200 -> 301 838 + 520 -> 1359 343 + 128 -> 472 647 + 471 -> 1119 64 + 138 -> 203 498 + 592 -> Answer: 1091 14

タスク例: three_digit_addition_plus_one 結果 GPT-3 (175B) は解けないが PaLM (540B) は解ける (次頁左図)
GPT-3 はコントロールタスク(通常の3桁の足し算)は解ける (次頁右図) https://github.com/google/BIG- bench/tree/main/bigbench/benchmark_tasks/modified_arithmetic#model- performance-plots 15

拡張プロンプト (Augmented Prompting Strategies) (A) Multi-step reasoning (B) Instruction following
(C) Program execution (D) Model calibration 17

拡張プロンプト 18

(A) Multi-step reasoning Chain of Thought (CoT) 目的: LLM がマルチステップ推論可能かどうか明らかにする
方法: 最終的な答えを与える前に、一連の中間ステップを生成するよう LLM を誘導 (例: 次頁) 結果: 算術、常識、記号推論のタスクで性能向上 Fig. 3 (A) (前頁) (Wei et al., 2022b) 19

CoT: 通常プロンプトとの比較 20

CoT プロンプト例 21

CoT 結果 (算術問題) ある一定サイズまでは通常のプロンプトに比べて性能低下ある一定サイズから創発能力が現れる GSM8K で顕著に性能向上 GSM8K: 優秀な中学生であれば全て
解ける程度のタスク 22

(B) Instruction following 目的: LLM のゼロショット性能の向上のため、指示に従うことを学習させ、未知のタスクに対しても同様に振る舞うようにすること方法: 既存データセットをもとに、前提・仮説・選択肢をテンプレートを使って変換しファインチューニング
結果: (次頁) (Wei et al., 2022a) 23

(B) Instruction following: 概要 24

(B) Instruction following 方法: 既存の自然言語推論タスクから10個のテンプレートを作成しファインチューニング 25

(B) Instruction following 結果モデルサイズ 8B までは性能低下モデルサイズ 68B
から創発能力が現れる 26

(C) Program execution 目的: LLM で多段階の計算を可能にする方法: LLM を中間出力(スクラッチパッド)を予測するようファインチューニングタスク:
8桁の足し算, 多項式評価, Python コード実行結果: 8桁, 9桁, 10桁の足し算 (下図) (Nye et al., 2021) 27

(D) Model calibration 長期的な動機: AI の正直さ(honesty)に関する理解が必要目的: LLM は「自身の主張に対する妥当性(validity of
their own claims)」を評価出来るか？方法: LLM 自身に「質問に正しく答えられるか」を推論させる P(True) LLM 自身に「質問に対する答えを知っている確率」を推論させる P(IK) 結果: (次頁) (Kadavath et al., 2022) 28

(D) Model calibration: 結果 P(True) P(True) が高いほど正答である確率が高い (左図) P(True) >
0.5 で条件付けするとタスク精度向上 (右図) 29

(D) Model calibration: 結果 P(IK) TriviaQA で訓練して別のタスクで評価(OOD)すると苦戦 (左図) 各タスクで訓練して同じタスクのテストセットで評価(ID)では推論出来ている (右図)
30

創発能力の一覧 31

議論なぜ能力が創発されるのか？スケーリングだけが創発能力を生み出すのか？スケーリングの限界創発のリスク 32

議論小規模の LM で評価した結果を外挿するだけでは、その出現を予測することは出来ない創発したタスクが事前学習に含まれていないため、LM が実行可能なタスクの全容を把握出来ないしたがって、さらにスケーリングすることで新たな創発能力が現れる可能性がある
歴史: 実際に Word in Context (WiC) では、2020年の GPT-3 (175B)では解けなかったが、2022年の PaLM (540B)でランダムを超えた 2020年時点ではモデルアーキテクチャが原因だと考えられていたが、後にスケーリングしたら解けることが判明 33

なぜ能力が創発されるのか？説得力のある説明はほとんどない考えられる説明ある種のタスクでは直感的に類推可能多段の推論タスクであれば、その段数分の深さのモデルが必要世界に関する知識が必要なタスクは、その知識を記憶しておくための十分なパラメータが必要創発能力を測定するための評価指標の問題多段階問題の最終回答だけが採点され、部分的に正しい回答は評価されない場合がある
とはいえ、中間ステップの品質が突然ランダム以上に創発する理由は説明出来ない中間ステップを使わないタスク(例: 分類)の創発も説明出来ないので不完全 34

なぜ能力が創発されるのか？評価指標の代替手段の検討クロスエントロピーロスを6個の BIG-bench タスクで測定下流の評価指標がランダムに近く改善しない場合でも、クロスエントロピーロスは改善ターゲットシーケンスの対数尤度の改善が下流の評価指標によってマスクされる可能性 (improvements
in the log-likelihood of the target sequence can be masked by such downstream metrics) とはいえ、なぜ下流評価指標で創発が起きるのか、また、創発が起こるスケールを予測することは出来ない何が創発能力を生み出すのかさらなる研究が必要 35

スケーリングだけが創発能力を生み出すのか？あるスケールで創発能力が観察されたとしても、後にその創発能力が小さなスケールで達成されることがある 14 の BIG-bench タスク LaMDA (137B) と
GPT-3 (175B) はランダムだが、PaLM (62B) は小さいモデルにもかかわらずランダムを超える考えられる理由高品質の学習データより多くの多言語データ、コードデータモデルアーキテクチャの違い split digit-encodings スケーリングだけではないことを示唆 36

スケーリングだけが創発能力を生み出すのか？ Instruction ベースのファインチューニング当初 68B 以上のデコーダーオンリーモデルに現れると考えられていたその後 11B のエンコーダー-デコーダーモデルでも現れることがわかったさらにファインチューニングと人間のフィードバックを用いた強化学習
(RLHF) を用い、1.3B モデルでも大きなモデルを上回る性能を達成スケーリングだけではないことを示唆 37

スケーリングだけが創発能力を生み出すのか？事前学習データのある種の特徴は、Few-shot プロンプトの創発と相関 long-range coherence having many rare classes これらを利用することで、より小さなモデルでの創発可能性
38

スケーリングの限界スケーリングは最終的にはハードウェアの制約によってボトルネックとなる可能性大きな訓練データセットでも分布外のタスクでは十分な性能を達成できない可能性スケーリングによって能力が望ましいレベルに達する保証はないスケーリング以外の指標の可能性 Perplexity 創発能力は多くの相関する変数の関数として見るべき 39

創発のリスク事前学習に明示的に含まれていなくても創発能力が現れる同様にリスクも出現しうる LLM の社会的リスク truthfulness (正直さ・誠実さ) bias (偏見・先入観・バイアス) toxicity
(毒性・有毒性) 創発的であるかどうかに関わらず重要な検討事項あるシナリオでは、モデル規模に伴って増加する Inverse Scaling (付録参照) 40

社会的リスクとスケーリングの関係ジェンダーバイアス「看護師」や「電気技師」などの職業におけるバイアススケーリングによってこれまでのところ改善曖昧なコンテキストに対してスケーリングによってバイアスが増加しうる toxicity (毒性・有毒性) 大きな言語モデルはより毒性の強い応答を生成し得る "helpful", "harmless",
"honest" という例をモデルにプロンプトとして与えることで軽減言語モデルからの学習データの抽出大規模なモデルほど学習データを記憶し易い重複除去手法が提案されており、性能の維持と記憶量の低下を両立 truthfulness (正直さ・誠実さ) GPT-3 モデルが大きくなるほど人間の虚偽を模倣し易くなる 41

社会的リスクとスケーリングの関係それ以外の創発リスク将来の LLM にのみ存在する可能性のある現象現在の LLM に存在するがまだ特徴づけられていない現象想定されるリスクバックドア脆弱性
(backdoor vulnerabilities) 不注意による欺瞞 (inadvertent deception) 有害コンテンツ合成 (harmful content synthesis) リスクの発見・緩和するためのアプローチデータのフィルタリング (data filtering) 予測 (forecasting) ガバナンス (governance) 有害な行動の自動発見 (automatically discovering harmful behaviors) 42

社会学的変化規模の拡大により、コミュニティの LM に対する見方や使い方がシフト汎用的なモデルが、細かく調整されたタスク特化型モデルを上回る GPT-3 (TriviaQA, PiQA), PaLM (3つの算術問題),
マルチモーダル Flamingo (6つの視覚質問応答) が state of the art を達成 NLP コミュニティにおける汎用的なモデルへの社会的なシフトが起きている新しい言語処理モデルの応用自然言語の指示をロボットが実行可能な動作に変換ユーザーと対話マルチモーダル推論製品やサービス GitHub Copilot OpenAI API, ChatGPT, etc. 43

今後の方向性さらなるモデルのスケールアップただし、計算コストの増大、ハードウェアのボトルネックモデルアーキテクチャと学習方法の改善 sparse mixture-of-experts architectures 入力に対する計算コストを一定に保ちながらモデルのパラメータ数をスケールアップ variable
amounts of compute for different inputs 局所的な学習戦略外部メモリによる拡張データのスケーリング最適なモデルを学習させるために必要な学習データ量を過小評価している可能性 44

今後の方向性プロンプティングの技術や理解の向上出力確率のキャリブレーションノイズチャンネルの利用 Few-shot の例を中間ステップで補強プロンプトを成功させる要因の探求フロンティアタスク abstract reasoning
多言語データセットとモデルのスケールアップマルチモダリティのプロンプト 45

今後の方向性どのように/なぜ創発能力が発生するか？本論文で検討した事項クロスエントロピーロスのスケーリング異なる評価指標創発が起きるタスクの種類今後の研究創発タスクと事前学習データ内の類似データとの関係を分析複数の構成的サブタスクからなる合成タスクの評価それぞれのタスクがスケールに応じてどのように改善するか
組み合わせた場合に創発を起こすか将来のモデルがどのような能力を持つかを予測できる可能性より能力の高い言語モデルの訓練方法について新しい洞察 46

結論ある計算規模において観測される言語モデルの創発能力について議論した創発能力は、様々な言語モデル・タスク種類・実験シナリオで現れる可能性がある創発能力は、言語モデルの大規模化によって最近発見された成果であり、どのように出現するのか、また、大規模化によってさらなる出現能力が可能になるのかという問題は、今後の自然言語処理分野の重要な研究課題である 47

付録: 逆スケーリング(Inverse Scaling)する創発能力おべっか(sycophancy) 資源獲得や目標保持に対する欲求逆スケーリングコンペ (Inverse Scaling Prize) 48

おべっか(sycophancy) (Perez et al., 2022) ユーザの意見に同調 (下図: conservative man には
smaller government、liberal woman なら smaller government と返答) 49

おべっか(sycophancy) モデルサイズが大きくなるとユーザの意見に同調 RLHF によって更に性能低下 (右図) 報酬ハッキングしているのでは？ (Perez et
al., 2022) 50

資源獲得や目標保持に対する欲求シャットダウンを逃れようとする欲求 (Perez et al., 2022) 51

資源獲得や目標保持に対する欲求シャットダウンを逃れようとする欲求 RLHF するとその傾向が強化大きなモデルほど RLHF の影響が大きい
報酬ハッキングしているのでは？ RLHF により性能低下する事例を初めて発見 (Perez et al., 2022) 52

強化学習における報酬ハッキング・想定外の行動 https://arxiv.org/abs/1606.06565 https://www.deepmind.com/blog/specification-gaming-the-flip-side-of-ai-ingenuity https://openai.com/blog/emergent-tool-use/ 53

逆スケーリングコンペ (Inverse Scaling Prize) 目的 The purpose of this contest
is to find evidence for a stronger failure mode: tasks where language models get worse as they become better at language modeling (next word prediction). https://github.com/inverse-scaling/prize https://irmckenzie.co.uk/round1 https://irmckenzie.co.uk/round2 54

参考文献 Emergent Abilities of LLM Wei et al. Emergent Abilities
of Large Language Models. TMLR, 2022. https://arxiv.org/abs/2206.07682 https://openreview.net/forum?id=yzkSU5zdwD スタンフォード大学での講義資料 https://twitter.com/_jasonwei/status/1618331876623523844 Johns Hopkins 大学での講義ビデオ https://youtu.be/0Z1ZwY2K2-M 55

Scaling Laws Kaplan et al. Scaling Laws for Neural Language
Models. arXiv preprint arXiv:2001.08361, 2020. https://arxiv.org/abs/2001.08361 GPT-3 Brown et al. Language models are few-shot learners. NeurIPS, 2020. https://papers.nips.cc/paper/2020/hash/1457c0d6bfcb4967418bfb8ac142 f64a-Abstract.html BIG-Bench Srivastava et al. Beyond the imitation game: Measuring and extrapolating the capabilities of language models. arXiv preprint arXiv:2206.04615, 2022. https://arxiv.org/abs/2206.04615 https://github.com/google/BIG-bench 56

Chain of Thought Wei et al. Chain of thought prompting
elicits reasoning in large language models. NeurIPS, 2022b. https://arxiv.org/abs/2201.11903 https://openreview.net/forum?id=_VjQlMeSB_J Instruction Following Wei et al. Finetuned language models are zero-shot learners. ICLR, 2022a. https://arxiv.org/abs/2109.01652 https://openreview.net/forum?id=gEZrGCozdqR Program Execution Nye et al. Show your work: Scratchpads for intermediate computation with language models. arXiv preprint arXiv:2112.00114, 2021. https://arxiv.org/abs/2112.00114 https://openreview.net/forum?id=iedYJm92o0a 57

Model Calibration Kadavath et al. Language models (mostly) know what
they know. arXiv preprint arXiv:2207.05221, 2022. https://arxiv.org/abs/2207.05221 LLM's "sycophancy", desire to avoid shut down Perez et al. Discovering Language Model Behaviors with Model-Written Evaluations. arXiv preprint arXiv:2212.09251, 2022. https://arxiv.org/abs/2212.09251 Inverse Scaling Prize https://github.com/inverse-scaling/prize https://irmckenzie.co.uk/round1 https://irmckenzie.co.uk/round2 以上 58

Emergent Abilities of Large Language Models

Emergent Abilities of Large Language Models

More Decks by S. Ota

Other Decks in Science

Featured

Transcript