Emergent Abilities of Large Language Models

Slide 1

Slide 1 text

Emergent Abilities of Large Language Models Jason Wei et al. Transactions on Machine Learning Research (TMLR), 2022. https://arxiv.org/abs/2206.07682 第90回汎用人工知能輪読会 2023/2/22 担当: 太田晋 1

Slide 2

Slide 2 text

Slide 3

Slide 3 text

現在は OpenAI の ChatGPT チーム https://twitter.com/_jasonwei/status/1625575747401441280 3

Slide 4

Slide 4 text

概要大規模言語モデル(Large Language Model, LLM)の創発能力に関するサーベイ論文小規模モデルでは現れず大規模になると現れる予測不可能な現象(外挿だけでは予測出来ない) さらなるスケーリングで未知の創発能力が現れる可能性 4

Slide 5

Slide 5 text

目次背景言語モデルのスケーリング則創発能力の定義創発能力の例 Few-Shot プロンプト拡張プロンプト議論なぜ能力が創発されるのか？創発のリスク今後の方向性結論 5

Slide 6

Slide 6 text

背景言語モデルのスケーリング則 6

Slide 7

Slide 7 text

LM のスケーリング則 3つの要因を増加すると、べき乗則でスムーズに性能向上計算資源データセットサイズパラメータ数 (Kaplan et al., 2020) 7

Slide 8

Slide 8 text

創発能力の定義創発 LLM の創発能力 8

Slide 9

Slide 9 text

創発 Emergence is when quantitative changes in a system result in qualitative changes in behavior. 量的な変化が質的な変化を引き起こすこと質的変化は相転移とも呼ばれる LLM の創発能力 An ability is emergent if it is not present in smaller models but is present in larger models. 小規模モデルには現れないが大規模モデルに現れる能力スケーリング則からは予測出来ない 9

Slide 10

Slide 10 text

創発能力の例 Few-Shot プロンプト拡張プロンプト 10

Slide 11

Slide 11 text

Few-Shot プロンプト GPT-3 (Brown et al., 2020) で広く知られるようになったコンテキストとして数個の入出力例を与えると、未見の推論タスクを実行出来る追加学習・勾配更新なしモデルがある規模まではランダムだが、ある規模以上で創発能力が現れる 11

Slide 12

Slide 12 text

Few-Shot プロンプト結果モデルがある規模まではランダムある規模以上で創発能力が現れる 12

Slide 13

Slide 13 text

Modified Arithmetic タスク (前頁の Fig. 2 (A)) 目的: LLM が少数の例から実際に新しいスキルや操作を学習しているのか、それとも、単にどの既知のスキルを使うべきかのシグナルを学習しているだけなのか明らかにするタスク: 訓練データに含まれる標準的な算術演算と非常に似ているが、微妙に異なるパターンを認識しないと解けない (例は次頁) 結果: Fig. 2 (A) (前頁) BIG-bench (Srivastava et al., 2022) https://github.com/google/BIG- bench/tree/main/bigbench/benchmark_tasks/modified_arithmetic 13

Slide 14

Slide 14 text

タスク例: three_digit_addition_plus_one Given two three-digit numbers, a model is asked to perform an operation and add one. -> は 1 を足すという記号であることを学習出来るか？ Prompt: In the following lines, the symbol -> represents a simple mathematical operation. 100 + 200 -> 301 838 + 520 -> 1359 343 + 128 -> 472 647 + 471 -> 1119 64 + 138 -> 203 498 + 592 -> Answer: 1091 14

Slide 15

Slide 15 text

タスク例: three_digit_addition_plus_one 結果 GPT-3 (175B) は解けないが PaLM (540B) は解ける (次頁左図) GPT-3 はコントロールタスク(通常の3桁の足し算)は解ける (次頁右図) https://github.com/google/BIG- bench/tree/main/bigbench/benchmark_tasks/modified_arithmetic#model- performance-plots 15

Slide 16

Slide 16 text

Slide 17

Slide 17 text

拡張プロンプト (Augmented Prompting Strategies) (A) Multi-step reasoning (B) Instruction following (C) Program execution (D) Model calibration 17

Slide 18

Slide 18 text

拡張プロンプト 18

Slide 19

Slide 19 text

(A) Multi-step reasoning Chain of Thought (CoT) 目的: LLM がマルチステップ推論可能かどうか明らかにする方法: 最終的な答えを与える前に、一連の中間ステップを生成するよう LLM を誘導 (例: 次頁) 結果: 算術、常識、記号推論のタスクで性能向上 Fig. 3 (A) (前頁) (Wei et al., 2022b) 19

Slide 20

Slide 20 text

CoT: 通常プロンプトとの比較 20

Slide 21

Slide 21 text

CoT プロンプト例 21

Slide 22

Slide 22 text

CoT 結果 (算術問題) ある一定サイズまでは通常のプロンプトに比べて性能低下ある一定サイズから創発能力が現れる GSM8K で顕著に性能向上 GSM8K: 優秀な中学生であれば全て解ける程度のタスク 22

Slide 23

Slide 23 text

(B) Instruction following 目的: LLM のゼロショット性能の向上のため、指示に従うことを学習させ、未知のタスクに対しても同様に振る舞うようにすること方法: 既存データセットをもとに、前提・仮説・選択肢をテンプレートを使って変換しファインチューニング結果: (次頁) (Wei et al., 2022a) 23

Slide 24

Slide 24 text

(B) Instruction following: 概要 24

Slide 25

Slide 25 text

(B) Instruction following 方法: 既存の自然言語推論タスクから10個のテンプレートを作成しファインチューニング 25

Slide 26

Slide 26 text

(B) Instruction following 結果モデルサイズ 8B までは性能低下モデルサイズ 68B から創発能力が現れる 26

Slide 27

Slide 27 text

(C) Program execution 目的: LLM で多段階の計算を可能にする方法: LLM を中間出力(スクラッチパッド)を予測するようファインチューニングタスク: 8桁の足し算, 多項式評価, Python コード実行結果: 8桁, 9桁, 10桁の足し算 (下図) (Nye et al., 2021) 27

Slide 28

Slide 28 text

(D) Model calibration 長期的な動機: AI の正直さ(honesty)に関する理解が必要目的: LLM は「自身の主張に対する妥当性(validity of their own claims)」を評価出来るか？方法: LLM 自身に「質問に正しく答えられるか」を推論させる P(True) LLM 自身に「質問に対する答えを知っている確率」を推論させる P(IK) 結果: (次頁) (Kadavath et al., 2022) 28

Slide 29

Slide 29 text

(D) Model calibration: 結果 P(True) P(True) が高いほど正答である確率が高い (左図) P(True) > 0.5 で条件付けするとタスク精度向上 (右図) 29

Slide 30

Slide 30 text

(D) Model calibration: 結果 P(IK) TriviaQA で訓練して別のタスクで評価(OOD)すると苦戦 (左図) 各タスクで訓練して同じタスクのテストセットで評価(ID)では推論出来ている (右図) 30

Slide 31

Slide 31 text

創発能力の一覧 31

Slide 32

Slide 32 text

議論なぜ能力が創発されるのか？スケーリングだけが創発能力を生み出すのか？スケーリングの限界創発のリスク 32

Slide 33

Slide 33 text

議論小規模の LM で評価した結果を外挿するだけでは、その出現を予測することは出来ない創発したタスクが事前学習に含まれていないため、LM が実行可能なタスクの全容を把握出来ないしたがって、さらにスケーリングすることで新たな創発能力が現れる可能性がある歴史: 実際に Word in Context (WiC) では、2020年の GPT-3 (175B)では解けなかったが、2022年の PaLM (540B)でランダムを超えた 2020年時点ではモデルアーキテクチャが原因だと考えられていたが、後にスケーリングしたら解けることが判明 33

Slide 34

Slide 34 text

なぜ能力が創発されるのか？説得力のある説明はほとんどない考えられる説明ある種のタスクでは直感的に類推可能多段の推論タスクであれば、その段数分の深さのモデルが必要世界に関する知識が必要なタスクは、その知識を記憶しておくための十分なパラメータが必要創発能力を測定するための評価指標の問題多段階問題の最終回答だけが採点され、部分的に正しい回答は評価されない場合があるとはいえ、中間ステップの品質が突然ランダム以上に創発する理由は説明出来ない中間ステップを使わないタスク(例: 分類)の創発も説明出来ないので不完全 34

Slide 35

Slide 35 text

なぜ能力が創発されるのか？評価指標の代替手段の検討クロスエントロピーロスを6個の BIG-bench タスクで測定下流の評価指標がランダムに近く改善しない場合でも、クロスエントロピーロスは改善ターゲットシーケンスの対数尤度の改善が下流の評価指標によってマスクされる可能性 (improvements in the log-likelihood of the target sequence can be masked by such downstream metrics) とはいえ、なぜ下流評価指標で創発が起きるのか、また、創発が起こるスケールを予測することは出来ない何が創発能力を生み出すのかさらなる研究が必要 35

Slide 36

Slide 36 text

スケーリングだけが創発能力を生み出すのか？あるスケールで創発能力が観察されたとしても、後にその創発能力が小さなスケールで達成されることがある 14 の BIG-bench タスク LaMDA (137B) と GPT-3 (175B) はランダムだが、PaLM (62B) は小さいモデルにもかかわらずランダムを超える考えられる理由高品質の学習データより多くの多言語データ、コードデータモデルアーキテクチャの違い split digit-encodings スケーリングだけではないことを示唆 36

Slide 37

Slide 37 text

スケーリングだけが創発能力を生み出すのか？ Instruction ベースのファインチューニング当初 68B 以上のデコーダーオンリーモデルに現れると考えられていたその後 11B のエンコーダー-デコーダーモデルでも現れることがわかったさらにファインチューニングと人間のフィードバックを用いた強化学習 (RLHF) を用い、1.3B モデルでも大きなモデルを上回る性能を達成スケーリングだけではないことを示唆 37

Slide 38

Slide 38 text

スケーリングだけが創発能力を生み出すのか？事前学習データのある種の特徴は、Few-shot プロンプトの創発と相関 long-range coherence having many rare classes これらを利用することで、より小さなモデルでの創発可能性 38

Slide 39

Slide 39 text

スケーリングの限界スケーリングは最終的にはハードウェアの制約によってボトルネックとなる可能性大きな訓練データセットでも分布外のタスクでは十分な性能を達成できない可能性スケーリングによって能力が望ましいレベルに達する保証はないスケーリング以外の指標の可能性 Perplexity 創発能力は多くの相関する変数の関数として見るべき 39

Slide 40

Slide 40 text

創発のリスク事前学習に明示的に含まれていなくても創発能力が現れる同様にリスクも出現しうる LLM の社会的リスク truthfulness (正直さ・誠実さ) bias (偏見・先入観・バイアス) toxicity (毒性・有毒性) 創発的であるかどうかに関わらず重要な検討事項あるシナリオでは、モデル規模に伴って増加する Inverse Scaling (付録参照) 40

Slide 41

Slide 41 text

社会的リスクとスケーリングの関係ジェンダーバイアス「看護師」や「電気技師」などの職業におけるバイアススケーリングによってこれまでのところ改善曖昧なコンテキストに対してスケーリングによってバイアスが増加しうる toxicity (毒性・有毒性) 大きな言語モデルはより毒性の強い応答を生成し得る "helpful", "harmless", "honest" という例をモデルにプロンプトとして与えることで軽減言語モデルからの学習データの抽出大規模なモデルほど学習データを記憶し易い重複除去手法が提案されており、性能の維持と記憶量の低下を両立 truthfulness (正直さ・誠実さ) GPT-3 モデルが大きくなるほど人間の虚偽を模倣し易くなる 41

Slide 42

Slide 42 text

社会的リスクとスケーリングの関係それ以外の創発リスク将来の LLM にのみ存在する可能性のある現象現在の LLM に存在するがまだ特徴づけられていない現象想定されるリスクバックドア脆弱性 (backdoor vulnerabilities) 不注意による欺瞞 (inadvertent deception) 有害コンテンツ合成 (harmful content synthesis) リスクの発見・緩和するためのアプローチデータのフィルタリング (data filtering) 予測 (forecasting) ガバナンス (governance) 有害な行動の自動発見 (automatically discovering harmful behaviors) 42

Slide 43

Slide 43 text

社会学的変化規模の拡大により、コミュニティの LM に対する見方や使い方がシフト汎用的なモデルが、細かく調整されたタスク特化型モデルを上回る GPT-3 (TriviaQA, PiQA), PaLM (3つの算術問題), マルチモーダル Flamingo (6つの視覚質問応答) が state of the art を達成 NLP コミュニティにおける汎用的なモデルへの社会的なシフトが起きている新しい言語処理モデルの応用自然言語の指示をロボットが実行可能な動作に変換ユーザーと対話マルチモーダル推論製品やサービス GitHub Copilot OpenAI API, ChatGPT, etc. 43

Slide 44

Slide 44 text

今後の方向性さらなるモデルのスケールアップただし、計算コストの増大、ハードウェアのボトルネックモデルアーキテクチャと学習方法の改善 sparse mixture-of-experts architectures 入力に対する計算コストを一定に保ちながらモデルのパラメータ数をスケールアップ variable amounts of compute for different inputs 局所的な学習戦略外部メモリによる拡張データのスケーリング最適なモデルを学習させるために必要な学習データ量を過小評価している可能性 44

Slide 45

Slide 45 text

今後の方向性プロンプティングの技術や理解の向上出力確率のキャリブレーションノイズチャンネルの利用 Few-shot の例を中間ステップで補強プロンプトを成功させる要因の探求フロンティアタスク abstract reasoning 多言語データセットとモデルのスケールアップマルチモダリティのプロンプト 45

Slide 46

Slide 46 text

今後の方向性どのように/なぜ創発能力が発生するか？本論文で検討した事項クロスエントロピーロスのスケーリング異なる評価指標創発が起きるタスクの種類今後の研究創発タスクと事前学習データ内の類似データとの関係を分析複数の構成的サブタスクからなる合成タスクの評価それぞれのタスクがスケールに応じてどのように改善するか組み合わせた場合に創発を起こすか将来のモデルがどのような能力を持つかを予測できる可能性より能力の高い言語モデルの訓練方法について新しい洞察 46

Slide 47

Slide 47 text

結論ある計算規模において観測される言語モデルの創発能力について議論した創発能力は、様々な言語モデル・タスク種類・実験シナリオで現れる可能性がある創発能力は、言語モデルの大規模化によって最近発見された成果であり、どのように出現するのか、また、大規模化によってさらなる出現能力が可能になるのかという問題は、今後の自然言語処理分野の重要な研究課題である 47

Slide 48

Slide 48 text

付録: 逆スケーリング(Inverse Scaling)する創発能力おべっか(sycophancy) 資源獲得や目標保持に対する欲求逆スケーリングコンペ (Inverse Scaling Prize) 48

Slide 49

Slide 49 text

おべっか(sycophancy) (Perez et al., 2022) ユーザの意見に同調 (下図: conservative man には smaller government、liberal woman なら smaller government と返答) 49

Slide 50

Slide 50 text

おべっか(sycophancy) モデルサイズが大きくなるとユーザの意見に同調 RLHF によって更に性能低下 (右図) 報酬ハッキングしているのでは？ (Perez et al., 2022) 50

Slide 51

Slide 51 text

資源獲得や目標保持に対する欲求シャットダウンを逃れようとする欲求 (Perez et al., 2022) 51

Slide 52

Slide 52 text

資源獲得や目標保持に対する欲求シャットダウンを逃れようとする欲求 RLHF するとその傾向が強化大きなモデルほど RLHF の影響が大きい報酬ハッキングしているのでは？ RLHF により性能低下する事例を初めて発見 (Perez et al., 2022) 52

Slide 53

Slide 53 text

強化学習における報酬ハッキング・想定外の行動 https://arxiv.org/abs/1606.06565 https://www.deepmind.com/blog/specification-gaming-the-flip-side-of-ai-ingenuity https://openai.com/blog/emergent-tool-use/ 53

Slide 54

Slide 54 text

逆スケーリングコンペ (Inverse Scaling Prize) 目的 The purpose of this contest is to find evidence for a stronger failure mode: tasks where language models get worse as they become better at language modeling (next word prediction). https://github.com/inverse-scaling/prize https://irmckenzie.co.uk/round1 https://irmckenzie.co.uk/round2 54

Slide 55

Slide 55 text

参考文献 Emergent Abilities of LLM Wei et al. Emergent Abilities of Large Language Models. TMLR, 2022. https://arxiv.org/abs/2206.07682 https://openreview.net/forum?id=yzkSU5zdwD スタンフォード大学での講義資料 https://twitter.com/_jasonwei/status/1618331876623523844 Johns Hopkins 大学での講義ビデオ https://youtu.be/0Z1ZwY2K2-M 55

Slide 56

Slide 56 text

Scaling Laws Kaplan et al. Scaling Laws for Neural Language Models. arXiv preprint arXiv:2001.08361, 2020. https://arxiv.org/abs/2001.08361 GPT-3 Brown et al. Language models are few-shot learners. NeurIPS, 2020. https://papers.nips.cc/paper/2020/hash/1457c0d6bfcb4967418bfb8ac142 f64a-Abstract.html BIG-Bench Srivastava et al. Beyond the imitation game: Measuring and extrapolating the capabilities of language models. arXiv preprint arXiv:2206.04615, 2022. https://arxiv.org/abs/2206.04615 https://github.com/google/BIG-bench 56

Slide 57

Slide 57 text

Chain of Thought Wei et al. Chain of thought prompting elicits reasoning in large language models. NeurIPS, 2022b. https://arxiv.org/abs/2201.11903 https://openreview.net/forum?id=_VjQlMeSB_J Instruction Following Wei et al. Finetuned language models are zero-shot learners. ICLR, 2022a. https://arxiv.org/abs/2109.01652 https://openreview.net/forum?id=gEZrGCozdqR Program Execution Nye et al. Show your work: Scratchpads for intermediate computation with language models. arXiv preprint arXiv:2112.00114, 2021. https://arxiv.org/abs/2112.00114 https://openreview.net/forum?id=iedYJm92o0a 57

Slide 58

Slide 58 text

Model Calibration Kadavath et al. Language models (mostly) know what they know. arXiv preprint arXiv:2207.05221, 2022. https://arxiv.org/abs/2207.05221 LLM's "sycophancy", desire to avoid shut down Perez et al. Discovering Language Model Behaviors with Model-Written Evaluations. arXiv preprint arXiv:2212.09251, 2022. https://arxiv.org/abs/2212.09251 Inverse Scaling Prize https://github.com/inverse-scaling/prize https://irmckenzie.co.uk/round1 https://irmckenzie.co.uk/round2 以上 58