JSAI2023 Tutorial 「基盤モデルの技術と展望」

by Yusuke Iwasawa

Slide 1

Slide 1 text

基盤モデルの技術と展望⼈⼯知能学会全国⼤会チュートリアル東京⼤学⼯学系研究科講師岩澤有祐 2023/06/08 @ 熊本城ホール

Slide 2

Slide 2 text

⾃⼰紹介 2 • 現職︓東⼤松尾研講師 • DL輪読会の運営 (@DL_Hacks)，深層学習の書籍の翻訳 • 最近主なテーマ︓⼤規模モデルからの知識の転移 (Test-Time Adaptation) • “Test-Time Classifier Adjustment Module for Model Agnostic Domain Generalization”, NeurIPS2021 • “Large Language Models are Zero-Shot Reasoners”, NeurIPS2022 など • 本講演の経緯 ⇨ • 昨年11⽉開催 • 20分を90分に

Slide 3

Slide 3 text

⽬次 3 • 基盤モデルとはなにか（基盤モデルの例，基盤モデルの特徴） • 基盤モデルを作る技術︓スケール則（Scale Law） • 基盤モデルを使う技術︓⽂脈内学習（In Context Learning） • 今後の展望︓⾔語以外での基盤モデル

Slide 4

Slide 4 text

Foundation Model（基盤モデル）とは “On the Opportunities and Risks of Foundation Models”, 2021 4 • 2021/8/16初出のホワイトペーパーで登場した⾔葉 • Stanfordの研究機関の名称にもなっている（⻘枠）（Abstractより抜粋） “AI is undergoing a paradigm shift with the rise of models (e.g., BERT, DALL-E, GPT- 3) that are trained on broad data at scale and are adaptable to a wide range of downstream tasks. We call these models foundation models to underscore their critically central yet incomplete character”

Slide 5

Slide 5 text

基盤モデルの例︓GPT3を初めとした⼤規模⾔語モデル Example of Foundation Models 5 Causal Language Model LLMs (Transformer) Input: Language models determine [mask] Output: word probability by analyzing text data Original: Language models determine word probability by analyzing text data Translation (Few-Shot) Translation (Zero-Shot) Summarization (Zero-Shot) • Starting with “TL;DR” drastically improves the performance Many other examples 図は” Language Models are Few-Shot Learners”より抜粋

Slide 6

Slide 6 text

2020年のGPT-3登場後，2022年後半から加速度的に増加． “A Survey of Large Language Models”, 2023年5⽉にアクセス（3⽉投稿からすでに10回Revision） 6

Slide 7

Slide 7 text

Chat GPT, GPT4 | さまざまな試験での性能マルチモーダル化 7

Slide 8

Slide 8 text

Igaku-QA | GPT-4の専⾨的知識の検証 “Evaluating gpt-4 and ChatGPTt on Japanese medical licensing examinations”2023 8 • ⾔語モデル (GPT-4 and ChatGPT）を新たに作成した⽇本の医療ライセンス試験に関するデータセット（Igaku-QA)でベンチマーク • (1) ⼈間の平均的な受験者よりは悪い，(2) 禁忌技を選択する傾向にある，といった問題はあるものの試験ボーダーは突破

Slide 9

Slide 9 text

Voyager | ⾔語モデルを使った⽅策の獲得 “Voyager: An Open-Ended Embodied Agent with Large Language Models”, arXiv2023 9 • LLMを使ってMinecraftをプレイする（右が動画） • 逐次的な⾏動獲得が必要，スパース報酬 • RLが苦⼿（cf. Dreamre v3が初めてスクラッチで採掘に成功 • スキルをコードとして書く+LLMでプランニング

Slide 10

Slide 10 text

Reviewr GPT!!! LLMの応⽤例 10

Slide 11

Slide 11 text

マルチモーダルデータを扱う⼤規模モデルの例 | Flamingo “Flamingo : a Visual Language Model for Few-Shot Learning”, 2022, DeepMind 12 • 学習済Vision Model(NF-Net) とLanguage Model (Chinchilla, 70B) を統合．計80B． • ペアデータで接続部分 (Perceiver ResamplerとGated Xattn) ． • フラミンゴの写真を⾒て「フラミンゴ。カリブ諸島や南アメリカで⾒られます」などと返すなど画像・⾔語で様々な補完ができる． https://www.deepmind.com/blog/tackling-multiple-tasks-with-a-single-visual-language-model

Slide 12

Slide 12 text

Robot Transformer (RT-1) “RT-1: Robotics Transformer for Real-World Control at Scale”, 2022 14 モデル • Efficient NetとTransformer の組み合わせ • インストラクションに従い動作⽣成データ • EDR13台，17ヶ⽉，744タスク，13万デモ • 訓練︓97%で動作 • 汎化︓種々の意味で⼤幅向上（未知タスク，未知ソース等 • Long Horizonなタスクも可 ※ 類似研究にGato，BC-Zなど

Slide 13

Slide 13 text

Segment Anything Model “Segment Anything”, 2023 15 構築した⼤規模データセットSA-1B (1B Masks, 11M images)を使ったセグメンテーションモデル．さまざまなプロンプト（点，矩形，テキストなど）を受け取る柔軟にマスクを⽣成することができる

Slide 14

Slide 14 text

Track Anything: SAMの応⽤例 “Track Anything: Segment Anything Meets Videos”, 2023 16 Github: https://github.com/gaomingqi/Track-Anything Demo: https://huggingface.co/spaces/VIPLab/Track-Anything

Slide 15

Slide 15 text

基盤モデルの特徴は︖ 17 “On the Opportunities and Risks of Foundation Models”より抜粋 1. ⾮常に幅広いタスクを（追加学習なしに）単⼀のモデルで解ける 2. モデル・計算量・データのスケーリングにより実現されること 3. ⾔語に限らない（のではという期待

Slide 16

Slide 16 text

モデル・計算量・データのスケーリングにより実現されること基盤モデルの特徴1 18 モデルサイズが巨⼤なときのみ解けるタスクが存在 Scaling Law Emergent Ability 3つの変数に関するべき乗に従って上がる. 計算資源 C, データセットサイズ D, パラメータ数 N

Slide 17

Slide 17 text

幅広いタスクを（追加学習なしに）単⼀のモデルで解けること 19 タスクごとにモデルを学習（NN以外）タスクごとにモデルを学習（NN）モデルを共有して学習（Fine-Tuning）モデルを固定して指⽰を変更（Prompting）従来現代 “Pre-train, Prompt, and Predict: A Systematic Survey of Prompting Methods in Natural Language Processing”より抜粋基盤モデルの特徴2

Slide 18

Slide 18 text

対象は⾔語に限らない（のではという期待）基盤モデルの特徴３ 20 ⼤規模モデル（Transformer）例︓Gato, RT-1, X-Former 例︓Dreamer v3 + ⼤規模なデータ例: SAMでの1Bのマスクデータ例︓Gato, RT-1 + ⼤規模計算例︓スケール則は別ドメインでも成⽴ 1. ⽅法論の共通化 (別ドメインでの基盤モデル構築） 2. ドメインを超えたモデル共有マルチモーダル化 ”One model to Learn Them All”, 2017 的な世界観（上図）例︓ GPT4 ⾔語モデルの活⽤例︓Say-Can, Voyager, など

Slide 19

Slide 19 text

ここまでのまとめ基盤モデルについて 21 • 基盤モデルとは，⼤量・多様なデータで学習された，幅広いタスクに適応できるモデルのこと • 特徴１︓単⼀のモデルがさまざまなタスクを解けること • これまで︓微調整 => 現在︓学習なしでPrompting • 特徴２︓モデルサイズが巨⼤になることで性能が改善すること • Scaling Law, Emergent Ability, Grokking • 特徴３︓上記が⾔語以外でも進展していること

Slide 20

Slide 20 text

⽬次 22 • 基盤モデルとはなにか • 基盤モデルの例，基盤モデルの特徴 • 基盤モデルを作る技術︓スケール則（Scale Law） • Emergent Ability, Grokking, Compute-Optimal Scaling • 基盤モデルを使う技術︓⽂脈内学習（In Context Learning） • 他ドメインへの適⽤・今後の展望

Slide 21

Slide 21 text

“More is Different” in DL | Emergent Ability “Emergent Abilities of Large Language Models”, TMLR2022 23 モデルサイズを巨⼤にすると性能が”突如”⼤幅に上がるタスクがある

Slide 22

Slide 22 text

“More is Different” in DL | Grokking “Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets” 24 “Progress measures for grokking via mechanistic interpretability”, ICLR2023 “Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets”, 2022 学習を継続すると突然検証データでの正解率が⾼まる現象（下記はa○b = c（例︓x+y=?）というタスクにおける性能調査）

Slide 23

Slide 23 text

■補⾜ | Grokking中には何がおこっているのか︖ “Towards Understanding Grokking: An Effective Theory of Representation Learning”, NeurIPS2022 25 類似研究︓”Progress measures for grokking via mechanistic interpretability”, ICLR2023 A. 記憶を汎化させている（上は学習過程の可視化）．過学習中（中央）は覚えているだけだが，汎化後（右）には数字が綺麗に整列．

Slide 24

Slide 24 text

■補⾜ | 本当にPhase Transitionなのか? “Are Emergent Abilities of Large Language Models a Mirage?”, 2023 26 • 本当に「創発」「相転移」しているのかには反論もある – 性能の測り⽅による（左図） ※ これは本論⽂でも⾔われている – 横軸が対数なのは変では – そもそも何を持って創発︖ • 巨⼤モデル|巨⼤計算で思ったよりできるようになるのは事実

Slide 25

Slide 25 text

スケール則（Scale Law) “Scaling Laws for Neural Language Models”, 2021 28 DLにおけるスケール則とは︖ 1. 計算資源（C） 2. データセットサイズ（D） 3. パラメータ数（N）と誤差（L）に関する次の経験則． ※ 他2つの変数が⼗分⼤きい場合． 𝐿 𝑋 = $ 𝑋! 𝑋 " log 𝐿(𝑋) = 𝛼 log 𝑋! − 𝛼 𝑙𝑜𝑔 𝑋

Slide 26

Slide 26 text

スケール則（Scale Law) – C, D, NとLの関係 - “Scaling Laws for Neural Language Models”, 2021 29 • 各図のデータ点は実測値 • いずれの変数もTest Lossとの間に両対数グラフで線形の関係が⾒られる ※ C: Compute, D: Dataset Size, N: #Parameters, L: Test Loss

Slide 27

Slide 27 text

■補⾜ | より初期のスケール則 (Baidu, 2017） “Deep Learning Scaling is Predictable, Empirically”, 2017 30 同じ点データに関するスケール則を検証（モデルも少し）左はMTの例．相違点 1. 対象モデルが異なる（Transformer以前） 2. 規模が異なる（特にモデル）

Slide 28

Slide 28 text

転移性能とスケールの関係 | 転移性能における元Modelの重要さ “Scaling Laws for Neural Language Models”, 2021 31 • WebText2︓通常のテストデータ，それ以外︓学習外のデータ • WebText2以外で性能の劣化は⾒られるもの，オフセットの違い程度で傾向は同じ（傾きもほぼ同じ）

Slide 29

Slide 29 text

他のドメインでのスケール則（計算量とLoss） “Scaling Laws for Autoregressive Generative Modeling”, 2020 32 画像⽣成，マルチモーダル，動画，数理等でも計算量に関するスケール則が成⽴

Slide 30

Slide 30 text

べき乗則の意義 34 “GPT-4 Technical Report”, 2023 より抜粋 X軸︓GPT4を1.0とした計算量 Y軸︓性能 Þ1/1000程度のモデルまでで性能を正確に予測できる． ※ GPT-4のパラメタ数は公開されていないがどんなに⼩さくても1010 (10B）より⼤．左の図の最⼩が103だとしたら1013 (1T) “Scaling laws de-risk investments in large models” ↓ Anthoropicの“Predictability and Surprise in Large Generative Models”, 2023より抜粋 Q. あるモデルを1Tまで巨⼤化するべきか︖

Slide 31

Slide 31 text

より精緻なモデル選択べき乗則の意義 35 モデル構造の探索ハイパラ探索スケールしてもおそらく Transoformer > LSTM パラメータ⼩=> 層が⼩さいほうが良いパラメータ⼤=> スケールすると逆転 Q. 1T ParameterでモデルAとモデルBはどちらが性能がよい︖ ↓ Anthoropicの“Predictability and Surprise in Large Generative Models”, 2023より抜粋

Slide 32

Slide 32 text

■補⾜ | スケーリングに関するその他の知⾒ “Scaling Laws for Neural Language Models”, 2021 36 パラメータ数が多いほどサンプル効率は良いあるロスを達成するのに計算を継続するのは⾮効率

Slide 33

Slide 33 text

モデルの⼤規模化に関する研究 38 • Gopher (DeepMind), 280B, 2021/12/8 • 下図は280B vs. 7.1B以下のBestの⽐較） • MT-NLG (Microsoft, Nvidia), 530B • PaLM (Google) , 540B, 2022/04/04 • SwithTransformer (Google), 1.6T, 2021/1/1 • ※ MoEを利⽤しているので実効パラメータは少ない

Slide 34

Slide 34 text

計算量が所与のときに最適なモデルサイズ・データセットサイズは︖ “Training Compute-Optimal Large Language Models”, NeurIPS2022 39 求め⽅の例 IsoFLOP Curve: さまざまなモデルサイズに対して，FLOPSが⼀定になるようにデータ数を調整し，各FLOPSでの最適パラメータ数・データ数を求める（左）各FLOPS毎の学習結果，(中）FLOPS毎の最適N，(右）FLOPS毎の最適D パラメータ数Nとデータ数Dは⼤体1対1で⼤きくすると良いという結果． ※ Compute Optimalとも呼ばれる

Slide 35

Slide 35 text

Chinchilla︓最適計算配分に基づきNとDを決めたモデル “Training Compute-Optimal Large Language Models”, NeurIPS2022 40 データサイズD トークンを1.4Tまで増加（同じデータの別サブセット） ※ Gopherの約4.6倍モデルサイズN 70Bに設定 ※ Gopherの約1/4倍結果多くのケースでGopherに勝利（発⾒した関係式の妥当性を⽰唆）

Slide 36

Slide 36 text

PaLM2 “PaLM 2 Technical Report”, 2023 41 PaLM2でも同様の実験が⾏われており，Chinchilla同様のスケール則が確認．ただし転移性能は必ずしもこの設計に従わないことも報告されている．

Slide 37

Slide 37 text

■補⾜ | 計算量最適なViTの構造の設計 “Getting ViT in Shape: Scaling Laws for Compute-Optimal Model Design”, 2023 42

Slide 38

Slide 38 text

RefineWeb: Webのみの5T Tokenのデータセット “The RefinedWeb Dataset for Falcon LLM”, 2022 43 Webデータのみでの5T Tokenのデータセット．600GがPublic．フィルタリングの⼯夫などにより以前より⼤規模なデータを構築．

Slide 39

Slide 39 text

Falcon-40B︓RefineWeb等で訓練されたオープンソースモデル “The RefinedWeb Dataset for Falcon LLM”, 2022 44 Open LLM Leaderboardより抜粋他データとの⽐較（論⽂より抜粋） Flacon-40Bの他モデルとの⽐較 ※ 実際にはFalcon-40BにはCodeのデータ等も混ぜている．学習時間は384GPUで2ヶ⽉

Slide 40

Slide 40 text

データの枯渇問題 | データはどこまで増やせるのか︖ Will we run out of data? An analysis of the limits of scaling datasets in Machine Learning”, 2022 45 過去のWebデータの増え⽅，学習データの増え⽅からの予測良質な⾔語データは2024頃に枯渇することが予測されている．

Slide 41

Slide 41 text

APIを経由したデータ収集 46 ※ 表は”Holistic Evaluation of Language Models”より抜粋 APIのみ公開＆巨⼤⾮公開

Slide 42

Slide 42 text

■補⾜ | 基盤モデルの性能をどう測るのか “Beyond the Imitation Game: Quantifying and extrapolating the capabilities of language models”, 2022 47 SuperGLUEの性能の変遷 Big Benchの評価例 • 問題１︓性能上限に達す流までの速さ | 評価の⼤規模化（≒かかる⾦額が莫⼤に） – BigBench: 444名のコントリビューターによる204 tasksを収集し，既存モデルを⼤規模に評価 • 問題２︓性能以外の評価 (Fairness, Bias, Toxicity …) – ”Holistic Evaluation of Language Models”, 2022, arXiv) • 問題３︓Contamination問題の回避はかなり難しい（API，Web経由でデータ取得）

Slide 43

Slide 43 text

データに限りがある状況でのスケール則 “Scaling Data-Constrained Language Models”, 2023 48 Q. 繰り返すと性能劣化するか︖ A. 4エポックくらいまではデータを加えるのと同じくらい効果がある．

Slide 44

Slide 44 text

データの質とべき乗則の関係 “Beyond neural scaling laws: beating power law scaling via data pruning”, NeurIPS2022 Outstanding Paper 50 良質な（難しい）データを選ぶことで誤差を急激に⼩さくできる（α-1がRandom Pruningに対応) 最適なデータの作り⽅は元々存在する事例の量に依存する Data pruning rateごとの損失難しい例を残した場合の性能

Slide 45

Slide 45 text

ここまでのまとめ – Scale Lawについて – 51 基盤モデルの特徴の1つであるスケールの拡⼤について説明 • Emergent Ability, Grokking︓More is Different in DL • 現象の観察研究が主流．理由や，本当に創発なのかは不透明． • 計算量，パラメタ数，データ数に関してスケール則が成⽴ • ⾔語モデルだけでない | 転移でも同様の傾向 • 効果が⾒積もりやすくなり，⼤規模モデルの開発を促進 • Commute Optimalなスケール則を求める研究もある • 例︓Chinchilla, PaLM2（データとモデルを約1:1で増やす）

Slide 46

Slide 46 text

⽬次 52 • 基盤モデルとはなにか • 基盤モデルの例，基盤モデルの特徴 • 基盤モデルを作る技術︓スケール則（Scale Law） • 基盤モデルを使う技術︓⽂脈内学習（In Context Learning） • ⽂脈内学習を利⽤したZero/Few-Shot学習 (論理推論能⼒） • Instruction Tuning, RLHFなどの⽂脈内学習を強化する⽅法 • ⾔語以外での基盤モデル・今後の展望

Slide 47

Slide 47 text

プロンプティング（Prompting）とは︖ 53 Demonstration (Few-Shot) Instruction (Zero-Shot) 加えるとある機能が強化される⽂字列例︓tl;drをつけると要約性能が上がる [1] 例︓According toをつけると知識を参照してくれるようになる [2] 中間指⽰（例必要な変数を保持してくださいプロンプトエンジニアリング特定の機能の発⽣を促進 (prompt)するような⾔語モデルに⼊⼒するコンテキスト⽂与える事例を変えれば異なることができる（例︓ポジネガ判定）

Slide 48

Slide 48 text

⽂脈内学習（In-Context Learning)によるFew-Shot学習 “Language Models are Few-Shot Learners”, NeurIPS2020 54 特にモデルが⼤規模な場合Few-Shotのデモンストレーションの追加で性能が⼤幅に上がることが多い．⽂脈から学習するため，⽂脈内学習 (In-Context Learning)と呼ぶ． Demonstration (Few-Shot) ⽂脈（Context）

Slide 49

Slide 49 text

“Pre-train, Prompt, Predict”へのパラダイムシフト 55 タスクごとにモデルを学習（NN以外）タスクごとにモデルを学習（NN）モデルを共有して学習（Fine-Tuning）モデルを固定して指⽰を変更（Prompting）従来現代 “Pre-train, Prompt, and Predict: A Systematic Survey of Prompting Methods in Natural Language Processing”より抜粋基盤モデルの特徴１

Slide 50

Slide 50 text

GPT3の課題 | 論理推論能⼒ 57 “Chain of Thought Prompting Elicits Reasoning in Large Language Models”, NeurIPS2022より抜粋 Emergence!! 😩

Slide 51

Slide 51 text

Chain-of-Though (CoT) Prompting “Chain of Thought Prompting Elicits Reasoning in Large Language Models”, NeurIPS2022 58 • Few-Shotの事例の際に思考過程を⼊れる（Chain of thought prompting)と，新しい質問についても思考過程を明⽰してくれる． • 算数の⽂章題など，従来難しいとされていた推論タスクでも⼤幅に性能が向上． ※ GSM8kは9-12歳の正解率が60%．

Slide 52

Slide 52 text

CoTの結果 59 • さまざまな数学のデータセットで検証した結果 • 特にモデルサイズが⼤きいときに性能の改善が⼤きい

Slide 53

Slide 53 text

CoTの推論能⼒の改善︓Self Consistency “Self-Consistency Improves Chain of Thought Reasoning in Language Models”, ICLR2023 60 LMに複数の推論を⾏わせて（上は3つの例），多数決で答えを決定． ※ ⽂的にもっともらしいものが正しい推論とは限らないことを⽰唆．

Slide 54

Slide 54 text

■補⾜ | Minerva (PaLM+CoT+FT+Self Consistency) “Solving Quantitative Reasoning Problems with Language Models”, arXiv (2022), 61 • MATH, OCW, GSM8k, MMLU-STEMでの結果． • それぞれ中⾼等数学，MITの学部レベルの問題，中学レベルの数学問題，STEM問題 • 既存SOTAを⼤きく上回る．

Slide 55

Slide 55 text

Zero-Shot Chain of Though ”Large Language Models are Zero-Shot Reasoners”, NeurIPS2022 62

Slide 56

Slide 56 text

Zero-Shot CoTの推論能⼒ ”Large Language Models are Zero-Shot Reasoners”, NeurIPS2022 63 シングルステップの推論で解けるタスク（CoTがいらない）常識推論（考えすぎて失敗するケースが多い） ※ 特にありえる解を複数選択してしまう多段階推論が必要なタスク 2022年論⽂で作られたタスク（利⽤したモデルは2021までのデータで学習）

Slide 57

Slide 57 text

Q: Is Mickey Mouse hypothetically unlikely to make a purchase at Zazzle? （ご参考）⻘字が⼊⼒．オレンジは意訳．⿊がGPTの出⼒．※ 論⽂外の結果． 64 A: Let’s think step by step. First, we need to consider Mickey Mouse’s budget. Based on his income as a famous cartoon character, it’s safe to say that he has a pretty large budget. （意訳︓ミッキーは有名だから莫⼤な予算を持つはず） Next, we need to think about what Mickey Mouse would want to purchase at Zazzle. We can safely assume that he would be interested in purchasing items that are related to his image, such as t- shirts, coffee mugs, and mouse pads. （意訳︓ミッキーは⾃分のイメージに合うアイテムなら興味を持つかもしれない） Finally, we need to consider the prices of the items at Zazzle. Based on the prices of similar items at other stores, it’s likely that the prices at Zazzle are within Mickey Mouse’s budget. （意訳︓Zazzleで売っているものの値段はミッキーの予算内であるはずだ） Therefore, we can conclude that it is not hypothetically unlikely for Mickey Mouse to make a purchase at Zazzle. （意訳︓ミッキーはZazzleで買い物しそうにないとは⾔えないと結論づける） ※正しい推論をするこもともある．例︓「ミッキーは架空のキャラクターなので靴は買わない」

Slide 58

Slide 58 text

■補⾜ | ⼊⼒するプロンプトによる性能の変化 ”Large Language Models are Zero-Shot Reasoners”, NeurIPS2022 65 • Instructiveなプロンプトは性能を改善 • MisleadingとIrrelevantは性能を改善しないか悪化．マニュアルで設定

Slide 59

Slide 59 text

Zero-Shot-Cotの改善 | LLMを使った⾃動プロンプト探索 “Large Language Models Are Human-Level Prompt Engineers”, ICLR2023 66 ⼿法初期候補から新しい候補を作ってもらう．結果マニュアル︓“Letʼs think step by step” vs. ⽣成︓“Letʼs work this out in a step by step way to be sure we have the right answer.” MultiArith: 78.7 -> 82.0 MSM8K: 40.7 -> 43.0

Slide 60

Slide 60 text

Zero-Shot-Cotの改善 | Plan-and-Solve Prompting “Plan-and-Solve Prompting”, ACL2023 67 • 「計画を⽴ててから実⾏せよ」，というような命令を与える • 「必要な変数を保持せよ」というような指⽰も加えると性能がさらに改善する

Slide 61

Slide 61 text

LLMの推論能⼒を⾼める研究︓Tree of Thoughts “Tree of Thoughts: Deliberate Problem Solving with Large Language Models”, 2023 68 • Game of 24での例と結果 – 与えられた4つの数字を変換して24を作る • 複数の思考列を出⼒して評価するSCとは違い， ToTは途中で分岐させる（⽊探索する） – ノードの評価もLMで⾏う • 戦略的思考が必要なタスクで性能が⼤幅改善

Slide 62

Slide 62 text

■ 補⾜ | コードでの学習と論理推論能⼒ “A Survey of Large Language Models”, 2023 70 ■ 主要なモデルの学習データの構成 • 最近のモデルは多くのケースでコードでの学習を⾏っている．GPT-3はなし． • Codeで学習したモデル（例︓code-davinci-002）はGPT-3より推論性能が良い． • Chat-GPTもcode-davinci-002をベースに学習されているとされる．

Slide 63

Slide 63 text

ここまでのまとめ – ⽂脈内学習 /Prompting – 71 • 基盤モデルの特徴の1つである広い適応能⼒について説明 • 与えられた⽂脈から効率的に学習(⽂脈内学習）することで Zero/Few-Shotで新しいタスクを解ける • CoT Promptingなどにより，LLMの推論能⼒が⼤幅に向上 • 従来苦⼿だった推論タスクの性能が⼤幅に向上（2022~） • プロンプトの⼊れ⽅や使い⽅による性能改善 • Self-Consistency, Tree-of-Thoughts, Plan-and-Solve

Slide 64

Slide 64 text

⽬次 72 • 基盤モデルとはなにか • 基盤モデルの例，基盤モデルの特徴 • 基盤モデルを作る技術︓スケール則（Scale Law） • 基盤モデルを使う技術︓⽂脈内学習（In Context Learning） • ⽂脈内学習を利⽤したZero/Few-Shot学習 (論理推論能⼒） • Instruction Tuning, RLHFなどの⽂脈内学習を強化する⽅法 • ⾔語以外での基盤モデル・今後の展望

Slide 65

Slide 65 text

⽂脈内学習に重要なのはモデルサイズだけか︖ ”Large Language Models are Zero-Shot Reasoners”, NeurIPS2022 73 • GPT3もInstruct GPT3もモデルが⼤きい際に最も効果が⼤きい点では共通 – ※ モデルサイズは正確には公開されていないので推測．名称から⼤きくは変わらないと推察． • ただし，上がり幅は⼤きく異なる． – Original GPT3 (davinci) 3.3% -> 44.3% – Instruct GPT3 (text-davinci-002) 17.7% -> 93.0% • InstructGPTで使われている，(1) Instruction Tuning，(2) RLHFが重要

Slide 66

Slide 66 text

Chain-of-Though Hub: 推論能⼒の継続的ベンチマーク “Chain-of-Thought Hub: A Continuous Effort to Measure Large Language Models' Reasoning Performance”, 2023 74 Github : https://github.com/FranxYao/chain-of-thought-hub (1) 同じ学習であればモデルサイズが⼤きい⽅が性能が良い傾向 (2) Instruction Tuning，RLHFがあるモデルの性能が良い傾向 ※ GSM8kやMMLU等の有名データは学習に⼊っている可能性があることに注意

Slide 67

Slide 67 text

Instruction Tuning (Supervised Fine Tuning) “Finetuned Language Models Are Zero-Shot Learners”, ICLR2022 75 ⽅法（上図）与えられたインストラクションに従うするようにFine-Tuneする結果（下図）ゼロショット性能が⼤幅に改善 (GPT3 Few-Shotより良い）類似研究多数．Instruct GPT, Alpaca，FLAN-T5, LIMAなどの多くのモデルで使われている

Slide 68

Slide 68 text

In Context Tuning “Meta-learning via Language Model In Context Tuning”, ACL2022 76 ⽅法事前学習モデルを⽂脈内学習するようにFine-Tuneする結果⽂脈内学習の性能が改善類似研究 “MetaICL: Learning to Learn In Context”

Slide 69

Slide 69 text

■補⾜ | FLAN-T5, FLAN-PaLM “Scaling Instruction-Finetuned Language Models”, 77 • 学習させるタスクを1800まで増加．CoTデータでも学習． • Instruction Tuning/In Context Tuning. • タスクを増やすごとにゼロショット性能が改善

Slide 70

Slide 70 text

Instruction Tuning データの作り⽅ 78 1 既存データを集める 2 強いモデルから⽣成 “Self-Instruct: Aligning LM with Self Generated Instructions”, ACL2023 “Super-NaturalInstructions: Generalization via Declarative Instructions on 1600+ NLP Tasks”, EMNLP2022 例︓Stanford Alpaca - 少数のタスクデモを与えて，LLMを使って拡張 “Alpaca: A Strong, Replicable Instruction-Following Model”, 2023

Slide 71

Slide 71 text

■補⾜ | Open Source ModelとInstruction Tuning “The False Promise of Imitating Proprietary LLMs”, 2023 80 モデル例︓Alpaca データを増やした際の性能 1. ChatGPTよりInstruction データを拡張 (175 -> 52k) 2. LLaMA 7Bを上記データで訓練 LIMAなど • データ増=>性能が上がらない（むしろ下がることも） • モデル増 => 性能改善 ※反証もある（Orca-13B) “Smaller LLMs Can Imitate Reasoning of Larger LLMs”, 2023

Slide 72

Slide 72 text

■補⾜ | PEFT: Parameter Efficient Fine Tuning Fine-Tuningに関するその他の話題 81 モチベーション • タスクごとにモデルをすべて更新するとモデルの Footprintが膨⼤に（左） • すべてを更新せずに良い性能を達成できないか︖ => PEFT 代表的な⼿法（いずれも本体を固定し⼀部を学習） • Adapter︓ FF層の後に層を追加． • LoRA︓低ランクに分解した別のパスを追加． • Prompt Tuning︓⼊⼒に学習可能トークンを追加（P-Tuning, Prompt Tuningも類似） ※ これらの⼿法を扱うライブラリも存在する．参考︓EMNLP2022 Tutorial 合計パラメータ︓ （タスク数+1）×N 😂

Slide 73

Slide 73 text

Reinforcement Learning from Human Feedback (RLFH) “Training language models to follow instructions with human feedback”, 2022 87 (1) Train Reward Model (2) Fine-Tune with RL • Instruct GPT, ChatGPTなどで利⽤されている． • LLMで同じ問題に対して複数の答えを出⼒させ，⼈間がPreferenceをつける． • Preferenceを予測するように報酬モデルを学習し，強化学習する（PPO）． ※ KL正則化

Slide 74

Slide 74 text

Why RLHF? “Training language models to follow instructions with human feedback”, 2022 88 Vanilla vs. SFT vs. PPO (RLHF) 1. 難易度︓⽣成 << ランク付け（正解を与えるよりランキングが簡単） 2. Negativeからも学習できる（学習信号が多い） 3. 報酬予測をしたい訳ではない（報酬予測で⾔語モデルを学習したくない）結論︓不明（諸説あり） RLHFをすると性能が上がる（指⽰に従う，制約を遵守するなど）

Slide 75

Slide 75 text

RLFHに関する議論 89 Q. Pre-trainの学習を忘却しないのか︖ A. する．のでKL正則化や，Replayがしばしば利⽤される（必ずではない）． ※ OpenAIのブログではKL正則だけでは限界がありReplayを使うことが推奨されている． ※ ただし，⼤規模モデルはそもそも忘却しにくいという研究もある． “Effect of scale on catastrophic forgetting in neural networks”, ICLR2022 => ViT, ResNetどちらも巨⼤なときに忘却が著しく起こりにくくなっている Q. Reward Modelの訓練は必須か︖ A. 必須ではない．Direct Preference Optimization※など ※ “Direct Preference Optimization: Your Language Model is Secretly a Reward Model”, 2023 （ざっくりいうとPreferenceが⾼い⽂が⾼い尤度で，低い⽂が低い尤度で⽣成されるように学習）

Slide 76

Slide 76 text

■補⾜ | Letʼs Verify Step by Step “Let's Verify Step by Step”, 2023 93

Slide 77

Slide 77 text

⽂脈内学習における謎︓何をどう学習しているのか︖ “Why Can GPT Learn In-Context? Language Models Implicitly Perform Gradient Descent as Meta-Optimizers”, ACL2023 94 Fine-Tuning（左図上側）データとパラメータを元に勾配を計算することでモデルを動かす In-Context Learning（左図下側） Demonstrationを⼊れなかったときとの差分をメタ勾配と⾒做せる（メタ勾配を使って暗黙的にFT） ※ ICLは⼩データではFTより性能が良いことが多い上記論⽂のA. メタ勾配を計算して暗黙的にパラメータを更新しているのでは︖

Slide 78

Slide 78 text

■補⾜ | ⽂脈内学習のようなやり⽅⾃体は昔からある “Optimization as a Model for Few-Shot Learning”, ICLR2017 95 違い1 構造がRNNからTransformerに ※ ⻑期系列を⾒れる分バッチ学習に近い︖ 違い2 元のモデルの性能が桁違い

Slide 79

Slide 79 text

⽂脈内学習における謎︓何をどう学習しているのか︖ “Rethinking the Role of Demonstrations: What Makes In-Context Learning Work?” 96 実験⽅法ラベルをランダムに変更結果ラベルをランダムにしてもICLの性能劣化は微⼩考察⼊出⼒関係以外の要素を学習しているのでは︖ （フォーマット，⼊⼒分布，ラベル空間，etc. ）

Slide 80

Slide 80 text

⽂脈内学習における謎︓何をどう学習しているのか︖ “Impact of Pretraining Term Frequencies on Few-Shot Reasoning ” 97 実験⽅法事前学習データでの単語の頻度と正解率の相関を検証結果出現頻度と正解率には強い相関が⾒られる考察新しい知識を学んでいるのかは疑問がある結果 Additionの例だが他でも同様の傾向

Slide 81

Slide 81 text

⽂脈内学習における謎︓何をどう学習しているのか︖ “Larger language models do in-context learning differently”, 2023 98 実験⽅法 (1)ラベルをFlip (2)ラベルを意味がない単語に ※ 先ほどはランダムなのでやや異なる結果⼤規模モデルのみ与えられた元の⼊出⼒関係の予測が⼤きく劣化考察⼤規模モデルは⼊出⼒関係も学習している傍証（異なる形でICLを実装︖）

Slide 82

Slide 82 text

⼊出⼒関係を⽂脈内学習させる⽅法 | Symbol Tuning “Symbol Tuning Improves In-Context Learning in Language Models” 99 ⽅法ラベルを適当に置換（Foo, Bar, etc. ）して学習 -> ⼊出⼒関係の学習を強制結果 Few-Shot性能が改善（⼊出⼒関係をちゃんと学べる）

Slide 83

Slide 83 text

ここまでのまとめ - ⽂脈内学習 - 100 • 成功しているLLMの多くはInstruction Tuningを採⽤ • 指⽰に明⽰的に従うようにすることでZero/Few-Shotが⼤幅改善 • 成功しているオープンソースLLMの多くも採⽤ • 効率的にモデルを微調整するPEFTについても研究が進展 • Instruct GPT以降では⼈間のPreferenceに基づき学習 (RLHF) • ⼈間のPreferenceを反映した出⼒をするようにチューニング • 「なぜ」「どのように」「何を」学習しているのかは研究段階 • RLFHの必要性，メタ勾配仮説，⼊出⼒を学んでいるのか︖など

Slide 84

Slide 84 text

基盤モデルの特徴は︖ 101 “On the Opportunities and Risks of Foundation Models”より抜粋 1. ⾮常に幅広いタスクを（追加学習なしに）単⼀のモデルで解ける 2. モデル・計算量・データのスケーリングにより実現されること 3. ⾔語に限らない（のではという期待

Slide 85

Slide 85 text

（再掲）対象は⾔語に限らない（のではという期待）基盤モデルの特徴３ 102 ⼤規模モデル（Transformer）例︓Gato, RT-1, X-Former 例︓Dreamer v3 + ⼤規模なデータ例: SAMでの1Bのマスクデータ例︓Gato, RT-1 + ⼤規模計算例︓スケール則は別ドメインでも成⽴ 1. ⽅法論の共通化 (別ドメインでの基盤モデル構築） 2. ドメインを超えたモデル共有⾔語モデルの活⽤例︓Say-Can, Voyager, などマルチモーダル化 ”One model to Learn Them All”, 2017 的な世界観（右下の図）例︓ GPT4

Slide 86

Slide 86 text

■LLMの活⽤ | Say-Can and Say-Can-PaLM “Do As I Can, Not As I Say: Grounding Language in Robotic Affordances”, 2022 104 • ⾔語モデルが出⼒したスキルの実⾏可能性（Skill Affordance）を考慮して選択 – 実⾏可能性はTDで学習 • ⾔語モデルをよくする（PaLMを使う）と性能が改善する ※ 実⾏可能なスキル（低レベル⽅策）はあらかじめ⽤意されている点に注意

Slide 87

Slide 87 text

■LLMの活⽤ | Code as Policy “Code as Policies: Language Model Programs for Embodied Control”, 2022 105 • ⾔語モデルにコードとして⽅策を出⼒させる • “Stack the blocks on the empty bowl.” • 不明な関数を呼び出した場合は関数を再起的に作る ※実⾏可能なスキルはあらかじめ⽤意されている点に注意 (Perception APIs, Control APIs)

Slide 88

Slide 88 text

■補⾜ | LLMによるツールの活⽤/ツール構築に関する研究 106 “Gorilla: Large Language Model Connected with Massive APIs”, 2023 APIを必要に応じて呼び出すようにLLMを訓練 Web APIだけでなく他のモデルを呼び出すこともできる “Large Language Models as Tool Makers”, 2023 「XXXをするようなPython Genericなコードを作って」⼀度作ったツールはAPI同様再利⽤できる（効率良い推論）ツール (API)の使⽤ツール (API)の構築

Slide 89

Slide 89 text

■LLMの活⽤ | Voyger (LLMによるスキルライブラリの構築と利⽤) Voyager: An Open-Ended Embodied Agent with Large Language Models”, 2023 107

Slide 90

Slide 90 text

■事例 | ⼤規模データセットの構築，⼤規模モデルの検証別ドメインでの基盤モデル 108 • EDR13台，17ヶ⽉，744タスク，13万デモ • 訓練︓97%で動作，汎化︓⼤幅向上 • Long Horizonなタスクも可 ■ ⼤規模データ×ロボティクス ■ ⼤規模モデル×世界モデル • Dreamer v3, 2023，200M規模での学習 • データ効率が良くなる他これまで解けなかったタスク（Minecraft）も成功

Slide 91

Slide 91 text

■事例 | X-Transformer 別ドメインでの基盤モデル from “Transformers” - Lucas Beyers 110 ■ Transformer×世界モデル • Transformers are Sample-Efficient World Models”, ICLR2023 • “Transformer-based World Models Are Happy With 100k Interactions”, ICLR2023

Slide 92

Slide 92 text

■難しさ1 | Tokenizatonの⽅法別ドメインでの基盤モデル 111 ■ 画像の場合 ■ 時系列（動画）の場合 • ⼊⼒をパッチ化して，各パッチを埋め込みに変換 • 原理的にサイズが⼤きくなると⾟い • ⼀度VQ-VAEでトークンに離散変換 • よいVQ-VAE⾃体はどう作るのか︖ ⾔語と⽐べても系列⻑が膨⼤になりがちで切れ⽬も不透明．無理⽮理塊を作って扱っているため，誤差が蓄積しうる．

Slide 93

Slide 93 text

■難しさ2 | 原理的に蓄積が必要なデータの取得 | 学習⽅法 RT-1: Robotics Transformer for Real-World Control at Scale 113 • ⾔語では学習⽤データは（枯渇しそうとはいえ）Webに蓄積されている • +⼈間と⼊⼒出⼒が同じ | 多種多様なタスクを記述可能（Universal API） • ロボットの場合，取れるデータはロボットを動かせるデータに限定される • できるようになることが増えないとデータが取れずできるようにならない • （そういう意味で，⾔語創発に近いようにも思う • 他の例︓科学的発⾒はLLMでできるのか︖ RT-1で利⽤されているスキル

Slide 94

Slide 94 text

本講演のまとめ 115 基盤モデルに関する技術動向について基礎的な内容・研究動向・今後の展望について紹介しました． 1. 基盤モデルとは何か • 1) ⾼い適応能⼒ (Few-Shot）, 2) スケール則, 3) 他ドメインへの転⽤ 3. LLMの⾼い適応能⼒は⽂脈内学習 (In-Context Learning)により実現 • Chain-of-Though Promptingにより論理推論能⼒も⼤幅に改善 • Pretrainに加えて，Instruction Tuning, RLHFなどが⾏われている．４. 他ドメインへのLLM⾃体 / LLM成功のレシピの転⽤する研究も注⽬されている • Primitiveの獲得 /Tokenization /データの逐次的獲得と学習などの課題 2. スケール則により，⼤規模なモデルへの投資が”de-risk”された． • ⼤規模なモデル（PaLM），計算量最適なモデル設計（Chinchilla，PaLM2） • データの枯渇問題とその対処に関する準備．

Slide 95

Slide 95 text

宣伝 116 ⽇本ロボット学会（RSJ）学術講演会 • 2023/9/11-14 @仙台 • OS4: 基盤モデルの実ロボット応⽤ – 「…本セッションでは，⼤規模⾔語モデル, ⼤規模視覚-⾔語モデルに代表される事前学習済みの基盤モデルを活⽤し，知能的に振る舞うロボットについて議論する．」 • 登録〆切︓6/14（来週），予稿〆切︓7/12 英⽂誌Advanced Roboticsの特集号 • ⽇本ロボット学会の英⽂誌 • Google・Metaなど海外で基盤モデルのロボット応⽤を研究する第⼀⼈者たちも本特集号のエディタ陣を務める • サーベイ論⽂も歓迎 • 原稿〆切︓2024/1/31 ※ 採録が決定次第，順次web上で公開予定論⽂投稿・参加をぜひご検討ください︕︕

Slide 96

Slide 96 text

補⾜資料 117

Slide 97

Slide 97 text

Generative AI（⽣成AI）? 118

Slide 98

Slide 98 text

Google Trend (Generative AI vs. LLM vs. Foundation Model) 119

Slide 99

Slide 99 text

… and vs. ChatGPT 120

Slide 100

Slide 100 text

Foundation Modelに関する講義など 121 [1] “On the Opportunities and Risks of Foundation Models”, 2021 [2] “A Comprehensive Survey on Pretrained Foundation Models: A History from BERT to ChatGPT”, 2023 [3] CS 324 - Advances in Foundation Models

Slide 101

Slide 101 text

“A Survey on In-context Learning”, 2023 122

Slide 102

Slide 102 text

モデルごとの学習⽅法の違い “A Survey of Large Language Models”, 2023 123

Slide 103

Slide 103 text

モデルごとの細かな要素の違い “A Survey of Large Language Models”, 2023 124

Slide 104

Slide 104 text

（１）Bias, Misinformation, and Alignment 課題（話題提供） 125 • 誤った知識を拡散するリスクがあるとして（Twitterでの攻撃により）は数⽇で閉鎖 • この問題は継承される • 知識を修正する研究※1、複数のモデルを組み合わせる研究（Socratic Model※2など） ※1 ”Editing Factual Knowledge in Language Models”, EMNLP 2021 など ※2 ”Socratic Models: Composing Zero-Shot Multimodal Reasoning with Language”, 2022 など ※ 図はGalacticaの⽣成結果の冒頭の抜粋

Slide 105

Slide 105 text

（２）Accessibility of Models 議題（話題提供） 126 ※ 表は”Holistic Evaluation of Language Models”より抜粋 APIのみ公開＆巨⼤⾮公開

Slide 106

Slide 106 text

補⾜︓基盤モデルがもたらすリスクについて 129

Slide 107

Slide 107 text

■参考 | カリーハワード同型対応 (proofs as programs) 130 • 特定の論理体系とプログラミングは等価である • 論理推論能⼒とコード学習の関係を⽰唆︖