JSAI2023 Tutorial 「基盤モデルの技術と展望」

基盤モデルの技術と展望⼈⼯知能学会全国⼤会チュートリアル東京⼤学⼯学系研究科講師岩澤有祐 2023/06/08 @ 熊本城ホール

⾃⼰紹介 2 • 現職︓東⼤松尾研講師 • DL輪読会の運営 (@DL_Hacks)，深層学習の書籍の翻訳 • 最近主なテーマ︓⼤規模モデルからの知識の転移 (Test-Time
Adaptation) • “Test-Time Classifier Adjustment Module for Model Agnostic Domain Generalization”, NeurIPS2021 • “Large Language Models are Zero-Shot Reasoners”, NeurIPS2022 など • 本講演の経緯 ⇨ • 昨年11⽉開催 • 20分を90分に

⽬次 3 • 基盤モデルとはなにか（基盤モデルの例，基盤モデルの特徴） • 基盤モデルを作る技術︓スケール則（Scale Law） • 基盤モデルを使う技術︓⽂脈内学習（In Context
Learning） • 今後の展望︓⾔語以外での基盤モデル

Foundation Model（基盤モデル）とは “On the Opportunities and Risks of Foundation Models”,
2021 4 • 2021/8/16初出のホワイトペーパーで登場した⾔葉 • Stanfordの研究機関の名称にもなっている（⻘枠）（Abstractより抜粋） “AI is undergoing a paradigm shift with the rise of models (e.g., BERT, DALL-E, GPT- 3) that are trained on broad data at scale and are adaptable to a wide range of downstream tasks. We call these models foundation models to underscore their critically central yet incomplete character”

基盤モデルの例︓GPT3を初めとした⼤規模⾔語モデル Example of Foundation Models 5 Causal Language Model LLMs
(Transformer) Input: Language models determine [mask] Output: word probability by analyzing text data Original: Language models determine word probability by analyzing text data Translation (Few-Shot) Translation (Zero-Shot) Summarization (Zero-Shot) • Starting with “TL;DR” drastically improves the performance Many other examples 図は” Language Models are Few-Shot Learners”より抜粋

2020年のGPT-3登場後，2022年後半から加速度的に増加． “A Survey of Large Language Models”, 2023年5⽉にアクセス（3⽉投稿からすでに10回Revision） 6

Chat GPT, GPT4 | さまざまな試験での性能マルチモーダル化 7

Igaku-QA | GPT-4の専⾨的知識の検証 “Evaluating gpt-4 and ChatGPTt on Japanese medical
licensing examinations”2023 8 • ⾔語モデル (GPT-4 and ChatGPT）を新たに作成した⽇本の医療ライセンス試験に関するデータセット（Igaku-QA)でベンチマーク • (1) ⼈間の平均的な受験者よりは悪い，(2) 禁忌技を選択する傾向にある，といった問題はあるものの試験ボーダーは突破

Voyager | ⾔語モデルを使った⽅策の獲得 “Voyager: An Open-Ended Embodied Agent with Large
Language Models”, arXiv2023 9 • LLMを使ってMinecraftをプレイする（右が動画） • 逐次的な⾏動獲得が必要，スパース報酬 • RLが苦⼿（cf. Dreamre v3が初めてスクラッチで採掘に成功 • スキルをコードとして書く+LLMでプランニング

Reviewr GPT!!! LLMの応⽤例 10

マルチモーダルデータを扱う⼤規模モデルの例 | Flamingo “Flamingo : a Visual Language Model for
Few-Shot Learning”, 2022, DeepMind 12 • 学習済Vision Model(NF-Net) とLanguage Model (Chinchilla, 70B) を統合．計80B． • ペアデータで接続部分 (Perceiver ResamplerとGated Xattn) ． • フラミンゴの写真を⾒て「フラミンゴ。カリブ諸島や南アメリカで⾒られます」などと返すなど画像・⾔語で様々な補完ができる． https://www.deepmind.com/blog/tackling-multiple-tasks-with-a-single-visual-language-model

Robot Transformer (RT-1) “RT-1: Robotics Transformer for Real-World Control at
Scale”, 2022 14 モデル • Efficient NetとTransformer の組み合わせ • インストラクションに従い動作⽣成データ • EDR13台，17ヶ⽉，744タスク，13万デモ • 訓練︓97%で動作 • 汎化︓種々の意味で⼤幅向上（未知タスク，未知ソース等 • Long Horizonなタスクも可 ※ 類似研究にGato，BC-Zなど

Segment Anything Model “Segment Anything”, 2023 15 構築した⼤規模データセットSA-1B (1B Masks,
11M images)を使ったセグメンテーションモデル．さまざまなプロンプト（点，矩形，テキストなど）を受け取る柔軟にマスクを⽣成することができる

Track Anything: SAMの応⽤例 “Track Anything: Segment Anything Meets Videos”, 2023
16 Github: https://github.com/gaomingqi/Track-Anything Demo: https://huggingface.co/spaces/VIPLab/Track-Anything

基盤モデルの特徴は︖ 17 “On the Opportunities and Risks of Foundation Models”より抜粋
1. ⾮常に幅広いタスクを（追加学習なしに）単⼀のモデルで解ける 2. モデル・計算量・データのスケーリングにより実現されること 3. ⾔語に限らない（のではという期待

モデル・計算量・データのスケーリングにより実現されること基盤モデルの特徴1 18 モデルサイズが巨⼤なときのみ解けるタスクが存在 Scaling Law Emergent Ability 3つの変数に関するべき乗に従って上がる. 計算資源
C, データセットサイズ D, パラメータ数 N

幅広いタスクを（追加学習なしに）単⼀のモデルで解けること 19 タスクごとにモデルを学習（NN以外）タスクごとにモデルを学習（NN）モデルを共有して学習（Fine-Tuning）モデルを固定して指⽰を変更（Prompting）
従来現代 “Pre-train, Prompt, and Predict: A Systematic Survey of Prompting Methods in Natural Language Processing”より抜粋基盤モデルの特徴2

対象は⾔語に限らない（のではという期待）基盤モデルの特徴３ 20 ⼤規模モデル（Transformer）例︓Gato, RT-1, X-Former 例︓Dreamer v3 +
⼤規模なデータ例: SAMでの1Bのマスクデータ例︓Gato, RT-1 + ⼤規模計算例︓スケール則は別ドメインでも成⽴ 1. ⽅法論の共通化 (別ドメインでの基盤モデル構築） 2. ドメインを超えたモデル共有マルチモーダル化 ”One model to Learn Them All”, 2017 的な世界観（上図）例︓ GPT4 ⾔語モデルの活⽤例︓Say-Can, Voyager, など

ここまでのまとめ基盤モデルについて 21 • 基盤モデルとは，⼤量・多様なデータで学習された，幅広いタスクに適応できるモデルのこと • 特徴１︓単⼀のモデルがさまざまなタスクを解けること • これまで︓微調整
=> 現在︓学習なしでPrompting • 特徴２︓モデルサイズが巨⼤になることで性能が改善すること • Scaling Law, Emergent Ability, Grokking • 特徴３︓上記が⾔語以外でも進展していること

⽬次 22 • 基盤モデルとはなにか • 基盤モデルの例，基盤モデルの特徴 • 基盤モデルを作る技術︓スケール則（Scale Law） •
Emergent Ability, Grokking, Compute-Optimal Scaling • 基盤モデルを使う技術︓⽂脈内学習（In Context Learning） • 他ドメインへの適⽤・今後の展望

“More is Different” in DL | Emergent Ability “Emergent Abilities
of Large Language Models”, TMLR2022 23 モデルサイズを巨⼤にすると性能が”突如”⼤幅に上がるタスクがある

“More is Different” in DL | Grokking “Grokking: Generalization Beyond
Overfitting on Small Algorithmic Datasets” 24 “Progress measures for grokking via mechanistic interpretability”, ICLR2023 “Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets”, 2022 学習を継続すると突然検証データでの正解率が⾼まる現象（下記はa◦b = c（例︓x+y=?）というタスクにおける性能調査）

▪補⾜ | Grokking中には何がおこっているのか︖ “Towards Understanding Grokking: An Effective Theory of
Representation Learning”, NeurIPS2022 25 類似研究︓”Progress measures for grokking via mechanistic interpretability”, ICLR2023 A. 記憶を汎化させている（上は学習過程の可視化）．過学習中（中央）は覚えているだけだが，汎化後（右）には数字が綺麗に整列．

▪補⾜ | 本当にPhase Transitionなのか? “Are Emergent Abilities of Large Language
Models a Mirage?”, 2023 26 • 本当に「創発」「相転移」しているのかには反論もある – 性能の測り⽅による（左図） ※ これは本論⽂でも⾔われている – 横軸が対数なのは変では – そもそも何を持って創発︖ • 巨⼤モデル|巨⼤計算で思ったよりできるようになるのは事実

スケール則（Scale Law) “Scaling Laws for Neural Language Models”, 2021 28
DLにおけるスケール則とは︖ 1. 計算資源（C） 2. データセットサイズ（D） 3. パラメータ数（N）と誤差（L）に関する次の経験則． ※ 他2つの変数が⼗分⼤きい場合． 𝐿 𝑋 = $ 𝑋! 𝑋 " log 𝐿(𝑋) = 𝛼 log 𝑋! − 𝛼 𝑙𝑜𝑔 𝑋

スケール則（Scale Law) – C, D, NとLの関係 - “Scaling Laws for
Neural Language Models”, 2021 29 • 各図のデータ点は実測値 • いずれの変数もTest Lossとの間に両対数グラフで線形の関係が⾒られる ※ C: Compute, D: Dataset Size, N: #Parameters, L: Test Loss

▪補⾜ | より初期のスケール則 (Baidu, 2017） “Deep Learning Scaling is Predictable,
Empirically”, 2017 30 同じ点データに関するスケール則を検証（モデルも少し）左はMTの例．相違点 1. 対象モデルが異なる（Transformer以前） 2. 規模が異なる（特にモデル）

転移性能とスケールの関係 | 転移性能における元Modelの重要さ “Scaling Laws for Neural Language Models”, 2021
31 • WebText2︓通常のテストデータ，それ以外︓学習外のデータ • WebText2以外で性能の劣化は⾒られるもの，オフセットの違い程度で傾向は同じ（傾きもほぼ同じ）

他のドメインでのスケール則（計算量とLoss） “Scaling Laws for Autoregressive Generative Modeling”, 2020 32 画像⽣成，マルチモーダル，動画，数理等でも計算量に関するスケール則が成⽴

べき乗則の意義 34 “GPT-4 Technical Report”, 2023 より抜粋 X軸︓GPT4を1.0とした計算量 Y軸︓性能 Þ1/1000程度のモデルまでで性
能を正確に予測できる． ※ GPT-4のパラメタ数は公開されていないがどんなに⼩さくても1010 (10B）より⼤．左の図の最⼩が103だとしたら1013 (1T) “Scaling laws de-risk investments in large models” ↓ Anthoropicの“Predictability and Surprise in Large Generative Models”, 2023より抜粋 Q. あるモデルを1Tまで巨⼤化するべきか︖

より精緻なモデル選択べき乗則の意義 35 モデル構造の探索ハイパラ探索スケールしてもおそらく Transoformer > LSTM パラメータ⼩=>
層が⼩さいほうが良いパラメータ⼤=> スケールすると逆転 Q. 1T ParameterでモデルAとモデルBはどちらが性能がよい︖ ↓ Anthoropicの“Predictability and Surprise in Large Generative Models”, 2023より抜粋

▪補⾜ | スケーリングに関するその他の知⾒ “Scaling Laws for Neural Language Models”, 2021
36 パラメータ数が多いほどサンプル効率は良いあるロスを達成するのに計算を継続するのは⾮効率

モデルの⼤規模化に関する研究 38 • Gopher (DeepMind), 280B, 2021/12/8 • 下図は280B vs.
7.1B以下のBestの⽐較） • MT-NLG (Microsoft, Nvidia), 530B • PaLM (Google) , 540B, 2022/04/04 • SwithTransformer (Google), 1.6T, 2021/1/1 • ※ MoEを利⽤しているので実効パラメータは少ない

計算量が所与のときに最適なモデルサイズ・データセットサイズは︖ “Training Compute-Optimal Large Language Models”, NeurIPS2022 39 求め⽅の例 IsoFLOP
Curve: さまざまなモデルサイズに対して，FLOPSが⼀定になるようにデータ数を調整し，各FLOPSでの最適パラメータ数・データ数を求める（左）各FLOPS毎の学習結果，(中）FLOPS毎の最適N，(右）FLOPS毎の最適D パラメータ数Nとデータ数Dは⼤体1対1で⼤きくすると良いという結果． ※ Compute Optimalとも呼ばれる

Chinchilla︓最適計算配分に基づきNとDを決めたモデル “Training Compute-Optimal Large Language Models”, NeurIPS2022 40 データサイズD トークンを1.4Tまで増加
（同じデータの別サブセット） ※ Gopherの約4.6倍モデルサイズN 70Bに設定 ※ Gopherの約1/4倍結果多くのケースでGopherに勝利（発⾒した関係式の妥当性を⽰唆）

PaLM2 “PaLM 2 Technical Report”, 2023 41 PaLM2でも同様の実験が⾏われており，Chinchilla同様のスケール則が確認．ただし転移性能は必ずしもこの設計に従わないことも報告されている．

▪補⾜ | 計算量最適なViTの構造の設計 “Getting ViT in Shape: Scaling Laws for
Compute-Optimal Model Design”, 2023 42

RefineWeb: Webのみの5T Tokenのデータセット “The RefinedWeb Dataset for Falcon LLM”, 2022
43 Webデータのみでの5T Tokenのデータセット．600GがPublic．フィルタリングの⼯夫などにより以前より⼤規模なデータを構築．

Falcon-40B︓RefineWeb等で訓練されたオープンソースモデル “The RefinedWeb Dataset for Falcon LLM”, 2022 44 Open
LLM Leaderboardより抜粋他データとの⽐較（論⽂より抜粋） Flacon-40Bの他モデルとの⽐較 ※ 実際にはFalcon-40BにはCodeのデータ等も混ぜている．学習時間は384GPUで2ヶ⽉

データの枯渇問題 | データはどこまで増やせるのか︖ Will we run out of data? An
analysis of the limits of scaling datasets in Machine Learning”, 2022 45 過去のWebデータの増え⽅，学習データの増え⽅からの予測良質な⾔語データは2024頃に枯渇することが予測されている．

APIを経由したデータ収集 46 ※ 表は”Holistic Evaluation of Language Models”より抜粋 APIのみ公開＆巨⼤
⾮公開

▪補⾜ | 基盤モデルの性能をどう測るのか “Beyond the Imitation Game: Quantifying and extrapolating
the capabilities of language models”, 2022 47 SuperGLUEの性能の変遷 Big Benchの評価例 • 問題１︓性能上限に達す流までの速さ | 評価の⼤規模化（≒かかる⾦額が莫⼤に） – BigBench: 444名のコントリビューターによる204 tasksを収集し，既存モデルを⼤規模に評価 • 問題２︓性能以外の評価 (Fairness, Bias, Toxicity …) – ”Holistic Evaluation of Language Models”, 2022, arXiv) • 問題３︓Contamination問題の回避はかなり難しい（API，Web経由でデータ取得）

データに限りがある状況でのスケール則 “Scaling Data-Constrained Language Models”, 2023 48 Q. 繰り返すと性能劣化するか︖ A.
4エポックくらいまではデータを加えるのと同じくらい効果がある．

データの質とべき乗則の関係 “Beyond neural scaling laws: beating power law scaling via
data pruning”, NeurIPS2022 Outstanding Paper 50 良質な（難しい）データを選ぶことで誤差を急激に⼩さくできる（α-1がRandom Pruningに対応) 最適なデータの作り⽅は元々存在する事例の量に依存する Data pruning rateごとの損失難しい例を残した場合の性能

ここまでのまとめ – Scale Lawについて – 51 基盤モデルの特徴の1つであるスケールの拡⼤について説明 • Emergent Ability,
Grokking︓More is Different in DL • 現象の観察研究が主流．理由や，本当に創発なのかは不透明． • 計算量，パラメタ数，データ数に関してスケール則が成⽴ • ⾔語モデルだけでない | 転移でも同様の傾向 • 効果が⾒積もりやすくなり，⼤規模モデルの開発を促進 • Commute Optimalなスケール則を求める研究もある • 例︓Chinchilla, PaLM2（データとモデルを約1:1で増やす）

基盤モデルを使う技術︓⽂脈内学習（In Context Learning） • ⽂脈内学習を利⽤したZero/Few-Shot学習 (論理推論能⼒） • Instruction Tuning, RLHFなどの⽂脈内学習を強化する⽅法 • ⾔語以外での基盤モデル・今後の展望

プロンプティング（Prompting）とは︖ 53 Demonstration (Few-Shot) Instruction (Zero-Shot) 加えるとある機能が強化される⽂字列例︓tl;drをつけると要約性能が上がる [1] 例︓According
toをつけると知識を参照してくれるようになる [2] 中間指⽰（例必要な変数を保持してくださいプロンプトエンジニアリング特定の機能の発⽣を促進 (prompt)するような⾔語モデルに⼊⼒するコンテキスト⽂与える事例を変えれば異なることができる（例︓ポジネガ判定）

⽂脈内学習（In-Context Learning)によるFew-Shot学習 “Language Models are Few-Shot Learners”, NeurIPS2020 54 特にモデルが⼤規模な場合Few-Shotのデモンストレーションの追加で
性能が⼤幅に上がることが多い．⽂脈から学習するため，⽂脈内学習 (In-Context Learning)と呼ぶ． Demonstration (Few-Shot) ⽂脈（Context）

“Pre-train, Prompt, Predict”へのパラダイムシフト 55 タスクごとにモデルを学習（NN以外）タスクごとにモデルを学習（NN）モデルを共有して学習（Fine-Tuning）
モデルを固定して指⽰を変更（Prompting）従来現代 “Pre-train, Prompt, and Predict: A Systematic Survey of Prompting Methods in Natural Language Processing”より抜粋基盤モデルの特徴１

GPT3の課題 | 論理推論能⼒ 57 “Chain of Thought Prompting Elicits Reasoning
in Large Language Models”, NeurIPS2022より抜粋 Emergence!! 😩

Chain-of-Though (CoT) Prompting “Chain of Thought Prompting Elicits Reasoning in
Large Language Models”, NeurIPS2022 58 • Few-Shotの事例の際に思考過程を⼊れる（Chain of thought prompting)と，新しい質問についても思考過程を明⽰してくれる． • 算数の⽂章題など，従来難しいとされていた推論タスクでも⼤幅に性能が向上． ※ GSM8kは9-12歳の正解率が60%．

CoTの結果 59 • さまざまな数学のデータセットで検証した結果 • 特にモデルサイズが⼤きいときに性能の改善が⼤きい

CoTの推論能⼒の改善︓Self Consistency “Self-Consistency Improves Chain of Thought Reasoning in Language
Models”, ICLR2023 60 LMに複数の推論を⾏わせて（上は3つの例），多数決で答えを決定． ※ ⽂的にもっともらしいものが正しい推論とは限らないことを⽰唆．

▪補⾜ | Minerva (PaLM+CoT+FT+Self Consistency) “Solving Quantitative Reasoning Problems with
Language Models”, arXiv (2022), 61 • MATH, OCW, GSM8k, MMLU-STEMでの結果． • それぞれ中⾼等数学，MITの学部レベルの問題，中学レベルの数学問題，STEM問題 • 既存SOTAを⼤きく上回る．

Zero-Shot Chain of Though ”Large Language Models are Zero-Shot Reasoners”,
NeurIPS2022 62

Zero-Shot CoTの推論能⼒ ”Large Language Models are Zero-Shot Reasoners”, NeurIPS2022 63
シングルステップの推論で解けるタスク（CoTがいらない）常識推論（考えすぎて失敗するケースが多い） ※ 特にありえる解を複数選択してしまう多段階推論が必要なタスク 2022年論⽂で作られたタスク（利⽤したモデルは2021までのデータで学習）

Q: Is Mickey Mouse hypothetically unlikely to make a purchase
at Zazzle? （ご参考）⻘字が⼊⼒．オレンジは意訳．⿊がGPTの出⼒．※ 論⽂外の結果． 64 A: Let’s think step by step. First, we need to consider Mickey Mouse’s budget. Based on his income as a famous cartoon character, it’s safe to say that he has a pretty large budget. （意訳︓ミッキーは有名だから莫⼤な予算を持つはず） Next, we need to think about what Mickey Mouse would want to purchase at Zazzle. We can safely assume that he would be interested in purchasing items that are related to his image, such as t- shirts, coffee mugs, and mouse pads. （意訳︓ミッキーは⾃分のイメージに合うアイテムなら興味を持つかもしれない） Finally, we need to consider the prices of the items at Zazzle. Based on the prices of similar items at other stores, it’s likely that the prices at Zazzle are within Mickey Mouse’s budget. （意訳︓Zazzleで売っているものの値段はミッキーの予算内であるはずだ） Therefore, we can conclude that it is not hypothetically unlikely for Mickey Mouse to make a purchase at Zazzle. （意訳︓ミッキーはZazzleで買い物しそうにないとは⾔えないと結論づける） ※正しい推論をするこもともある．例︓「ミッキーは架空のキャラクターなので靴は買わない」

▪補⾜ | ⼊⼒するプロンプトによる性能の変化 ”Large Language Models are Zero-Shot Reasoners”, NeurIPS2022
65 • Instructiveなプロンプトは性能を改善 • MisleadingとIrrelevantは性能を改善しないか悪化．マニュアルで設定

Zero-Shot-Cotの改善 | LLMを使った⾃動プロンプト探索 “Large Language Models Are Human-Level Prompt Engineers”,
ICLR2023 66 ⼿法初期候補から新しい候補を作ってもらう．結果マニュアル︓“Letʼs think step by step” vs. ⽣成︓“Letʼs work this out in a step by step way to be sure we have the right answer.” MultiArith: 78.7 -> 82.0 MSM8K: 40.7 -> 43.0

Zero-Shot-Cotの改善 | Plan-and-Solve Prompting “Plan-and-Solve Prompting”, ACL2023 67 • 「計画を⽴ててから実⾏せよ」，というような命令を与える
• 「必要な変数を保持せよ」というような指⽰も加えると性能がさらに改善する

LLMの推論能⼒を⾼める研究︓Tree of Thoughts “Tree of Thoughts: Deliberate Problem Solving with
Large Language Models”, 2023 68 • Game of 24での例と結果 – 与えられた4つの数字を変換して24を作る • 複数の思考列を出⼒して評価するSCとは違い， ToTは途中で分岐させる（⽊探索する） – ノードの評価もLMで⾏う • 戦略的思考が必要なタスクで性能が⼤幅改善

▪ 補⾜ | コードでの学習と論理推論能⼒ “A Survey of Large Language Models”,
2023 70 ▪ 主要なモデルの学習データの構成 • 最近のモデルは多くのケースでコードでの学習を⾏っている．GPT-3はなし． • Codeで学習したモデル（例︓code-davinci-002）はGPT-3より推論性能が良い． • Chat-GPTもcode-davinci-002をベースに学習されているとされる．

ここまでのまとめ – ⽂脈内学習 /Prompting – 71 • 基盤モデルの特徴の1つである広い適応能⼒について説明 • 与えられた⽂脈から効率的に学習(⽂脈内学習）することで
Zero/Few-Shotで新しいタスクを解ける • CoT Promptingなどにより，LLMの推論能⼒が⼤幅に向上 • 従来苦⼿だった推論タスクの性能が⼤幅に向上（2022~） • プロンプトの⼊れ⽅や使い⽅による性能改善 • Self-Consistency, Tree-of-Thoughts, Plan-and-Solve

基盤モデルを使う技術︓⽂脈内学習（In Context Learning） • ⽂脈内学習を利⽤したZero/Few-Shot学習 (論理推論能⼒） • Instruction Tuning, RLHFなどの⽂脈内学習を強化する⽅法 • ⾔語以外での基盤モデル・今後の展望

⽂脈内学習に重要なのはモデルサイズだけか︖ ”Large Language Models are Zero-Shot Reasoners”, NeurIPS2022 73 •
GPT3もInstruct GPT3もモデルが⼤きい際に最も効果が⼤きい点では共通 – ※ モデルサイズは正確には公開されていないので推測．名称から⼤きくは変わらないと推察． • ただし，上がり幅は⼤きく異なる． – Original GPT3 (davinci) 3.3% -> 44.3% – Instruct GPT3 (text-davinci-002) 17.7% -> 93.0% • InstructGPTで使われている，(1) Instruction Tuning，(2) RLHFが重要

Chain-of-Though Hub: 推論能⼒の継続的ベンチマーク “Chain-of-Thought Hub: A Continuous Effort to Measure
Large Language Models' Reasoning Performance”, 2023 74 Github : https://github.com/FranxYao/chain-of-thought-hub (1) 同じ学習であればモデルサイズが⼤きい⽅が性能が良い傾向 (2) Instruction Tuning，RLHFがあるモデルの性能が良い傾向 ※ GSM8kやMMLU等の有名データは学習に⼊っている可能性があることに注意

Instruction Tuning (Supervised Fine Tuning) “Finetuned Language Models Are Zero-Shot
Learners”, ICLR2022 75 ⽅法（上図）与えられたインストラクションに従うするようにFine-Tuneする結果（下図）ゼロショット性能が⼤幅に改善 (GPT3 Few-Shotより良い）類似研究多数．Instruct GPT, Alpaca，FLAN-T5, LIMAなどの多くのモデルで使われている

In Context Tuning “Meta-learning via Language Model In Context Tuning”,
ACL2022 76 ⽅法事前学習モデルを⽂脈内学習するようにFine-Tuneする結果⽂脈内学習の性能が改善類似研究 “MetaICL: Learning to Learn In Context”

▪補⾜ | FLAN-T5, FLAN-PaLM “Scaling Instruction-Finetuned Language Models”, 77 •
学習させるタスクを1800まで増加．CoTデータでも学習． • Instruction Tuning/In Context Tuning. • タスクを増やすごとにゼロショット性能が改善

Instruction Tuning データの作り⽅ 78 1 既存データを集める 2 強いモデルから⽣成 “Self-Instruct: Aligning
LM with Self Generated Instructions”, ACL2023 “Super-NaturalInstructions: Generalization via Declarative Instructions on 1600+ NLP Tasks”, EMNLP2022 例︓Stanford Alpaca - 少数のタスクデモを与えて，LLMを使って拡張 “Alpaca: A Strong, Replicable Instruction-Following Model”, 2023

▪補⾜ | Open Source ModelとInstruction Tuning “The False Promise of
Imitating Proprietary LLMs”, 2023 80 モデル例︓Alpaca データを増やした際の性能 1. ChatGPTよりInstruction データを拡張 (175 -> 52k) 2. LLaMA 7Bを上記データで訓練 LIMAなど • データ増=>性能が上がらない（むしろ下がることも） • モデル増 => 性能改善 ※反証もある（Orca-13B) “Smaller LLMs Can Imitate Reasoning of Larger LLMs”, 2023

▪補⾜ | PEFT: Parameter Efficient Fine Tuning Fine-Tuningに関するその他の話題 81 モチベーション
• タスクごとにモデルをすべて更新するとモデルの Footprintが膨⼤に（左） • すべてを更新せずに良い性能を達成できないか︖ => PEFT 代表的な⼿法（いずれも本体を固定し⼀部を学習） • Adapter︓ FF層の後に層を追加． • LoRA︓低ランクに分解した別のパスを追加． • Prompt Tuning︓⼊⼒に学習可能トークンを追加（P-Tuning, Prompt Tuningも類似） ※ これらの⼿法を扱うライブラリも存在する．参考︓EMNLP2022 Tutorial 合計パラメータ︓ （タスク数+1）×N 😂

Reinforcement Learning from Human Feedback (RLFH) “Training language models to
follow instructions with human feedback”, 2022 87 (1) Train Reward Model (2) Fine-Tune with RL • Instruct GPT, ChatGPTなどで利⽤されている． • LLMで同じ問題に対して複数の答えを出⼒させ，⼈間がPreferenceをつける． • Preferenceを予測するように報酬モデルを学習し，強化学習する（PPO）． ※ KL正則化

Why RLHF? “Training language models to follow instructions with human
feedback”, 2022 88 Vanilla vs. SFT vs. PPO (RLHF) 1. 難易度︓⽣成 << ランク付け（正解を与えるよりランキングが簡単） 2. Negativeからも学習できる（学習信号が多い） 3. 報酬予測をしたい訳ではない（報酬予測で⾔語モデルを学習したくない）結論︓不明（諸説あり） RLHFをすると性能が上がる（指⽰に従う，制約を遵守するなど）

RLFHに関する議論 89 Q. Pre-trainの学習を忘却しないのか︖ A. する．のでKL正則化や，Replayがしばしば利⽤される（必ずではない）． ※ OpenAIのブログではKL正則だけでは限界がありReplayを使うことが推奨されている． ※ ただし，⼤規模モデルはそもそも忘却しにくいという研究もある．
“Effect of scale on catastrophic forgetting in neural networks”, ICLR2022 => ViT, ResNetどちらも巨⼤なときに忘却が著しく起こりにくくなっている Q. Reward Modelの訓練は必須か︖ A. 必須ではない．Direct Preference Optimization※など ※ “Direct Preference Optimization: Your Language Model is Secretly a Reward Model”, 2023 （ざっくりいうとPreferenceが⾼い⽂が⾼い尤度で，低い⽂が低い尤度で⽣成されるように学習）

▪補⾜ | Letʼs Verify Step by Step “Let's Verify Step
by Step”, 2023 93

⽂脈内学習における謎︓何をどう学習しているのか︖ “Why Can GPT Learn In-Context? Language Models Implicitly Perform
Gradient Descent as Meta-Optimizers”, ACL2023 94 Fine-Tuning（左図上側）データとパラメータを元に勾配を計算することでモデルを動かす In-Context Learning（左図下側） Demonstrationを⼊れなかったときとの差分をメタ勾配と⾒做せる（メタ勾配を使って暗黙的にFT） ※ ICLは⼩データではFTより性能が良いことが多い上記論⽂のA. メタ勾配を計算して暗黙的にパラメータを更新しているのでは︖

▪補⾜ | ⽂脈内学習のようなやり⽅⾃体は昔からある “Optimization as a Model for Few-Shot Learning”,
ICLR2017 95 違い1 構造がRNNからTransformerに ※ ⻑期系列を⾒れる分バッチ学習に近い︖ 違い2 元のモデルの性能が桁違い

⽂脈内学習における謎︓何をどう学習しているのか︖ “Rethinking the Role of Demonstrations: What Makes In-Context Learning
Work?” 96 実験⽅法ラベルをランダムに変更結果ラベルをランダムにしてもICLの性能劣化は微⼩考察⼊出⼒関係以外の要素を学習しているのでは︖ （フォーマット，⼊⼒分布，ラベル空間，etc. ）

⽂脈内学習における謎︓何をどう学習しているのか︖ “Impact of Pretraining Term Frequencies on Few-Shot Reasoning ”
97 実験⽅法事前学習データでの単語の頻度と正解率の相関を検証結果出現頻度と正解率には強い相関が⾒られる考察新しい知識を学んでいるのかは疑問がある結果 Additionの例だが他でも同様の傾向

⽂脈内学習における謎︓何をどう学習しているのか︖ “Larger language models do in-context learning differently”, 2023 98
実験⽅法 (1)ラベルをFlip (2)ラベルを意味がない単語に ※ 先ほどはランダムなのでやや異なる結果⼤規模モデルのみ与えられた元の⼊出⼒関係の予測が⼤きく劣化考察⼤規模モデルは⼊出⼒関係も学習している傍証（異なる形でICLを実装︖）

⼊出⼒関係を⽂脈内学習させる⽅法 | Symbol Tuning “Symbol Tuning Improves In-Context Learning in
Language Models” 99 ⽅法ラベルを適当に置換（Foo, Bar, etc. ）して学習 -> ⼊出⼒関係の学習を強制結果 Few-Shot性能が改善（⼊出⼒関係をちゃんと学べる）

ここまでのまとめ - ⽂脈内学習 - 100 • 成功しているLLMの多くはInstruction Tuningを採⽤ • 指⽰に明⽰的に従うようにすることでZero/Few-Shotが⼤幅改善
• 成功しているオープンソースLLMの多くも採⽤ • 効率的にモデルを微調整するPEFTについても研究が進展 • Instruct GPT以降では⼈間のPreferenceに基づき学習 (RLHF) • ⼈間のPreferenceを反映した出⼒をするようにチューニング • 「なぜ」「どのように」「何を」学習しているのかは研究段階 • RLFHの必要性，メタ勾配仮説，⼊出⼒を学んでいるのか︖など

基盤モデルの特徴は︖ 101 “On the Opportunities and Risks of Foundation Models”より抜粋
1. ⾮常に幅広いタスクを（追加学習なしに）単⼀のモデルで解ける 2. モデル・計算量・データのスケーリングにより実現されること 3. ⾔語に限らない（のではという期待

（再掲）対象は⾔語に限らない（のではという期待）基盤モデルの特徴３ 102 ⼤規模モデル（Transformer）例︓Gato, RT-1, X-Former 例︓Dreamer v3 +
⼤規模なデータ例: SAMでの1Bのマスクデータ例︓Gato, RT-1 + ⼤規模計算例︓スケール則は別ドメインでも成⽴ 1. ⽅法論の共通化 (別ドメインでの基盤モデル構築） 2. ドメインを超えたモデル共有⾔語モデルの活⽤例︓Say-Can, Voyager, などマルチモーダル化 ”One model to Learn Them All”, 2017 的な世界観（右下の図）例︓ GPT4

▪LLMの活⽤ | Say-Can and Say-Can-PaLM “Do As I Can, Not
As I Say: Grounding Language in Robotic Affordances”, 2022 104 • ⾔語モデルが出⼒したスキルの実⾏可能性（Skill Affordance）を考慮して選択 – 実⾏可能性はTDで学習 • ⾔語モデルをよくする（PaLMを使う）と性能が改善する ※ 実⾏可能なスキル（低レベル⽅策）はあらかじめ⽤意されている点に注意

▪LLMの活⽤ | Code as Policy “Code as Policies: Language Model
Programs for Embodied Control”, 2022 105 • ⾔語モデルにコードとして⽅策を出⼒させる • “Stack the blocks on the empty bowl.” • 不明な関数を呼び出した場合は関数を再起的に作る ※実⾏可能なスキルはあらかじめ⽤意されている点に注意 (Perception APIs, Control APIs)

▪補⾜ | LLMによるツールの活⽤/ツール構築に関する研究 106 “Gorilla: Large Language Model Connected with
Massive APIs”, 2023 APIを必要に応じて呼び出すようにLLMを訓練 Web APIだけでなく他のモデルを呼び出すこともできる “Large Language Models as Tool Makers”, 2023 「XXXをするようなPython Genericなコードを作って」⼀度作ったツールはAPI同様再利⽤できる（効率良い推論）ツール (API)の使⽤ツール (API)の構築

▪LLMの活⽤ | Voyger (LLMによるスキルライブラリの構築と利⽤) Voyager: An Open-Ended Embodied Agent with
Large Language Models”, 2023 107

▪事例 | ⼤規模データセットの構築，⼤規模モデルの検証別ドメインでの基盤モデル 108 • EDR13台，17ヶ⽉，744タスク，13万デモ • 訓練︓97%で動作，汎化︓⼤幅向上 •
Long Horizonなタスクも可 ▪ ⼤規模データ×ロボティクス ▪ ⼤規模モデル×世界モデル • Dreamer v3, 2023，200M規模での学習 • データ効率が良くなる他これまで解けなかったタスク（Minecraft）も成功

▪事例 | X-Transformer 別ドメインでの基盤モデル from “Transformers” - Lucas Beyers 110
▪ Transformer×世界モデル • Transformers are Sample-Efficient World Models”, ICLR2023 • “Transformer-based World Models Are Happy With 100k Interactions”, ICLR2023

▪難しさ1 | Tokenizatonの⽅法別ドメインでの基盤モデル 111 ▪ 画像の場合 ▪ 時系列（動画）の場合 •
⼊⼒をパッチ化して，各パッチを埋め込みに変換 • 原理的にサイズが⼤きくなると⾟い • ⼀度VQ-VAEでトークンに離散変換 • よいVQ-VAE⾃体はどう作るのか︖ ⾔語と⽐べても系列⻑が膨⼤になりがちで切れ⽬も不透明．無理⽮理塊を作って扱っているため，誤差が蓄積しうる．

▪難しさ2 | 原理的に蓄積が必要なデータの取得 | 学習⽅法 RT-1: Robotics Transformer for Real-World
Control at Scale 113 • ⾔語では学習⽤データは（枯渇しそうとはいえ）Webに蓄積されている • +⼈間と⼊⼒出⼒が同じ | 多種多様なタスクを記述可能（Universal API） • ロボットの場合，取れるデータはロボットを動かせるデータに限定される • できるようになることが増えないとデータが取れずできるようにならない • （そういう意味で，⾔語創発に近いようにも思う • 他の例︓科学的発⾒はLLMでできるのか︖ RT-1で利⽤されているスキル

本講演のまとめ 115 基盤モデルに関する技術動向について基礎的な内容・研究動向・今後の展望について紹介しました． 1. 基盤モデルとは何か • 1) ⾼い適応能⼒ (Few-Shot）,
2) スケール則, 3) 他ドメインへの転⽤ 3. LLMの⾼い適応能⼒は⽂脈内学習 (In-Context Learning)により実現 • Chain-of-Though Promptingにより論理推論能⼒も⼤幅に改善 • Pretrainに加えて，Instruction Tuning, RLHFなどが⾏われている．４. 他ドメインへのLLM⾃体 / LLM成功のレシピの転⽤する研究も注⽬されている • Primitiveの獲得 /Tokenization /データの逐次的獲得と学習などの課題 2. スケール則により，⼤規模なモデルへの投資が”de-risk”された． • ⼤規模なモデル（PaLM），計算量最適なモデル設計（Chinchilla，PaLM2） • データの枯渇問題とその対処に関する準備．

宣伝 116 ⽇本ロボット学会（RSJ）学術講演会 • 2023/9/11-14 @仙台 • OS4: 基盤モデルの実ロボット応⽤ –
「…本セッションでは，⼤規模⾔語モデル, ⼤規模視覚-⾔語モデルに代表される事前学習済みの基盤モデルを活⽤し，知能的に振る舞うロボットについて議論する．」 • 登録〆切︓6/14（来週），予稿〆切︓7/12 英⽂誌Advanced Roboticsの特集号 • ⽇本ロボット学会の英⽂誌 • Google・Metaなど海外で基盤モデルのロボット応⽤を研究する第⼀⼈者たちも本特集号のエディタ陣を務める • サーベイ論⽂も歓迎 • 原稿〆切︓2024/1/31 ※ 採録が決定次第，順次web上で公開予定論⽂投稿・参加をぜひご検討ください︕︕

補⾜資料 117

Generative AI（⽣成AI）? 118

Google Trend (Generative AI vs. LLM vs. Foundation Model) 119

… and vs. ChatGPT 120

Foundation Modelに関する講義など 121 [1] “On the Opportunities and Risks of
Foundation Models”, 2021 [2] “A Comprehensive Survey on Pretrained Foundation Models: A History from BERT to ChatGPT”, 2023 [3] CS 324 - Advances in Foundation Models

“A Survey on In-context Learning”, 2023 122

モデルごとの学習⽅法の違い “A Survey of Large Language Models”, 2023 123

モデルごとの細かな要素の違い “A Survey of Large Language Models”, 2023 124

（１）Bias, Misinformation, and Alignment 課題（話題提供） 125 • 誤った知識を拡散するリスクがあるとして（Twitterでの攻撃により）は数⽇で閉鎖 •
この問題は継承される • 知識を修正する研究※1、複数のモデルを組み合わせる研究（Socratic Model※2など） ※1 ”Editing Factual Knowledge in Language Models”, EMNLP 2021 など ※2 ”Socratic Models: Composing Zero-Shot Multimodal Reasoning with Language”, 2022 など ※ 図はGalacticaの⽣成結果の冒頭の抜粋

（２）Accessibility of Models 議題（話題提供） 126 ※ 表は”Holistic Evaluation of Language
Models”より抜粋 APIのみ公開＆巨⼤⾮公開

補⾜︓基盤モデルがもたらすリスクについて 129

▪参考 | カリーハワード同型対応 (proofs as programs) 130 • 特定の論理体系とプログラミングは等価である •
論理推論能⼒とコード学習の関係を⽰唆︖

JSAI2023 Tutorial 「基盤モデルの技術と展望」

JSAI2023 Tutorial 「基盤モデルの技術と展望」

Other Decks in Technology

Featured

Transcript