Upgrade to Pro — share decks privately, control downloads, hide ads and more …

JSAI2023 Tutorial 「基盤モデルの技術と展望」

JSAI2023 Tutorial 「基盤モデルの技術と展望」

■ URL
https://www.ai-gakkai.or.jp/jsai2023/tutorial

■ 概要
2021年頃に登場した基盤モデル (Foundation Model) は,従来のように個別のタスクに仕立てたモデルを作るのではなく,単一のモデルを多様な後続タスクに適用可能となっている深層学習のパラダイムを表した言葉である.この傾向が特に顕著なのは言語(GPT-3,PaLMなど)であるが,マルチモーダル領域におけるImagenやCLIP,強化学習領域におけるGato,RT-1など多様な領域で同様のアプローチを取った研究が行われている.基盤モデルは一般にデータ・モデル両面のスケールと同時に説明されることも多く,モデルサイズ・計算量・データサイズと性能の関係に関する経験則(Scaling Law)や,モデル規模が拡大した際にのみ発現する能力 (Emergent Law) の存在などが報告されている.本講演ではこれらの技術的な動向について概観し,今後の展望について述べる.

Yusuke Iwasawa

June 08, 2023
Tweet

Other Decks in Technology

Transcript

  1. 基盤モデルの技術と展望
    ⼈⼯知能学会全国⼤会 チュートリアル
    東京⼤学⼯学系研究科 講師 岩澤有祐
    2023/06/08 @ 熊本城ホール

    View Slide

  2. ⾃⼰紹介
    2
    • 現職︓東⼤松尾研講師
    • DL輪読会の運営 (@DL_Hacks),深層学習の書籍の翻訳
    • 最近主なテーマ︓⼤規模モデルからの知識の転移 (Test-Time Adaptation)
    • “Test-Time Classifier Adjustment Module for Model Agnostic Domain
    Generalization”, NeurIPS2021
    • “Large Language Models are Zero-Shot Reasoners”, NeurIPS2022
    など
    • 本講演の経緯 ⇨
    • 昨年11⽉開催
    • 20分を90分に

    View Slide

  3. ⽬次
    3
    • 基盤モデルとはなにか(基盤モデルの例,基盤モデルの特徴)
    • 基盤モデルを作る技術︓スケール則(Scale Law)
    • 基盤モデルを使う技術︓⽂脈内学習(In Context Learning)
    • 今後の展望︓⾔語以外での基盤モデル

    View Slide

  4. Foundation Model(基盤モデル)とは
    “On the Opportunities and Risks of Foundation Models”, 2021
    4
    • 2021/8/16初出のホワイト
    ペーパーで登場した⾔葉
    • Stanfordの研究機関の名称にも
    なっている(⻘枠)
    (Abstractより抜粋)
    “AI is undergoing a paradigm shift with the
    rise of models (e.g., BERT, DALL-E, GPT-
    3) that are trained on broad data at scale
    and are adaptable to a wide range of
    downstream tasks. We call these models
    foundation models to underscore their
    critically central yet incomplete character”

    View Slide

  5. 基盤モデルの例︓GPT3を初めとした⼤規模⾔語モデル
    Example of Foundation Models
    5
    Causal Language Model
    LLMs (Transformer)
    Input: Language models determine
    [mask]
    Output: word probability
    by analyzing text data
    Original: Language models determine word
    probability by analyzing text data
    Translation (Few-Shot)
    Translation (Zero-Shot)
    Summarization (Zero-Shot)
    • Starting with “TL;DR” drastically
    improves the performance
    Many other examples
    図は” Language Models are Few-Shot Learners”より抜粋

    View Slide

  6. 2020年のGPT-3登場後,2022年後半から加速度的に増加.
    “A Survey of Large Language Models”, 2023年5⽉にアクセス(3⽉投稿からすでに10回Revision)
    6

    View Slide

  7. Chat GPT, GPT4 | さまざまな試験での性能
    マルチモーダル化
    7

    View Slide

  8. Igaku-QA | GPT-4の専⾨的知識の検証
    “Evaluating gpt-4 and ChatGPTt on Japanese medical licensing examinations”2023
    8
    • ⾔語モデル (GPT-4 and ChatGPT)を新たに作成した⽇本の医療ライセンス試験に関するデー
    タセット(Igaku-QA)でベンチマーク
    • (1) ⼈間の平均的な受験者よりは悪い,(2) 禁忌技を選択する傾向にある,といった問題はあ
    るものの試験ボーダーは突破

    View Slide

  9. Voyager | ⾔語モデルを使った⽅策の獲得
    “Voyager: An Open-Ended Embodied Agent with Large Language Models”, arXiv2023
    9
    • LLMを使ってMinecraftをプレイする (右が動画)
    • 逐次的な⾏動獲得が必要,スパース報酬
    • RLが苦⼿
    (cf. Dreamre v3が初めてスクラッチで採掘に成功
    • スキルをコードとして書く+LLMでプランニング

    View Slide

  10. Reviewr GPT!!!
    LLMの応⽤例
    10

    View Slide

  11. マルチモーダルデータを扱う⼤規模モデルの例 | Flamingo
    “Flamingo : a Visual Language Model for Few-Shot Learning”, 2022, DeepMind
    12
    • 学習済Vision Model(NF-Net) とLanguage Model (Chinchilla, 70B) を統合.計80B.
    • ペアデータで接続部分 (Perceiver ResamplerとGated Xattn) .
    • フラミンゴの写真を⾒て「フラミンゴ。カリブ諸島や南アメリカで⾒られます」などと返すなど画像・
    ⾔語で様々な補完ができる.
    https://www.deepmind.com/blog/tackling-multiple-tasks-with-a-single-visual-language-model

    View Slide

  12. Robot Transformer (RT-1)
    “RT-1: Robotics Transformer for Real-World Control at Scale”, 2022
    14
    モデル
    • Efficient NetとTransformer
    の組み合わせ
    • インストラクションに従い
    動作⽣成
    データ
    • EDR13台,17ヶ⽉,744タ
    スク,13万デモ
    • 訓練︓97%で動作
    • 汎化︓種々の意味で⼤幅向上
    (未知タスク,未知ソース等
    • Long Horizonなタスクも可
    ※ 類似研究にGato,BC-Zなど

    View Slide

  13. Segment Anything Model
    “Segment Anything”, 2023
    15
    構築した⼤規模データセットSA-1B (1B Masks, 11M images)を使ったセグメンテーションモデル.
    さまざまなプロンプト(点,矩形,テキストなど)を受け取る柔軟にマスクを⽣成することができる

    View Slide

  14. Track Anything: SAMの応⽤例
    “Track Anything: Segment Anything Meets Videos”, 2023
    16
    Github: https://github.com/gaomingqi/Track-Anything
    Demo: https://huggingface.co/spaces/VIPLab/Track-Anything

    View Slide

  15. 基盤モデルの特徴は︖
    17
    “On the Opportunities and Risks of Foundation Models”より抜粋
    1. ⾮常に幅広いタスク
    を(追加学習なしに)
    単⼀のモデルで解ける
    2. モデル・計算量・
    データのスケーリング
    により実現されること
    3. ⾔語に限らない
    (のではという期待

    View Slide

  16. モデル・計算量・データのスケーリングにより実現されること
    基盤モデルの特徴1
    18
    モデルサイズが巨⼤なときのみ解けるタスクが存在
    Scaling Law Emergent Ability
    3つの変数に関するべき乗に従って上がる.
    計算資源 C, データセットサイズ D, パラメータ数 N

    View Slide

  17. 幅広いタスクを(追加学習なしに)単⼀のモデルで解けること
    19
    タスクごとにモデルを学習
    (NN以外)
    タスクごとにモデルを学習
    (NN)
    モデルを共有して学習
    (Fine-Tuning)
    モデルを固定して指⽰を変更
    (Prompting)
    従来
    現代
    “Pre-train, Prompt, and Predict: A Systematic Survey of Prompting Methods in
    Natural Language Processing”より抜粋
    基盤モデルの特徴2

    View Slide

  18. 対象は⾔語に限らない(のではという期待)
    基盤モデルの特徴3
    20
    ⼤規模モデル(Transformer)
    例︓Gato, RT-1, X-Former
    例︓Dreamer v3
    + ⼤規模なデータ
    例: SAMでの1Bのマスクデータ
    例︓Gato, RT-1
    + ⼤規模計算
    例︓スケール則は別ドメインでも成⽴
    1.
    ⽅法論の共通化
    (別ドメインでの基盤モデル構築)
    2. ドメインを超えたモデル共有
    マルチモーダル化
    ”One model to Learn Them All”,
    2017 的な世界観(上図)
    例︓ GPT4
    ⾔語モデルの活⽤
    例︓Say-Can, Voyager, など

    View Slide

  19. ここまでのまとめ
    基盤モデルについて
    21
    • 基盤モデルとは,⼤量・多様なデータで学習された,幅広いタスク
    に適応できるモデルのこと
    • 特徴1︓単⼀のモデルがさまざまなタスクを解けること
    • これまで︓微調整 => 現在︓学習なしでPrompting
    • 特徴2︓モデルサイズが巨⼤になることで性能が改善すること
    • Scaling Law, Emergent Ability, Grokking
    • 特徴3︓上記が⾔語以外でも進展していること

    View Slide

  20. ⽬次
    22
    • 基盤モデルとはなにか
    • 基盤モデルの例,基盤モデルの特徴
    • 基盤モデルを作る技術︓スケール則(Scale Law)
    • Emergent Ability, Grokking, Compute-Optimal Scaling
    • 基盤モデルを使う技術︓⽂脈内学習(In Context Learning)
    • 他ドメインへの適⽤・今後の展望

    View Slide

  21. “More is Different” in DL | Emergent Ability
    “Emergent Abilities of Large Language Models”, TMLR2022
    23
    モデルサイズを巨⼤にすると性能が”突如”⼤幅に上がるタスクがある

    View Slide

  22. “More is Different” in DL | Grokking
    “Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets”
    24
    “Progress measures for grokking via
    mechanistic interpretability”, ICLR2023
    “Grokking: Generalization Beyond Overfitting on
    Small Algorithmic Datasets”, 2022
    学習を継続すると突然検証データでの正解率が⾼まる現象
    (下記はa○b = c(例︓x+y=?)というタスクにおける性能調査)

    View Slide

  23. ■補⾜ | Grokking中には何がおこっているのか︖
    “Towards Understanding Grokking: An Effective Theory of Representation Learning”, NeurIPS2022
    25
    類似研究︓”Progress measures for grokking via mechanistic interpretability”, ICLR2023
    A. 記憶を汎化させている(上は学習過程の可視化).
    過学習中(中央)は覚えているだけだが,汎化後(右)には数字が綺麗に整列.

    View Slide

  24. ■補⾜ | 本当にPhase Transitionなのか?
    “Are Emergent Abilities of Large Language Models a Mirage?”, 2023
    26
    • 本当に「創発」「相転移」して
    いるのかには反論もある
    – 性能の測り⽅による(左図)
    ※ これは本論⽂でも⾔われている
    – 横軸が対数なのは変では
    – そもそも何を持って創発︖
    • 巨⼤モデル|巨⼤計算で思った
    よりできるようになるのは事実

    View Slide

  25. スケール則(Scale Law)
    “Scaling Laws for Neural Language Models”, 2021
    28
    DLにおけるスケール則とは︖
    1. 計算資源(C)
    2. データセットサイズ(D)
    3. パラメータ数(N)
    と誤差(L)に関する次の経験則.
    ※ 他2つの変数が⼗分⼤きい場合.
    𝐿 𝑋 = $
    𝑋!
    𝑋
    "
    log 𝐿(𝑋) = 𝛼 log 𝑋!
    − 𝛼 𝑙𝑜𝑔 𝑋

    View Slide

  26. スケール則(Scale Law) – C, D, NとLの関係 -
    “Scaling Laws for Neural Language Models”, 2021
    29
    • 各図のデータ点は実測値
    • いずれの変数もTest Lossとの間に両対数グラフで線形の関係が⾒られる
    ※ C: Compute, D: Dataset Size, N: #Parameters, L: Test Loss

    View Slide

  27. ■補⾜ | より初期のスケール則 (Baidu, 2017)
    “Deep Learning Scaling is Predictable, Empirically”, 2017
    30
    同じ点
    データに関するスケール則
    を検証(モデルも少し)
    左はMTの例.
    相違点
    1. 対象モデルが異なる
    (Transformer以前)
    2. 規模が異なる
    (特にモデル)

    View Slide

  28. 転移性能とスケールの関係 | 転移性能における元Modelの重要さ
    “Scaling Laws for Neural Language Models”, 2021
    31
    • WebText2︓通常のテストデータ,それ以外︓学習外のデータ
    • WebText2以外で性能の劣化は⾒られるもの,オフセットの違い程度で
    傾向は同じ(傾きもほぼ同じ)

    View Slide

  29. 他のドメインでのスケール則(計算量とLoss)
    “Scaling Laws for Autoregressive Generative Modeling”, 2020
    32
    画像⽣成,マルチモーダル,動画,数理等でも計算量に関するスケール則が成⽴

    View Slide

  30. べき乗則の意義
    34
    “GPT-4 Technical Report”, 2023 より抜粋
    X軸︓GPT4を1.0とした計算量
    Y軸︓性能
    Þ1/1000程度のモデルまでで性
    能を正確に予測できる.
    ※ GPT-4のパラメタ数は公開されていないが
    どんなに⼩さくても1010 (10B)より⼤.
    左の図の最⼩が103だとしたら1013 (1T)
    “Scaling laws de-risk investments in large models”
    ↓ Anthoropicの“Predictability and Surprise in Large Generative Models”, 2023より抜粋
    Q. あるモデルを1Tまで巨⼤化するべきか︖

    View Slide

  31. より精緻なモデル選択
    べき乗則の意義
    35
    モデル構造の探索 ハイパラ探索
    スケールしてもおそらく
    Transoformer > LSTM
    パラメータ⼩=> 層が⼩さいほうが良い
    パラメータ⼤=> スケールすると逆転
    Q. 1T ParameterでモデルAとモデルBはどちらが性能がよい︖
    ↓ Anthoropicの“Predictability and Surprise in Large Generative Models”, 2023より抜粋

    View Slide

  32. ■補⾜ | スケーリングに関するその他の知⾒
    “Scaling Laws for Neural Language Models”, 2021
    36
    パラメータ数が多いほど
    サンプル効率は良い
    あるロスを達成するのに計算
    を継続するのは⾮効率

    View Slide

  33. モデルの⼤規模化に関する研究
    38
    • Gopher (DeepMind), 280B, 2021/12/8
    • 下図は280B vs. 7.1B以下のBestの⽐較)
    • MT-NLG (Microsoft, Nvidia), 530B
    • PaLM (Google) , 540B, 2022/04/04
    • SwithTransformer (Google), 1.6T, 2021/1/1
    • ※ MoEを利⽤しているので実効パラメータは少ない

    View Slide

  34. 計算量が所与のときに最適なモデルサイズ・データセットサイズは︖
    “Training Compute-Optimal Large Language Models”, NeurIPS2022
    39
    求め⽅の例 IsoFLOP Curve: さまざまなモデルサイズに対して,FLOPSが⼀定にな
    るようにデータ数を調整し,各FLOPSでの最適パラメータ数・データ数を求める
    (左)各FLOPS毎の学習結果,(中)FLOPS毎の最適N,(右)FLOPS毎の最適D
    パラメータ数Nとデータ数Dは⼤体1対1で⼤きくすると良いという結果.
    ※ Compute Optimalとも呼ばれる

    View Slide

  35. Chinchilla︓最適計算配分に基づきNとDを決めたモデル
    “Training Compute-Optimal Large Language Models”, NeurIPS2022
    40
    データサイズD
    トークンを1.4Tまで増加
    (同じデータの別サブセット)
    ※ Gopherの約4.6倍
    モデルサイズN
    70Bに設定
    ※ Gopherの約1/4倍
    結果
    多くのケースでGopherに勝利
    (発⾒した関係式の妥当性を⽰唆)

    View Slide

  36. PaLM2
    “PaLM 2 Technical Report”, 2023
    41
    PaLM2でも同様の実験が⾏われており,Chinchilla同様のスケール則が確認.
    ただし転移性能は必ずしもこの設計に従わないことも報告されている.

    View Slide

  37. ■補⾜ | 計算量最適なViTの構造の設計
    “Getting ViT in Shape: Scaling Laws for Compute-Optimal Model Design”, 2023
    42

    View Slide

  38. RefineWeb: Webのみの5T Tokenのデータセット
    “The RefinedWeb Dataset for Falcon LLM”, 2022
    43
    Webデータのみでの5T Tokenのデータセット.600GがPublic.
    フィルタリングの⼯夫などにより以前より⼤規模なデータを構築.

    View Slide

  39. Falcon-40B︓RefineWeb等で訓練されたオープンソースモデル
    “The RefinedWeb Dataset for Falcon LLM”, 2022
    44
    Open LLM Leaderboardより抜粋
    他データとの⽐較(論⽂より抜粋) Flacon-40Bの他モデルとの⽐較
    ※ 実際にはFalcon-40BにはCodeのデータ等も混ぜている.
    学習時間は384GPUで2ヶ⽉

    View Slide

  40. データの枯渇問題 | データはどこまで増やせるのか︖
    Will we run out of data? An analysis of the limits of scaling datasets in Machine Learning”, 2022
    45
    過去のWebデータの増え⽅,学習データの増え⽅からの予測
    良質な⾔語データは2024頃に枯渇することが予測されている.

    View Slide

  41. APIを経由したデータ収集
    46
    ※ 表は”Holistic Evaluation of Language
    Models”より抜粋
    APIのみ
    公開&巨⼤
    ⾮公開

    View Slide

  42. ■補⾜ | 基盤モデルの性能をどう測るのか
    “Beyond the Imitation Game: Quantifying and extrapolating the capabilities of language models”, 2022
    47
    SuperGLUEの性能の変遷 Big Benchの評価例
    • 問題1︓性能上限に達す流までの速さ | 評価の⼤規模化 (≒かかる⾦額が莫⼤に)
    – BigBench: 444名のコントリビューターによる204 tasksを収集し,既存モデルを⼤規模に評価
    • 問題2︓性能以外の評価 (Fairness, Bias, Toxicity …)
    – ”Holistic Evaluation of Language Models”, 2022, arXiv)
    • 問題3︓Contamination問題の回避はかなり難しい(API,Web経由でデータ取得)

    View Slide

  43. データに限りがある状況でのスケール則
    “Scaling Data-Constrained Language Models”, 2023
    48
    Q. 繰り返すと性能劣化するか︖
    A. 4エポックくらいまではデータを加えるのと同じくらい効果がある.

    View Slide

  44. データの質とべき乗則の関係
    “Beyond neural scaling laws: beating power law scaling via data pruning”, NeurIPS2022 Outstanding Paper
    50
    良質な(難しい)データを選ぶこと
    で誤差を急激に⼩さくできる
    (α-1がRandom Pruningに対応)
    最適なデータの作り⽅は
    元々存在する事例の量に依存する
    Data pruning rateごとの損失 難しい例を残した場合の性能

    View Slide

  45. ここまでのまとめ – Scale Lawについて –
    51
    基盤モデルの特徴の1つであるスケールの拡⼤について説明
    • Emergent Ability, Grokking︓More is Different in DL
    • 現象の観察研究が主流.理由や,本当に創発なのかは不透明.
    • 計算量,パラメタ数,データ数に関してスケール則が成⽴
    • ⾔語モデルだけでない | 転移でも同様の傾向
    • 効果が⾒積もりやすくなり,⼤規模モデルの開発を促進
    • Commute Optimalなスケール則を求める研究もある
    • 例︓Chinchilla, PaLM2(データとモデルを約1:1で増やす)

    View Slide

  46. ⽬次
    52
    • 基盤モデルとはなにか
    • 基盤モデルの例,基盤モデルの特徴
    • 基盤モデルを作る技術︓スケール則(Scale Law)
    • 基盤モデルを使う技術︓⽂脈内学習(In Context Learning)
    • ⽂脈内学習を利⽤したZero/Few-Shot学習 (論理推論能⼒)
    • Instruction Tuning, RLHFなどの⽂脈内学習を強化する⽅法
    • ⾔語以外での基盤モデル・今後の展望

    View Slide

  47. プロンプティング(Prompting)とは︖
    53
    Demonstration (Few-Shot) Instruction (Zero-Shot)
    加えるとある機能が強化される⽂字列
    例︓tl;drをつけると要約性能が上がる [1]
    例︓According toをつけると知識を参照してく
    れるようになる [2]
    中間指⽰(例 必要な変数を保持してください
    プロンプトエンジニアリング
    特定の機能の発⽣を促進 (prompt)するような⾔語モデルに⼊⼒するコンテキスト⽂
    与える事例を変えれば異なる
    ことができる
    (例︓ポジネガ判定)

    View Slide

  48. ⽂脈内学習(In-Context Learning)によるFew-Shot学習
    “Language Models are Few-Shot Learners”, NeurIPS2020
    54
    特にモデルが⼤規模な場合Few-Shotのデモンストレーションの追加で
    性能が⼤幅に上がることが多い.
    ⽂脈から学習するため,⽂脈内学習 (In-Context Learning)と呼ぶ.
    Demonstration (Few-Shot)
    ⽂脈(Context)

    View Slide

  49. “Pre-train, Prompt, Predict”へのパラダイムシフト
    55
    タスクごとにモデルを学習
    (NN以外)
    タスクごとにモデルを学習
    (NN)
    モデルを共有して学習
    (Fine-Tuning)
    モデルを固定して指⽰を変更
    (Prompting)
    従来
    現代
    “Pre-train, Prompt, and Predict: A Systematic Survey of Prompting Methods in
    Natural Language Processing”より抜粋
    基盤モデルの特徴1

    View Slide

  50. GPT3の課題 | 論理推論能⼒
    57
    “Chain of Thought Prompting Elicits Reasoning in
    Large Language Models”, NeurIPS2022より抜粋
    Emergence!! 😩

    View Slide

  51. Chain-of-Though (CoT) Prompting
    “Chain of Thought Prompting Elicits Reasoning in Large Language Models”, NeurIPS2022
    58
    • Few-Shotの事例の際に思考過程を⼊れる(Chain of thought prompting)と,
    新しい質問についても思考過程を明⽰してくれる.
    • 算数の⽂章題など,従来難しいとされていた推論タスクでも⼤幅に性能が向上.
    ※ GSM8kは9-12歳の正解率が60%.

    View Slide

  52. CoTの結果
    59
    • さまざまな数学のデータセット
    で検証した結果
    • 特にモデルサイズが⼤きいとき
    に性能の改善が⼤きい

    View Slide

  53. CoTの推論能⼒の改善︓Self Consistency
    “Self-Consistency Improves Chain of Thought Reasoning in Language Models”, ICLR2023
    60
    LMに複数の推論を⾏わせて(上は3つの例),多数決で答えを決定.
    ※ ⽂的にもっともらしいものが正しい推論とは限らないことを⽰唆.

    View Slide

  54. ■補⾜ | Minerva (PaLM+CoT+FT+Self Consistency)
    “Solving Quantitative Reasoning Problems with Language Models”, arXiv (2022),
    61
    • MATH, OCW, GSM8k, MMLU-STEMでの結果.
    • それぞれ中⾼等数学,MITの学部レベルの問題,中学レベルの数学問題,STEM問題
    • 既存SOTAを⼤きく上回る.

    View Slide

  55. Zero-Shot Chain of Though
    ”Large Language Models are Zero-Shot Reasoners”, NeurIPS2022
    62

    View Slide

  56. Zero-Shot CoTの推論能⼒
    ”Large Language Models are Zero-Shot Reasoners”, NeurIPS2022
    63
    シングルステップの推論で解けるタスク
    (CoTがいらない)
    常識推論(考えすぎて失敗するケースが多い)
    ※ 特にありえる解を複数選択してしまう
    多段階推論が必要なタスク
    2022年論⽂で作られたタスク
    (利⽤したモデルは2021までのデータで学習)

    View Slide

  57. Q: Is Mickey Mouse hypothetically unlikely to make a purchase at
    Zazzle?
    (ご参考)⻘字が⼊⼒.オレンジは意訳.⿊がGPTの出⼒.※ 論⽂外の結果.
    64
    A: Let’s think step by step.
    First, we need to consider Mickey Mouse’s budget. Based on his income as a famous cartoon
    character, it’s safe to say that he has a pretty large budget.
    (意訳︓ミッキーは有名だから莫⼤な予算を持つはず)
    Next, we need to think about what Mickey Mouse would want to purchase at Zazzle. We can safely
    assume that he would be interested in purchasing items that are related to his image, such as t-
    shirts, coffee mugs, and mouse pads.
    (意訳︓ミッキーは⾃分のイメージに合うアイテムなら興味を持つかもしれない)
    Finally, we need to consider the prices of the items at Zazzle. Based on the prices of similar items at
    other stores, it’s likely that the prices at Zazzle are within Mickey Mouse’s budget.
    (意訳︓Zazzleで売っているものの値段はミッキーの予算内であるはずだ)
    Therefore, we can conclude that it is not hypothetically unlikely for Mickey Mouse to make a
    purchase at Zazzle.
    (意訳︓ミッキーはZazzleで買い物しそうにないとは⾔えないと結論づける)
    ※正しい推論をするこもともある.例︓「ミッキーは架空のキャラクターなので靴は買わない」

    View Slide

  58. ■補⾜ | ⼊⼒するプロンプトによる性能の変化
    ”Large Language Models are Zero-Shot Reasoners”, NeurIPS2022
    65
    • Instructiveなプロンプトは性能を改善
    • MisleadingとIrrelevantは性能を改善しないか悪化.
    マニュアルで設定

    View Slide

  59. Zero-Shot-Cotの改善 | LLMを使った⾃動プロンプト探索
    “Large Language Models Are Human-Level Prompt Engineers”, ICLR2023
    66
    ⼿法
    初期候補から新しい候補を作ってもらう.
    結果
    マニュアル︓“Letʼs think step by step”
    vs.
    ⽣成︓“Letʼs work this out in a step
    by step way to be sure we have the
    right answer.”
    MultiArith: 78.7 -> 82.0
    MSM8K: 40.7 -> 43.0

    View Slide

  60. Zero-Shot-Cotの改善 | Plan-and-Solve Prompting
    “Plan-and-Solve Prompting”, ACL2023
    67
    • 「計画を⽴ててから実⾏せよ」,というような命令を与える
    • 「必要な変数を保持せよ」というような指⽰も加えると性能がさらに改善する

    View Slide

  61. LLMの推論能⼒を⾼める研究︓Tree of Thoughts
    “Tree of Thoughts: Deliberate Problem Solving with Large Language Models”, 2023
    68
    • Game of 24での例と結果
    – 与えられた4つの数字を変換して24を作る
    • 複数の思考列を出⼒して評価するSCとは違い,
    ToTは途中で分岐させる(⽊探索する)
    – ノードの評価もLMで⾏う
    • 戦略的思考が必要なタスクで性能が⼤幅改善

    View Slide

  62. ■ 補⾜ | コードでの学習と論理推論能⼒
    “A Survey of Large Language Models”, 2023
    70
    ■ 主要なモデルの学習データの構成
    • 最近のモデルは多くのケースでコードでの学習を⾏っている.GPT-3はなし.
    • Codeで学習したモデル(例︓code-davinci-002)はGPT-3より推論性能が良い.
    • Chat-GPTもcode-davinci-002をベースに学習されているとされる.

    View Slide

  63. ここまでのまとめ – ⽂脈内学習 /Prompting –
    71
    • 基盤モデルの特徴の1つである広い適応能⼒について説明
    • 与えられた⽂脈から効率的に学習(⽂脈内学習)することで
    Zero/Few-Shotで新しいタスクを解ける
    • CoT Promptingなどにより,LLMの推論能⼒が⼤幅に向上
    • 従来苦⼿だった推論タスクの性能が⼤幅に向上(2022~)
    • プロンプトの⼊れ⽅や使い⽅による性能改善
    • Self-Consistency, Tree-of-Thoughts, Plan-and-Solve

    View Slide

  64. ⽬次
    72
    • 基盤モデルとはなにか
    • 基盤モデルの例,基盤モデルの特徴
    • 基盤モデルを作る技術︓スケール則(Scale Law)
    • 基盤モデルを使う技術︓⽂脈内学習(In Context Learning)
    • ⽂脈内学習を利⽤したZero/Few-Shot学習 (論理推論能⼒)
    • Instruction Tuning, RLHFなどの⽂脈内学習を強化する⽅法
    • ⾔語以外での基盤モデル・今後の展望

    View Slide

  65. ⽂脈内学習に重要なのはモデルサイズだけか︖
    ”Large Language Models are Zero-Shot Reasoners”, NeurIPS2022
    73
    • GPT3もInstruct GPT3もモデルが⼤きい際に最も効果が⼤きい点では共通
    – ※ モデルサイズは正確には公開されていないので推測.名称から⼤きくは変わらないと推察.
    • ただし,上がり幅は⼤きく異なる.
    – Original GPT3 (davinci) 3.3% -> 44.3%
    – Instruct GPT3 (text-davinci-002) 17.7% -> 93.0%
    • InstructGPTで使われている,(1) Instruction Tuning,(2) RLHFが重要

    View Slide

  66. Chain-of-Though Hub: 推論能⼒の継続的ベンチマーク
    “Chain-of-Thought Hub: A Continuous Effort to Measure Large Language Models' Reasoning Performance”, 2023
    74
    Github : https://github.com/FranxYao/chain-of-thought-hub
    (1) 同じ学習であればモデルサイズが⼤きい⽅が性能が良い傾向
    (2) Instruction Tuning,RLHFがあるモデルの性能が良い傾向
    ※ GSM8kやMMLU等の有名データは学習に⼊っている可能性があることに注意

    View Slide

  67. Instruction Tuning (Supervised Fine Tuning)
    “Finetuned Language Models Are Zero-Shot Learners”, ICLR2022
    75
    ⽅法(上図)
    与えられたインストラクションに
    従うするようにFine-Tuneする
    結果(下図)
    ゼロショット性能が⼤幅に改善
    (GPT3 Few-Shotより良い)
    類似研究
    多数.Instruct GPT,
    Alpaca,FLAN-T5, LIMAな
    どの多くのモデルで使われている

    View Slide

  68. In Context Tuning
    “Meta-learning via Language Model In Context Tuning”, ACL2022
    76
    ⽅法
    事前学習モデルを⽂脈内学習
    するようにFine-Tuneする
    結果
    ⽂脈内学習の性能が改善
    類似研究
    “MetaICL: Learning to
    Learn In Context”

    View Slide

  69. ■補⾜ | FLAN-T5, FLAN-PaLM
    “Scaling Instruction-Finetuned Language Models”,
    77
    • 学習させるタスクを1800まで増加.CoTデータでも学習.
    • Instruction Tuning/In Context Tuning.
    • タスクを増やすごとにゼロショット性能が改善

    View Slide

  70. Instruction Tuning データの作り⽅
    78
    1 既存データを集める 2 強いモデルから⽣成
    “Self-Instruct: Aligning LM with Self
    Generated Instructions”, ACL2023
    “Super-NaturalInstructions: Generalization
    via Declarative Instructions on 1600+ NLP
    Tasks”, EMNLP2022
    例︓Stanford Alpaca
    - 少数のタスクデモを与えて,LLMを使って拡張
    “Alpaca: A Strong, Replicable
    Instruction-Following Model”, 2023

    View Slide

  71. ■補⾜ | Open Source ModelとInstruction Tuning
    “The False Promise of Imitating Proprietary LLMs”, 2023
    80
    モデル例︓Alpaca
    データを増やした際の性能
    1. ChatGPTよりInstruction
    データを拡張 (175 -> 52k)
    2. LLaMA 7Bを上記データで訓練
    LIMAなど
    • データ増=>性能が上がらない
    (むしろ下がることも)
    • モデル増 => 性能改善
    ※反証もある(Orca-13B)
    “Smaller LLMs Can Imitate Reasoning of
    Larger LLMs”, 2023

    View Slide

  72. ■補⾜ | PEFT: Parameter Efficient Fine Tuning
    Fine-Tuningに関するその他の話題
    81
    モチベーション
    • タスクごとにモデルをすべて更新するとモデルの
    Footprintが膨⼤に(左)
    • すべてを更新せずに良い性能を達成できないか︖
    => PEFT
    代表的な⼿法(いずれも本体を固定し⼀部を学習)
    • Adapter︓ FF層の後に層を追加.
    • LoRA︓低ランクに分解した別のパスを追加.
    • Prompt Tuning︓⼊⼒に学習可能トークンを追加
    (P-Tuning, Prompt Tuningも類似)
    ※ これらの⼿法を扱うライブラリも存在する.
    参考︓EMNLP2022 Tutorial
    合計パラメータ︓
    (タスク数+1)×N 😂

    View Slide

  73. Reinforcement Learning from Human Feedback (RLFH)
    “Training language models to follow instructions with human feedback”, 2022
    87
    (1) Train Reward Model (2) Fine-Tune with RL
    • Instruct GPT, ChatGPTなどで利⽤されている.
    • LLMで同じ問題に対して複数の答えを出⼒させ,⼈間がPreferenceをつける.
    • Preferenceを予測するように報酬モデルを学習し,強化学習する(PPO).
    ※ KL正則化

    View Slide

  74. Why RLHF?
    “Training language models to follow instructions with human feedback”, 2022
    88
    Vanilla vs. SFT vs. PPO (RLHF)
    1. 難易度︓⽣成 << ランク付け
    (正解を与えるよりランキングが簡単)
    2. Negativeからも学習できる
    (学習信号が多い)
    3. 報酬予測をしたい訳ではない
    (報酬予測で⾔語モデルを学習したくない)
    結論︓不明(諸説あり)
    RLHFをすると性能が上がる
    (指⽰に従う,制約を遵守するなど)

    View Slide

  75. RLFHに関する議論
    89
    Q. Pre-trainの学習を忘却しないのか︖
    A. する.のでKL正則化や,Replayがしばしば利⽤される(必ずではない).
    ※ OpenAIのブログではKL正則だけでは限界がありReplayを使うことが推奨されている.
    ※ ただし,⼤規模モデルはそもそも忘却しにくいという研究もある.
    “Effect of scale on catastrophic forgetting in neural networks”, ICLR2022
    => ViT, ResNetどちらも巨⼤なときに忘却が著しく起こりにくくなっている
    Q. Reward Modelの訓練は必須か︖
    A. 必須ではない.Direct Preference Optimization※など
    ※ “Direct Preference Optimization: Your Language Model is Secretly a Reward Model”, 2023
    (ざっくりいうとPreferenceが⾼い⽂が⾼い尤度で,低い⽂が低い尤度で⽣成されるように学習)

    View Slide

  76. ■補⾜ | Letʼs Verify Step by Step
    “Let's Verify Step by Step”, 2023
    93

    View Slide

  77. ⽂脈内学習における謎︓何をどう学習しているのか︖
    “Why Can GPT Learn In-Context? Language Models Implicitly Perform Gradient Descent as Meta-Optimizers”, ACL2023
    94
    Fine-Tuning(左図上側)
    データとパラメータを元に勾配を計算
    することでモデルを動かす
    In-Context Learning(左図下側)
    Demonstrationを⼊れなかったときとの
    差分をメタ勾配と⾒做せる
    (メタ勾配を使って暗黙的にFT)
    ※ ICLは⼩データではFTより性能が良い
    ことが多い
    上記論⽂のA. メタ勾配を計算して暗黙的にパラメータを更新しているのでは︖

    View Slide

  78. ■補⾜ | ⽂脈内学習のようなやり⽅⾃体は昔からある
    “Optimization as a Model for Few-Shot Learning”, ICLR2017
    95
    違い1
    構造がRNNからTransformerに
    ※ ⻑期系列を⾒れる分
    バッチ学習に近い︖
    違い2 元のモデルの性能が桁違い

    View Slide

  79. ⽂脈内学習における謎︓何をどう学習しているのか︖
    “Rethinking the Role of Demonstrations: What Makes In-Context Learning Work?”
    96
    実験⽅法
    ラベルをランダムに変更
    結果
    ラベルをランダムにしてもICLの
    性能劣化は微⼩
    考察
    ⼊出⼒関係以外の要素を学
    習しているのでは︖
    (フォーマット,⼊⼒分布,
    ラベル空間,etc. )

    View Slide

  80. ⽂脈内学習における謎︓何をどう学習しているのか︖
    “Impact of Pretraining Term Frequencies on Few-Shot Reasoning

    97
    実験⽅法
    事前学習データでの単語の
    頻度と正解率の相関を検証
    結果
    出現頻度と正解率には強い
    相関が⾒られる
    考察
    新しい知識を学んでいるのかは
    疑問がある結果
    Additionの例だが
    他でも同様の傾向

    View Slide

  81. ⽂脈内学習における謎︓何をどう学習しているのか︖
    “Larger language models do in-context learning differently”, 2023
    98
    実験⽅法
    (1)ラベルをFlip
    (2)ラベルを意味がない単語に
    ※ 先ほどはランダムなのでやや異なる
    結果
    ⼤規模モデルのみ与えられた元の
    ⼊出⼒関係の予測が⼤きく劣化
    考察
    ⼤規模モデルは⼊出⼒関係も学
    習している傍証
    (異なる形でICLを実装︖)

    View Slide

  82. ⼊出⼒関係を⽂脈内学習させる⽅法 | Symbol Tuning
    “Symbol Tuning Improves In-Context Learning in Language Models”
    99
    ⽅法
    ラベルを適当に置換(Foo, Bar,
    etc. )して学習
    -> ⼊出⼒関係の学習を強制
    結果
    Few-Shot性能が改善
    (⼊出⼒関係をちゃんと学べる)

    View Slide

  83. ここまでのまとめ - ⽂脈内学習 -
    100
    • 成功しているLLMの多くはInstruction Tuningを採⽤
    • 指⽰に明⽰的に従うようにすることでZero/Few-Shotが⼤幅改善
    • 成功しているオープンソースLLMの多くも採⽤
    • 効率的にモデルを微調整するPEFTについても研究が進展
    • Instruct GPT以降では⼈間のPreferenceに基づき学習 (RLHF)
    • ⼈間のPreferenceを反映した出⼒をするようにチューニング
    • 「なぜ」「どのように」「何を」学習しているのかは研究段階
    • RLFHの必要性,メタ勾配仮説,⼊出⼒を学んでいるのか︖など

    View Slide

  84. 基盤モデルの特徴は︖
    101
    “On the Opportunities and Risks of Foundation Models”より抜粋
    1. ⾮常に幅広いタスク
    を(追加学習なしに)
    単⼀のモデルで解ける
    2. モデル・計算量・
    データのスケーリング
    により実現されること
    3. ⾔語に限らない
    (のではという期待

    View Slide

  85. (再掲)対象は⾔語に限らない(のではという期待)
    基盤モデルの特徴3
    102
    ⼤規模モデル(Transformer)
    例︓Gato, RT-1, X-Former
    例︓Dreamer v3
    + ⼤規模なデータ
    例: SAMでの1Bのマスクデータ
    例︓Gato, RT-1
    + ⼤規模計算
    例︓スケール則は別ドメインでも成⽴
    1.
    ⽅法論の共通化
    (別ドメインでの基盤モデル構築)
    2. ドメインを超えたモデル共有
    ⾔語モデルの活⽤
    例︓Say-Can, Voyager, など
    マルチモーダル化
    ”One model to Learn Them All”,
    2017 的な世界観(右下の図)
    例︓ GPT4

    View Slide

  86. ■LLMの活⽤ | Say-Can and Say-Can-PaLM
    “Do As I Can, Not As I Say: Grounding Language in Robotic Affordances”, 2022
    104
    • ⾔語モデルが出⼒したスキルの実⾏可能性(Skill Affordance)を考慮して選択
    – 実⾏可能性はTDで学習
    • ⾔語モデルをよくする(PaLMを使う)と性能が改善する
    ※ 実⾏可能なスキル(低レベル⽅策)はあらかじめ⽤意されている点に注意

    View Slide

  87. ■LLMの活⽤ | Code as Policy
    “Code as Policies: Language Model Programs for Embodied Control”, 2022
    105
    • ⾔語モデルにコードとして
    ⽅策を出⼒させる
    • “Stack the blocks on the
    empty bowl.”
    • 不明な関数を呼び出した
    場合は関数を再起的に作る
    ※実⾏可能なスキルはあらかじ
    め⽤意されている点に注意
    (Perception APIs, Control APIs)

    View Slide

  88. ■補⾜ | LLMによるツールの活⽤/ツール構築に関する研究
    106
    “Gorilla: Large Language Model Connected with
    Massive APIs”, 2023
    APIを必要に応じて呼び出すようにLLMを訓練
    Web APIだけでなく他のモデルを呼び出すこともできる
    “Large Language Models as Tool Makers”, 2023
    「XXXをするようなPython Genericなコードを作って」
    ⼀度作ったツールはAPI同様再利⽤できる(効率良い推論)
    ツール (API)の使⽤ ツール (API)の構築

    View Slide

  89. ■LLMの活⽤ | Voyger (LLMによるスキルライブラリの構築と利⽤)
    Voyager: An Open-Ended Embodied Agent with Large Language Models”, 2023
    107

    View Slide

  90. ■事例 | ⼤規模データセットの構築,⼤規模モデルの検証
    別ドメインでの基盤モデル
    108
    • EDR13台,17ヶ⽉,744タスク,13万デモ
    • 訓練︓97%で動作,汎化︓⼤幅向上
    • Long Horizonなタスクも可
    ■ ⼤規模データ×ロボティクス ■ ⼤規模モデル×世界モデル
    • Dreamer v3, 2023,200M規模での学習
    • データ効率が良くなる他これまで解けなかっ
    たタスク(Minecraft)も成功

    View Slide

  91. ■事例 | X-Transformer
    別ドメインでの基盤モデル from “Transformers” - Lucas Beyers
    110
    ■ Transformer×世界モデル
    • Transformers are Sample-Efficient World Models”, ICLR2023
    • “Transformer-based World Models Are Happy With 100k Interactions”, ICLR2023

    View Slide

  92. ■難しさ1 | Tokenizatonの⽅法
    別ドメインでの基盤モデル
    111
    ■ 画像の場合 ■ 時系列(動画)の場合
    • ⼊⼒をパッチ化して,各パッチを
    埋め込みに変換
    • 原理的にサイズが⼤きくなると⾟い
    • ⼀度VQ-VAEでトークンに離散変換
    • よいVQ-VAE⾃体はどう作るのか︖
    ⾔語と⽐べても系列⻑が膨⼤になりがちで切れ⽬も不透明.
    無理⽮理塊を作って扱っているため,誤差が蓄積しうる.

    View Slide

  93. ■難しさ2 | 原理的に蓄積が必要なデータの取得 | 学習⽅法
    RT-1: Robotics Transformer for Real-World Control at Scale
    113
    • ⾔語では学習⽤データは(枯渇しそうとはいえ)Webに蓄積されている
    • +⼈間と⼊⼒出⼒が同じ | 多種多様なタスクを記述可能(Universal API)
    • ロボットの場合,取れるデータはロボットを動かせるデータに限定される
    • できるようになることが増えないとデータが取れずできるようにならない
    • (そういう意味で,⾔語創発に近いようにも思う
    • 他の例︓科学的発⾒はLLMでできるのか︖
    RT-1で利⽤されているスキル

    View Slide

  94. 本講演のまとめ
    115
    基盤モデルに関する技術動向について基礎的な内容・研究動向・今後の展望に
    ついて紹介しました.
    1. 基盤モデルとは何か
    • 1) ⾼い適応能⼒ (Few-Shot), 2) スケール則, 3) 他ドメインへの転⽤
    3. LLMの⾼い適応能⼒は⽂脈内学習 (In-Context Learning)により実現
    • Chain-of-Though Promptingにより論理推論能⼒も⼤幅に改善
    • Pretrainに加えて,Instruction Tuning, RLHFなどが⾏われている.
    4. 他ドメインへのLLM⾃体 / LLM成功のレシピの転⽤する研究も注⽬されている
    • Primitiveの獲得 /Tokenization /データの逐次的獲得と学習などの課題
    2. スケール則により,⼤規模なモデルへの投資が”de-risk”された.
    • ⼤規模なモデル(PaLM),計算量最適なモデル設計(Chinchilla,PaLM2)
    • データの枯渇問題とその対処に関する準備.

    View Slide

  95. 宣伝
    116
    ⽇本ロボット学会(RSJ)学術講演会
    • 2023/9/11-14 @仙台
    • OS4: 基盤モデルの実ロボット応⽤
    – 「…本セッションでは,⼤規模⾔語モデル, ⼤規模視覚-⾔語モデルに代表される事前
    学習済みの基盤モデルを活⽤し,知能的に振る舞うロボットについて議論する.」
    • 登録〆切︓6/14(来週) ,予稿〆切︓7/12
    英⽂誌Advanced Roboticsの特集号
    • ⽇本ロボット学会の英⽂誌
    • Google・Metaなど海外で基盤モデルのロボット応⽤を研究する
    第⼀⼈者たちも本特集号のエディタ陣を務める
    • サーベイ論⽂も歓迎
    • 原稿〆切︓2024/1/31 ※ 採録が決定次第,順次web上で公開予定
    論⽂投稿・参加をぜひご検討ください︕︕

    View Slide

  96. 補⾜資料
    117

    View Slide

  97. Generative AI(⽣成AI)?
    118

    View Slide

  98. Google Trend (Generative AI vs. LLM vs. Foundation Model)
    119

    View Slide

  99. … and vs. ChatGPT
    120

    View Slide

  100. Foundation Modelに関する講義など
    121
    [1] “On the Opportunities and Risks of Foundation Models”,
    2021
    [2] “A Comprehensive Survey on Pretrained Foundation
    Models: A History from BERT to ChatGPT”, 2023
    [3] CS 324 - Advances in Foundation Models

    View Slide

  101. “A Survey on In-context Learning”, 2023
    122

    View Slide

  102. モデルごとの学習⽅法の違い
    “A Survey of Large Language Models”, 2023
    123

    View Slide

  103. モデルごとの細かな要素の違い
    “A Survey of Large Language Models”, 2023
    124

    View Slide

  104. (1)Bias, Misinformation, and Alignment
    課題(話題提供)
    125
    • 誤った知識を拡散するリスクがあるとして
    (Twitterでの攻撃により)は数⽇で閉鎖
    • この問題は継承される
    • 知識を修正する研究※1、複数のモデルを組み
    合わせる研究(Socratic Model※2など)
    ※1 ”Editing Factual Knowledge in Language Models”,
    EMNLP 2021 など
    ※2 ”Socratic Models: Composing Zero-Shot Multimodal
    Reasoning with Language”, 2022 など
    ※ 図はGalacticaの⽣成結果の冒頭の抜粋

    View Slide

  105. (2)Accessibility of Models
    議題(話題提供)
    126
    ※ 表は”Holistic Evaluation of Language Models”より抜粋
    APIのみ
    公開&巨⼤
    ⾮公開

    View Slide

  106. 補⾜︓基盤モデルがもたらすリスクについて
    129

    View Slide

  107. ■参考 | カリーハワード同型対応 (proofs as programs)
    130
    • 特定の論理体系とプログラミングは等価である
    • 論理推論能⼒とコード学習の関係を⽰唆︖

    View Slide