$30 off During Our Annual Pro Sale. View Details »

A Theory of Emergent In-Context Learning as Implicit Structure Induction

A Theory of Emergent In-Context Learning as Implicit Structure Induction

第15回最先端NLP勉強会
https://sites.google.com/view/snlp-jp/home/2023

Sho Yokoi
PRO

August 21, 2023
Tweet

More Decks by Sho Yokoi

Other Decks in Research

Transcript

  1. A Theory of Emergent In-Context Learning
    as Implicit Structure Induction
    Michael Hahn and Navin Goyal
    arXiv 2023-03
    https://arxiv.org/abs/2303.07971
    読む⼈︓横井 祥(東北⼤学)
    2023-08-17, 第15回最先端NLP勉強会
    ※ とくに注釈がない限り図表は紹介論⽂からの引⽤です

    View Slide

  2. 背景︓⽂脈内学習すごい
    4

    View Slide

  3. ⾔語モデル
    5
    📄 Neubig, CMU CS 11-711, Fall 2022, Advanced NLP, Intro 3 - Language Modeling and NN Basics
    hDp://www.phontron.com/class/anlp2022/assets/slides/anlp-03-lm.pdf

    View Slide

  4. ⽂脈内学習(in-context learning︔ICT)
    6
    📄 Brown+, Language Models are Few-Shot Learners (NeurIPS 2020)
    ⾒本の (x,y) 数個 + test x
    をプロンプトに⼊れるだけ

    View Slide

  5. ⽂脈内学習の機械学習視点での異様さ
    7
    • 教師あり学習
    − タスク⽤の学習データ︓103〜108
    • 事前学習 → 微調整
    − タスク⽤の学習データ︓102〜103
    • ⾔語モデルの学習 → ⽂脈内学習
    − タスク⽤の学習データ︓0〜10
    − +パラメータ更新不要
    ?!
    ?!

    View Slide

  6. この研究︓「コーパス内の反復構造が
    ⽂脈内学習の成功の鍵なのでは…︖」
    8

    View Slide

  7. お気持ち
    9
    • ⾃然⾔語⽂には反復(並列構造)が⼭ほどある
    📄 Hahn&Goyal, A Theory of Emergent In-Context Learning as Implicit Structure InducVon (arXiv 2023)

    View Slide

  8. お気持ち
    10
    • コーパス中に当該の関係が反復して書かれていると
    • ⽂脈内学習(in-cotext learning)がうまくいく
    Japan -> Tokyo, Ghana -> [ ? ]
    ...
    ...
    ...
    ...
    the population of Tokyo (Japan) is ...,
    the popupation of Paris (France) is ....
    D.C. is the U.S.ʼs capital ...,
    Tokyo is the Japanʼs capital ...

    View Slide

  9. お気持ち
    11
    • コーパス中に当該の関係が反復して書かれていると
    • ⽂脈内学習(in-cotext learning)がうまくいく
    Japan -> Tokyo, Ghana -> [ ? ]
    ...
    ...
    ...
    ...
    the population of Tokyo (Japan) is ...,
    the popupation of Paris (France) is ....
    D.C. is the U.S.ʼs capital ...,
    Tokyo is the Japanʼs capital ...
    Relation 132
    Tokyo
    D.C.
    Paris
    Brasília
    Nairobi

    Japan
    U.S.
    France
    Brazil
    Kenya






    (OK... relation 132)
    Accra

    View Slide

  10. 理論
    12

    View Slide

  11. 理論パートのアウトライン
    13
    • コーパス中に当該の関係が反復して書かれていると
    • ⽂脈内学習(in-cotext learning)がうまくいく
    1. これの記述の仕⽅
    3. これの⽰し⽅
    2. これらの繋ぎ⽅

    View Slide

  12. 理論パートのアウトライン
    14
    • コーパス中に繰り返し構造がたくさんあると
    • ⽂脈内学習(in-cotext learning)がうまくいく
    1. これの記述の仕⽅
    3. これの⽰し⽅
    2. これらの繋ぎ⽅

    View Slide

  13. 1. 反復構造をうまく表現できる⽂法を考える
    15
    • ⾃然⾔語に⼭のように出てくる並列構造を形式化したい
    • Compositional Attribute Grammars (CAG)
    − 形式⽂法
    − 著者の提案
    − 「⾃然⾔語⽂はこういう複雑さと特徴をもって構成されていると思え
    そうだよね,思いましょう」
    − PCFG + α
    • 理論の仮定
    📄 Hahn&Goyal, A Theory of Emergent In-Context Learning as Implicit Structure InducVon (arXiv 2023)

    View Slide

  14. 1. 反復構造をうまく表現できる⽂法を考える
    16
    CAG = PCFG+α の α(=反復構造の源)
    その1︓部分⽊をまたぐ条件付き⽣成(関数︔関係)
    広義「関係知識」を
    記述するための関数

    View Slide

  15. 1. 反復構造をうまく表現できる⽂法を考える
    17
    CAG = PCFG+α の α(=反復構造の源)
    その2︓ループ
    共通の「関係知識」のインスタンスが反復して記述されるという
    ⾃然⾔語の特性を表すための,特殊な⾮終端記号

    View Slide

  16. 2. 反復しやすさを記述するための量を⽤意
    18
    • 導出⽊ τ の記述⻑ 𝐷 τ … τ のノード数
    提案する⽂法を使うと,
    反復構造を持つ⽂の導出⽊を
    ⼩さく書ける

    View Slide

  17. 2. 反復しやすさを記述するための量を⽤意
    19
    • 関数𝜃の反復複雑性 𝑅!
    … 𝜃を𝑛回反復する時の記述⻑の増分
    − Q. 同じ⽣成規則がどれくらい反復して利⽤される︖
    − 𝑅!
    : 「内側で 𝜃 を 𝑛 回使う」構⽂⽊ 𝜏 の⼤きさは,𝜃 単体の⼤きさ
    に対する増分は,最⼩でどれくらい︖

    View Slide

  18. 2. 反復しやすさを記述するための量を⽤意
    20
    • 関数𝜃の反復複雑性 𝑅!
    … 𝜃を𝑛回反復する時の記述⻑の増分
    − Q. 同じ⽣成規則がどれくらい反復して利⽤される︖
    − 𝑅!
    : 「内側で 𝜃 を 𝑛 回使う」構⽂⽊ 𝜏 の⼤きさは,𝜃 単体の⼤きさ
    に対する増分は,最⼩でどれくらい︖
    − 𝑅! ≈ 1 で済む例(loop)
    τ: 内側で θ を 𝑛 回利⽤
    θ
    「θ から⽂字列を⽣成」
    を 𝑛 回繰り返し

    View Slide

  19. 3. 定理 ̶ コーパス中に反復が多ければ
    ⽂脈内学習は成功しやすい
    21
    • 定理1︓予測の 0-1 損失の平均は 𝒪(𝑅!
    + 𝐷 τ"
    ) で押さえられる
    論⽂で正確なステートメントを確認したいかた向けの設定メモ︓
    • 気になっている「関係データ」
    − 合計 𝑛 種の「関係データ」 𝑥!
    , 𝜑 𝑥! !
    − 例︓{(country, capital of it)} = {(France, Paris), ...}
    • LM への⼊⼒ … ⽂脈内学習のプロンプト︔0 〜 𝑛 − 1 ショット
    − 𝑃"

    − 例︓
    • LM からの出⼒
    − .
    − 例︓
    ICTの
    不正解率は
    当該関係を表す
    部分⽊が⼩さいときに,
    ⼩さくなる
    反復の複雑性が低く=コーパスで
    当該関係の繰り返しが起きやすく,

    View Slide

  20. 理論パートのまとめ
    22
    • コーパス中に当該の関係が反復して書かれていると
    • ⽂脈内学習(in-cotext learning)がうまくいく
    CAG という反復構造を表しやすい
    ⽂法を定義
    ⽂脈内学習の不正解率は
    反復を⼩さな構⽂⽊で書けるときに下がる
    (=当該の関係知識が反復構造を使って
    ⾔語にデコードされるときに下がる)
    「反復されやすさ」を
    「反復を含む構⽂⽊がどれくら
    い⼩さくなるか」で定義

    View Slide

  21. 実験
    23

    View Slide

  22. ⼈⼯データによる確認︓
    実際に反復構造は⽂脈内学習に効く︖
    24
    • 確かめたいこと
    − 関係知識の反復が起きやすい⽂法(CAG)で知識を⾔語化しておくと,
    そのコーパスから学習した⾔語モデルは,⽂脈内学習を成功させやすい
    • 準備1︓関係知識
    − ⼈⼯的な何か
    − オブジェクトは⽂字
    − 関係も関数名
    − 知識グラフ的な何か
    − もっと複雑な対象
    ̶常識,直観物理,
    対話̶ のネットワーク
    だと思っても良い

    View Slide

  23. ⼈⼯データによる確認︓
    本当に反復構造が⽂脈内学習に効いてる︖
    25
    • 準備2︓関係知識をデコードしたコーパス
    − ベースラインのひとつ︓HMM dataset
    – 従来理論で使われていた⽂法
    …を使ってコーパスを⾃動⽣成
    − compositional dataset
    – CAG の簡略版
    …を使ってコーパスを⾃動⽣成

    View Slide

  24. ⼈⼯データによる確認︓
    本当に反復構造が⽂脈内学習に効いてる︖
    26
    • 準備3︓ニューラルモデル
    − GPT-2 (Transformer)
    − small (14M), medium (21M), 42M (large), 85M (XL)
    − 今⽇⽇の “LLM” ではない
    − が,語彙サイズもコーパスサイズも⼈⼯的な⼩さなもの
    − 実際これでも ICT や CoT の機能が⽣まれる様⼦がよく⽰せる(結果)

    View Slide

  25. ⼈⼯データによる確認︓
    本当に反復構造が⽂脈内学習に効いてる︖
    27
    • 準備4︓解かせるタスク
    − ⽂脈内学習,より複雑な⽂脈内学習

    View Slide

  26. 結果︓CAG で知識を⾔語化すると
    ⽂脈内学習が成功する
    28
    タスク
    コーパス
    =知識を⾔語化
    する⽂法
    学習
    ステップ
    正解率
    知識に含まれる関数
    (=関係)の種類数
    CAG の簡易版
    (今⽇の主役)







    View Slide

  27. まとめ
    29

    View Slide

  28. まとめ
    30
    • 背景︓⽂脈内学習(ICT)が意味不明にすごい
    − パラメータ更新なし,超少数のラベルつきデータ
    • 関係がテキスト中で反復されやすい → ICTが成功しやすい
    1. 反復を表現しやすい⽂法(CAG)を⽤意
    – 関数(=関係=部分⽊を越える依存関係)
    – ループ(=繰り返し)
    2. 反復されやすさを表す量を⽤意
    – 同じ関係知識を反復して出⼒する際に導出⽊はどれくらい⼤きくなる︖
    3. ICT の 0-1損失(不正解率)は,当該の関係がテキスト中で反復
    されやすいときに(そういう⽣成モデルが背後にあるときに)下がる
    • ⼈⼯データによる実験での検証
    − CAG に従って知識を⾔語化(コーパス化)すると,
    これを学習した⾔語モデルで確かに ICT が成功しやすい

    View Slide

  29. 今⽇⾶ばした話
    31
    • とてもたくさん
    − CoT への拡張
    − prompt ⻑との関係
    − べき分布の場合での⽰唆
    − 各量や定理の具体例を⽤いた説明
    − (attention pattern による検証)
    − etc.
    • かなり⾯⽩い論⽂でした.ご興味あるかたは本⽂もぜひ.

    View Slide

  30. この研究が何につながりそうか,
    この研究はどういう視点で魅⼒的か(私⾒)
    32
    • メタ共起 as ⼤規模⾔語モデルの記述⼦…︖
    − 数理がすごくよくわかっている世界︓静的埋め込み
    – 共起(インスタンスとインスタンスの共起︔PMI) ↔ 埋込表現
    − 数理がまだ全然わからない世界︓⼤規模⾔語モデル
    – メタ共起(インスタンスとインスタンスの共起からなるテーブル) ↔ ︖
    • 共起 → メタ共起 → グラフ…︖
    − 今回の研究︓2者の関係のクラスの学習可能性
    − 我々がよくやる「理解」︓グラフのマッチング
    • ご興味あるかた共同研究しましょう

    View Slide

  31. この研究が何につながりそうか,
    この研究はどういう視点で魅⼒的か(私⾒)
    33
    • メタ共起 as ⼤規模⾔語モデルの記述⼦…︖
    − 数理がすごくよくわかっている世界︓静的埋め込み
    – 共起(インスタンスとインスタンスの共起︔PMI) ↔ 埋込表現
    − 数理がまだ全然わからない世界︓⼤規模⾔語モデル
    – メタ共起(インスタンスとインスタンスの共起からなるテーブル) ↔ ︖
    • 共起 → メタ共起 → グラフ…︖
    − 今回の研究︓2者の関係のクラスの学習可能性
    − 我々がよくやる「理解」︓グラフのマッチング
    • ご興味あるかた共同研究しましょう
    電気回路
    抵抗 電池
    電流
    電圧
    導線 電⼦ ⽔路
    ⽔⾞ ポンプ
    ⽔量
    ⾼さ
    ホース ⽔

    View Slide