A Theory of Emergent In-Context Learning as Implicit Structure Induction

Slide 1

Slide 1 text

A Theory of Emergent In-Context Learning as Implicit Structure Induction Michael Hahn and Navin Goyal arXiv 2023-03 https://arxiv.org/abs/2303.07971 読む⼈︓横井祥（東北⼤学） 2023-08-17, 第15回最先端NLP勉強会 ※ とくに注釈がない限り図表は紹介論⽂からの引⽤です

Slide 2

Slide 2 text

背景︓⽂脈内学習すごい 4

Slide 3

Slide 3 text

⾔語モデル 5 📄 Neubig, CMU CS 11-711, Fall 2022, Advanced NLP, Intro 3 - Language Modeling and NN Basics hDp://www.phontron.com/class/anlp2022/assets/slides/anlp-03-lm.pdf

Slide 4

Slide 4 text

⽂脈内学習（in-context learning︔ICT） 6 📄 Brown+, Language Models are Few-Shot Learners (NeurIPS 2020) ⾒本の (x,y) 数個 + test x をプロンプトに⼊れるだけ

Slide 5

Slide 5 text

⽂脈内学習の機械学習視点での異様さ 7 • 教師あり学習 − タスク⽤の学習データ︓103〜108 • 事前学習 → 微調整 − タスク⽤の学習データ︓102〜103 • ⾔語モデルの学習 → ⽂脈内学習 − タスク⽤の学習データ︓0〜10 − ＋パラメータ更新不要 ?! ?!

Slide 6

Slide 6 text

この研究︓「コーパス内の反復構造が⽂脈内学習の成功の鍵なのでは…︖」 8

Slide 7

Slide 7 text

お気持ち 9 • ⾃然⾔語⽂には反復（並列構造）が⼭ほどある 📄 Hahn&Goyal, A Theory of Emergent In-Context Learning as Implicit Structure InducVon (arXiv 2023)

Slide 8

Slide 8 text

お気持ち 10 • コーパス中に当該の関係が反復して書かれていると • ⽂脈内学習（in-cotext learning）がうまくいく Japan -> Tokyo, Ghana -> [ ? ] ... ... ... ... the population of Tokyo (Japan) is ..., the popupation of Paris (France) is .... D.C. is the U.S.ʼs capital ..., Tokyo is the Japanʼs capital ...

Slide 9

Slide 9 text

お気持ち 11 • コーパス中に当該の関係が反復して書かれていると • ⽂脈内学習（in-cotext learning）がうまくいく Japan -> Tokyo, Ghana -> [ ? ] ... ... ... ... the population of Tokyo (Japan) is ..., the popupation of Paris (France) is .... D.C. is the U.S.ʼs capital ..., Tokyo is the Japanʼs capital ... Relation 132 Tokyo D.C. Paris Brasília Nairobi … Japan U.S. France Brazil Kenya … ↔ ↔ ↔ ↔ ↔ (OK... relation 132) Accra …

Slide 10

Slide 10 text

理論 12

Slide 11

Slide 11 text

理論パートのアウトライン 13 • コーパス中に当該の関係が反復して書かれていると • ⽂脈内学習（in-cotext learning）がうまくいく 1. これの記述の仕⽅ 3. これの⽰し⽅ 2. これらの繋ぎ⽅

Slide 12

Slide 12 text

理論パートのアウトライン 14 • コーパス中に繰り返し構造がたくさんあると • ⽂脈内学習（in-cotext learning）がうまくいく 1. これの記述の仕⽅ 3. これの⽰し⽅ 2. これらの繋ぎ⽅

Slide 13

Slide 13 text

1. 反復構造をうまく表現できる⽂法を考える 15 • ⾃然⾔語に⼭のように出てくる並列構造を形式化したい • Compositional Attribute Grammars (CAG) − 形式⽂法 − 著者の提案 − 「⾃然⾔語⽂はこういう複雑さと特徴をもって構成されていると思えそうだよね，思いましょう」 − PCFG + α • 理論の仮定 📄 Hahn&Goyal, A Theory of Emergent In-Context Learning as Implicit Structure InducVon (arXiv 2023)

Slide 14

Slide 14 text

1. 反復構造をうまく表現できる⽂法を考える 16 CAG = PCFG＋α の α（＝反復構造の源）その1︓部分⽊をまたぐ条件付き⽣成（関数︔関係）広義「関係知識」を記述するための関数

Slide 15

Slide 15 text

1. 反復構造をうまく表現できる⽂法を考える 17 CAG = PCFG＋α の α（＝反復構造の源）その2︓ループ共通の「関係知識」のインスタンスが反復して記述されるという⾃然⾔語の特性を表すための，特殊な⾮終端記号

Slide 16

Slide 16 text

2. 反復しやすさを記述するための量を⽤意 18 • 導出⽊ τ の記述⻑ 𝐷 τ … τ のノード数提案する⽂法を使うと，反復構造を持つ⽂の導出⽊を⼩さく書ける

Slide 17

Slide 17 text

2. 反復しやすさを記述するための量を⽤意 19 • 関数𝜃の反復複雑性 𝑅! … 𝜃を𝑛回反復する時の記述⻑の増分 − Q. 同じ⽣成規則がどれくらい反復して利⽤される︖ − 𝑅! : 「内側で 𝜃 を 𝑛 回使う」構⽂⽊ 𝜏 の⼤きさは，𝜃 単体の⼤きさに対する増分は，最⼩でどれくらい︖

Slide 18

Slide 18 text

2. 反復しやすさを記述するための量を⽤意 20 • 関数𝜃の反復複雑性 𝑅! … 𝜃を𝑛回反復する時の記述⻑の増分 − Q. 同じ⽣成規則がどれくらい反復して利⽤される︖ − 𝑅! : 「内側で 𝜃 を 𝑛 回使う」構⽂⽊ 𝜏 の⼤きさは，𝜃 単体の⼤きさに対する増分は，最⼩でどれくらい︖ − 𝑅! ≈ 1 で済む例（loop） τ: 内側で θ を 𝑛 回利⽤ θ 「θ から⽂字列を⽣成」を 𝑛 回繰り返し

Slide 19

Slide 19 text

3. 定理 ̶ コーパス中に反復が多ければ⽂脈内学習は成功しやすい 21 • 定理1︓予測の 0-1 損失の平均は 𝒪(𝑅! + 𝐷 τ" ) で押さえられる論⽂で正確なステートメントを確認したいかた向けの設定メモ︓ • 気になっている「関係データ」 − 合計 𝑛 種の「関係データ」 𝑥! , 𝜑 𝑥! ! − 例︓{(country, capital of it)} = {(France, Paris), ...} • LM への⼊⼒ … ⽂脈内学習のプロンプト︔0 〜 𝑛 − 1 ショット − 𝑃" ≔ − 例︓ • LM からの出⼒ − . − 例︓ ICTの不正解率は当該関係を表す部分⽊が⼩さいときに，⼩さくなる反復の複雑性が低く＝コーパスで当該関係の繰り返しが起きやすく，

Slide 20

Slide 20 text

理論パートのまとめ 22 • コーパス中に当該の関係が反復して書かれていると • ⽂脈内学習（in-cotext learning）がうまくいく CAG という反復構造を表しやすい⽂法を定義⽂脈内学習の不正解率は反復を⼩さな構⽂⽊で書けるときに下がる（＝当該の関係知識が反復構造を使って⾔語にデコードされるときに下がる）「反復されやすさ」を「反復を含む構⽂⽊がどれくらい⼩さくなるか」で定義

Slide 21

Slide 21 text

実験 23

Slide 22

Slide 22 text

⼈⼯データによる確認︓ 実際に反復構造は⽂脈内学習に効く︖ 24 • 確かめたいこと − 関係知識の反復が起きやすい⽂法（CAG）で知識を⾔語化しておくと，そのコーパスから学習した⾔語モデルは，⽂脈内学習を成功させやすい • 準備1︓関係知識 − ⼈⼯的な何か − オブジェクトは⽂字 − 関係も関数名 − 知識グラフ的な何か − もっと複雑な対象 ̶常識，直観物理，対話̶ のネットワークだと思っても良い

Slide 23

Slide 23 text

⼈⼯データによる確認︓ 本当に反復構造が⽂脈内学習に効いてる︖ 25 • 準備2︓関係知識をデコードしたコーパス − ベースラインのひとつ︓HMM dataset – 従来理論で使われていた⽂法 …を使ってコーパスを⾃動⽣成 − compositional dataset – CAG の簡略版 …を使ってコーパスを⾃動⽣成

Slide 24

Slide 24 text

⼈⼯データによる確認︓ 本当に反復構造が⽂脈内学習に効いてる︖ 26 • 準備3︓ニューラルモデル − GPT-2 (Transformer) − small (14M), medium (21M), 42M (large), 85M (XL) − 今⽇⽇の “LLM” ではない − が，語彙サイズもコーパスサイズも⼈⼯的な⼩さなもの − 実際これでも ICT や CoT の機能が⽣まれる様⼦がよく⽰せる（結果）

Slide 25

Slide 25 text

⼈⼯データによる確認︓ 本当に反復構造が⽂脈内学習に効いてる︖ 27 • 準備4︓解かせるタスク − ⽂脈内学習，より複雑な⽂脈内学習

Slide 26

Slide 26 text

結果︓CAG で知識を⾔語化すると⽂脈内学習が成功する 28 タスクコーパス＝知識を⾔語化する⽂法学習ステップ正解率知識に含まれる関数（＝関係）の種類数 CAG の簡易版（今⽇の主役） ✔ ✔ ✔ ✔ ✔ ✔ ✔

Slide 27

Slide 27 text

まとめ 29

Slide 28

Slide 28 text

まとめ 30 • 背景︓⽂脈内学習（ICT）が意味不明にすごい − パラメータ更新なし，超少数のラベルつきデータ • 関係がテキスト中で反復されやすい → ICTが成功しやすい 1. 反復を表現しやすい⽂法（CAG）を⽤意 – 関数（＝関係＝部分⽊を越える依存関係） – ループ（＝繰り返し） 2. 反復されやすさを表す量を⽤意 – 同じ関係知識を反復して出⼒する際に導出⽊はどれくらい⼤きくなる︖ 3. ICT の 0-1損失（不正解率）は，当該の関係がテキスト中で反復されやすいときに（そういう⽣成モデルが背後にあるときに）下がる • ⼈⼯データによる実験での検証 − CAG に従って知識を⾔語化（コーパス化）すると，これを学習した⾔語モデルで確かに ICT が成功しやすい

Slide 29

Slide 29 text

今⽇⾶ばした話 31 • とてもたくさん − CoT への拡張 − prompt ⻑との関係 − べき分布の場合での⽰唆 − 各量や定理の具体例を⽤いた説明 − （attention pattern による検証） − etc. • かなり⾯⽩い論⽂でした．ご興味あるかたは本⽂もぜひ．

Slide 30

Slide 30 text

この研究が何につながりそうか，この研究はどういう視点で魅⼒的か（私⾒） 32 • メタ共起 as ⼤規模⾔語モデルの記述⼦…︖ − 数理がすごくよくわかっている世界︓静的埋め込み – 共起（インスタンスとインスタンスの共起︔PMI） ↔ 埋込表現 − 数理がまだ全然わからない世界︓⼤規模⾔語モデル – メタ共起（インスタンスとインスタンスの共起からなるテーブル） ↔ ︖ • 共起 → メタ共起 → グラフ…︖ − 今回の研究︓2者の関係のクラスの学習可能性 − 我々がよくやる「理解」︓グラフのマッチング • ご興味あるかた共同研究しましょう

Slide 31

Slide 31 text

この研究が何につながりそうか，この研究はどういう視点で魅⼒的か（私⾒） 33 • メタ共起 as ⼤規模⾔語モデルの記述⼦…︖ − 数理がすごくよくわかっている世界︓静的埋め込み – 共起（インスタンスとインスタンスの共起︔PMI） ↔ 埋込表現 − 数理がまだ全然わからない世界︓⼤規模⾔語モデル – メタ共起（インスタンスとインスタンスの共起からなるテーブル） ↔ ︖ • 共起 → メタ共起 → グラフ…︖ − 今回の研究︓2者の関係のクラスの学習可能性 − 我々がよくやる「理解」︓グラフのマッチング • ご興味あるかた共同研究しましょう電気回路抵抗電池電流電圧導線電⼦⽔路⽔⾞ポンプ⽔量⾼さホース⽔