Upgrade to Pro — share decks privately, control downloads, hide ads and more …

A Theory of Emergent In-Context Learning as Imp...

Sho Yokoi
August 21, 2023

A Theory of Emergent In-Context Learning as Implicit Structure Induction

第15回最先端NLP勉強会
https://sites.google.com/view/snlp-jp/home/2023

Sho Yokoi

August 21, 2023
Tweet

More Decks by Sho Yokoi

Other Decks in Research

Transcript

  1. A Theory of Emergent In-Context Learning as Implicit Structure Induction

    Michael Hahn and Navin Goyal arXiv 2023-03 https://arxiv.org/abs/2303.07971 読む⼈︓横井 祥(東北⼤学) 2023-08-17, 第15回最先端NLP勉強会 ※ とくに注釈がない限り図表は紹介論⽂からの引⽤です
  2. ⾔語モデル 5 📄 Neubig, CMU CS 11-711, Fall 2022, Advanced

    NLP, Intro 3 - Language Modeling and NN Basics hDp://www.phontron.com/class/anlp2022/assets/slides/anlp-03-lm.pdf
  3. ⽂脈内学習(in-context learning︔ICT) 6 📄 Brown+, Language Models are Few-Shot Learners

    (NeurIPS 2020) ⾒本の (x,y) 数個 + test x をプロンプトに⼊れるだけ
  4. ⽂脈内学習の機械学習視点での異様さ 7 • 教師あり学習 − タスク⽤の学習データ︓103〜108 • 事前学習 → 微調整

    − タスク⽤の学習データ︓102〜103 • ⾔語モデルの学習 → ⽂脈内学習 − タスク⽤の学習データ︓0〜10 − +パラメータ更新不要 ?! ?!
  5. お気持ち 10 • コーパス中に当該の関係が反復して書かれていると • ⽂脈内学習(in-cotext learning)がうまくいく Japan -> Tokyo,

    Ghana -> [ ? ] ... ... ... ... the population of Tokyo (Japan) is ..., the popupation of Paris (France) is .... D.C. is the U.S.ʼs capital ..., Tokyo is the Japanʼs capital ...
  6. お気持ち 11 • コーパス中に当該の関係が反復して書かれていると • ⽂脈内学習(in-cotext learning)がうまくいく Japan -> Tokyo,

    Ghana -> [ ? ] ... ... ... ... the population of Tokyo (Japan) is ..., the popupation of Paris (France) is .... D.C. is the U.S.ʼs capital ..., Tokyo is the Japanʼs capital ... Relation 132 Tokyo D.C. Paris Brasília Nairobi … Japan U.S. France Brazil Kenya … ↔ ↔ ↔ ↔ ↔ (OK... relation 132) Accra …
  7. 1. 反復構造をうまく表現できる⽂法を考える 15 • ⾃然⾔語に⼭のように出てくる並列構造を形式化したい • Compositional Attribute Grammars (CAG)

    − 形式⽂法 − 著者の提案 − 「⾃然⾔語⽂はこういう複雑さと特徴をもって構成されていると思え そうだよね,思いましょう」 − PCFG + α • 理論の仮定 📄 Hahn&Goyal, A Theory of Emergent In-Context Learning as Implicit Structure InducVon (arXiv 2023)
  8. 2. 反復しやすさを記述するための量を⽤意 18 • 導出⽊ τ の記述⻑ 𝐷 τ …

    τ のノード数 提案する⽂法を使うと, 反復構造を持つ⽂の導出⽊を ⼩さく書ける
  9. 2. 反復しやすさを記述するための量を⽤意 19 • 関数𝜃の反復複雑性 𝑅! … 𝜃を𝑛回反復する時の記述⻑の増分 − Q.

    同じ⽣成規則がどれくらい反復して利⽤される︖ − 𝑅! : 「内側で 𝜃 を 𝑛 回使う」構⽂⽊ 𝜏 の⼤きさは,𝜃 単体の⼤きさ に対する増分は,最⼩でどれくらい︖
  10. 2. 反復しやすさを記述するための量を⽤意 20 • 関数𝜃の反復複雑性 𝑅! … 𝜃を𝑛回反復する時の記述⻑の増分 − Q.

    同じ⽣成規則がどれくらい反復して利⽤される︖ − 𝑅! : 「内側で 𝜃 を 𝑛 回使う」構⽂⽊ 𝜏 の⼤きさは,𝜃 単体の⼤きさ に対する増分は,最⼩でどれくらい︖ − 𝑅! ≈ 1 で済む例(loop) τ: 内側で θ を 𝑛 回利⽤ θ 「θ から⽂字列を⽣成」 を 𝑛 回繰り返し
  11. 3. 定理 ̶ コーパス中に反復が多ければ ⽂脈内学習は成功しやすい 21 • 定理1︓予測の 0-1 損失の平均は

    𝒪(𝑅! + 𝐷 τ" ) で押さえられる 論⽂で正確なステートメントを確認したいかた向けの設定メモ︓ • 気になっている「関係データ」 − 合計 𝑛 種の「関係データ」 𝑥! , 𝜑 𝑥! ! − 例︓{(country, capital of it)} = {(France, Paris), ...} • LM への⼊⼒ … ⽂脈内学習のプロンプト︔0 〜 𝑛 − 1 ショット − 𝑃" ≔ − 例︓ • LM からの出⼒ − . − 例︓ ICTの 不正解率は 当該関係を表す 部分⽊が⼩さいときに, ⼩さくなる 反復の複雑性が低く=コーパスで 当該関係の繰り返しが起きやすく,
  12. 理論パートのまとめ 22 • コーパス中に当該の関係が反復して書かれていると • ⽂脈内学習(in-cotext learning)がうまくいく CAG という反復構造を表しやすい ⽂法を定義

    ⽂脈内学習の不正解率は 反復を⼩さな構⽂⽊で書けるときに下がる (=当該の関係知識が反復構造を使って ⾔語にデコードされるときに下がる) 「反復されやすさ」を 「反復を含む構⽂⽊がどれくら い⼩さくなるか」で定義
  13. ⼈⼯データによる確認︓ 実際に反復構造は⽂脈内学習に効く︖ 24 • 確かめたいこと − 関係知識の反復が起きやすい⽂法(CAG)で知識を⾔語化しておくと, そのコーパスから学習した⾔語モデルは,⽂脈内学習を成功させやすい • 準備1︓関係知識

    − ⼈⼯的な何か − オブジェクトは⽂字 − 関係も関数名 − 知識グラフ的な何か − もっと複雑な対象 ̶常識,直観物理, 対話̶ のネットワーク だと思っても良い
  14. ⼈⼯データによる確認︓ 本当に反復構造が⽂脈内学習に効いてる︖ 26 • 準備3︓ニューラルモデル − GPT-2 (Transformer) − small

    (14M), medium (21M), 42M (large), 85M (XL) − 今⽇⽇の “LLM” ではない − が,語彙サイズもコーパスサイズも⼈⼯的な⼩さなもの − 実際これでも ICT や CoT の機能が⽣まれる様⼦がよく⽰せる(結果)
  15. 結果︓CAG で知識を⾔語化すると ⽂脈内学習が成功する 28 タスク コーパス =知識を⾔語化 する⽂法 学習 ステップ

    正解率 知識に含まれる関数 (=関係)の種類数 CAG の簡易版 (今⽇の主役) ✔ ✔ ✔ ✔ ✔ ✔ ✔
  16. まとめ 30 • 背景︓⽂脈内学習(ICT)が意味不明にすごい − パラメータ更新なし,超少数のラベルつきデータ • 関係がテキスト中で反復されやすい → ICTが成功しやすい

    1. 反復を表現しやすい⽂法(CAG)を⽤意 – 関数(=関係=部分⽊を越える依存関係) – ループ(=繰り返し) 2. 反復されやすさを表す量を⽤意 – 同じ関係知識を反復して出⼒する際に導出⽊はどれくらい⼤きくなる︖ 3. ICT の 0-1損失(不正解率)は,当該の関係がテキスト中で反復 されやすいときに(そういう⽣成モデルが背後にあるときに)下がる • ⼈⼯データによる実験での検証 − CAG に従って知識を⾔語化(コーパス化)すると, これを学習した⾔語モデルで確かに ICT が成功しやすい
  17. 今⽇⾶ばした話 31 • とてもたくさん − CoT への拡張 − prompt ⻑との関係

    − べき分布の場合での⽰唆 − 各量や定理の具体例を⽤いた説明 − (attention pattern による検証) − etc. • かなり⾯⽩い論⽂でした.ご興味あるかたは本⽂もぜひ.
  18. この研究が何につながりそうか, この研究はどういう視点で魅⼒的か(私⾒) 32 • メタ共起 as ⼤規模⾔語モデルの記述⼦…︖ − 数理がすごくよくわかっている世界︓静的埋め込み –

    共起(インスタンスとインスタンスの共起︔PMI) ↔ 埋込表現 − 数理がまだ全然わからない世界︓⼤規模⾔語モデル – メタ共起(インスタンスとインスタンスの共起からなるテーブル) ↔ ︖ • 共起 → メタ共起 → グラフ…︖ − 今回の研究︓2者の関係のクラスの学習可能性 − 我々がよくやる「理解」︓グラフのマッチング • ご興味あるかた共同研究しましょう
  19. この研究が何につながりそうか, この研究はどういう視点で魅⼒的か(私⾒) 33 • メタ共起 as ⼤規模⾔語モデルの記述⼦…︖ − 数理がすごくよくわかっている世界︓静的埋め込み –

    共起(インスタンスとインスタンスの共起︔PMI) ↔ 埋込表現 − 数理がまだ全然わからない世界︓⼤規模⾔語モデル – メタ共起(インスタンスとインスタンスの共起からなるテーブル) ↔ ︖ • 共起 → メタ共起 → グラフ…︖ − 今回の研究︓2者の関係のクラスの学習可能性 − 我々がよくやる「理解」︓グラフのマッチング • ご興味あるかた共同研究しましょう 電気回路 抵抗 電池 電流 電圧 導線 電⼦ ⽔路 ⽔⾞ ポンプ ⽔量 ⾼さ ホース ⽔