$30 off During Our Annual Pro Sale. View Details »

論文紹介:What In-Context Learning “Learns” In-Context: Disentangling Task Recognition and Task Learning

yuri
August 21, 2023

論文紹介:What In-Context Learning “Learns” In-Context: Disentangling Task Recognition and Task Learning

yuri

August 21, 2023
Tweet

More Decks by yuri

Other Decks in Research

Transcript

  1. What In-Context Learning “Learns” In-Context:
    Disentangling Task Recognition and Task Learning
    Jane Pan, Tianyu Gao, Howard Chen, Danqi Chen ACL2023 Findings
    村山 友理 東大和泉研
    2023/08/27 第15回最先端NLP勉強会

    View Slide

  2. 事前学習したものを思い出してい
    るだけ?
    In-context learning は何をしているのか?
    2
    デモ(正しい入出力ペア)から学習
    している?

    View Slide

  3. ● 事前学習時にダウンストリームで必要なタスクを暗黙的に学習していて、in-context
    のデモはどのタスクを解くべきかモデルに認識させるための情報を与えるだけ
    (Xie+ 22)
    ● ICL性能は正解ラベルの使用に対してinsensitive (Min+ 22)
    事前学習したものを思い出しているだけ?
    3

    View Slide

  4. ● Transformer-based モデルは「内部モデル」を更新するために暗黙的に勾配降下
    法を行っている可能性 (Akyürek+ 23), (vonOswald+ 22)
    ● 実データセットの指標を用いると、ICLとファインチューニングには類似点がある
    (Dai+ 23)
    デモから学習している?
    4

    View Slide

  5. ICLの能力を「タスク認識」と「タスク学習」に分解
    5
    事前学習したものを思い出してい
    るだけ?
    タスク認識
    デモ(正しい入出力ペア)から学習
    している?
    タスク学習
    ● それぞれの能力を評価するために、プロンプトのラベルを操作
    ● いろいろなモデルサイズとデモ数で実験

    View Slide

  6. Random (= タスク認識)
    ● ラベルは一様にランダムにサンプリングされる
    ラベル操作 1. Random
    6

    View Slide

  7. Abstract (=タスク学習)
    ● プロンプトからタスク指示文を取り除き、ラベルを抽象的な記号に置換
    ○ 数字 (0, 1, 2,...) / 文字 (A, B, C,...) / 記号 (@, #, $, %, *, ∧,...)
    ● 抽象的なラベルであっても事前学習のバイアスがある可能性
    ○ 例えば、“0”は負例っぽい
    ○ バイアスを避けるために、プロンプト毎にラベルから抽象記号にランダムに写像
    ラベル操作 2. Abstract
    7

    View Slide

  8. Gold (= タスク認識 + タスク学習)
    ● 正解の入力・ラベルペアが与えられる従来のプロンプト
    ラベル操作 3. Gold
    8

    View Slide

  9. ● データセット
    ○ 4タイプのタスクに関する16の分類データセットを使用:
    ■ 感情分析
    ■ 毒性検出
    ■ 自然言語推論 / 言い換え検出
    ■ トピック / スタンス分類
    ● モデル
    ○ GPT-3 (Brown+ 20)
    ■ ada (350M), babbage (1.3B), curie (6.7B), davinci (175B) (OpenAI API)
    ○ LLaMA (Touvron+ 23)
    ■ 7B, 13B, 33B, 65B
    ○ OPT (Zhang+ 22)
    ■ 350M, 2.7B, 6.7B, 13B, 30B, 66B (Transformers library)
    実験設定
    9

    View Slide

  10. ● タスク設定
    ○ テスト用に訓練セットからデモをサンプリング
    ■ GPT-3: 150 対(予算の都合により)
    ■ OPT, LLaMA: 1,350 対
    ○ 分類タスクのタイプ毎に3種類のプロンプト雛形を用意
    ○ データセットとプロンプト全体の平均を報告
    実験設定
    10

    View Slide

  11. ● Gold (= タスク認識 + タスク学習)
    ○ 全体的に一番良い
    ● Random (= タスク認識)
    ○ 性能はスケールに依らずほぼ
    横ばい
    ● Abstract (= タスク学習)
    ○ モデルサイズとデモ数に応じて
    増加
    ○ 小さなモデル、少ないデモ数で
    はRandomより低いが、パラ
    メータ数・デモ数が増えると逆転
    ○ LLaMA-65B以外のOPT-66Bと
    davinciはGOLDに匹敵
    結果
    11
    ※ Abstractについては数字ラベルの結果

    View Slide

  12. ● 数字、文字、記号ラベルごとの結果は主結果と同様
    ● 数字と文字ラベルは一貫して記号ラベルより高かった
    ○ 数字と文字は事前学習コーパス中により頻繁に出現するからかもしれない
    タスク学習についてラベルの違いによる傾向の差は見られない
    12

    View Slide

  13. ● 感情分析とNLIを比較
    ● NLIのAbstract曲線がより平らなので、プロンプトと事前学習の質が重要
    タスク学習ではタスクが単純な方がサイズとデモ数にスケールする
    13

    View Slide

  14. タスクのタイプ別の結果
    14
    感情分析 トピック / スタンス分類 毒性検出 NLI / 言い換え検出
    GPT-3
    LLaMA
    OPT

    View Slide

  15. ● ICLを2つの能力「タスク認識」と「タスク学習」に分解し、それぞれ異なる条件下で
    発現することを示した
    ● 小さなモデルでもタスク認識の能力はあるが、スケールしない
    ● タスク学習の能力は大きなモデルで現れる
    ○ 小さなモデルではデモを増やしても性能が上がらない
    ○ 大きなモデルはデモが増えると性能も向上
    ● Limitations
    ○ 「タスク認識」と「タスク学習」に分けたが、タスク学習がデモで示されたパター
    ンを事前学習で学習した概念に代替しているとすれば、タスク認識の進化形と
    捉えることもできるかもしれない
    まとめ
    15

    View Slide