論文紹介：What In-Context Learning “Learns” In-Context: Disentangling Task Recognition and Task Learning

Slide 1

Slide 1 text

What In-Context Learning “Learns” In-Context: Disentangling Task Recognition and Task Learning Jane Pan, Tianyu Gao, Howard Chen, Danqi Chen　ACL2023 Findings 村山友理　東大和泉研 2023/08/27　第15回最先端NLP勉強会

Slide 2

Slide 2 text

事前学習したものを思い出しているだけ？ In-context learning は何をしているのか？ 2 デモ（正しい入出力ペア）から学習している？

Slide 3

Slide 3 text

● 事前学習時にダウンストリームで必要なタスクを暗黙的に学習していて、in-context のデモはどのタスクを解くべきかモデルに認識させるための情報を与えるだけ (Xie+ 22) ● ICL性能は正解ラベルの使用に対してinsensitive (Min+ 22) 事前学習したものを思い出しているだけ？ 3

Slide 4

Slide 4 text

● Transformer-based モデルは「内部モデル」を更新するために暗黙的に勾配降下法を行っている可能性 (Akyürek+ 23), (vonOswald+ 22) ● 実データセットの指標を用いると、ICLとファインチューニングには類似点がある (Dai+ 23) デモから学習している？ 4

Slide 5

Slide 5 text

ICLの能力を「タスク認識」と「タスク学習」に分解 5 事前学習したものを思い出しているだけ？タスク認識デモ（正しい入出力ペア）から学習している？タスク学習 ● それぞれの能力を評価するために、プロンプトのラベルを操作 ● いろいろなモデルサイズとデモ数で実験

Slide 6

Slide 6 text

Random (= タスク認識) ● ラベルは一様にランダムにサンプリングされるラベル操作 1. Random 6

Slide 7

Slide 7 text

Abstract (=タスク学習) ● プロンプトからタスク指示文を取り除き、ラベルを抽象的な記号に置換 ○ 数字 (0, 1, 2,...) / 文字 (A, B, C,...) / 記号 (@, #, $, %, *, ∧,...) ● 抽象的なラベルであっても事前学習のバイアスがある可能性 ○ 例えば、“0”は負例っぽい ○ バイアスを避けるために、プロンプト毎にラベルから抽象記号にランダムに写像ラベル操作 2. Abstract 7

Slide 8

Slide 8 text

Gold (= タスク認識 + タスク学習) ● 正解の入力・ラベルペアが与えられる従来のプロンプトラベル操作 3. Gold 8

Slide 9

Slide 9 text

● データセット ○ 4タイプのタスクに関する16の分類データセットを使用： ■ 感情分析 ■ 毒性検出 ■ 自然言語推論 / 言い換え検出 ■ トピック / スタンス分類 ● モデル ○ GPT-3 (Brown+ 20) ■ ada (350M), babbage (1.3B), curie (6.7B), davinci (175B) (OpenAI API) ○ LLaMA (Touvron+ 23) ■ 7B, 13B, 33B, 65B ○ OPT (Zhang+ 22) ■ 350M, 2.7B, 6.7B, 13B, 30B, 66B (Transformers library) 実験設定 9

Slide 10

Slide 10 text

● タスク設定 ○ テスト用に訓練セットからデモをサンプリング ■ GPT-3: 150 対（予算の都合により） ■ OPT, LLaMA: 1,350 対 ○ 分類タスクのタイプ毎に3種類のプロンプト雛形を用意 ○ データセットとプロンプト全体の平均を報告実験設定 10

Slide 11

Slide 11 text

● Gold (= タスク認識 + タスク学習) ○ 全体的に一番良い ● Random (= タスク認識) ○ 性能はスケールに依らずほぼ横ばい ● Abstract (= タスク学習) ○ モデルサイズとデモ数に応じて増加 ○ 小さなモデル、少ないデモ数ではRandomより低いが、パラメータ数・デモ数が増えると逆転 ○ LLaMA-65B以外のOPT-66Bと davinciはGOLDに匹敵結果 11 ※ Abstractについては数字ラベルの結果

Slide 12

Slide 12 text

● 数字、文字、記号ラベルごとの結果は主結果と同様 ● 数字と文字ラベルは一貫して記号ラベルより高かった ○ 数字と文字は事前学習コーパス中により頻繁に出現するからかもしれないタスク学習についてラベルの違いによる傾向の差は見られない 12

Slide 13

Slide 13 text

● 感情分析とNLIを比較 ● NLIのAbstract曲線がより平らなので、プロンプトと事前学習の質が重要タスク学習ではタスクが単純な方がサイズとデモ数にスケールする 13

Slide 14

Slide 14 text

タスクのタイプ別の結果 14 感情分析トピック / スタンス分類毒性検出 NLI / 言い換え検出 GPT-3 LLaMA OPT

Slide 15

Slide 15 text

● ICLを2つの能力「タスク認識」と「タスク学習」に分解し、それぞれ異なる条件下で発現することを示した ● 小さなモデルでもタスク認識の能力はあるが、スケールしない ● タスク学習の能力は大きなモデルで現れる ○ 小さなモデルではデモを増やしても性能が上がらない ○ 大きなモデルはデモが増えると性能も向上 ● Limitations ○ 「タスク認識」と「タスク学習」に分けたが、タスク学習がデモで示されたパターンを事前学習で学習した概念に代替しているとすれば、タスク認識の進化形と捉えることもできるかもしれないまとめ 15