What In-Context Learning “Learns” In-Context:Disentangling Task Recognition and Task LearningJane Pan, Tianyu Gao, Howard Chen, Danqi Chen ACL2023 Findings村山 友理 東大和泉研2023/08/27 第15回最先端NLP勉強会
View Slide
事前学習したものを思い出しているだけ?In-context learning は何をしているのか?2デモ(正しい入出力ペア)から学習している?
● 事前学習時にダウンストリームで必要なタスクを暗黙的に学習していて、in-contextのデモはどのタスクを解くべきかモデルに認識させるための情報を与えるだけ(Xie+ 22)● ICL性能は正解ラベルの使用に対してinsensitive (Min+ 22)事前学習したものを思い出しているだけ?3
● Transformer-based モデルは「内部モデル」を更新するために暗黙的に勾配降下法を行っている可能性 (Akyürek+ 23), (vonOswald+ 22)● 実データセットの指標を用いると、ICLとファインチューニングには類似点がある(Dai+ 23)デモから学習している?4
ICLの能力を「タスク認識」と「タスク学習」に分解5事前学習したものを思い出しているだけ?タスク認識デモ(正しい入出力ペア)から学習している?タスク学習● それぞれの能力を評価するために、プロンプトのラベルを操作● いろいろなモデルサイズとデモ数で実験
Random (= タスク認識)● ラベルは一様にランダムにサンプリングされるラベル操作 1. Random6
Abstract (=タスク学習)● プロンプトからタスク指示文を取り除き、ラベルを抽象的な記号に置換○ 数字 (0, 1, 2,...) / 文字 (A, B, C,...) / 記号 (@, #, $, %, *, ∧,...)● 抽象的なラベルであっても事前学習のバイアスがある可能性○ 例えば、“0”は負例っぽい○ バイアスを避けるために、プロンプト毎にラベルから抽象記号にランダムに写像ラベル操作 2. Abstract7
Gold (= タスク認識 + タスク学習)● 正解の入力・ラベルペアが与えられる従来のプロンプトラベル操作 3. Gold8
● データセット○ 4タイプのタスクに関する16の分類データセットを使用:■ 感情分析■ 毒性検出■ 自然言語推論 / 言い換え検出■ トピック / スタンス分類● モデル○ GPT-3 (Brown+ 20)■ ada (350M), babbage (1.3B), curie (6.7B), davinci (175B) (OpenAI API)○ LLaMA (Touvron+ 23)■ 7B, 13B, 33B, 65B○ OPT (Zhang+ 22)■ 350M, 2.7B, 6.7B, 13B, 30B, 66B (Transformers library)実験設定9
● タスク設定○ テスト用に訓練セットからデモをサンプリング■ GPT-3: 150 対(予算の都合により)■ OPT, LLaMA: 1,350 対○ 分類タスクのタイプ毎に3種類のプロンプト雛形を用意○ データセットとプロンプト全体の平均を報告実験設定10
● Gold (= タスク認識 + タスク学習)○ 全体的に一番良い● Random (= タスク認識)○ 性能はスケールに依らずほぼ横ばい● Abstract (= タスク学習)○ モデルサイズとデモ数に応じて増加○ 小さなモデル、少ないデモ数ではRandomより低いが、パラメータ数・デモ数が増えると逆転○ LLaMA-65B以外のOPT-66BとdavinciはGOLDに匹敵結果11※ Abstractについては数字ラベルの結果
● 数字、文字、記号ラベルごとの結果は主結果と同様● 数字と文字ラベルは一貫して記号ラベルより高かった○ 数字と文字は事前学習コーパス中により頻繁に出現するからかもしれないタスク学習についてラベルの違いによる傾向の差は見られない12
● 感情分析とNLIを比較● NLIのAbstract曲線がより平らなので、プロンプトと事前学習の質が重要タスク学習ではタスクが単純な方がサイズとデモ数にスケールする13
タスクのタイプ別の結果14感情分析 トピック / スタンス分類 毒性検出 NLI / 言い換え検出GPT-3LLaMAOPT
● ICLを2つの能力「タスク認識」と「タスク学習」に分解し、それぞれ異なる条件下で発現することを示した● 小さなモデルでもタスク認識の能力はあるが、スケールしない● タスク学習の能力は大きなモデルで現れる○ 小さなモデルではデモを増やしても性能が上がらない○ 大きなモデルはデモが増えると性能も向上● Limitations○ 「タスク認識」と「タスク学習」に分けたが、タスク学習がデモで示されたパターンを事前学習で学習した概念に代替しているとすれば、タスク認識の進化形と捉えることもできるかもしれないまとめ15