Upgrade to Pro — share decks privately, control downloads, hide ads and more …

論文紹介:What Learning Algorithm is In-Context Learning? Investigation with Linear Models

論文紹介:What Learning Algorithm is In-Context Learning? Investigation with Linear Models

第14回最先端NLP勉強会の論文( https://openreview.net/forum?id=0g0X4H8yN4I )紹介スライドです.

Kosuke Nishida

August 21, 2023
Tweet

More Decks by Kosuke Nishida

Other Decks in Research

Transcript

  1. What Learning Algorithm is In-Context Learning? Investigation with Linear Models

    紹介者︓ NTT⼈間研/東京⼤学 ⻄⽥光甫 Ekin Akyurek, Dale Schuurmans, Jacob Andreas, Tengyu Ma, Denny Zhou ICLR2023
  2. • In-Context Learningはパラメータを更新せずに新しい関数を 学習することができる – 既存研究はどんな関数を学習できるかに焦点 – どのように関数を学習しているのかを知りたい • 理論的貢献︓

    – 線形回帰モデルの学習アルゴリズムをTransformerが再現できる ことを⽰した • 実験的貢献︓ – Transformerが学習した関数が線形回帰モデルに近いことを⽰した 2 本研究の概要と貢献
  3. 3 この論⽂の主張のイメージ In-context Examples 𝑋, 𝑦 Test Example Transformer Decoder

    𝑦! = 𝑤∗#𝑥! Transformerに 教師・評価データの 系列を与えると 理論&実験的に︓ 最適な線形回帰モデル による予測値を出⼒︕
  4. • ⼊⼒𝑥,パラメタ𝑤を𝑑次元ベクトルとし,出⼒𝑦を 𝑦 = 𝑤!𝑥とモデリング • 𝑥" , 𝑦" "#$,…,'()

    から以下の損失で学習し,パラメタの 推定値' 𝑤 = 𝑤∗を得る 5 線形回帰モデルの定義 解の閉形式が存在 リッジ回帰. 𝜆 = 0で最⼩⼆乗法(OLS) ⼆乗誤差
  5. • 補題1: ⼊⼒𝐻に対して以下の変換を実現する1層 Transformer Decoderが存在する – mov: ⾏列𝐻のある部分を別の箇所に移す – mul:

    ⾏列𝐻のある部分とある部分の積を別の箇所に出⼒ – div: ⾏列𝐻のある部分をある要素で割る – aff: ⾏列𝐻のある部分を,ある𝑊, 𝑏によってaffine変換して 別の箇所に出⼒ ※詳細は省略.変換のイメージのみ記載 ※Transformerのパラメタ𝜃は𝑊, 𝑏に依存 6 Transformerは以下の演算が可能 𝐻 movの例 Transformer Layer 𝑖: 𝑗⾏𝑡列を 𝑖!: 𝑗!⾏𝑠列で上書き
  6. 7 これから⽰すこと In-context Examples 𝑋, 𝑦 Test Example Transformer Decoder

    𝑦! = 𝑤∗#𝑥! Transformerに 教師・評価データの 系列を与えると 最適な線形回帰モデル による 予測値を得られる︕ Transformer内部で mov, mul, div, aff演算を 適切に繰り返すことで
  7. • 層数𝑂(1),次元数𝑂(𝑑)のあるTransformerに • H($)を⼊⼒すると • 最終状態H(-)の𝑥' に相当する列は𝑤./𝑥' を要素に持つ • つまり,確率的勾配法の学習の1stepを再現

    10 勾配法の1 step=Transformer変換 定理1︓確率的勾配法の学習の1stepを 計算するTransformerが存在する In-context Example 1つ Test Example
  8. • 解の閉形式は逆⾏列の変換を含むため,計算したくない • データ数が1ならSherman-Morrison公式で回避できる • 𝑋!𝑋 = ∑ 𝑥" 𝑥"

    !より,反復することで 𝑋!𝑋 + 𝜆𝐼 () が得られる 𝐴 = 𝜆𝐼, 𝐴"# = # $ 𝐼 𝑢 = 𝑣 = 𝑥% 12 線形回帰モデルを閉形式で解く場合 𝑑×𝑑の逆⾏列 𝐴 = 𝜆𝐼 + 9 %&' 𝑥% 𝑥% ( 𝑢 = 𝑣 = 𝑥')#
  9. • 層数𝑂(1),次元数𝑂(𝑑!)のあるTransformerに • H(#)を⼊⼒すると • 最終状態H(%)の𝑥& に相当する列は𝑤'(𝑥& を要素に持つ • つまり,1データについての閉形式を再現

    13 1データについての閉形式=Transformer変換 定理2︓Sherman-Morrison公式による 1データについての閉形式を計算する Transformerが存在する
  10. • 類似の既存研究はあるが,浅い層数で実現可能なことを⽰した ことが経験的結果の説明として重要 • 定理は1step・1データに関する計算を⽰しているが, 層を重ねることで複数step・データに拡張可能 – 𝑛データから学習するときは定理1・2ともに層数𝑂(𝑛) • メタ学習からの解釈

    – Inner-LoopをTransformerが内包していると考えられる – Transformerの事前学習がOuter-Loopに相当 • 線形回帰モデルの学習を再現できるって嬉しいの︖(私⾒) – ⽂埋め込みモデルを固定して,線形変換層だけを下流タスクで学習 することはNLPでよく⾏われる – Transformerの下側で⽂埋め込みの獲得,上側で「⽂埋め込みに基づく 線形回帰モデルの学習」をしているとも解釈できる – ここまで解釈を進めるとNLP的にも嬉しい(気がする) 14 議論・補⾜
  11. • 学習アルゴリズム𝒜によって得られた関数𝑓の予測の近さを 評価 17 指標1: Squared prediction difference In-Context exampleとtest

    exampleに関する 期待値 予測値の差の2乗 𝑓はアルゴリズム𝒜で In-Context Example 𝐷から 学習した関数
  12. • 学習アルゴリズム𝒜が学習したモデルを近似する線形モデル のパラメタ𝑤の近さを評価 ※ 𝒜が学習するモデルは線形変換に限らない 18 指標2: Implicit linear weight

    difference In-Context exampleとtest exampleに関する 期待値 パラメタの差の ノルム 学習モデルを 最も再現する線形モデル 𝒜が学習したモデル による予測値
  13. • ⽐較対象の学習アルゴリズム – k近傍法 – リッジ回帰の確率的勾配法(batch size=1, #step=#data) – リッジ回帰の最急降下法(batch

    size=#data, #step=1) – リッジ回帰の閉形式(厳密解) • タスク – ⼊⼒𝑥・真のパラメタ𝑤* を4,8,16次元⽩⾊ノイズとする – {𝑥% , 𝑦% = 𝑤* +𝑥% }と𝑥, から𝑦, を予測 • Transformer – 𝐻(*)を⼊⼒し,𝑥, に相当する列の0⾏⽬の値を予測値とする – 16層512次元4ヘッド.⼊⼒での次元の違いはpaddingで対処 – Transformer⾃体を上記タスク・⼆乗誤差で50万step学習した 19 実験設定
  14. • 実験では,TransformerがIn-Context Learningに関する 学習を⾏った 20 TransformerのIn-Context Learning学習 データ分布に関する 期待値 再現したい関数𝑓

    = 𝑤* に関する期待値 Transformerに i-1個の⼊出⼒・ 1個の⼊⼒を 与えて数値を得る 正解𝑦% = 𝑤* +𝑥%
  15. • Squared prediction difference(予測の近さ)で測ったとき, 最⼩⼆乗解(𝜆 = 0のときの閉形式)との距離が⼩さい – 8次元の問題なので,事例が8未満のときは不定解 –

    閉形式はありうる解のうちノルムが最も⼩さい解を選ぶ – Transformerが閉形式と近いということは,Transformerもノルムが ⼩さい解を選んでいる • パラメタが⽩⾊ノイズなので,0(パラメタ事前分布平均)に近い解を 選んでいることをベイズの観点から語れるのでは︖ 21 Transformer変換は最⼩⼆乗解を再現する
  16. • データのノイズの分散を𝜎0,パラメタ𝑤の事前分布の分散を 𝜏0としたとき,ベイズ解は𝜆 = 𝜎0/𝜏0としたリッジ解 • ノイズのあるデータで実験すると, Transformer出⼒は𝜆 = 𝜎0/𝜏0としたリッジ回帰との間でSPDが⼩さい

    – Transformer変換はベイズリスク最⼩化と学習アルゴリズムとして 近い – ノイズがないときは𝜎/ = 0で最⼩⼆乗解に相当 23 Transformer変換はベイズリスクの⼩さい解を再現する
  17. • 理論的貢献︓ Transformer変換は線形回帰の学習アルゴリズムを再現できる • 実験的貢献︓ – In-Context LearningしたTransformerはベイズリスク最⼩な 線形回帰モデルの予測値と近い予測を出⼒ •

    私⾒︓ – 線形性を仮定しない学習をしたTransformerがベイズリスク最⼩な 線形回帰モデルと近いモデルを得るのは⾯⽩い – ⽐較⼿法の中で⼀番いいモデルがリッジ回帰の厳密解だった可能性も – 次単語予測で学習したTransformerが線形回帰の学習を再現するかは 不明 – 「なんでパラメタも更新しないでタスクに適応できるの︖」の 疑問への⼀つの答え 25 本研究のまとめ