• ⽐較対象の学習アルゴリズム
– k近傍法
– リッジ回帰の確率的勾配法(batch size=1, #step=#data)
– リッジ回帰の最急降下法(batch size=#data, #step=1)
– リッジ回帰の閉形式(厳密解)
• タスク
– ⼊⼒𝑥・真のパラメタ𝑤*
を4,8,16次元⽩⾊ノイズとする
– {𝑥%
, 𝑦%
= 𝑤*
+𝑥%
}と𝑥,
から𝑦,
を予測
• Transformer
– 𝐻(*)を⼊⼒し,𝑥,
に相当する列の0⾏⽬の値を予測値とする
– 16層512次元4ヘッド.⼊⼒での次元の違いはpaddingで対処
– Transformer⾃体を上記タスク・⼆乗誤差で50万step学習した
19
実験設定