Alexander Kolesnikov, Lucas Beyer⋆ Google DeepMind 慶應義塾大学 杉浦孔明研究室 小槻誠太郎 X. Zhai, B. Mustafa, A. Kolesnikov, and L. Beyer, “Sigmoid Loss for Language Image Pre-Training,” in ICCV, 2023, pp. 11975–11986. ICCV’23 Oral
[embedding dimension of the text model] 2つの行列を用意して一度低次元空間に写像してから戻すことで 必要なパラメータ数を削減😄 23 Bottlenecked token embedding F2 : RK à RW F1 : RN à RK Vocab size: N Embedding dim.: W