Slide 24
Slide 24 text
24
Confidential © TDAI Lab All right reserved.
トレンド2. マルチモーダル
巨⼤⾔語モデルで⾏われていた⾃⼰教師あり学習をマルチモーダルなデータについて⾏う研究が増加
● OpenAIによるCLIP[Radford et al., 2021]などの登場により、テキストと画像の類似度が測れ
るだけでなく、画像からテキストの⽣成によるZero-shot Learningも可能に
● MetaによるData2vec [Baevski et al. 2022]は⾔語・⾳声・画像を同じ枠組みで学習させられ
る⾃⼰教師あり学習⼿法
CLIP: Connecting Text and Images [Radford et al.,
2021]
Data2vec: The first high-performance self-supervised
algorithm that works for speech, vision, and text (Baevski et