学習をねらっている 42 BERT [Devlin+, NACCL-HLTʼ19] BERT I am a [MASK] cat [SEP] I donʼt have [MASK] yet [SEP] [CLS] 次⽂予測 Yes/No Masked language modeling smart name
ℝ ; ×/に⼊⼒し,予測 I 𝑦 = softmax 𝑊NOP' 𝐻 QRST 43 BERTにおける事前学習:Masked Language Modeling BERT I am a [MASK] cat [SEP] I donʼt have [MASK] yet [SEP] [CLS] Masked language modeling smart name
ℝ,×/に⼊⼒することで⾏う L 𝑦 = sigmoid 𝑊=>?𝐻=>? 45 BERTにおける事前学習:次⽂予測(Image-text matching) BERT I am a [MASK] cat [SEP] I donʼt have [MASK] yet [SEP] [CLS] 次⽂予測 Yes/No
※ Web上の画像とAlt-textをフィルタリングしたものを利⽤ (e.g. [Sharma+, ACLʼ18]) CNN Where is the child sitting? fridge Transformer encoder Where is the child sitting? fridge …
(ITM) • また,⼊⼒された画像・テキストが正しいペアかどうかを判定 マスクされた単語を視覚情報を頼りに復元可能=視覚・⾔語間の特徴がうまく繋がっている 82 画像・テキストペアによる事前学習 Transformer encoder Yes/No … [CLS] The [MASK] sitting on the fridge ITM loss child MLM loss
Schwenk+, arXiv2022] Q. What does the man who sits have trouble doing? A. Walking Q. What could block the washerʼs door? ⾞椅⼦を利⽤している⼈は歩くことが困難であるという知識が必要 画像情報からのより深い推論が必要 A. Stove
Schwenk+, arXiv2022] Q. How many people will dine at this table? コップやメインディッシュの数が1つであるため,⾷事をしているのは 1⼈だろうという推論 Q. What makes those chairs easy to carry? ⽇常⽣活から知り得る世の中の知識が必要 A. One A. Foldable
Schwenk+, arXiv2022] Q. What sort of vehicle uses this item? 消防⾞がこれを使うという外部知識(常識?) Q. When was the soft drink company shown first created? ペプシの設⽴年を問う外部知識 A. Firetruck A. 1898