ImageBERT: Cross-modal Pre-training
with Large-scale Weak-supervised
Image-Text Data
20/02/14 PaperFriday, Yuki Iwazaki@AI Lab
Slide 2
Slide 2 text
2
Point:
画像とテキストを両方使うタスクのための強力な事前学習
Annotationコストの低い学習データの収集方法
Authors:
Di Qi, Lin Su, Jia Song, Edward Cui, Taroon Bharti,
Arun Sacheti
- Bing Multimedia Team, Microsoft
選定理由:
俺より強いマルチモーダル表現に会いに行く
3-1. Masked Language Modeling (MLM)
◂ 入力文のtokenの15%を以下3種に変換
◂ 80%...[MASK] にreplace
◂ An old man swimming... -> An old man [MASK]...
◂ 10%...randomなtokenにreplace
◂ An old man swimming... -> An old man old
◂ 10%...not replace
◂ my cat is cute -> my cat is cute
◂ 周辺のtokensから変換前のtokenを予測させて(穴埋め問題を解か
せて)image|textの相互作用と言語表現を獲得
55
Slide 53
Slide 53 text
3-2. Masked Object Classification (MOC)
◂ Object tokenの15%を以下2種に変換
◂ 90%...[MASK] にreplace
◂ face hand arm leg -> face hand arm [MASK]
◂ 10%...not replace
◂ face hand arm leg -> face hand arm leg
◂ 周辺のtokensからMASKされたObject labelを当てて画像コンテ
ンツの言語表現を獲得
56
Faster R-CNNの正解カテゴリ
[MASK]の周辺tokensから得られた
Transformerの出力ベクトル
Evaluation for the Pre-trained Model
61
Fine-tuningなし(Zero-shot)でPre-trainの性能を評価
MSCOCO...提案手法がSOTA
Flicker30k...UNITER>提案手法 -> UNITERはPre-trainedでFlickr & MSCOCOに近しいドメインのデータを使ってる
この事前学習の結果が Fine-tuningにぐいぐい効いてくる
Slide 59
Slide 59 text
Evaluation for the Fine-tuned Model
◂ x
62
Fine-tuningまで済ませれば提案手法が圧勝
-> 段階的な事前学習と LAITデータとcross-modal学習が有効