論文読み会 / ImageBERT: Cross-modal Pre-training with Large-scale Weak-supervised Image-Text Data

Slide 1

Slide 1 text

ImageBERT: Cross-modal Pre-training with Large-scale Weak-supervised Image-Text Data 20/02/14 PaperFriday, Yuki Iwazaki@AI Lab

Slide 2

Slide 2 text

2 Point: 画像とテキストを両方使うタスクのための強力な事前学習 Annotationコストの低い学習データの収集方法 Authors: Di Qi, Lin Su, Jia Song, Edward Cui, Taroon Bharti, Arun Sacheti - Bing Multimedia Team, Microsoft 選定理由: 俺より強いマルチモーダル表現に会いに行く

Slide 3

Slide 3 text

Motivation 3

Slide 4

Slide 4 text

Vision-Language TaskがNLP界CV界共に人気 ◂ ホントか？CV系会議の方が豪華だから皆そっちに出したがると ACLのPCが嘆いていた ◂ Text-Image Retrieval ◂ Visual Question Answering ◂ Visual Commonsense Reasoning ◂ Image Captioning 4 言語と画像で各々事前学習しておいたモデル（ e.g. BERT & ResNet）をFusionして更に学習回しがち Fusion後の学習も高コスト（ task-specificなデータを用意しないといけないし annotationも大変）

Slide 5

Slide 5 text

Text-Image Retrieval 5

Slide 6

Slide 6 text

Visual Question Answering 6

Slide 7

Slide 7 text

Visual Commonsense Reasoning 7

Slide 8

Slide 8 text

Image Captioning 8

Slide 9

Slide 9 text

Cross-modal pre-trainingが活発 ◂ ImageNetやWikipediaを予習させておくことで大域的なドメイン知識が得られて強い ◂ モデリングの上流でBig dataでpre-train 下流でtask-speciﬁcなdataでﬁne-tuning 9 最新のcross-modal pre-trainingの課題を洗い出しながら Vision-Language Task用のSOTAな手法を提案

Slide 10

Slide 10 text

Related Works 10

Slide 11

Slide 11 text

Cross-modal界隈でもTransformerが流行 ◂ Transformerの発明以降、その性能から様々な応用が生まれる ◂ Model architecture ◂ BERT[10]...Transformerベースのつよ言語モデル ◂ 画像と文章それぞれ Transformer->出力をTransformerで融合 [14][15] ◂ 画像と文章を1入力にして Transformer [16...21] ◂ 色々出ているがタスク依存なのでモデル構造の優劣比較が難しい 11

Slide 12

Slide 12 text

Cross-modal界隈でもTransformerが流行 ◂ Image visual tokens ◂ 入力画像を事前学習した物体検出に通した結果を Tokenとして利用 ◂ 物体検出自体もモデルの学習機構に組み込む [19] ◂ TokenのSequenceが得られるので Transformerに直接入力できる ◂ Pre-train dataset ◂ 言語データならそこらへんに転がっているが Vision-Languageはそうはいかない ◂ Conceptual Captions[2]...3Mの画像w/説明文. image-textの事前学習によく使われる ◂ UNITERは4つのDataset([2][3][22][5])を混ぜた10Mのデータを学習, 関連タスクでSOTA ◂ LXMERTはVQA用のオリジナルデータを事前学習に使い , VQAタスクでSOTA ◂ 結局データの質と量が一番大事 12

Slide 13

Slide 13 text

Transformer 13

Slide 14

Slide 14 text

(Self) Attention ◂ 入力xとattention layerの内積を計算し類似度の高いAttWeightを取り出して加重平均をかけて扱うことで「出力yにおいて注目すべきxが判断できる機構」 ◂ 従来のLSTM機構と比べ長期記憶に優れる -> 長文にも強い ◂ 局所的な参照になるConvと比べtoken粒度で重みを全部参照できる 14

Slide 15

Slide 15 text

Transformer 16 ◂ Multi-Head Self-AttentionとFeed-forward Networkで構成される単方向Encoder-Decoderモデル ◂ RNNやCNNを使っていないのでtokenの順番(idx)も入力 ◂ 予測すべきtokenが学習時にリークしないように AttentionにMaskかける機構があったりいろいろ工夫

Slide 16

Slide 16 text

Transformerの効能 ◂ 長文入力にも耐えうる強力な言語表現を (従来と比べ)計算コスパ良く獲得でき様々なタスクに応用可能 18

Slide 17

Slide 17 text

BERT 19

Slide 18

Slide 18 text

BERT: Bidirectional Encoder Representations from Transformers ◂ TransformerのEncoder部分を双方向かつ多段に連結させたもの ◂ Transformerで未来の単語のリークを防ぐためにやっていた Mask機構をモデル内ではなく学習データにMASK(15%)をかけることで解決 ◂ その代わり収束に時間がかかるが性能は抜群 ◂ 3種類の入力表現を合計して使用 ◂ token埋め込み ◂ 文区別埋め込み ◂ token位置埋め込み 20

Slide 19

Slide 19 text

NLP系タスクの SOTAを総ナメ 22

Slide 20

Slide 20 text

Proposed Method 23

Slide 21

Slide 21 text

Contribution ◂ 汎用的なvision-language用のDataSetと収集方法を公開 ◂ Transformerベースのvision-languageモデルを提案 ◂ image-text retrieval taskでSOTA 24

Slide 22

Slide 22 text

Large-Scale Weak-supervised Image-Text Data Collection 25

Slide 23

Slide 23 text

Vision-Language Taskの課題 ◂ 大量で高品質な画像・テキストのペアデータが少ない ◂ Conceptual Captions[2] ◂ 3M Images w/ descriptions from Web Pages ◂ SBU Captions[3] ◂ 1M Images w/ user-associated captions ◂ 事前学習として知識表現を得るにはまだ不十分 ◂ モデルだけ超大になってきている ◂ 人手によるAnnotationは高品質ながら高コスト 26 そうだWeb Pageがあるじゃないか (Internet上に画像テキストペアデータが転がっている )

Slide 24

Slide 24 text

1. Web-page Collection 27

Slide 25

Slide 25 text

1. Web-page Collection 28 1-1. 億単位のWebpagesを無作為に Crawling

Slide 26

Slide 26 text

1. Web-page Collection 29 1-2. 指定言語以外の pagesを除去 by Language Classifier

Slide 27

Slide 27 text

1. Web-page Collection 30 1-3. 各PageのHTMLから支配的な画像だけを検出 by Dominant Detection

Slide 28

Slide 28 text

31 2. Image Content Based Filtering

Slide 29

Slide 29 text

32 2-1. 300×300px以下の画像を除去 2. Image Content Based Filtering

Slide 30

Slide 30 text

33 2-2. ポルノや際どい画像を除去 by Pornographic/Racy Classifier 2. Image Content Based Filtering

Slide 31

Slide 31 text

34 2-3. Non-realistic(e.g.二次元)な画像を除去 by Image Type Classifier 2. Image Content Based Filtering

Slide 32

Slide 32 text

35 Non-realisticな画像例

Slide 33

Slide 33 text

36 3. Sentence Detection & Cleaning

Slide 34

Slide 34 text

37 3. Sentence Detection & Cleaning 3-1. 画像タグ周囲の text, Alt text, OG-descriptionをSentenceとして検出

Slide 35

Slide 35 text

38 3. Sentence Detection & Cleaning 3-2. stopwordsの除去と文長をステミングし , 未知語率の高い文章を除去

Slide 36

Slide 36 text

39 4. Image-Text Semantic Scoring

Slide 37

Slide 37 text

40 4. Image-Text Semantic Scoring 4. 集めたペアの関連性を少量の dataで弱教師あり学習上記モデルを億単位の dataに適用し無関係なペアを除去

Slide 38

Slide 38 text

41 5. Image-Text Aggregation

Slide 39

Slide 39 text

42 5. Image-Text Aggregation 5. one image : many descriptionsの場合 best relevance scoreのみを採用同じdescriptionの画像が多すぎる場合それも除去

Slide 40

Slide 40 text

43 収集できたデータの例 (a.k.a. LAIT dataset)

Slide 41

Slide 41 text

ImageBERT Model 44

Slide 42

Slide 42 text

xxx ◂ 45

Slide 43

Slide 43 text

xxx ◂ 46 Image token Text token

Slide 44

Slide 44 text

xxx ◂ 47

Slide 45

Slide 45 text

xxx ◂ 48 task1 2&3 4

Slide 46

Slide 46 text

1-1. Embedding Modeling ◂ テキスト特徴 ◂ token(sub-word)に分割 ◂ BERTよろしくtoken・文区別・token位置埋め込みを token方向に合計 ◂ embeddingはpre-trained BERTで初期化 49

Slide 47

Slide 47 text

1-2. Embedding Modeling ◂ 画像特徴 ◂ Faster-RCNNによるRoI表現 ◂ Object DetectionしたBBoxとObject Label ◂ Objectの座標を5次元で表現 ◂ Object labelは後述する事前学習で使う 50

Slide 48

Slide 48 text

1-3. Embedding Modeling: 補足 ◂ 入力tokenの位置情報 ◂ 画像部分は既に座標情報があるのでdummy番号を入れておく ◂ 入力文の区別情報 ◂ 文章の区別の他、別modality(image|text)であることも表現 51

Slide 49

Slide 49 text

2. Multi-stage Pre-training ◂ ソース(≒分布)の違う複数のdatasetを上手く事前学習する仕組みを提案 52

Slide 50

Slide 50 text

2. Multi-stage Pre-training ◂ Stage 1 ◂ 4 pre-training tasks using LAIT dataset ◂ Stage k+2 ◂ 4 pre-training tasks using Public datasets ◂ Stage k+3 ◂ 1 task using target Task Dataset ◂ TaskをImage-Text Matching のみに 53 dataset size Large Small 10M- 1M- 100K-

Slide 51

Slide 51 text

3. Pre-training tasks ◂ text|imageとその相互作用をモデリングする4 tasks ◂ 1. Masked Language Modeling (MLM) ◂ 2. Masked Object Classiﬁcation (MOC) ◂ 3. Masked Region Feature Regression (MRFR) ◂ 4. Image-Text Matching (ITM) 54

Slide 52

Slide 52 text

3-1. Masked Language Modeling (MLM) ◂ 入力文のtokenの15%を以下3種に変換 ◂ 80%...[MASK] にreplace ◂ An old man swimming... -> An old man [MASK]... ◂ 10%...randomなtokenにreplace ◂ An old man swimming... -> An old man old ◂ 10%...not replace ◂ my cat is cute -> my cat is cute ◂ 周辺のtokensから変換前のtokenを予測させて（穴埋め問題を解かせて）image|textの相互作用と言語表現を獲得 55

Slide 53

Slide 53 text

3-2. Masked Object Classiﬁcation (MOC) ◂ Object tokenの15%を以下2種に変換 ◂ 90%...[MASK] にreplace ◂ face hand arm leg -> face hand arm [MASK] ◂ 10%...not replace ◂ face hand arm leg -> face hand arm leg ◂ 周辺のtokensからMASKされたObject labelを当てて画像コンテンツの言語表現を獲得 56 Faster R-CNNの正解カテゴリ [MASK]の周辺tokensから得られた Transformerの出力ベクトル

Slide 54

Slide 54 text

3-3. Masked Region Feature Regression (MRFR) ◂ 周辺のtokensからMASKされたBBoxを当てる ◂ Object labelを当てるMOCよりpeakyな画像と言語のjoint表現を獲得 57 画像のRoI特徴 MaskされたObjectの分散表現

Slide 55

Slide 55 text

3-4. Image-Text Matching (ITM) 58 ◂ 画像とテキストの関連度を2値分類 ◂ negative training dataを作成 ◂ 各画像から誤り説明文をrandom sampling ◂ 各説明文から誤り画像をrandom sampling ◂ 入力image|textが関連したペアであるかを判断する能力を獲得

Slide 56

Slide 56 text

4. Fine-tuning tasks ◂ 仕上げにMASKなしでMSCOCO, Flickr30kでImage-Text Retrieval Taskを解く ◂ image-to-text / text-to-image ◂ 3つの損失関数を試して最高性能のモデルを既存手法と比較 ◂ Multi-class Classiﬁcation Loss. ◂ 入力に対しその正解ペアの分類確率を正しく予測 ◂ Triplet Loss. ◂ 入力に対しpositive/negativeのペアを距離学習 ◂ Binary Classiﬁcation Loss. ◂ negative sampleをnegativeと正しく予測 59

Slide 57

Slide 57 text

Experiments 60

Slide 58

Slide 58 text

Evaluation for the Pre-trained Model 61 Fine-tuningなし(Zero-shot)でPre-trainの性能を評価 MSCOCO...提案手法がSOTA Flicker30k...UNITER>提案手法 -> UNITERはPre-trainedでFlickr & MSCOCOに近しいドメインのデータを使ってるこの事前学習の結果が Fine-tuningにぐいぐい効いてくる

Slide 59

Slide 59 text

Evaluation for the Fine-tuned Model ◂ x 62 Fine-tuningまで済ませれば提案手法が圧勝 -> 段階的な事前学習と LAITデータとcross-modal学習が有効

Slide 60

Slide 60 text

◂ DataSetの組み合わせで見るzeroshot表現学習の性能 Ablation Studies 63 単純に混ぜてはダメで、段階的な事前学習が非常に効果的

Slide 61

Slide 61 text

Ablation Studies 64 1. Global image feature はあまり効かない

Slide 62

Slide 62 text

Ablation Studies 65 2. Masked Region Feature Regressionはzero-shotに貢献

Slide 63

Slide 63 text

Ablation Studies 66 3. 画像のRoI領域特徴(BBox token)は多いほど良い

Slide 64

Slide 64 text

Ablation Studies 67 4. image-text retrievalのfine-tuningにはbinary cross entropyが良い

Slide 65

Slide 65 text

Conclusion 68

Slide 66

Slide 66 text

Conclusion and Future Work ◂ 汎用的なvision-language用Dataの収集方法を公開 ◂ Transformerベースのvision-languageモデルを提案 ◂ MSCOCO, Flickr30kのimage/text retrieval taskでSOTA ◂ VQA, VCR, Image Captioningへの適用が今後の課題 ◂ https://arxiv.org/abs/1909.11059 69

Slide 67

Slide 67 text

Comment ◂ 画像から必要十分な特徴だけNLPのモデルに乗せる心意気 ◂ データ収集の過程で推論モデルが複数あるのでそこの質の担保が難しそう ◂ 質より量を集めてお願いBERTで上手くいくモデルの強さ ◂ 広告画像/テキストでも同じ課題がある ◂ クリエイティブ特徴表現があれば学習コスト削減 ◂ この枠組みでWeb広告をCrawlingして広告用に事前学習した Vision-Languageモデルを作ってEncoderをLabから提供するとか... 70

Slide 68

Slide 68 text

References https://jalammar.github.io/illustrated-bert/ https://arxiv.org/abs/1908.06066 https://arxiv.org/abs/1909.11059 https://www.slideshare.net/DeepLearningJP2016/dlbert-pretraining-of-deep-bidirectional-transformers-for-language-u nderstanding https://www.quora.com/Computer-Vision-What-is-the-difference-between-ROI-and-saliency https://www.ogis-ri.co.jp/otc/hiroba/technical/similar-document-search/part3.html http://deeplearning.hatenablog.com/entry/transformer 71

Slide 69

Slide 69 text

72 Thanks! Any questions? You can ﬁnd me at ◂ @chck ◂ #times_chck ◂ [email protected]