[Journal Club]ERNIE-ViL: Knowledge Enhanced Vision-Language Representations through Scene Graphics

ERNIE-ViL: Knowledge Enhanced Vision-Language Representations through Scene Graphics Fei Yu,
Jiji Tang, Weichong Yin, Yu Sun, Hao Tian, Hua Wu, Haifeng Wang Baidu Inc., Beijing, China, in AAAI 2021 慶應義塾大学杉浦孔明研究室飯岡雄偉

概要：ERNIE-ViL ◼ Scene GraphによってVision-Languageの構造的知識をつかむ  単語を「物体・属性・関係性」に分類  それぞれをマスクして予測 ⇒ 表現学習器の構築
 VQA・VCRタスクで共に高性能 ◼ VCR leaderboardでSOTA(2020)  https://visualcommonsense.com/ 2

背景：すべての単語を均一に見てしまう赤の単語が変化するだけで画像の意味合いが異なる ⇒「物体・属性・関係性」は落とさないようにしたい 3

関連研究：より詳細な情報を獲得しきれていない ViLBERT LXMERT model detail ViLBERT [Lu+ NIPS2019] ◦two-streamのtransformerを利用 △画像の詳細がうまくつかめない
LXMERT [Tan Bansal EMNLP2019] ◦画像内の物体を個別に認識 △属性や関係性をうまくつかめない 4

提案手法：ERNIE-ViL ⚫ Scene Graphによって構造的知識をつかむ ➢ 「物体」「属性」「関係性」をそれぞれ予測していく 5

構成：SentenceとImageのEmbedding ⚫ SentenceのEmbeddingはBERTと同様 ➢ [CLS] “Sugiura” “Komei” “Lab” “is” “much”
“interesting” “than” “expected” [SEP] ・・・ 6 ⚫ Imageはpretrain済みの物体検出モデルを使用 ➢ 画像内の物体についてそれぞれ [左上の座標; 右下の座標; Bounding Boxの面積] ➢ [IMG]𝑣_1, 𝑣_2, 𝑣_3,… ➢ 部分的にマスクすることでV&Lをマッチさせる

構成：① 文のScene Graph化準備 ➢ 単語を「物体・属性・関係性」別に分類 • Appendixに詳細 ➢ それぞれを以下のような形で格納 7
{“car”, “in front of”, “house”} {“dress”, “blue”}

構成：② Object Prediction ➢ 物体の単語の30%を選択 ⇒ 情報量を少し残す • 8割の確率で[MASK]に •
1割の確率でランダムな物体に • 1割の確率でそのままの単語に ➢ 類似度をlossとして利用そのオブジェクト以外の単語画像情報（positionの情報を持つ) 8

構成：③ Attribute Prediction ④ Relationships Prediction ➢ 単語やフレーズの30%を[MASK]に ➢ かかわってくるオブジェクトの情報も前提条件に含まれる
➢ それぞれの類似度をlossとして利用 9

実験設定：VQAとVCRの評価 ◆ Pre-trainingデータ：Conceptual Captions(CC), SBU Captions(SBU) ◆ ERNIE-ViLの最終層をFT ◆ Visual
Question Answering (VQA) ◆ Visual Commonsense Reasoning (VCR) 10

定量的結果：VQAで他手法を上回る ◆ test-dev • ここではvalidationのスコアを示す ◆ test-std • 標準的な質問
• ここではtestのスコアを示す ✓ BaseとLargeの違いはAppendix 11

定量的結果：VCRで他手法を上回る ◆ Q → A • VQAのように質問の回答があっているか ◆ QA
→ R • 質問と答えから理由を導けるか ◆ Q → AR • 質問から答えと理由を導けるか 12

まとめ ◼ Scene GraphによってVision-Languageの構造的知識をつかむ  単語を「物体・属性・関係性」に分類  それぞれをマスクして予測  VQA・VCRタスクで共に高性能
◼ VCR leaderboardでSOTA(2020)  https://visualcommonsense.com/ 13

Appendix：Scene Graph Parser ➢ Generating Semantically Precise Scene Graphs from
Textual Descriptions for Improved Image Retrieval [Sebastian+ ACL2015]で用いられたScene Graph Parser 1. Quantificational modifiers ⇒ “a lot of”の”lot”のような何かに依存する名詞をつなげる 2. Pronoun resolution ⇒ 代名詞が何を指しているのか 3. Plural nouns ⇒ 複数形はそれぞれに分割 4. Rule-Based Parser ⇒ ルールに従って属性と関係性を抽出 5. Classifier-Based Parser a. Object and Attribute Extraction ⇒ 他の単語でも属性を表現できているか e.g. “the person beside me” = “the person next to me” b. Relation Prediction ⇒ 物体同士の関係性を見ていく 14 https://aclanthology.org/W15-2812.pdf

Appendix：baseとlargeの違い ➢ メインはTextのStreamにおける深さの違い • VisualのStreamは次元合わせをしている ➢ 各要素の意味 • L：Layerの数、H：隠れ層のサイズ、A：Self-attention headの数、F：FFNのフィルターサイズ
15

Appendix：ERNIEの由来 ➢ セサミストリートのキャラクター名 • 機械学習系の論文で使われることが多い • BERT, ELMo… ➢ 無邪気で天真爛漫な、バートの大親友。
➢ ERNIEもBERTと関連性が高いのがセンスを感じる 16 https://www.sesamestreetjapan.org/characters.html

[Journal Club]ERNIE-ViL: Knowledge Enhanced Vis...

[Journal Club]ERNIE-ViL: Knowledge Enhanced Vision-Language Representations through Scene Graphics

Semantic Machine Intelligence Lab., Keio Univ.
PRO

More Decks by Semantic Machine Intelligence Lab., Keio Univ.

Other Decks in Technology

Featured

Transcript

ERNIE-ViL: Knowledge Enhanced Vision-Language Representations through Scene Graphics Fei Yu,

概要：ERNIE-ViL ◼ Scene GraphによってVision-Languageの構造的知識をつかむ  単語を「物体・属性・関係性」に分類  それぞれをマスクして予測 ⇒ 表現学習器の構築

背景：すべての単語を均一に見てしまう赤の単語が変化するだけで画像の意味合いが異なる ⇒「物体・属性・関係性」は落とさないようにしたい 3

関連研究：より詳細な情報を獲得しきれていない ViLBERT LXMERT model detail ViLBERT [Lu+ NIPS2019] ◦two-streamのtransformerを利用 △画像の詳細がうまくつかめない

提案手法：ERNIE-ViL ⚫ Scene Graphによって構造的知識をつかむ ➢ 「物体」「属性」「関係性」をそれぞれ予測していく 5

構成：SentenceとImageのEmbedding ⚫ SentenceのEmbeddingはBERTと同様 ➢ [CLS] “Sugiura” “Komei” “Lab” “is” “much”

構成：① 文のScene Graph化準備 ➢ 単語を「物体・属性・関係性」別に分類 • Appendixに詳細 ➢ それぞれを以下のような形で格納 7

構成：② Object Prediction ➢ 物体の単語の30%を選択 ⇒ 情報量を少し残す • 8割の確率で[MASK]に •

構成：③ Attribute Prediction ④ Relationships Prediction ➢ 単語やフレーズの30%を[MASK]に ➢ かかわってくるオブジェクトの情報も前提条件に含まれる

実験設定：VQAとVCRの評価 ◆ Pre-trainingデータ：Conceptual Captions(CC), SBU Captions(SBU) ◆ ERNIE-ViLの最終層をFT ◆ Visual

定量的結果：VQAで他手法を上回る ◆ test-dev • ここではvalidationのスコアを示す ◆ test-std • 標準的な質問

定量的結果：VCRで他手法を上回る ◆ Q → A • VQAのように質問の回答があっているか ◆ QA

まとめ ◼ Scene GraphによってVision-Languageの構造的知識をつかむ  単語を「物体・属性・関係性」に分類  それぞれをマスクして予測  VQA・VCRタスクで共に高性能

Appendix：Scene Graph Parser ➢ Generating Semantically Precise Scene Graphs from

Appendix：baseとlargeの違い ➢ メインはTextのStreamにおける深さの違い • VisualのStreamは次元合わせをしている ➢ 各要素の意味 • L：Layerの数、H：隠れ層のサイズ、A：Self-attention headの数、F：FFNのフィルターサイズ

Appendix：ERNIEの由来 ➢ セサミストリートのキャラクター名 • 機械学習系の論文で使われることが多い • BERT, ELMo… ➢ 無邪気で天真爛漫な、バートの大親友。