Upgrade to Pro — share decks privately, control downloads, hide ads and more …

[Journal Club]ERNIE-ViL: Knowledge Enhanced Vision-Language Representations through Scene Graphics

[Journal Club]ERNIE-ViL: Knowledge Enhanced Vision-Language Representations through Scene Graphics

More Decks by Semantic Machine Intelligence Lab., Keio Univ.

Other Decks in Technology

Transcript

  1. ERNIE-ViL: Knowledge Enhanced Vision-Language Representations through Scene Graphics Fei Yu,

    Jiji Tang, Weichong Yin, Yu Sun, Hao Tian, Hua Wu, Haifeng Wang Baidu Inc., Beijing, China, in AAAI 2021 慶應義塾大学 杉浦孔明研究室 飯岡雄偉
  2. 構成:SentenceとImageのEmbedding ⚫ SentenceのEmbeddingはBERTと同様 ➢ [CLS] “Sugiura” “Komei” “Lab” “is” “much”

    “interesting” “than” “expected” [SEP] ・・・ 6 ⚫ Imageはpretrain済みの物体検出モデルを使用 ➢ 画像内の物体についてそれぞれ [左上の座標; 右下の座標; Bounding Boxの面積] ➢ [IMG]𝑣_1, 𝑣_2, 𝑣_3,… ➢ 部分的にマスクすることでV&Lをマッチさせる
  3. 構成:② Object Prediction ➢ 物体の単語の30%を選択 ⇒ 情報量を少し残す • 8割の確率で[MASK]に •

    1割の確率でランダムな物体に • 1割の確率でそのままの単語に ➢ 類似度をlossとして利用 そのオブジェクト以外の単語 画像情報(positionの情報を持つ) 8
  4. 定量的結果:VCRで他手法を上回る ◆ Q → A • VQAのように質問の回答があっ ているか ◆ QA

    → R • 質問と答えから理由を導けるか ◆ Q → AR • 質問から答えと理由を導けるか 12
  5. Appendix:Scene Graph Parser ➢ Generating Semantically Precise Scene Graphs from

    Textual Descriptions for Improved Image Retrieval [Sebastian+ ACL2015]で用いられたScene Graph Parser 1. Quantificational modifiers ⇒ “a lot of”の”lot”のような何かに依存する名詞をつなげる 2. Pronoun resolution ⇒ 代名詞が何を指しているのか 3. Plural nouns ⇒ 複数形はそれぞれに分割 4. Rule-Based Parser ⇒ ルールに従って属性と関係性を抽出 5. Classifier-Based Parser a. Object and Attribute Extraction ⇒ 他の単語でも属性を表現できているか e.g. “the person beside me” = “the person next to me” b. Relation Prediction ⇒ 物体同士の関係性を見ていく 14 https://aclanthology.org/W15-2812.pdf