Upgrade to Pro — share decks privately, control downloads, hide ads and more …

【論文紹介】Don’t Buy it! Reassessing the Ad Understa...

【論文紹介】Don’t Buy it! Reassessing the Ad Understanding Abilities of Contrastive Multimodal Models

社内の論文読み会で使用した資料です。

元論文はこちらです。
https://aclanthology.org/2024.acl-short.77/
Anna Bavaresco, Alberto Testoni, and Raquel Fernández. 2024. Don’t Buy it! Reassessing the Ad Understanding Abilities of Contrastive Multimodal Models. In Proceedings of the 62nd Annual Meeting of the Association for Computational Linguistics (Volume 2: Short Papers), pages 870–879, Bangkok, Thailand. Association for Computational Linguistics.

Soichiro Murakami

December 09, 2024
Tweet

More Decks by Soichiro Murakami

Other Decks in Research

Transcript

  1. Anna Bavaresco, Alberto Testoni, Raquel Fernández, ACL2024 Soichiro MRUAKAMI(AI Lab

    NLP) Don't Buy it! Reassessing the Ad Understanding Abilities of Contrastive Multimodal Models スライド中の画像・表の一部は著者の発表資料・論文より引用 1
  2. 研究の動機・広告理解とは • なぜ広告理解は面白い? ◦ テキストや画像を融合した高度な情報伝達手段の1つの例 ◦ 長く印象に残るよう様々なテクニック (変わった見た目 , 比喩表現

    等)が駆使されている ◦ 人工的に作られたものではなく(実験のためのデータでなく ?)、日常生活の中に自然に存在し ている • 様々な能力を必要とする挑戦的なタスク ◦ 物体検出、シーンテキスト検出 ◦ 比喩表現理解、画像・テキストの融合 • 広告理解の応用例 [Ji+, 2023] ◦ ターゲティング ◦ クリエイティブ自動生成 3
  3. Ad Understanding @ NLP Community • Bavaresco et al., “Don’t

    Buy It! Reassessing the Ad Understanding Abilities of Contrastive Multimodal Models.” ACL2024 • Jia et al., “KAFA: Rethinking Image Ad Understanding with Knowledge-Augmented Feature Adaptation of Vision-Language Models.”, ACL2023 Industry Track • Kalra et al., “Understanding Advertisements with BERT.”, ACL2020 • Savchenko et al., “Ad Lingua: Text Classification Improves Symbolism Prediction in Image Advertisements.” COLING2020 4
  4. 広告理解をどのように評価するか • The Pitt Ads Retrieval Task [Hussain et al.,

    CVPR, 2017] • “What should you do, according to this ad?” ◦ positive: I should [Action] because [Reason] ◦ negative: 他の事例からランダムサンプリング 5
  5. 既存評価データの定量分析:Grounding scores • 既存評価データに潜むショートカットを明らかにするために2つの観点で分析 ◦ 仮説:Pos事例に比べてNeg事例はテキスト的・視覚的な根拠が著しく乏しい • Textual-grounding scores ◦

    Text overlap: 画像中テキストと説明文の内容語の重複度 ◦ Text similarity: 画像中テキストと説明文のコサイン類似度 • Visual-grounding scores ◦ Object mention: 物体検出されたObject (名詞) が説明文に含まれる割合 ◦ Caption similarity: 生成された画像キャプションと説明文のコサイン類似度 画像 w/ OCRテキスト 説明文( Explanation) I should buy a [brand name] because I will not need the wires. 8
  6. TRADE: TRuly adversarial AD-understanding Evaluation • 敵対的なNegative事例を含む新たな評価セットを提案 ◦ 既存モデル(VLM)が単純な画像-テキストアライメントを超えて 、どの程度広告画像を理解で

    きるか評価したい • 特徴 ◦ Pitts Ad datasetから300事例をランダムにピックアップ ◦ In-house annotatorによりNegative事例を注意して作成 • データ形式 ◦ (広告画像, Pos説明文, Neg説明文1, Neg説明文2) 11
  7. データセット構築方法 • 4名のアノテータ • 指示内容 ◦ 画像中の物体やテキストへ言及しながら 尤もらしくない 説明をつくること ◦

    文長はPositive事例と同じくらいにすること ◦ [Action]の動詞はPositive事例と同じにすること 12
  8. 実験 • 比較モデル (Contrastive pretained VLMs w/ zeroshot setting) ◦

    CLIP, ALBEF, LiT, ALIGN • 評価データ ◦ TRADE, TRADE-control • 評価方法 ◦ 各モデルで画像-テキストのアライメントスコアを算出 ◦ 各ペア(画像-{Pos1, Neg1, Neg2})のスコアのうち、最も高 いものをモデルが予測した Positive事例とする • 評価指標 ◦ 評価データにおける平均正解率 15 アライメントスコアの算出
  9. まとめ • 課題:既存データの負例は他事例から無作為抽出のためショートカットで解ける • 提案:敵対的な負例を新たに人手で作成し、既存モデルの性能調査 • 結果:既存SOTAモデル(Contrastive VLM)の性能はChance level程度 ◦

    zero-shot性能の解釈には注意が必要。評価データがどう作られたか目を向けよう。 • 今後の課題 ◦ モデルが広告を”理解している”とはどのような能力が必要と定義すればよいか。また、それら を真に評価するにはどうすればよいか。 ◦ 検索ベース手法の限界として、タスク特有の指示を与えることができないが挙げられる。生成 ベース手法の探求も面白い方向性の一つ。 19