Slide 1

Slide 1 text

Anna Bavaresco, Alberto Testoni, Raquel Fernández, ACL2024 Soichiro MRUAKAMI(AI Lab NLP) Don't Buy it! Reassessing the Ad Understanding Abilities of Contrastive Multimodal Models スライド中の画像・表の一部は著者の発表資料・論文より引用 1

Slide 2

Slide 2 text

概要 ● 課題:既存データの負例は他事例から無作為抽出のためショートカットで解ける ● 提案:敵対的な負例を新たに人手で作成し、既存モデルの性能調査 ● 結果:既存SOTAモデル(Contrastive VLM)の性能はChance level程度 ● 選定理由:創造的な制作物(広告、キャッチコピー、ユーモア 等)の理解や評価に興味がある 2

Slide 3

Slide 3 text

研究の動機・広告理解とは ● なぜ広告理解は面白い? ○ テキストや画像を融合した高度な情報伝達手段の1つの例 ○ 長く印象に残るよう様々なテクニック (変わった見た目 , 比喩表現 等)が駆使されている ○ 人工的に作られたものではなく(実験のためのデータでなく ?)、日常生活の中に自然に存在し ている ● 様々な能力を必要とする挑戦的なタスク ○ 物体検出、シーンテキスト検出 ○ 比喩表現理解、画像・テキストの融合 ● 広告理解の応用例 [Ji+, 2023] ○ ターゲティング ○ クリエイティブ自動生成 3

Slide 4

Slide 4 text

Ad Understanding @ NLP Community ● Bavaresco et al., “Don’t Buy It! Reassessing the Ad Understanding Abilities of Contrastive Multimodal Models.” ACL2024 ● Jia et al., “KAFA: Rethinking Image Ad Understanding with Knowledge-Augmented Feature Adaptation of Vision-Language Models.”, ACL2023 Industry Track ● Kalra et al., “Understanding Advertisements with BERT.”, ACL2020 ● Savchenko et al., “Ad Lingua: Text Classification Improves Symbolism Prediction in Image Advertisements.” COLING2020 4

Slide 5

Slide 5 text

広告理解をどのように評価するか ● The Pitt Ads Retrieval Task [Hussain et al., CVPR, 2017] ● “What should you do, according to this ad?” ○ positive: I should [Action] because [Reason] ○ negative: 他の事例からランダムサンプリング 5

Slide 6

Slide 6 text

先行研究: Contrastive VLMを用いた手法 [Jia+, ACL2023] ● Highest zero-shot accuracy: 95.2% ● 広告理解の問題は解決されたのか 6

Slide 7

Slide 7 text

既存評価データの問題点に対する指摘 ● 説明文と広告画像中のテキストに有意な重複がある [Kalra+, 2020] ○ Finetuned BERTで簡単にpos/negを見破ることができる ● 評価データにHard negativeが不足している [Jia+, 2023] ○ 今後の課題として評価データを拡張することを挙げた 7

Slide 8

Slide 8 text

既存評価データの定量分析:Grounding scores ● 既存評価データに潜むショートカットを明らかにするために2つの観点で分析 ○ 仮説:Pos事例に比べてNeg事例はテキスト的・視覚的な根拠が著しく乏しい ● Textual-grounding scores ○ Text overlap: 画像中テキストと説明文の内容語の重複度 ○ Text similarity: 画像中テキストと説明文のコサイン類似度 ● Visual-grounding scores ○ Object mention: 物体検出されたObject (名詞) が説明文に含まれる割合 ○ Caption similarity: 生成された画像キャプションと説明文のコサイン類似度 画像 w/ OCRテキスト 説明文( Explanation) I should buy a [brand name] because I will not need the wires. 8

Slide 9

Slide 9 text

既存評価データの定量分析:Grounding scores(結果) ● Pitt Ads datasetの評価セットに対して各スコアの平均を算出 ● 仮説(Neg事例はテキスト的・視覚的な根拠が著しく乏しい)通りの結果を確認 ● 既存手法は単純な画像-テキストアライメントでタスクを解いている? 9

Slide 10

Slide 10 text

既存評価データの定量分析:CLIPスコアとの相関 ● Grounding scoresとCLIPスコアの有意な相関関係を確認 Grounding scores Spearman 10

Slide 11

Slide 11 text

TRADE: TRuly adversarial AD-understanding Evaluation ● 敵対的なNegative事例を含む新たな評価セットを提案 ○ 既存モデル(VLM)が単純な画像-テキストアライメントを超えて 、どの程度広告画像を理解で きるか評価したい ● 特徴 ○ Pitts Ad datasetから300事例をランダムにピックアップ ○ In-house annotatorによりNegative事例を注意して作成 ● データ形式 ○ (広告画像, Pos説明文, Neg説明文1, Neg説明文2) 11

Slide 12

Slide 12 text

データセット構築方法 ● 4名のアノテータ ● 指示内容 ○ 画像中の物体やテキストへ言及しながら 尤もらしくない 説明をつくること ○ 文長はPositive事例と同じくらいにすること ○ [Action]の動詞はPositive事例と同じにすること 12

Slide 13

Slide 13 text

データセットの妥当性確認 ● データセットの妥当性を2つの方法で確認 ○ 前述のGrounding scoresの算出 ■ Pos/Neg事例のスコアのギャップは解消された ○ 人手評価: 94%の正解率 (2人の評価者による平均正解率) 13 Grounding Scores

Slide 14

Slide 14 text

TRADE-control ● 先行研究の実験設定を再現するために、 Negative事例として他の広告説明文 (Positive事例)からランダムサンプリングしたデータセット 14 データセット 負例の作成方法 TRADE 人手で敵対的負例を作成する TRADE-control 他事例の説明文(正例)からランダム抽出

Slide 15

Slide 15 text

実験 ● 比較モデル (Contrastive pretained VLMs w/ zeroshot setting) ○ CLIP, ALBEF, LiT, ALIGN ● 評価データ ○ TRADE, TRADE-control ● 評価方法 ○ 各モデルで画像-テキストのアライメントスコアを算出 ○ 各ペア(画像-{Pos1, Neg1, Neg2})のスコアのうち、最も高 いものをモデルが予測した Positive事例とする ● 評価指標 ○ 評価データにおける平均正解率 15 アライメントスコアの算出

Slide 16

Slide 16 text

結果 ● TRADE設定ではChance level程度 ○ 画像−テキストの類似度だけでは解けない → 既存モデルの問題点を指摘 ● control設定ではAccuracyが極めて高い ○ 単なる画像−テキストの類似度だけで解けている 16

Slide 17

Slide 17 text

予測結果の例 17

Slide 18

Slide 18 text

モデル予測が正解した事例の分析 ● Grounding scoresが比較的高い事例で予測が正解しているケースが多い 18

Slide 19

Slide 19 text

まとめ ● 課題:既存データの負例は他事例から無作為抽出のためショートカットで解ける ● 提案:敵対的な負例を新たに人手で作成し、既存モデルの性能調査 ● 結果:既存SOTAモデル(Contrastive VLM)の性能はChance level程度 ○ zero-shot性能の解釈には注意が必要。評価データがどう作られたか目を向けよう。 ● 今後の課題 ○ モデルが広告を”理解している”とはどのような能力が必要と定義すればよいか。また、それら を真に評価するにはどうすればよいか。 ○ 検索ベース手法の限界として、タスク特有の指示を与えることができないが挙げられる。生成 ベース手法の探求も面白い方向性の一つ。 19