Upgrade to Pro — share decks privately, control downloads, hide ads and more …

(CVPR2024) Eyes Wide Shut? Exploring the Visua...

(CVPR2024) Eyes Wide Shut? Exploring the Visual Shortcomings of Multimodal LLMs

Avatar for Kazuya Nishimura

Kazuya Nishimura

April 23, 2025
Tweet

More Decks by Kazuya Nishimura

Other Decks in Research

Transcript

  1. 本日紹介する論文に関して 世は大 benchmark 時代 ✓LLM benchmark ✓ Multi-modal Benchmark 1

    MMMU ChartQA MMLU Livecode Bench Point1. Benchmarkってどんなことを考慮?
  2. 本日紹介する論文に関して Multi-modal では vision encoder + LLM の組み合わせ 2 CLIP

    など LLAVA CLIP など (LLM) BLIP2 Point 2. Vision の encoder の学習って終わった??
  3. 論文概要:Eyes Wide Shut? Exploring the Visual Shortcomings of Multimodal LLMs

    3 問い:Vision encoder は言語処理に十分? 簡単な問いでも MLLMs が間違える問題を集めたbenchmarkを作成 間違った返答 返答の補足
  4. Step1. Finding CLIP blind pairs CLIP と DINO v2 の違いを見る

    ◦ CLIP: テキストと画像で学習 ◦ DINO: 画像だけで学習 少し違う作法のモデルで違いがある → 画像に何らかの違いが生じるはず? (Sim DINO < 0.65) & (Sim CLIP > 0.95) のサンプルを集める 5 Sim. の違いを見るのは間違っているのを探すのに有効らしい [Tong+, Neurips 2024] 例:diffussion model で反映できない違いをCLIP text の encode で発見 違う意味の caption が similarity 高い → 問題あり
  5. Step2. Spotting the difference between two images 見つかった2枚の画像の違いに manual annotation

    MMVP-VQA Benchmark を作成 Multimodal Visual Patterns Visual Question Answering ◦ 150 pairs に 300 questions ◦ 見逃されてそうな視覚的違いに注目 6
  6. Step 3. Benchmarking MLLMs 7 両方に正解できるかを比較 SOTA の LLM を比較

    ◦ Open-source models ✓LLaVA-1.5 ✓InstructBLIP ✓Mini-GPT4 ◦ Closed source models ✓GPT-4V ✓Gemini ✓Bard
  7. 全体の傾向 9 人間には超簡単 Random に回答 Vision and language を 1

    から 学習してるはずだが性能は低い Benchmarking の結果 多くのVLM で random 以下…
  8. まとめ 目標:画像表現は言語処理に十分か?を検証 内容:画像表現の問題で推定が難しい MMVP benchmarkを提案 画像表現の問題であることと複数のencoder の組み合わせを提案 結論:課題あり.Vision だけ,VLの学習それぞれに良さがあり 欠点の改善はスケーリングだけでは対処が難しい?

    感想 & 議論: ✓ Benchmark を考える際 -> できないことを探す効率的な方法が重要 ✓ CLIP, DINO v2 だけが比較だが,アルゴリズム的な違いもみてみたい Contrastive だけ,MAE, video… アルゴリズムの優位性を主張するチャンスかも? ✓ 複数のモデルの統合は, mixture of expert 的な統合が良い気がする 18