Upgrade to Pro — share decks privately, control downloads, hide ads and more …

[MIRU2025]Preference Optimization for Multimoda...

[MIRU2025]Preference Optimization for Multimodal Large Language Models for Image Captioning Tasks

More Decks by Semantic Machine Intelligence Lab., Keio Univ.

Other Decks in Technology

Transcript

  1. Motivation: Fully open MLLMの性能向上をさせたい 2 ◼ open MLLM vs プロプライエタリ

    MLLMの性能差は急速に縮まる ◼ CVPR24 → CVPR25でLLM/MLLMに関する研究は約2倍に(33→72) ◼ 本研究: 画像キャプション性能向上のためのPreference Optimization MMMU [Yue+, CVPR24] ☺ 約1年前と比べて 性能差は約1/3に MLLMの主な学習ステップ Pretraining Instruction Tuning RLHF/ Preference Optimization
  2. 3 ◼ PO: ペアサンプルからより望ましい出力を学習 ◼ 数十万サンプル規模のPreference Dataが必要 [Ethayarajh+, ICML24] 

    既存データセットは画像とキャプションの規模に欠ける 問題設定: Fully open MLLMの画像キャプション生成性能 向上のためのPreference Optimization (PO) データセット 概要 FOIL [Shekhar+, ACL17] 10万画像/約60万キャプション  単語置換により生成 Polaris [Wada+, CVPR24] 世界最大の画像キャプション 評価データ  1万画像のみ “Two giraffes and a bird are in a fenced area.” “Two giraffes and an ostrich are standing in a zoo.”
  3. 手法 (1/2): 多様なキャプションを生成するフレームワーク 4 ◼ 既存の約3倍のキャプションと1.6倍の画像を含むPreference Data ◼ 短文&長文を含む16万画像/170万キャプション ◼

    画像 : COCO [Chen+, 15], Flickr30k [Plummer+, ICCV15] , Open images [Kuznetsova+, IJCV20] ◼ キャプション : 9つのMLLM (GPT-4o, Qwen-VL, ShareGPT4V…)
  4. 手法 (2/2): Polosに基づくpreference optimization 5 ◼ 人間の選好を反映したPreference Optimization ◼ 

    MLLM based → 推論速度約1/100倍, 自己選好の傾向 ◼ ☺ Polos [Wada+, CVPR24 highlight]に基づく損失関数 MLLM-as-a-judgeは自身の キャプションを選好 [小山+, MIRU25] ハイパーパラメタ ロジスティックシグモイド 価値関数 / 選択にPolosスコアを利 用 画像 キャプション 報酬関数 参照点
  5. 実験設定:約12万ペア含むPolos FB datasetを構築 6 ◼ Pangea-7B [Yue+, ICLR25] をPolos FB

    datasetで追加学習 (train:val=110,000 : 6,000) ◼ ベンチマーク ◼ nocaps [Agrawal+, ICCV19] , Flickr30k, Localized Narratives [Pont+, ECCV20] 画像数 116,000 キャプション数 320,000 語彙サイズ 30,000 LLaVA-NeXT [Liu+, 24] LLaVA-NeXTを39言語で追加学習 Polos FB dataset
  6. 7 定量的結果: fully open/closedの多くのMLLMを上回る 手法 nocaps Localized Narratives P↑ B@4↑

    C↑ P↑ B@4↑ C↑ closed GPT-4o [24] 68.23 17.55 55.05 63.50 2.64 1.94 Phi-3.5 [24] 71.14 38.95 99.18 64.10 3.39 5.32 InstructBLIP [NeurIPS23] 72.11 32.45 86.07 62.15 3.65 4.95 ShareGPT4V [ECCV24] 71.34 39.69 103.06 61.24 2.36 1.59 Qwen-VL [ICLR24] 71.48 30.42 81.42 49.53 0.79 4.38 fully open LLaVA-1.5 [NeurIPS23] 70.94 40.35 105.70 58.73 3.85 4.58 Pangea-7B [ICLR25] 72.47 46.48 117.16 59.67 2.22 0.30 提案手法 74.36 42.99 121.10 64.50 5.23 11.15 +1.89 ※ P: Polos, B@4: BLEU4, C: CIDEr +6.57 ☺ 短文のみでなく長文キャプションにおいても上回る結果
  7. 定性的結果(短文): 提案手法は適切にキャプションを生成 8 ”A man wearing a helmet and playing

    a keyboard.” Pangea: (Polos: 69.3) “A man in a green shirt and a Star Wars helmet playing an accordion.” 提案手法: (Polos: 83.2)  キーボードよりアコーディオン の方が適切
  8. 定性的結果(長文): 画像内の物体を適切に理解 9 ”This is a color photograph depicting an

    outdoor scene where several people are engaged in a game of frisbee. In the foreground, a man wearing a green shirt and plaid shorts …” Pangea: (VELA: 64.5) ”The image shows a group of people playing a game of volleyball on a court. The court is surrounded by trees and there are people in the background watching the game.” 提案手法: (VELA [松田+, MIRU25] : 72.1)  volleyballをfrisbee と誤って認識
  9. まとめ: Fully open MLLMの画像キャプション生成性能向上 のためのPreference Optimization 10 Polos [Wada+, CVPR24

    highlight]に基づくPreference Optimization - 既存の約3倍のキャプションと1.6倍の画像を含むPreference Data構築 - 短文と長文を含む16万画像/170万キャプションを含む
  10. Ablation study: 各スコアリングの有効性を確認 11 ☺ 全てを利用したものが多くの指標で最も高い結果 短文 長文 nocaps P-score

    C-score V-score Polos↑ BLEU4↑ ROUGE↑ CIDEr↑ 72.08 46.96 61.55 121.03 72.82 31.72 55.05 76.05 74.02 10.22 57.02 100.62 74.36 42.99 62.59 121.10 ※ P-score: Polosスコア, C-score: CIDErスコア, V-score: VELAスコア
  11. エラー分析: Flickr 30kにおけるエラー原因 12 エラー エラー数 不十分な情報量 20 ハルシネーション 17

    評価尺度が過少/過大に評価 13 正解文に存在しない表現の使用 6 アノテーションエラー 5 文法エラー 5 合計 46 生成文において記述すべき情報が不足しているエラーが最も多い