[MIRU2025]Preference Optimization for Multimodal Large Language Models for Image Captioning Tasks

画像キャプション生成タスクにおけるマルチモーダル大規模言語モデルのための Preference Optimization 慶應義塾大学西村喬行, 小槻誠太郎, 松田一起, 飯岡雄偉, 杉浦孔明

Motivation: Fully open MLLMの性能向上をさせたい 2 ◼ open MLLM vs プロプライエタリ
MLLMの性能差は急速に縮まる ◼ CVPR24 → CVPR25でLLM/MLLMに関する研究は約2倍に(33→72) ◼ 本研究: 画像キャプション性能向上のためのPreference Optimization MMMU [Yue+, CVPR24] ☺ 約1年前と比べて性能差は約1/3に MLLMの主な学習ステップ Pretraining Instruction Tuning RLHF/ Preference Optimization

3 ◼ PO: ペアサンプルからより望ましい出力を学習 ◼ 数十万サンプル規模のPreference Dataが必要 [Ethayarajh+, ICML24] 
既存データセットは画像とキャプションの規模に欠ける問題設定: Fully open MLLMの画像キャプション生成性能向上のためのPreference Optimization (PO) データセット概要 FOIL [Shekhar+, ACL17] 10万画像/約60万キャプション  単語置換により生成 Polaris [Wada+, CVPR24] 世界最大の画像キャプション評価データ  1万画像のみ “Two giraffes and a bird are in a fenced area.” “Two giraffes and an ostrich are standing in a zoo.”

手法 (1/2): 多様なキャプションを生成するフレームワーク 4 ◼ 既存の約3倍のキャプションと1.6倍の画像を含むPreference Data ◼ 短文&長文を含む16万画像/170万キャプション ◼
画像 : COCO [Chen+, 15], Flickr30k [Plummer+, ICCV15] , Open images [Kuznetsova+, IJCV20] ◼ キャプション : 9つのMLLM (GPT-4o, Qwen-VL, ShareGPT4V…)

手法 (2/2): Polosに基づくpreference optimization 5 ◼ 人間の選好を反映したPreference Optimization ◼ 
MLLM based → 推論速度約1/100倍, 自己選好の傾向 ◼ ☺ Polos [Wada+, CVPR24 highlight]に基づく損失関数 MLLM-as-a-judgeは自身のキャプションを選好 [小山+, MIRU25] ハイパーパラメタロジスティックシグモイド価値関数 / 選択にPolosスコアを利用画像キャプション報酬関数参照点

実験設定：約12万ペア含むPolos FB datasetを構築 6 ◼ Pangea-7B [Yue+, ICLR25] をPolos FB
datasetで追加学習 (train:val=110,000 : 6,000) ◼ ベンチマーク ◼ nocaps [Agrawal+, ICCV19] , Flickr30k, Localized Narratives [Pont+, ECCV20] 画像数 116,000 キャプション数 320,000 語彙サイズ 30,000 LLaVA-NeXT [Liu+, 24] LLaVA-NeXTを39言語で追加学習 Polos FB dataset

7 定量的結果: fully open/closedの多くのMLLMを上回る手法 nocaps Localized Narratives P↑ B＠4↑
C↑ P↑ B＠4↑ C↑ closed GPT-4o [24] 68.23 17.55 55.05 63.50 2.64 1.94 Phi-3.5 [24] 71.14 38.95 99.18 64.10 3.39 5.32 InstructBLIP [NeurIPS23] 72.11 32.45 86.07 62.15 3.65 4.95 ShareGPT4V [ECCV24] 71.34 39.69 103.06 61.24 2.36 1.59 Qwen-VL [ICLR24] 71.48 30.42 81.42 49.53 0.79 4.38 fully open LLaVA-1.5 [NeurIPS23] 70.94 40.35 105.70 58.73 3.85 4.58 Pangea-7B [ICLR25] 72.47 46.48 117.16 59.67 2.22 0.30 提案手法 74.36 42.99 121.10 64.50 5.23 11.15 +1.89 ※ P: Polos, B＠4: BLEU4, C: CIDEr +6.57 ☺ 短文のみでなく長文キャプションにおいても上回る結果

定性的結果（短文）: 提案手法は適切にキャプションを生成 8 ”A man wearing a helmet and playing
a keyboard.” Pangea: (Polos: 69.3) “A man in a green shirt and a Star Wars helmet playing an accordion.” 提案手法: (Polos: 83.2)  キーボードよりアコーディオンの方が適切

定性的結果（長文）: 画像内の物体を適切に理解 9 ”This is a color photograph depicting an
outdoor scene where several people are engaged in a game of frisbee. In the foreground, a man wearing a green shirt and plaid shorts …” Pangea: (VELA: 64.5) ”The image shows a group of people playing a game of volleyball on a court. The court is surrounded by trees and there are people in the background watching the game.” 提案手法: (VELA [松田+, MIRU25] : 72.1)  volleyballをfrisbee と誤って認識

まとめ: Fully open MLLMの画像キャプション生成性能向上のためのPreference Optimization 10 Polos [Wada+, CVPR24
highlight]に基づくPreference Optimization - 既存の約3倍のキャプションと1.6倍の画像を含むPreference Data構築 - 短文と長文を含む16万画像/170万キャプションを含む

Ablation study: 各スコアリングの有効性を確認 11 ☺ 全てを利用したものが多くの指標で最も高い結果短文長文 nocaps P-score
C-score V-score Polos↑ BLEU4↑ ROUGE↑ CIDEr↑ 72.08 46.96 61.55 121.03 72.82 31.72 55.05 76.05 74.02 10.22 57.02 100.62 74.36 42.99 62.59 121.10 ※ P-score: Polosスコア, C-score: CIDErスコア, V-score: VELAスコア

エラー分析: Flickr 30kにおけるエラー原因 12 エラーエラー数不十分な情報量 20 ハルシネーション 17
評価尺度が過少/過大に評価 13 正解文に存在しない表現の使用 6 アノテーションエラー 5 文法エラー 5 合計 46 生成文において記述すべき情報が不足しているエラーが最も多い

[MIRU2025]Preference Optimization for Multimoda...

[MIRU2025]Preference Optimization for Multimodal Large Language Models for Image Captioning Tasks

Semantic Machine Intelligence Lab., Keio Univ. PRO

More Decks by Semantic Machine Intelligence Lab., Keio Univ.

Other Decks in Technology

Featured

Transcript

画像キャプション生成タスクにおけるマルチモーダル大規模言語モデルのための Preference Optimization 慶應義塾大学西村喬行, 小槻誠太郎, 松田一起, 飯岡雄偉, 杉浦孔明

Motivation: Fully open MLLMの性能向上をさせたい 2 ◼ open MLLM vs プロプライエタリ

3 ◼ PO: ペアサンプルからより望ましい出力を学習 ◼ 数十万サンプル規模のPreference Dataが必要 [Ethayarajh+, ICML24] 

手法 (1/2): 多様なキャプションを生成するフレームワーク 4 ◼ 既存の約3倍のキャプションと1.6倍の画像を含むPreference Data ◼ 短文&長文を含む16万画像/170万キャプション ◼

手法 (2/2): Polosに基づくpreference optimization 5 ◼ 人間の選好を反映したPreference Optimization ◼ 

実験設定：約12万ペア含むPolos FB datasetを構築 6 ◼ Pangea-7B [Yue+, ICLR25] をPolos FB

7 定量的結果: fully open/closedの多くのMLLMを上回る手法 nocaps Localized Narratives P↑ B＠4↑

定性的結果（短文）: 提案手法は適切にキャプションを生成 8 ”A man wearing a helmet and playing

定性的結果（長文）: 画像内の物体を適切に理解 9 ”This is a color photograph depicting an

まとめ: Fully open MLLMの画像キャプション生成性能向上のためのPreference Optimization 10 Polos [Wada+, CVPR24

Ablation study: 各スコアリングの有効性を確認 11 ☺ 全てを利用したものが多くの指標で最も高い結果短文長文 nocaps P-score

エラー分析: Flickr 30kにおけるエラー原因 12 エラーエラー数不十分な情報量 20 ハルシネーション 17