Upgrade to Pro — share decks privately, control downloads, hide ads and more …

[MIRU25] An LLM-Hybrid-as-a-Judge Approach for ...

[MIRU25] An LLM-Hybrid-as-a-Judge Approach for Evaluating Long Image Captions

More Decks by Semantic Machine Intelligence Lab., Keio Univ.

Other Decks in Technology

Transcript

  1. 長文画像キャプションの評価において標準尺度は人間と相関しない (0.1以下) Motivation: マルチモーダルLLMの自動評価尺度を作る - 2 -  学習型尺度 [Matsuda+,

    ACCV24]は性能不十分  LLM-as-a-Judgeは遅すぎる (3時間以上) ☺ LLM-Hybrid-as-a-Judge 既存自動評価尺度 評価困難 "Under a cloudless azure sky, an open-air concert unfolds before an elegant stone arcade inscribed with… (142 words)” VELA: 人手評価性能を上回る 高速な自動評価尺度
  2. 問題設定: 長文画像キャプション生成における自動評価 - 3 - ◼ 入力: 画像 𝒙img ,

    生成文𝒙cand および人間によって付与された参照文群 𝒙 ref (𝑖) 𝑖=1 𝑁 ◼ 出力: 生成文𝒙cand の3観点(詳細さ・関連性・流暢さ)における評価値 𝒙 ref (𝑖) 𝑖=1 𝑁 𝒙cand (ො 𝑦desc , ො 𝑦rel , ො 𝑦flu ) 𝒙img Multimodal-LLM 自動評価尺度 画像キャプション生成の評価に おける標準的な3観点 [Lee+, ACL21], [Kim+, ACL25] ☺人間による評価と近い値が 出力されるのが望ましい
  3. 𝒈i2c = [ 𝒉img − 𝒉cand , 𝒉img ⊙ 𝒉cand

    ] 提案: VELA-長文キャプション向け自動評価尺度 - 4 - LLM-Hybrid-as-a-Judge:画像・言語の後期統合に基づくLLMベース評価 言語: R2C-LLMブランチ ◼ LLMを非自己回帰に用いた特徴抽出 画像: I2C-Alignブランチ ◼ Long-CLIP[Zhang+, ECCV24] を用いて 画像特徴量𝒉img ,生成文特徴量𝒉cand を抽出 ◼ 要素間差分とアダマール積から𝒈i2c を算出 自己回帰, 画像の早期統合を行う LLM-as-a-Judgeに比べ高速
  4. 𝒈i2c = [ 𝒉img − 𝒉cand , 𝒉img ⊙ 𝒉cand

    ] 提案: VELA-長文キャプション向け自動評価尺度 - 5 - LLM-Hybrid-as-a-Judge:画像・言語の後期統合に基づくLLMベース評価 言語: R2C-LLMブランチ ◼ LLMを非自己回帰に用いた特徴抽出 画像: I2C-Alignブランチ ◼ Long-CLIP[Zhang+, ECCV24] を用いて 画像特徴量𝒉img ,生成文特徴量𝒉cand を抽出 ◼ 要素間差分とアダマール積から𝒈i2c を算出 COMET [Rei+, EMNLP20], Polos [Wada+, CVPR24]等 文生成タスクの自動評価尺度で有効性が確認
  5. I2C-Alignブランチ R2C-LLMブランチ 提案: VELA-長文キャプション向け自動評価尺度 - 6 - ◼ 二つのブランチを後期統合 ◼

    3つのMLPを通して 評価値ෝ 𝒚 = (ො 𝑦desc , ො 𝑦rel , ො 𝑦flu )を計算 ◼ 学習時: 人間による評価𝒚とෝ 𝒚から 損失を計算する教師あり学習 ☺ 人間に近い評価を学習 LLM-Hybrid-as-a-Judge:画像・言語の後期統合に基づくLLMベース評価
  6. 実験設定: LongCap-Arenaベンチマーク - 7 - 長文キャプション向け尺度の評価および学習に使用可能なベンチマーク ☺ 多様な長文キャプションおよび人間による評価を含む 詳細さのアノテーション画面 人間による評価件数

    (詳細さ・関連性・流暢さ) 32,246 - アノテータ数 1,020 生成文数 7,805 - 平均単語数 101.2 - 使用モデル数 10 参照文数 7,805 - 平均単語数 131.4 画像数 7,805
  7. 尺度 TestA [𝝉𝒄↑] TestB [𝝉𝒄↑] 推論時間 [ms] 詳細さ 関連性 流暢さ

    詳細さ 関連性 流暢さ CIDEr [CVPR15] -7.0 6.7 4.4 4.0 -3.4 1.9 1.3 DENEB [ACCV24] 10.3 18.4 22.2 31.3 35.7 32.6 47 FLEUR [ACL24] 17.3 2.6 0.5 12.6 10.6 -3.1 1,300 GPT-4o w/o ref 54.1±17.6 36.8±6.3 20.9±1.0 43.6±2.0 37.3±3.4 25.2±1.0 1,900 GPT-4o w/ref 47.0±17.6 26.2±2.2 35.4±2.9 46.9±2.6 30.4±2.3 25.1±4.3 2,000 VELA (Ours) 56.4±1.3 40.0±1.1 57.4±1.3 54.0±0.4 52.3±1.1 39.0±2.3 260 人手評価 56.1 46.6 24.5 48.9 52.6 24.4 ─ 定量結果: LongCap-Arenaにおいて人手評価を上回る - 8 - 18個の自動評価尺度と人間による評価との相関係数において比較 (以下一部抜粋) ☺ 人手評価と同等の性能かつGPT-4oを上回る良好な結果
  8. 尺度 TestA [𝝉𝒄↑] TestB [𝝉𝒄↑] 推論時間 [ms] 詳細さ 関連性 流暢さ

    詳細さ 関連性 流暢さ CIDEr [CVPR15] -7.0 6.7 4.4 4.0 -3.4 1.9 1.3 DENEB [ACCV24] 10.3 18.4 22.2 31.3 35.7 32.6 47 FLEUR [ACL24] 17.3 2.6 0.5 12.6 10.6 -3.1 1,300 GPT-4o w/o ref 54.1±17.6 36.8±6.3 20.9±1.0 43.6±2.0 37.3±3.4 25.2±1.0 1,900 GPT-4o w/ref 47.0±17.6 26.2±2.2 35.4±2.9 46.9±2.6 30.4±2.3 25.1±4.3 2,000 VELA (Ours) 56.4±1.3 40.0±1.1 57.4±1.3 54.0±0.4 52.3±1.1 39.0±2.3 260 人手評価 56.1 46.6 24.5 48.9 52.6 24.4 ─ 定量結果: LongCap-Arenaにおいて人手評価を上回る - 9 - ☺ 既存のLLM-as-a-Judgeに比べ5~8倍高速 18個の自動評価尺度と人間による評価との相関係数において比較 (以下一部抜粋) ☺ 人手評価と同等の性能かつGPT-4oを上回る良好な結果
  9. 定性結果: GPT-4oに比べ人間による評価に近い出力 - 10 - 詳細さ 関連性 流暢さ GPT-4o 90/100

    75/100 100/100 VELA (Ours) 70/100 59/100 91/100 人間による評価 75/100 50/100 100/100 InstructBLIP[Dai+, NeurIPS23]による生成文: “In the image, a large white and blue airplane is taking off from a grassy field. The plane is in the process of ascending into the sky, with its wheels still on the ground. There are several trees visible in the background, providing a natural setting for the airplane's takeoff. In addition to the main airplane, there are two smaller airplanes present in the scene...” ハルシネーションを含む&詳細さに欠ける ※評価値を0~100に正規化した値
  10. まとめ: 人手評価を上回る長文キャプション向け尺度 - 11 - ◼ 長文キャプション向け自動評価尺度VELAを提案 ☺ 既存のLLM-as-a-Judgeおよび人手評価性能を上回る ◼

    長文向け尺度の評価および学習用ベンチマークLongCap-Arenaを構築 ☺ 約32,000件の人間による評価を1,020人のアノテータから収集 プロジェクトページ