Upgrade to Pro — share decks privately, control downloads, hide ads and more …

[Journal club] AuroraCap: Efficient, Performant...

[Journal club] AuroraCap: Efficient, Performant Video Detailed Captioning and a New Benchmark

More Decks by Semantic Machine Intelligence Lab., Keio Univ.

Other Decks in Technology

Transcript

  1. Wenhao Chai1,2,∗, Enxin Song∗, Yilun Du4, Chenlin Meng2,3, Vashisht Madhavan2,Omer

    Bar-Tal2, Jenq-Neng Hwang1, Saining Xie5, Christopher D. Manning3 1University of Washington 2Pika Labs 3Stanford University 4Harvard University 5New York University *Equal contributions. 1 AuroraCap: Efficient, Performant Video Detailed Captioning and a New Benchmark 慶應義塾⼤学 杉浦孔明研究室 ⼩⼭修⽣ Wenhao Chai, Enxin Song, Yilun Du, Chenlin Meng, Vashisht Madhavan,Omer Bar-Tal, Jenq-Neng Hwang, Saining Xie, Christopher D. Manning, “AuroraCap: Efficient, Performant Video Detailed Captioning and a New Benchmark,” in ICLR, 2025. ICLR25
  2. 概要 2 背景 n ⻑尺動画において,フレーム数とともに計算量が増⼤ n ビデオキャプション⽣成におけるベンチマークはキャプション平均⻑が短い 提案⼿法 n AuroraCap:

    Token mergingによるトークン圧縮を導⼊したMLLM n VDC: 詳細なビデオキャプションを扱う初のベンチマーク 結論 n ⼊⼒トークン数を10%〜20%に削減しつつ性能を保つ n 動画キャプション⽣成において,既存⼿法を上回る
  3. 背景︓ビデオキャプション⽣成は⻑尺動画および⻑⽂の扱いに課題 3 n ⻑尺動画において,フレーム数とともに計算量が増⼤ [Wang+, ACL24] →トークン圧縮⼿法 [Li+, ECCV24] n

    ビデオキャプション⽣成におけるベンチマークはキャプションの平均⻑が25語以下 L詳細なキャプション⽣成能⼒を評価するには不⼗分 n ビデオキャプション⽣成における多くの既存評価尺度(例: BLEU [Papineni+, ACL02])はn-gramに基づく L⻑尺動画の⻑いキャプションの意味を正しく評価できない The video opens with an intimate close-up of a surface adorned with vibrant green moss and intricate lichen, initially evoking the serene beauty of a natural landscape. This organic imagery quickly transitions, revealing that the mossy surface is actually part of a motorcycle or vehicle’s engine compartment, creating a striking contrast between the lush textures of nature and the cold, hard lines of mechanical components. As the camera angle shifts, the viewer is drawn deeper into the engine compartment, where the interplay of moss overgrowth on various machinery introduces a fascinating blend of organic life and industrial elements, highlighting the unexpected coexistence of nature and technology. The perspective then zooms(…) ビデオキャプション例
  4. 関連研究︓動画を扱うためのトークン圧縮の⼿法 4 Video-LLaMA MovieChat ⼿法 概要 MovieChat [Song+, CVPR24] トークン圧縮の⼿法として隣接するフレーム間のトークンの類似度に基

    づき貪欲法でトークンをマージするメモリ統合を導⼊ Video-LLaMA [Zhang+, EMNLP2023] Video Q-FormerとAudio Q-Formerによる⼆つのモダリティにおける トークン圧縮を導⼊ LLaMA-VID [Li+, ECCV24] 1フレームを指⽰と関連する情報を扱うコンテキストトークンとフレー ム全体の視覚的情報を扱うコンテンツトークンに圧縮
  5. 提案⼿法: アーキテクチャ 5 AuroraCap: LLaVA-1.5 [Liu+, NeurIPS23]と同様の構成 n LLM n

    Projector n Vision Encoder Token merging n Vision Encoderで,⼆部マッチングを⽤いて段階的に類似トークンを統合し,トークンを圧縮 LLaVA-1.5のアーキテクチャ Token merging
  6. 提案⼿法: 段階的な画像トークン圧縮 6 Token merging: 画像や映像の分類・編集タスク [Li+, CVPR24]において有効なトークン圧縮⼿法 n ViTのSelf-Attention層後にトークン圧縮

    1. 各フレームのトークンを⼆つの集合 , に分割 2. 集合 , の全トークンのペアにおけるkeyのcos類似度を計算 3. 2部グラフのマッチングで,類似度上位𝑟組を選択 4. 加重平均でトークンをマージ 5. 1つの集合に戻す n Softmax層の前に. を加算 Token merging
  7. 提案⼿法: 段階的な画像トークン圧縮 7 Token merging: 画像や映像の分類・編集タスク [Li+, CVPR24]において有効なトークン圧縮⼿法 n ViTのSelf-Attention層後にトークン圧縮

    1. 各フレームのトークンを⼆つの集合 , に分割 2. 集合 , の全トークンのペアにおけるkeyのcos類似度を計算 3. 2部グラフのマッチングで,類似度上位𝑟組を選択 4. 加重平均でトークンをマージ 5. 1つの集合に戻す n Softmax層の前に を加算 Indexの偶奇で分割 Token merging
  8. 提案⼿法: 段階的な画像トークン圧縮 8 Token merging: 画像や映像の分類・編集タスク [Li+, CVPR24]において有効なトークン圧縮⼿法 n ViTのSelf-Attention層後にトークン圧縮

    1. 各フレームのトークンを⼆つの集合 , に分割 2. 集合 , の全トークンのペアにおけるkeyのcos類似度を計算 3. 2部グラフのマッチングで,類似度上位𝑟組を選択 4. 加重平均でトークンをマージ 5. 1つの集合に戻す n Softmax層の前に. を加算 Token merging
  9. 提案⼿法: 段階的な画像トークン圧縮 9 Token merging: 画像や映像の分類・編集タスク [Li+, CVPR24]において有効なトークン圧縮⼿法 n ViTのSelf-Attention層後にトークン圧縮

    1. 各フレームのトークンを⼆つの集合 , に分割 2. 集合 , の全トークンのペアにおけるkeyのcos類似度を計算 3. 2部グラフのマッチングで,類似度上位𝑟組を選択 4. 加重平均でトークンをマージ 5. 1つの集合に戻す n Softmax層の前に. を加算 Token merging
  10. 提案⼿法: 段階的な画像トークン圧縮 10 Token merging: 画像や映像の分類・編集タスク [Li+, CVPR24]において有効なトークン圧縮⼿法 n ViTのSelf-Attention層後にトークン圧縮

    1. 各フレームのトークンを⼆つの集合 , に分割 2. 集合 , の全トークンのペアにおけるkeyのcos類似度を計算 3. 2部グラフのマッチングで,類似度上位𝑟組を選択 4. 加重平均でトークンをマージ 5. 1つの集合に戻す n Softmax層の前に. を加算 各トークンの圧縮前のトークン数𝑠で重みづけして加重平均 Token merging
  11. 提案⼿法: 段階的な画像トークン圧縮 11 Token merging: 画像や映像の分類・編集タスク [Li+, CVPR24]において有効なトークン圧縮⼿法 n ViTのSelf-Attention層後にトークン圧縮

    1. 各フレームのトークンを⼆つの集合 , に分割 2. 集合 , の全トークンのペアにおけるkeyのcos類似度を計算 3. 2部グラフのマッチングで,類似度上位𝑟組を選択 4. 加重平均でトークンをマージ 5. 1つの集合に戻す n Softmax層の前に. を加算 Token merging
  12. 提案⼿法: 段階的な画像トークン圧縮 12 Token merging: 画像や映像の分類・編集タスク [Li+, CVPR24]において有効なトークン圧縮⼿法 n ViTのSelf-Attention層後にトークン圧縮

    1. 各フレームのトークンを⼆つの集合 , に分割 2. 集合 , の全トークンのペアにおけるkeyのcos類似度を計算 3. 2部グラフのマッチングで,類似度上位𝑟組を選択 4. 加重平均でトークンをマージ 5. 1つの集合に戻す n Softmax層の前に. を加算 Token merging :各トークンの圧縮前のトークン数の列
  13. 提案⼿法:詳細なビデオキャプション⽣成のベンチマーク 13 既存ベンチマークの問題点 L ビデオが特定のドメインに偏っている L 従来の主要データセットは平均⻑が10〜20語程度→モデルの詳細な記述能⼒を評価できない Video Detailed Captions

    Benchmark (VDC) J 多様なソースから等しい割合の動画を抽出 J 平均⻑500語の詳細なキャプションを複数観点に基づいて構成 キャプションの統計情報 動画元の割合
  14. 提案⼿法:VDC Benchmarkの構築 14 ビデオ収集 複数のドメインの動画を同程度の割合で抽出 n Panda-70M [Chen+, CVPR20]: YouTubeの野⽣動物,料理,スポーツなど多様なドメインの1分動画

    n Ego4D [Grauman+, CVPR22]: ⼀⼈称視点動画や⾃動運転など キャプション⽣成 1. 以下の観点でキャプションをGPT-4o [OpenAI, arxiv24]により個別に⽣成 n Main Object Caption: 主要な被写体の⾏動や属性 n Background Caption: 背景の物体,場所,天気など n Camera Caption: カメラのショット,アングル,動きなど 2. 1で⽣成した⽂を統合し,詳細なキャプションを⽣成 3. ⼈間によるフィルタリング 動画の⻑さの割合
  15. 実験設定 16 AuroraCapのバックボーン n LLM: Vicuna-v1.5(7B) [Zheng+, NeurIPS23] n Projector:

    2層のMLP n Vision Encoder: CLIP ViT-H/14 [Radford+, ICML21] 学習⽅法 1. Pretraining stage: MLP 2. Vision stage: ViT+MLP 3. Language stage: ViT+MLP+LLM データセット: ShareGPT4V [Chen+, ECCV24], TextCaps [Sidorov+, ECCV20], etc. (詳細はAppendix) ベンチマーク: Flickr30k [Plummer+, ICCV15], NoCaps [Agrawal+, ICCV19], COCO-Cap [Lin+, ECCV14], MSR-VTT [Xu+, CVPR16],VATEX [Wang+, ICCV19], MSVD [Xu+, ACM17], VDD [Li+, rxiv23]など 学習環境: H100 学習時間: 700時間 LLaVA-1.5のアーキテクチャ
  16. 定量的結果:ビデオキャプション⽣成においては既存⼿法を上回る結果 17 n すべての既存のベンチマークにおいて,既存⼿法を⼤きく上回る +11.0 +14.1 +17.3 n MSR-VTT n

    10,000本 n クリップ⻑:15s n ⾳楽、スポーツなど 20カテゴリを網羅 n VATEX n 約41,250本 n クリップ⻑︓10s n 多⾔語
  17. 定性的結果:AuroraCapによる詳細なキャプション 20 The video depicts a serene beach scene where

    a young woman stands on the sandy shore, gazing out towards the ocean. She is wearing a black beanie and a pink jacket, adding a pop of color to the otherwise muted scene. The beach, a vast expanse of sand, stretches out in front of her, meeting the ocean at the horizon. The ocean, a vast body of water, is visible in the background. The beach is bathed in a soft, diffused light, creating a dreamy atmosphere. The girl’s gaze is directed towards the horizon, suggesting a sense of wonder or contemplation. The image is slightly blurred, adding a dreamy quality to the scene. The woman’s position on the beach, coupled with the gentle waves of the ocean, suggests a moment of contemplation or admiration. (省略)
  18. 追試およびエラー分析 21 The video opens with a vibrant scene of

    a bustling futuristic cityscape, where sleek, high-tech vehicles navigate through a well-lit, multi-level urban environment. The atmosphere is lively, filled with the sounds of engines and the distant hum of city life. The camera captures the essence of this advanced world, showcasing a mix of modern architecture and dynamic street life. As the video progresses, the focus shifts to a striking black sports car, (略)The narrative unfolds as the main character, a driver in a sleek black sports car, embarks on a journey through this vibrant world. The character‘s actions are fluid and confident, reflecting a sense of purpose and determination. The dialogue is minimal, allowing the visuals to convey the story, with occasional voiceovers that provide context and insight into the character’s thoughts and motivations.(略)As the video nears its conclusion, the focus shifts to a dramatic moment where the main character is seen driving through a tunnel(略) 設定︓80%の画像トークンを削減, 1フレーム/秒 J画⾯の構図が移⾏していく様⼦を適切に捉える傾向 L⾳に関するハルシネーション(4件/1キャプション)が多い傾向
  19. まとめ 22 22 背景 n ⻑尺動画において,フレーム数とともに計算量が増⼤ n ビデオキャプション⽣成におけるベンチマークはキャプション平均⻑が短い 提案⼿法 n

    AuroraCap: Token mergingによるトークン圧縮を導⼊したMLLM n VDC: 詳細なビデオキャプションに焦点を当てた初のベンチマーク 結論 n ⼊⼒トークン数を10%〜20%に削減しつつ性能を保つ n 動画キャプション⽣成において,既存⼿法を上回る
  20. VDCscoreのスコア 28 n 評価基準: ⽣成された回答が、以下の5つの観点においてどれだけ優れているかをLLMが0-5で評価 n 情報の正しさ (Correctness of Information)

    n 詳細さ (Detail Orientation) n ⽂脈理解 (Contextual Understanding) n 時間的理解 (Temporal Understanding) n ⼀貫性 (Consistency)
  21. 追試およびエラー分析のキャプション(省略なし) 39 The video opens with a vibrant scene of

    a bustling futuristic cityscape, where sleek, high-tech vehicles navigate through a well-lit, multi-level urban environment. The atmosphere is lively, filled with the sounds of engines and the distant hum of city life. The camera captures the essence of this advanced world, showcasing a mix of modern architecture and dynamic street life. As the video progresses, the focus shifts to a striking black sports car, its sleek design and glowing red taillights drawing the viewer's attention. The car glides effortlessly through the streets, embodying the essence of speed and elegance. The surrounding environment is alive with activity, featuring a variety of vehicles, including a distinctive orange car that adds a splash of color to the scene. The camera work is dynamic, employing a mix of wide shots that capture the expansive nature of the city and close-ups that highlight the intricate details of the vehicles. The lighting is bright and vibrant, enhancing the futuristic feel of the setting. The soundtrack is a blend of electronic beats and ambient sounds, creating a sense of urgency and excitement. The narrative unfolds as the main character, a driver in a sleek black sports car, embarks on a journey through this vibrant world. The character's actions are fluid and confident, reflecting a sense of purpose and determination. The dialogue is minimal, allowing the visuals to convey the story, with occasional voiceovers that provide context and insight into the character's thoughts and motivations. As the video nears its conclusion, the focus shifts to a dramatic moment where the main character is seen driving through a tunnel, illuminated by bright lights that create a striking contrast against the dark interior of the car. The camera captures the intensity of the moment, emphasizing the character's focus and determination. The scene is filled with a sense of anticipation, as the character approaches a critical point in their journey. The video concludes with a poignant moment, as the main character reflects on their journey and the lessons they have learned. The character's thoughts are conveyed through a series of voiceovers, providing a deeper understanding of their motivations and the challenges they have faced. The camera work remains dynamic, with close-ups that highlight the character's emotions and the surrounding environment. Throughout the video, the use of special effects and visual effects enhances the futuristic feel, creating a sense of wonder and excitement. The camera work is smooth and polished, with a focus on capturing the character's journey in a visually engaging manner. The lighting and color palette are carefully chosen to evoke a sense of energy and vibrancy, while the sound design complements the visuals, enhancing the overall experience.