Upgrade to Pro — share decks privately, control downloads, hide ads and more …

長時間動画QAにおけるマルチエージェント推論 ・SVAgent: Storyline-Guid...

Sponsored · Your Podcast. Everywhere. Effortlessly. Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.

長時間動画QAにおけるマルチエージェント推論 ・SVAgent: Storyline-Guided Long Video Understanding via Cross-Modal Multi-Agent Collaboration

第64回 名古屋CV・PRML勉強会
https://nagoyacv.connpass.com/event/394324/

Avatar for 村川卓也

村川卓也

June 20, 2026

More Decks by 村川卓也

Other Decks in Research

Transcript

  1. SVAgent: Storyline-guided Long Video Understanding via Cross- Modal Multi-Agent Collaboration

    Zhongyu Yang, Zuhao Yang, Shuo Zhan, Tan Yue, Wei Pang, Yingfang Yuan, CVPR2026 大島慈温(名工大玉木・丁研) 2026/06/20 第64回 名古屋CV・PRML勉強会(CVPR2026 論文紹介)
  2. 関連研究 ◼Video Multimodal Large Language Models (VMLLMs) • VideoChat [Li+,

    arXiv2023] • MVBench / VideoChat2 [Li+, CVPR2024] • TimeExpert [Yang+, ICCV2025] • 時間的整合性が取れていないものが多い (=長時間動画の処理が難しい) ◼Agent-based Multimodal Reasoning • VideoAgent [Wang+, arXiv2024] • OmAgent [Zhang+, EMNLP2024] • VCA [Yang+, ICCV2025] • モダリティ間の不整合の検出ができない TimeExpert [Yang+, ICCV2025] VCA [Yang+, ICCV2025]
  3. 1. 動画全体の要約 ◼入力 • サンプリングされた動画フレーム (最初は一様サンプリング) • テキスト(質問文&選択肢) ◼出力 •

    動画の大まかなストーリー ◼その他 • フレーム列が更新される度にストー リーを更新 • 局所的なフレームに非依存
  4. 2. 回答の仮説作成 ◼入力 • サンプリングされた動画フレーム • テキスト(質問文&ストーリー) ◼出力 • 質問に対する回答の仮説・証拠

    ◼Determinantal Point Processes (DPPs) • 質問文から選ぶフレームセットと仮 説を支持するフレームセットの2つ を作成し重なり具合を計算 • 閾値より大きければ次の処理へ (Block 3) • 小さければ再度フレーム選択 (Block 4)
  5. ◼ 入力 • 共通入力 • 質問文,ストーリー • Visual Decision Agent

    • 共通入力 + 各フレーム • Textual Decision Agent • 共通入力 + 各フレームキャプション ◼ 出力 • 回答,証拠,フレーム重要度 ◼ 最終結果 • 2つの回答が同じ or 最大反復回数に達 している場合,次の処理へ (Meta Decision Agent) • 異なる & 最大反復回数に達していない 場合,再度フレーム選択 (Suggestion) 3. 画像とテキストから回答作成
  6. 5. 適切なフレームの選択 ◼入力 • 失敗ログ • 2.や3.で失敗した記録 • 質問文 •

    ストーリー ◼出力 • 新たにサンプリングしたフレーム集 合 • ループの最初に戻り,ストーリー の修正に使う
  7. 実験条件(ベースライン) ◼Backbone Models • Qwen2.5-VL [Bai+, arXiv2025] • Qwen3-VL [Qwen

    Team, Technical Report2025] ◼Video MLLMs • Gemini 1.5 Pro [Gemini Team+, arXiv2024] • GPT-4o [OpenAI, System Card2024] • LLaVA-Video [Zhang+, TMLR2025] • Qwen2.5-VL [Bai+, arXiv2025] • InternVL 2.5 [Chen+, arXiv2024] ◼Open-source Video Agents / Long-video Reasoning Baselines • VideoMind [Liu+, arXiv2025] • Vgent [Shen+, NeurIPS2025] • Video-RAG [Luo+, arXiv2024] • VideoAgent [Wang+, arXiv2024] Qwen3-VL [Qwen Team, Technical Report2025]
  8. 実験条件(データセット&実装) ◼データセット • LongVideoBench [Wu+, NeurIPS2024] • MLVU [Zhou+, arXiv2024]

    • LVBench [Wang+, ICCV2025] • Video-MME [Fu+, CVPR2025] ◼実装 • 初期サンプリングFPS:1.0 • フレーム集合間の重なり具合の 閾値:0.3 • 最大反復回数:3 Video-MME [Fu+, CVPR2025]
  9. Ablation Study ◼各Agentの有無の比較 • 各Agentを入れることでそれぞれ性 能向上 • 全てを入れた場合最も性能向上 ◼DPPのモデル比較 •

    大きな違いはない • 推論手法の方が大事 ◼一様サンプリングを行う際のフ レーム数の違い • 提案手法適用で性能向上 • 少数フレームで特に有意な差
  10. Ablation Study ◼フレームセット間の重なり具合 の閾値と実行時間 • 高くするほど性能は高い • 高くするほど計算時間が長い • バランスを取って閾値は0.3

    ◼反復試行回数と実行時間 • 試行回数を増やすと性能向上 • しかし4回以上は増やしても性能 改善は限定的&計算時間が長くな る • バランスを取って3回
  11. Ablation Study(性能の安定性) ◼異なる10のシード値を使った比較 • 平均正解率 • 不偏分散 • 片側 t

    検定 • Wilcoxon符号順位検定 ◼結果 • 提案手法の方が平均正解率が高い • 提案手法の方が低い分散 • 性能が安定している • 2つの検定結果は有意水準を下回る ※検定の定義 𝐻0 :帰無仮説(提案手法とベースラインは同じ性能) 𝐻1 :対立仮説(提案手法はベースラインより高性能)