Upgrade to Pro — share decks privately, control downloads, hide ads and more …

CVPR2022論文読み会スライド- IntentVisor

yo_itz
August 21, 2022

CVPR2022論文読み会スライド- IntentVisor

インタラクティブなビデオ要約フレームワーク: IntentVizorの紹介

yo_itz

August 21, 2022
Tweet

Other Decks in Technology

Transcript

  1. 第11回 全日本コンピュータビジョン勉強会(後編)
    CVPR2022読み会(後編)
    IntentVizor: Towards Generic Query
    Guided Interactive Video Summarization
    2022/08/21 @yo_itz

    View Slide

  2. アジェンダ
    自己紹介
    どんな論文か
    背景・目的
    手法の説明
    評価
    まとめ
    所感

    View Slide

  3. 自己紹介
    @yo_itz
    某AIベンチャーのエンジニア
    主に受託で画像認識系の DLモデルや
    関連するシステム開発に従事
    最近動画を撮りためる機会が増えてきて動画要約に興味が湧いてきたところ
    今回の論文紹介は所属企業の業務・見解とは無関係です

    View Slide

  4. どんな論文か
    IntentVizor: Towards Generic Query Guided Interactive Video Summarization
    Guande Wu, Jianzhe Lin, Claudio T. Silva; Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2022, pp.
    10503-10512
    動画要約について、ユーザの意図の反映を目指していること
    UIも併せて提案されている面白そうだった
    Vision & XカテゴリのPoster論文、Dataset contibutions*に挙げられている
    *データセットへの 貢献を主張する か、データセットへの貢献があると審査過程で確認されたもの
    動画自体はオリジナル
    UTEに依存。
    https://drive.google.com/file/d/13xbo-T1MFtlWAgtGHkujiDq_5KXtw-wA/view?usp=sharing

    View Slide

  5. 背景・目的
    動画要約はテキストの概念でクエリを表現し、動画中の各ショットと
    それを紐づける形で抽出していた。
    既存のクエリ駆動要約はたとえば ”テーブル”というテキストのみを
    クエリとすると、食卓か作業台か区別できないままテーブルの映っ
    たシーンを拾ってしまう。
    また実用上はユーザのフィードバックを反映させることが重要と考
    えられるようになってきた。
    この対処として異なるモダリティからのクエリに対応する汎用的なモ
    デルを提案し、要約プロセスにおいてユーザが対話できるようにす
    るために、IntentVizorと名付けた新しいフレームワークを提案す
    る。

    View Slide

  6. ItentVizorフレームワーク
    (1)ビデオ要約プロセスの インタラクティブな制御
    (2)汎用的なマルチモダリティクエ リのサポート、を目標としている。
    マルチモダリティクエリを統一的かつ対話的なユーザインテントとしてモデル化すること
    により、この2つの要求を満たすことが できることを示す
    マルチモダリティクエリをより適切に扱うために設計されたGSE-GCNについて説明しま

    View Slide

  7. 統一的で対話的なユーザインテント
    ユーザインテントζ
    i
    は基底の値を仮定し、ビデオvに対するクエリqから暗黙に予測できるものとする
    η
    s
    はζiを条件とするベルヌーイ分布からサンプリングされるものとする
    あるクエリqに対してショットsが要約に選択される事象η
    s
    の確率は(2)式となる
    インテントモジュールとサマリモジュールを次の様に設計する
    θ
    g
    , θ
    h
    はパラメータでGT y
    t
    が与えられたとき次のように最適化することができる
    インテントモジュール  サマリモジュール

    View Slide

  8. GSE-GCN: Granularity-Scalable Ego-Graph Convolutional Networks
    GS-Pathways:フレーム数の多い動作やイベントと少ないもので粒度を分けて処理する
    Ego-Graph CN:意図エッジで意味頂点と意図頂点を結ぶグラフを作り
    GNNを使う。時間が離れたセグメントの内容は相関が低いと考え、計算量を抑えるため
    ローカル GCN モジュールを利用してショットレベルの特徴を生成し、この特徴を用いてショット選択確率を予測する

    View Slide

  9. Granularity-Scalable Pathways (GS-Pathways)
    時間的な長さや移動速度の異なる動作は、異なる時間粒度の特徴量で処理する必要があることがわかった。
    時間粒度スケーラブルなモデルが必要となる粒度の異なる 2つの経路を持つ柔軟な構造を提案する。

    View Slide

  10. 評価
    評価は 推論動画とGT動画の意味的な類似性をIoUでマッチングした上で、精度・再現率・
    F-1スコア
    で評価する。F1で最高性能(表2) ビジュアルクエリで結果も示す(表
    3)各アノテーションされた要約に
    対して、 固有ベクトル中心度を基準として最も代表的なショットを クエリショットとして選択する。

    View Slide

  11. 評価- Ablation Analysis
    1 Ego-GCNはいずれかのモジュールを
    Transformerに変え
    た場合よりよい性能を示す
    (表4)
    2 Local GCN はアップアンプリングや転置畳込みより優れ
    ている(表5)
    3 GS-Pathway4パターン試したがFullモデルがベスト(表6)
    表4
    表5
    表6

    View Slide

  12. 評価- Ablation Analysis
    4 異なる経路の特徴を融合するタイミング
    Middle、LateはそれぞれMLPの前後。Earlyがベスト(表7)
    5 Itentモジュールに動画の入力はいるか
       →なくても既存の手法よりはよい(表8)
    6 サマリモジュールは別のデータセットに転移可能か
    まずテキストクエリ データセットで要約モジュールを学習し次に、この事前に学習し
    た要約モジュールを再利用しビジュアルクエリタスクのために意図モジュールのみ
    を学習する。その結果は表9 に示すとおりである。この実験結果から、転送された
    モデル は正規の設定で学習したモデルを上回っており、サマリモジュ ールがマル
    チモダリティに対して交換可能(表9)
    表7
    表8
    表9

    View Slide

  13. 評価(定性,GUI)
    図4 video-3に対して "Food "と "Room "をクエリした際のプロトタイプのイメージではモデルが料理と部屋のシナリオをうまく捉えている。また、食品調理と食品貯蔵という2種類
    の食品シナリオが識別されている
    スコアや要約箇所を確認しながらクエリを切り替えられるということがポイント

    View Slide

  14. まとめ
    ・インタラクティブなビデオ要約フレームワーク: IntentVizorを提案
    ・ユーザインテントを導入したマルチモダリティのクエリ表現
    ・対話的なUI
    ・UTEビデ オに基づくビジュアルクエリーガイド付きビデオ要約のためのデータセッ
    トをつかってSOTA

    View Slide

  15. 所感
    ・要約には作業者の主観が入ると思えば、意図を反映させる取り組みは面白い
    ・タスクに対してGUIもセットで解決にいくというのはCVのアプローチとして
     ありなのかなという印象(Vision & X枠ではありなのかも。実用上は嬉しい)
    ・CVPR2022でVideo Summerization を扱っている論文自体が少ない
    2019にランダム抽出と大差ないという指摘があったが...

    View Slide

  16. Thank you for your attention.

    View Slide