インタラクティブなビデオ要約フレームワーク: IntentVizorの紹介
第11回 全日本コンピュータビジョン勉強会(後編)CVPR2022読み会(後編)IntentVizor: Towards Generic QueryGuided Interactive Video Summarization2022/08/21 @yo_itz
View Slide
アジェンダ自己紹介どんな論文か背景・目的手法の説明評価まとめ所感
自己紹介@yo_itz某AIベンチャーのエンジニア主に受託で画像認識系の DLモデルや関連するシステム開発に従事最近動画を撮りためる機会が増えてきて動画要約に興味が湧いてきたところ今回の論文紹介は所属企業の業務・見解とは無関係です
どんな論文かIntentVizor: Towards Generic Query Guided Interactive Video SummarizationGuande Wu, Jianzhe Lin, Claudio T. Silva; Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2022, pp.10503-10512動画要約について、ユーザの意図の反映を目指していることUIも併せて提案されている面白そうだったVision & XカテゴリのPoster論文、Dataset contibutions*に挙げられている*データセットへの 貢献を主張する か、データセットへの貢献があると審査過程で確認されたもの動画自体はオリジナルUTEに依存。https://drive.google.com/file/d/13xbo-T1MFtlWAgtGHkujiDq_5KXtw-wA/view?usp=sharing
背景・目的動画要約はテキストの概念でクエリを表現し、動画中の各ショットとそれを紐づける形で抽出していた。既存のクエリ駆動要約はたとえば ”テーブル”というテキストのみをクエリとすると、食卓か作業台か区別できないままテーブルの映ったシーンを拾ってしまう。また実用上はユーザのフィードバックを反映させることが重要と考えられるようになってきた。この対処として異なるモダリティからのクエリに対応する汎用的なモデルを提案し、要約プロセスにおいてユーザが対話できるようにするために、IntentVizorと名付けた新しいフレームワークを提案する。
ItentVizorフレームワーク(1)ビデオ要約プロセスの インタラクティブな制御(2)汎用的なマルチモダリティクエ リのサポート、を目標としている。マルチモダリティクエリを統一的かつ対話的なユーザインテントとしてモデル化することにより、この2つの要求を満たすことが できることを示すマルチモダリティクエリをより適切に扱うために設計されたGSE-GCNについて説明します
統一的で対話的なユーザインテントユーザインテントζiは基底の値を仮定し、ビデオvに対するクエリqから暗黙に予測できるものとするηsはζiを条件とするベルヌーイ分布からサンプリングされるものとするあるクエリqに対してショットsが要約に選択される事象ηsの確率は(2)式となるインテントモジュールとサマリモジュールを次の様に設計するθg, θhはパラメータでGT ytが与えられたとき次のように最適化することができるインテントモジュール サマリモジュール
GSE-GCN: Granularity-Scalable Ego-Graph Convolutional NetworksGS-Pathways:フレーム数の多い動作やイベントと少ないもので粒度を分けて処理するEgo-Graph CN:意図エッジで意味頂点と意図頂点を結ぶグラフを作りGNNを使う。時間が離れたセグメントの内容は相関が低いと考え、計算量を抑えるためローカル GCN モジュールを利用してショットレベルの特徴を生成し、この特徴を用いてショット選択確率を予測する
Granularity-Scalable Pathways (GS-Pathways)時間的な長さや移動速度の異なる動作は、異なる時間粒度の特徴量で処理する必要があることがわかった。時間粒度スケーラブルなモデルが必要となる粒度の異なる 2つの経路を持つ柔軟な構造を提案する。
評価評価は 推論動画とGT動画の意味的な類似性をIoUでマッチングした上で、精度・再現率・F-1スコアで評価する。F1で最高性能(表2) ビジュアルクエリで結果も示す(表3)各アノテーションされた要約に対して、 固有ベクトル中心度を基準として最も代表的なショットを クエリショットとして選択する。
評価- Ablation Analysis1 Ego-GCNはいずれかのモジュールをTransformerに変えた場合よりよい性能を示す(表4)2 Local GCN はアップアンプリングや転置畳込みより優れている(表5)3 GS-Pathway4パターン試したがFullモデルがベスト(表6)表4表5表6
評価- Ablation Analysis4 異なる経路の特徴を融合するタイミングMiddle、LateはそれぞれMLPの前後。Earlyがベスト(表7)5 Itentモジュールに動画の入力はいるか →なくても既存の手法よりはよい(表8)6 サマリモジュールは別のデータセットに転移可能かまずテキストクエリ データセットで要約モジュールを学習し次に、この事前に学習した要約モジュールを再利用しビジュアルクエリタスクのために意図モジュールのみを学習する。その結果は表9 に示すとおりである。この実験結果から、転送されたモデル は正規の設定で学習したモデルを上回っており、サマリモジュ ールがマルチモダリティに対して交換可能(表9)表7表8表9
評価(定性,GUI)図4 video-3に対して "Food "と "Room "をクエリした際のプロトタイプのイメージではモデルが料理と部屋のシナリオをうまく捉えている。また、食品調理と食品貯蔵という2種類の食品シナリオが識別されているスコアや要約箇所を確認しながらクエリを切り替えられるということがポイント
まとめ・インタラクティブなビデオ要約フレームワーク: IntentVizorを提案・ユーザインテントを導入したマルチモダリティのクエリ表現・対話的なUI・UTEビデ オに基づくビジュアルクエリーガイド付きビデオ要約のためのデータセットをつかってSOTA
所感・要約には作業者の主観が入ると思えば、意図を反映させる取り組みは面白い・タスクに対してGUIもセットで解決にいくというのはCVのアプローチとして ありなのかなという印象(Vision & X枠ではありなのかも。実用上は嬉しい)・CVPR2022でVideo Summerization を扱っている論文自体が少ない2019にランダム抽出と大差ないという指摘があったが...
Thank you for your attention.