Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
CVPR2022論文読み会スライド- IntentVisor
Search
Sponsored
·
SiteGround - Reliable hosting with speed, security, and support you can count on.
→
yo_itz
August 21, 2022
Technology
0
240
CVPR2022論文読み会スライド- IntentVisor
インタラクティブなビデオ要約フレームワーク: IntentVizorの紹介
yo_itz
August 21, 2022
Tweet
Share
Other Decks in Technology
See All in Technology
We Built for Predictability; The Workloads Didn’t Care
stahnma
0
140
プロダクト成長を支える開発基盤とスケールに伴う課題
yuu26
4
1.4k
顧客の言葉を、そのまま信じない勇気
yamatai1212
1
360
ブロックテーマ、WordPress でウェブサイトをつくるということ / 2026.02.07 Gifu WordPress Meetup
torounit
0
190
Frontier Agents (Kiro autonomous agent / AWS Security Agent / AWS DevOps Agent) の紹介
msysh
3
180
SchooでVue.js/Nuxtを技術選定している理由
yamanoku
3
160
配列に見る bash と zsh の違い
kazzpapa3
3
160
学生・新卒・ジュニアから目指すSRE
hiroyaonoe
2
710
インフラエンジニア必見!Kubernetesを用いたクラウドネイティブ設計ポイント大全
daitak
1
380
Introduction to Sansan for Engineers / エンジニア向け会社紹介
sansan33
PRO
6
68k
Claude_CodeでSEOを最適化する_AI_Ops_Community_Vol.2__マーケティングx_AIはここまで進化した.pdf
riku_423
2
610
私たち準委任PdEは2つのプロダクトに挑戦する ~ソフトウェア、開発支援という”二重”のプロダクトエンジニアリングの実践~ / 20260212 Naoki Takahashi
shift_evolve
PRO
1
110
Featured
See All Featured
It's Worth the Effort
3n
188
29k
Put a Button on it: Removing Barriers to Going Fast.
kastner
60
4.2k
The innovator’s Mindset - Leading Through an Era of Exponential Change - McGill University 2025
jdejongh
PRO
1
93
Visualizing Your Data: Incorporating Mongo into Loggly Infrastructure
mongodb
49
9.9k
Navigating Weather and Climate Data
rabernat
0
110
Designing for Timeless Needs
cassininazir
0
130
Design of three-dimensional binary manipulators for pick-and-place task avoiding obstacles (IECON2024)
konakalab
0
350
Rails Girls Zürich Keynote
gr2m
96
14k
A Soul's Torment
seathinner
5
2.3k
The World Runs on Bad Software
bkeepers
PRO
72
12k
What the history of the web can teach us about the future of AI
inesmontani
PRO
1
430
The Anti-SEO Checklist Checklist. Pubcon Cyber Week
ryanjones
0
69
Transcript
第11回 全日本コンピュータビジョン勉強会(後編) CVPR2022読み会(後編) IntentVizor: Towards Generic Query Guided Interactive Video Summarization
2022/08/21 @yo_itz
アジェンダ 自己紹介 どんな論文か 背景・目的 手法の説明 評価 まとめ 所感
自己紹介 @yo_itz 某AIベンチャーのエンジニア 主に受託で画像認識系の DLモデルや 関連するシステム開発に従事 最近動画を撮りためる機会が増えてきて動画要約に興味が湧いてきたところ 今回の論文紹介は所属企業の業務・見解とは無関係です
どんな論文か IntentVizor: Towards Generic Query Guided Interactive Video Summarization Guande
Wu, Jianzhe Lin, Claudio T. Silva; Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2022, pp. 10503-10512 動画要約について、ユーザの意図の反映を目指していること UIも併せて提案されている面白そうだった Vision & XカテゴリのPoster論文、Dataset contibutions*に挙げられている *データセットへの 貢献を主張する か、データセットへの貢献があると審査過程で確認されたもの 動画自体はオリジナル UTEに依存。 https://drive.google.com/file/d/13xbo-T1MFtlWAgtGHkujiDq_5KXtw-wA/view?usp=sharing
背景・目的 動画要約はテキストの概念でクエリを表現し、動画中の各ショットと それを紐づける形で抽出していた。 既存のクエリ駆動要約はたとえば ”テーブル”というテキストのみを クエリとすると、食卓か作業台か区別できないままテーブルの映っ たシーンを拾ってしまう。 また実用上はユーザのフィードバックを反映させることが重要と考 えられるようになってきた。 この対処として異なるモダリティからのクエリに対応する汎用的なモ
デルを提案し、要約プロセスにおいてユーザが対話できるようにす るために、IntentVizorと名付けた新しいフレームワークを提案す る。
ItentVizorフレームワーク (1)ビデオ要約プロセスの インタラクティブな制御 (2)汎用的なマルチモダリティクエ リのサポート、を目標としている。 マルチモダリティクエリを統一的かつ対話的なユーザインテントとしてモデル化すること により、この2つの要求を満たすことが できることを示す マルチモダリティクエリをより適切に扱うために設計されたGSE-GCNについて説明しま す
統一的で対話的なユーザインテント ユーザインテントζ i は基底の値を仮定し、ビデオvに対するクエリqから暗黙に予測できるものとする η s はζiを条件とするベルヌーイ分布からサンプリングされるものとする あるクエリqに対してショットsが要約に選択される事象η s の確率は(2)式となる
インテントモジュールとサマリモジュールを次の様に設計する θ g , θ h はパラメータでGT y t が与えられたとき次のように最適化することができる インテントモジュール サマリモジュール
GSE-GCN: Granularity-Scalable Ego-Graph Convolutional Networks GS-Pathways:フレーム数の多い動作やイベントと少ないもので粒度を分けて処理する Ego-Graph CN:意図エッジで意味頂点と意図頂点を結ぶグラフを作り GNNを使う。時間が離れたセグメントの内容は相関が低いと考え、計算量を抑えるため ローカル
GCN モジュールを利用してショットレベルの特徴を生成し、この特徴を用いてショット選択確率を予測する
Granularity-Scalable Pathways (GS-Pathways) 時間的な長さや移動速度の異なる動作は、異なる時間粒度の特徴量で処理する必要があることがわかった。 時間粒度スケーラブルなモデルが必要となる粒度の異なる 2つの経路を持つ柔軟な構造を提案する。
評価 評価は 推論動画とGT動画の意味的な類似性をIoUでマッチングした上で、精度・再現率・ F-1スコア で評価する。F1で最高性能(表2) ビジュアルクエリで結果も示す(表 3)各アノテーションされた要約に 対して、 固有ベクトル中心度を基準として最も代表的なショットを クエリショットとして選択する。
評価- Ablation Analysis 1 Ego-GCNはいずれかのモジュールを Transformerに変え た場合よりよい性能を示す (表4) 2 Local GCN はアップアンプリングや転置畳込みより優れ
ている(表5) 3 GS-Pathway4パターン試したがFullモデルがベスト(表6) 表4 表5 表6
評価- Ablation Analysis 4 異なる経路の特徴を融合するタイミング Middle、LateはそれぞれMLPの前後。Earlyがベスト(表7) 5 Itentモジュールに動画の入力はいるか →なくても既存の手法よりはよい(表8) 6 サマリモジュールは別のデータセットに転移可能か まずテキストクエリ
データセットで要約モジュールを学習し次に、この事前に学習し た要約モジュールを再利用しビジュアルクエリタスクのために意図モジュールのみ を学習する。その結果は表9 に示すとおりである。この実験結果から、転送された モデル は正規の設定で学習したモデルを上回っており、サマリモジュ ールがマル チモダリティに対して交換可能(表9) 表7 表8 表9
評価(定性,GUI) 図4 video-3に対して "Food "と "Room "をクエリした際のプロトタイプのイメージではモデルが料理と部屋のシナリオをうまく捉えている。また、食品調理と食品貯蔵という2種類 の食品シナリオが識別されている スコアや要約箇所を確認しながらクエリを切り替えられるということがポイント
まとめ ・インタラクティブなビデオ要約フレームワーク: IntentVizorを提案 ・ユーザインテントを導入したマルチモダリティのクエリ表現 ・対話的なUI ・UTEビデ オに基づくビジュアルクエリーガイド付きビデオ要約のためのデータセッ トをつかってSOTA
所感 ・要約には作業者の主観が入ると思えば、意図を反映させる取り組みは面白い ・タスクに対してGUIもセットで解決にいくというのはCVのアプローチとして ありなのかなという印象(Vision & X枠ではありなのかも。実用上は嬉しい) ・CVPR2022でVideo Summerization を扱っている論文自体が少ない 2019にランダム抽出と大差ないという指摘があったが...
Thank you for your attention.