CVPR 2021 Best PaperとそのHonorable Mentions＋Best Student PaperとそのHonorable Mentions 7本読んでみた

CVPR 2021 Best PaperとそのHonorable Mentions Best Student PaperとそのHonorable Mentions 7本読んでみた
牛久祥孝 losnuevetoros

今日の内容下から順に紹介 V&L芸人としての推し [CVPR’21公式]

GIRAFFE: Representing Scenes As Compositional Generative Neural Feature Fields Michael
Niemeyer, Andreas Geiger

GIRAFFE • 大量の画像を用いたDisentangleを3Dモデル上で実施 – 同じものを多視点から撮影した画像である必要はない • 新たな2次元画像の生成と高度な制御 – NeRFと同様のレンダリングを経て2次元画像を生成

Learning High Fidelity Depths of Dressed Humans by Watching Social
Media Dance Videos Yasamin Jafarian, Hyun Soo Park

人物画像からの3次元復元を目指して • TikTokデータセット – 多視点映像の収集は大変 – TikTokのダンス動画を収集 – 人のマスクを背景除去ツールで、テクスチャの対応（UV座標）をDensePose[Guler+,
CVPR’18]で付与 • HDNet: Human Depth Neural Network – 違う時刻の画像でも体のパーツの対応は取れるはずなので、これを自己教師あり学習 – 多視点映像データで法線推定器を学習さらに推定した法線から3D表面を推定 – 推定した3D表面から演算した法線との差異も損失関数に加える →色々な画像から人を3次元復元できる

Exploring Simple Siamese Representation Learning Xinlei Chen, Kaiming He

Siamese Netによる表現学習をすんごく簡便にしたよ • 最近の自己教師あり学習：Siamese Net – ネガティブサンプリングで学習データが増大する – モーメントエンコーダやSwAVのクラスタリングは実装が複雑になる
• 本来の目的 • 提案手法：SimSiam – 𝜂𝜂𝑥𝑥 を推定するpredictor – 推定した𝜂𝜂𝑥𝑥 との誤差の最小化→エンコーダの勾配は片方だけでok • SimCLR [Chen+, ICML’20] • MoCo [He+, CVPR’20] • BYOL [Grill+, NeurIPS’20] • SwAV [Caron+, NeurIPS’20] 下記の少なくとも1つ • 大きなバッチサイズ • ネガティブペアの抽出 • モーメントエンコーダデータ増幅増幅しまくった𝒙𝒙の表現の平均エンコーダ

Task Programming: Learning Data Efficient Behavior Representations Jennifer J. Sun,
Ann Kennedy, Eric Zhan, David J. Anderson, Yisong Yue, Pietro Perona

TREBA: TRajectory Embedding for Behavior Analysis • 行動解析の研究 – 動画を撮った後のアノテーション
がとても大変 • 提案手法（TREBA）は… – 自己教師あり学習 – タスクプログラミング（データを再現するプログラムを生成する研究） →少ないアノテーションで大量アノテーションデータと同様の学習結果

Real-Time High-Resolution Background Matting Shanchuan Lin, Andrey Ryabtsev, Soumyadip Sengupta,
Brian L. Curless, Steven M. Seitz, Ira Kemelmacher- Shlizerman

Background Matting（背景削除）自由背景/緑背景から前景だけをリアルタイム・高精細に抽出 • 機械学習ベース • Zoomプラグインも公開中

Binary TTC: A Temporal Geofence for Autonomous Navigation Abhishek Badki,
Orazio Gallo, Jan Kautz, Pradeep Sen

Binary TTC (Time-to-contact) 画像中の各ピクセルが観測者の平面にs秒以内にぶつかるか？を推定（B）入力画像 2枚量子化されたTTC 連続値のTTC 2値のTTC
（6.4msで算出可能）

Less Is More: ClipBERT for Video-and-Language Learning via Sparse Sampling
Jie Lei, Linjie Li, Luowei Zhou, Zhe Gan, Tamara L. Berg, Mohit Bansal, Jingjing Liu

Video-and-Language • Vision-and-Language：視覚と言語の融合理解 – 画像/動画キャプション生成 – キャプション翻訳 – ビジュアル質問応答 –
キャプションからの画像生成 – Vision-Aware Dialog • 視覚が何かによってバリエーションがある – Image-and-Language – Video-and-Language ← 本論文はこれ

CLIPBERT Video-and-Languageタスクのための表現学習 • よくある手法 – 動画・テキストを個別エンコード – エンコーダ以外をクロスモーダル学習
• 何がいけないのか – 表現学習をしているデータセットと、実際にタスクを解かせるデータセットがズレていることがよくある – 動画をごっそりGPUメモリに載せようとすると容量が足りない

CLIPBERT Video-and-Languageタスクのための表現学習 • この論文では – 動画からフレームを少量ランダムに抽出 – テキストと合わせて全部End-to-End学習
• 何が嬉しいのか – 3DCNNでなく画像のエンコーダ―を用いているのでメモリも安心 – End-to-End学習

はじめに：この論文への所感 • 機械学習手法自体は自然な設計 – 自然＝「納得性が高いが、すごい新しい！というわけではない」 • 圧倒的な実験量と、その精度改善幅が大きい – State-of-the-artを1ポイント更新しました！終わり！と言う論文は •
そもそもトップ国際会議ではアクセプトされにくい • もちろん賞の対象にもならない • 余談：過去の論文とタイトルが紛らわしい Less Is More: Picking Informative Frames for Video Captioning [Chen+, ECCV 2018] 動画キャプション生成が目的 • キャプションを生成するべきわずかなフレームを抽出 • 検出されたフレームに対してキャプション生成

クリップごとの手法の流れテキストの処理パイプライン動画の処理パイプライン

実験結果の概要 Video-and-Languageの具体的なタスク • テキストからのビデオ検索 – MSRVTT, DiDeMo, ActivityNet Captions •
動画質問応答 – TGIF-QA, MSRVTT-QA, MSRVTT multiple-choice test 動画の平均的な長さ（単位＝秒）

検証結果：入力画像の解像度について解像度が中くらいで一番良い結果再現率：高ければ高いほど良平均ランク：低ければ低いほど良 QA正解率：高いほど良

検証結果：1秒のクリップごとのフレーム数フレームを2にしたら十分性能が良くなった！再現率：高ければ高いほど良平均ランク：低ければ低いほど良 QA正解率：高いほど良

検証結果：訓練時のクリップ数 LogSumExpで2つのクリップを統合するのがコスパ最良！

検証結果：テスト時のクリップ数 cf. テスト時にデータ増幅 (TTA; Test-time augmentation) 4クリップくらいまでは性能が良くなる！

検証項目：訓練時にクリップを抽出しない方がよい？ Dense Uniform：たくさんのクリップを均等に抽出 Sparse Random：少ないクリップをランダムに抽出 4つのクリップをランダムに抽出するのが精度としても最良

検証項目：訓練時のメモリ消費量と計算量少量のクリップとフレームで充分！クリップ数クリップ毎のフレーム数 NVIDIAのV100で許容されるバッチサイズ NVIDIAのV100で許容されるバッチサイズ 1回の順伝播と
逆伝搬にかかる時間 1回の順伝播と逆伝搬にかかる時間テキストからの動画検索の精度（参考）テキストからの動画検索の精度（参考）

検証項目：パラメタ初期化のイチオシデータセットは？ • 画像だけ（CNN） – 動画（TSN, K700）、画像（ImageNet, grid-feat） • テキストだけ（Transformer） –
BERTと同じ、本とWikipediaのコーパス CLIPBERTはテキストと画像のペアでも学習できて、高精度！

検証項目：End-to-End学習にした意味はあったか？（意味は）あった

検証項目：他の手法との比較ビデオ検索と質問応答それぞれのトップクラス手法との比較（当然のように）CLIPBERTでやると一番高精度 MSRVTT DiDeMo ActivityNet Captions テキストからのビデオ検索動画質問応答
TGIF-QA MSRVTT MSRVTT

おわりに：この論文への所感の再掲 • 機械学習手法自体は自然な設計 – 自然＝「納得性が高いが、すごい新しい！というわけではない」 • 圧倒的な実験量と、その精度改善幅が大きい – State-of-the-artを1ポイント更新しました！終わり！と言う論文は •
そもそもトップ国際会議ではアクセプトされにくい • もちろん賞の対象にもならない • 余談：過去の論文とタイトルが紛らわしい Less Is More: Picking Informative Frames for Video Captioning [Chen+, ECCV 2018] 動画キャプション生成が目的 • キャプションを生成するべきわずかなフレームを抽出 • 検出されたフレームに対してキャプション生成

まとめ • Best PaperとBest Paper Honorable Mentions Best Student PaperとStudent
Paper Honorable Mentions の紹介 – 賞受賞対象になる論文は新概念を提案しているので難しい？ →査読者にも分かりやすいように書いているので実は読みやすい • この会議で何が重要視されているのかが端的に出やすい – 自己教師あり学習 – 表現学習 – 画像からの3次元復元と機械学習

CVPR 2021 Best PaperとそのHonorable Mentions＋Best ...

CVPR 2021 Best PaperとそのHonorable Mentions＋Best Student PaperとそのHonorable Mentions 7本読んでみた

Yoshitaka Ushiku PRO

More Decks by Yoshitaka Ushiku

Other Decks in Technology

Featured

Transcript