Slide 1

Slide 1 text

CVPR 2021 Best PaperとそのHonorable Mentions Best Student PaperとそのHonorable Mentions 7本読んでみた 牛久 祥孝 losnuevetoros

Slide 2

Slide 2 text

今日の内容 下から順に紹介 V&L芸人としての推し [CVPR’21公式]

Slide 3

Slide 3 text

GIRAFFE: Representing Scenes As Compositional Generative Neural Feature Fields Michael Niemeyer, Andreas Geiger

Slide 4

Slide 4 text

GIRAFFE • 大量の画像を用いたDisentangleを3Dモデル上で実施 – 同じものを多視点から撮影した画像である必要はない • 新たな2次元画像の生成と高度な制御 – NeRFと同様のレンダリングを経て2次元画像を生成

Slide 5

Slide 5 text

Learning High Fidelity Depths of Dressed Humans by Watching Social Media Dance Videos Yasamin Jafarian, Hyun Soo Park

Slide 6

Slide 6 text

人物画像からの3次元復元を目指して • TikTokデータセット – 多視点映像の収集は大変 – TikTokのダンス動画を収集 – 人のマスクを背景除去ツールで、 テクスチャの対応(UV座標)をDensePose[Guler+, CVPR’18]で付与 • HDNet: Human Depth Neural Network – 違う時刻の画像でも体のパーツの対応は取れるはずなので、これを自己教師 あり学習 – 多視点映像データで法線推定器を学習 さらに推定した法線から3D表面を推定 – 推定した3D表面から演算した法線との 差異も損失関数に加える →色々な画像から人を3次元復元できる

Slide 7

Slide 7 text

Exploring Simple Siamese Representation Learning Xinlei Chen, Kaiming He

Slide 8

Slide 8 text

Siamese Netによる表現学習をすんごく簡便にしたよ • 最近の自己教師あり学習:Siamese Net – ネガティブサンプリングで学習データが増大する – モーメントエンコーダやSwAVのクラスタリングは 実装が複雑になる • 本来の目的 • 提案手法:SimSiam – 𝜂𝜂𝑥𝑥 を推定するpredictor – 推定した𝜂𝜂𝑥𝑥 との誤差の 最小化→エンコーダの 勾配は片方だけでok • SimCLR [Chen+, ICML’20] • MoCo [He+, CVPR’20] • BYOL [Grill+, NeurIPS’20] • SwAV [Caron+, NeurIPS’20] 下記の少なくとも1つ • 大きなバッチサイズ • ネガティブペアの抽出 • モーメントエンコーダ データ増幅 増幅しまくった𝒙𝒙の表現の平均 エンコーダ

Slide 9

Slide 9 text

Task Programming: Learning Data Efficient Behavior Representations Jennifer J. Sun, Ann Kennedy, Eric Zhan, David J. Anderson, Yisong Yue, Pietro Perona

Slide 10

Slide 10 text

TREBA: TRajectory Embedding for Behavior Analysis • 行動解析の研究 – 動画を撮った後のアノテーション がとても大変 • 提案手法(TREBA)は… – 自己教師あり学習 – タスクプログラミング (データを再現するプログラム を生成する研究) →少ないアノテーションで 大量アノテーションデータと 同様の学習結果

Slide 11

Slide 11 text

Real-Time High-Resolution Background Matting Shanchuan Lin, Andrey Ryabtsev, Soumyadip Sengupta, Brian L. Curless, Steven M. Seitz, Ira Kemelmacher- Shlizerman

Slide 12

Slide 12 text

Background Matting(背景削除) 自由背景/緑背景から前景だけをリアルタイム・高精細に抽出 • 機械学習ベース • Zoomプラグ インも公開中

Slide 13

Slide 13 text

Binary TTC: A Temporal Geofence for Autonomous Navigation Abhishek Badki, Orazio Gallo, Jan Kautz, Pradeep Sen

Slide 14

Slide 14 text

Binary TTC (Time-to-contact) 画像中の各ピクセルが観測者の平面にs秒以内にぶつかるか? を推定(B) 入力画像 2枚 量子化されたTTC 連続値のTTC 2値のTTC (6.4msで算出可能)

Slide 15

Slide 15 text

Less Is More: ClipBERT for Video-and-Language Learning via Sparse Sampling Jie Lei, Linjie Li, Luowei Zhou, Zhe Gan, Tamara L. Berg, Mohit Bansal, Jingjing Liu

Slide 16

Slide 16 text

Video-and-Language • Vision-and-Language:視覚と言語の融合理解 – 画像/動画キャプション生成 – キャプション翻訳 – ビジュアル質問応答 – キャプションからの画像生成 – Vision-Aware Dialog • 視覚が何かによってバリエーションがある – Image-and-Language – Video-and-Language ← 本論文はこれ

Slide 17

Slide 17 text

CLIPBERT Video-and-Languageタスクのための表現学習 • よくある手法 – 動画・テキストを 個別エンコード – エンコーダ以外を クロスモーダル学習 • 何がいけないのか – 表現学習をしているデータセットと、実際にタスクを解かせる データセットがズレていることがよくある – 動画をごっそりGPUメモリに載せようとすると容量が足りない

Slide 18

Slide 18 text

CLIPBERT Video-and-Languageタスクのための表現学習 • この論文では – 動画からフレームを 少量ランダムに抽出 – テキストと合わせて 全部End-to-End学習 • 何が嬉しいのか – 3DCNNでなく画像のエンコーダ―を用いているのでメモリも安心 – End-to-End学習

Slide 19

Slide 19 text

はじめに:この論文への所感 • 機械学習手法自体は自然な設計 – 自然=「納得性が高いが、すごい新しい!というわけではない」 • 圧倒的な実験量と、その精度改善幅が大きい – State-of-the-artを1ポイント更新しました!終わり!と言う論文は • そもそもトップ国際会議ではアクセプトされにくい • もちろん賞の対象にもならない • 余談:過去の論文とタイトルが紛らわしい Less Is More: Picking Informative Frames for Video Captioning [Chen+, ECCV 2018] 動画キャプション生成が目的 • キャプションを生成するべきわずかなフレームを抽出 • 検出されたフレームに対してキャプション生成

Slide 20

Slide 20 text

クリップごとの手法の流れ テキストの処理 パイプライン 動画の処理 パイプライン

Slide 21

Slide 21 text

実験結果の概要 Video-and-Languageの具体的なタスク • テキストからのビデオ検索 – MSRVTT, DiDeMo, ActivityNet Captions • 動画質問応答 – TGIF-QA, MSRVTT-QA, MSRVTT multiple-choice test 動画の平均的な長さ(単位=秒)

Slide 22

Slide 22 text

検証結果:入力画像の解像度について 解像度が中くらいで一番良い結果 再現率: 高ければ高いほど良 平均ランク: 低ければ低いほど良 QA正解率: 高いほど良

Slide 23

Slide 23 text

検証結果:1秒のクリップごとのフレーム数 フレームを2にしたら十分性能が良くなった! 再現率: 高ければ高いほど良 平均ランク: 低ければ低いほど良 QA正解率: 高いほど良

Slide 24

Slide 24 text

検証結果:訓練時のクリップ数 LogSumExpで2つのクリップを統合するのがコスパ最良!

Slide 25

Slide 25 text

検証結果:テスト時のクリップ数 cf. テスト時にデータ増幅 (TTA; Test-time augmentation) 4クリップくらいまでは性能が良くなる!

Slide 26

Slide 26 text

検証項目:訓練時にクリップを抽出しない方がよい? Dense Uniform:たくさんのクリップを均等に抽出 Sparse Random:少ないクリップをランダムに抽出 4つのクリップをランダムに抽出するのが精度としても最良

Slide 27

Slide 27 text

検証項目:訓練時のメモリ消費量と計算量 少量のクリップとフレームで充分! クリップ数 クリップ毎の フレーム数 NVIDIAのV100で 許容されるバッチサイズ NVIDIAのV100で 許容されるバッチサイズ 1回の順伝播と 逆伝搬にかかる時間 1回の順伝播と 逆伝搬にかかる時間 テキストからの 動画検索の精度(参考) テキストからの 動画検索の精度(参考)

Slide 28

Slide 28 text

検証項目:パラメタ初期化のイチオシデータセットは? • 画像だけ(CNN) – 動画(TSN, K700)、画像(ImageNet, grid-feat) • テキストだけ(Transformer) – BERTと同じ、本とWikipediaのコーパス CLIPBERTはテキストと画像のペアでも学習できて、高精度!

Slide 29

Slide 29 text

検証項目:End-to-End学習にした意味はあったか? (意味は)あった

Slide 30

Slide 30 text

検証項目:他の手法との比較 ビデオ検索と質問応答それぞれのトップクラス手法との比較 (当然のように)CLIPBERTでやると一番高精度 MSRVTT DiDeMo ActivityNet Captions テキストからの ビデオ検索 動画質問応答 TGIF-QA MSRVTT MSRVTT

Slide 31

Slide 31 text

おわりに:この論文への所感の再掲 • 機械学習手法自体は自然な設計 – 自然=「納得性が高いが、すごい新しい!というわけではない」 • 圧倒的な実験量と、その精度改善幅が大きい – State-of-the-artを1ポイント更新しました!終わり!と言う論文は • そもそもトップ国際会議ではアクセプトされにくい • もちろん賞の対象にもならない • 余談:過去の論文とタイトルが紛らわしい Less Is More: Picking Informative Frames for Video Captioning [Chen+, ECCV 2018] 動画キャプション生成が目的 • キャプションを生成するべきわずかなフレームを抽出 • 検出されたフレームに対してキャプション生成

Slide 32

Slide 32 text

まとめ • Best PaperとBest Paper Honorable Mentions Best Student PaperとStudent Paper Honorable Mentions の紹介 – 賞受賞対象になる論文は新概念を提案しているので難しい? →査読者にも分かりやすいように書いているので実は読みやすい • この会議で何が重要視されているのかが端的に出やすい – 自己教師あり学習 – 表現学習 – 画像からの3次元復元と機械学習