Upgrade to Pro — share decks privately, control downloads, hide ads and more …

CVPR 2021 Best PaperとそのHonorable Mentions+Best Student PaperとそのHonorable Mentions 7本読んでみた

CVPR 2021 Best PaperとそのHonorable Mentions+Best Student PaperとそのHonorable Mentions 7本読んでみた

日本ディープラーニング協会主催 CVPR 2021 技術報告会 (2021/07/25)
第七回 全日本コンピュータビジョン勉強会 (後編、2021/07/31)

で紹介しました。以下の論文を1本1ページで読みつつ、Vision and Language芸人としてLess is Moreをじっくり紹介しております。
CVPR 2021でハイライトされた研究をサッと知りたい場合にお役に立てば幸いです。

Best Student Paper Honorable Mentions
"Less is More: ClipBERT for Video-and-Language Learning via Sparse Sampling"
Jie Lei, Linjie Li, Luowei Zhou, Zhe Gan, Tamara L. Berg, Mohit Bansal, Jingjing Liu
"Binary TTC: A Temporal Geofence for Autonomous Navigation"
Abhishek Badki, Orazio Gallo, Jan Kautz, Pradeep Sen
"Real-Time High-Resolution Background Matting"
Shanchuan Lin, Andrey Ryabtsev, Soumyadip Sengupta, Brian Curless, Steve Seitz, Ira Kemelmacher-Shlizerman

Best Student Paper
"Task Programming: Learning Data Efficient Behavior Representations"
Jennifer J. Sun, Ann Kennedy, Eric Zhan, David J. Anderson, Yisong Yue, Pietro Perona

Best Paper Honorable Mentions
"Exploring Simple Siamese Representation Learning"
Xinlei Chen, Kaiming He
"Learning High Fidelity Depths of Dressed Humans by Watching Social Media Dance Videos"
Yasamin Jafarian, Hyun Soo Park

Best Paper
"GIRAFFE: Representing Scenes as Compositional Generative Neural Feature Fields"
Michael Niemeyer, Andreas Geiger

Be0f86176276318b4b9775d795278f7e?s=128

Yoshitaka Ushiku

July 31, 2021
Tweet

Transcript

  1. CVPR 2021 Best PaperとそのHonorable Mentions Best Student PaperとそのHonorable Mentions 7本読んでみた

    牛久 祥孝 losnuevetoros
  2. 今日の内容 下から順に紹介 V&L芸人としての推し [CVPR’21公式]

  3. GIRAFFE: Representing Scenes As Compositional Generative Neural Feature Fields Michael

    Niemeyer, Andreas Geiger
  4. GIRAFFE • 大量の画像を用いたDisentangleを3Dモデル上で実施 – 同じものを多視点から撮影した画像である必要はない • 新たな2次元画像の生成と高度な制御 – NeRFと同様のレンダリングを経て2次元画像を生成

  5. Learning High Fidelity Depths of Dressed Humans by Watching Social

    Media Dance Videos Yasamin Jafarian, Hyun Soo Park
  6. 人物画像からの3次元復元を目指して • TikTokデータセット – 多視点映像の収集は大変 – TikTokのダンス動画を収集 – 人のマスクを背景除去ツールで、 テクスチャの対応(UV座標)をDensePose[Guler+,

    CVPR’18]で付与 • HDNet: Human Depth Neural Network – 違う時刻の画像でも体のパーツの対応は取れるはずなので、これを自己教師 あり学習 – 多視点映像データで法線推定器を学習 さらに推定した法線から3D表面を推定 – 推定した3D表面から演算した法線との 差異も損失関数に加える →色々な画像から人を3次元復元できる
  7. Exploring Simple Siamese Representation Learning Xinlei Chen, Kaiming He

  8. Siamese Netによる表現学習をすんごく簡便にしたよ • 最近の自己教師あり学習:Siamese Net – ネガティブサンプリングで学習データが増大する – モーメントエンコーダやSwAVのクラスタリングは 実装が複雑になる

    • 本来の目的 • 提案手法:SimSiam – 𝜂𝜂𝑥𝑥 を推定するpredictor – 推定した𝜂𝜂𝑥𝑥 との誤差の 最小化→エンコーダの 勾配は片方だけでok • SimCLR [Chen+, ICML’20] • MoCo [He+, CVPR’20] • BYOL [Grill+, NeurIPS’20] • SwAV [Caron+, NeurIPS’20] 下記の少なくとも1つ • 大きなバッチサイズ • ネガティブペアの抽出 • モーメントエンコーダ データ増幅 増幅しまくった𝒙𝒙の表現の平均 エンコーダ
  9. Task Programming: Learning Data Efficient Behavior Representations Jennifer J. Sun,

    Ann Kennedy, Eric Zhan, David J. Anderson, Yisong Yue, Pietro Perona
  10. TREBA: TRajectory Embedding for Behavior Analysis • 行動解析の研究 – 動画を撮った後のアノテーション

    がとても大変 • 提案手法(TREBA)は… – 自己教師あり学習 – タスクプログラミング (データを再現するプログラム を生成する研究) →少ないアノテーションで 大量アノテーションデータと 同様の学習結果
  11. Real-Time High-Resolution Background Matting Shanchuan Lin, Andrey Ryabtsev, Soumyadip Sengupta,

    Brian L. Curless, Steven M. Seitz, Ira Kemelmacher- Shlizerman
  12. Background Matting(背景削除) 自由背景/緑背景から前景だけをリアルタイム・高精細に抽出 • 機械学習ベース • Zoomプラグ インも公開中

  13. Binary TTC: A Temporal Geofence for Autonomous Navigation Abhishek Badki,

    Orazio Gallo, Jan Kautz, Pradeep Sen
  14. Binary TTC (Time-to-contact) 画像中の各ピクセルが観測者の平面にs秒以内にぶつかるか? を推定(B) 入力画像 2枚 量子化されたTTC 連続値のTTC 2値のTTC

    (6.4msで算出可能)
  15. Less Is More: ClipBERT for Video-and-Language Learning via Sparse Sampling

    Jie Lei, Linjie Li, Luowei Zhou, Zhe Gan, Tamara L. Berg, Mohit Bansal, Jingjing Liu
  16. Video-and-Language • Vision-and-Language:視覚と言語の融合理解 – 画像/動画キャプション生成 – キャプション翻訳 – ビジュアル質問応答 –

    キャプションからの画像生成 – Vision-Aware Dialog • 視覚が何かによってバリエーションがある – Image-and-Language – Video-and-Language ← 本論文はこれ
  17. CLIPBERT Video-and-Languageタスクのための表現学習 • よくある手法 – 動画・テキストを 個別エンコード – エンコーダ以外を クロスモーダル学習

    • 何がいけないのか – 表現学習をしているデータセットと、実際にタスクを解かせる データセットがズレていることがよくある – 動画をごっそりGPUメモリに載せようとすると容量が足りない
  18. CLIPBERT Video-and-Languageタスクのための表現学習 • この論文では – 動画からフレームを 少量ランダムに抽出 – テキストと合わせて 全部End-to-End学習

    • 何が嬉しいのか – 3DCNNでなく画像のエンコーダ―を用いているのでメモリも安心 – End-to-End学習
  19. はじめに:この論文への所感 • 機械学習手法自体は自然な設計 – 自然=「納得性が高いが、すごい新しい!というわけではない」 • 圧倒的な実験量と、その精度改善幅が大きい – State-of-the-artを1ポイント更新しました!終わり!と言う論文は •

    そもそもトップ国際会議ではアクセプトされにくい • もちろん賞の対象にもならない • 余談:過去の論文とタイトルが紛らわしい Less Is More: Picking Informative Frames for Video Captioning [Chen+, ECCV 2018] 動画キャプション生成が目的 • キャプションを生成するべきわずかなフレームを抽出 • 検出されたフレームに対してキャプション生成
  20. クリップごとの手法の流れ テキストの処理 パイプライン 動画の処理 パイプライン

  21. 実験結果の概要 Video-and-Languageの具体的なタスク • テキストからのビデオ検索 – MSRVTT, DiDeMo, ActivityNet Captions •

    動画質問応答 – TGIF-QA, MSRVTT-QA, MSRVTT multiple-choice test 動画の平均的な長さ(単位=秒)
  22. 検証結果:入力画像の解像度について 解像度が中くらいで一番良い結果 再現率: 高ければ高いほど良 平均ランク: 低ければ低いほど良 QA正解率: 高いほど良

  23. 検証結果:1秒のクリップごとのフレーム数 フレームを2にしたら十分性能が良くなった! 再現率: 高ければ高いほど良 平均ランク: 低ければ低いほど良 QA正解率: 高いほど良

  24. 検証結果:訓練時のクリップ数 LogSumExpで2つのクリップを統合するのがコスパ最良!

  25. 検証結果:テスト時のクリップ数 cf. テスト時にデータ増幅 (TTA; Test-time augmentation) 4クリップくらいまでは性能が良くなる!

  26. 検証項目:訓練時にクリップを抽出しない方がよい? Dense Uniform:たくさんのクリップを均等に抽出 Sparse Random:少ないクリップをランダムに抽出 4つのクリップをランダムに抽出するのが精度としても最良

  27. 検証項目:訓練時のメモリ消費量と計算量 少量のクリップとフレームで充分! クリップ数 クリップ毎の フレーム数 NVIDIAのV100で 許容されるバッチサイズ NVIDIAのV100で 許容されるバッチサイズ 1回の順伝播と

    逆伝搬にかかる時間 1回の順伝播と 逆伝搬にかかる時間 テキストからの 動画検索の精度(参考) テキストからの 動画検索の精度(参考)
  28. 検証項目:パラメタ初期化のイチオシデータセットは? • 画像だけ(CNN) – 動画(TSN, K700)、画像(ImageNet, grid-feat) • テキストだけ(Transformer) –

    BERTと同じ、本とWikipediaのコーパス CLIPBERTはテキストと画像のペアでも学習できて、高精度!
  29. 検証項目:End-to-End学習にした意味はあったか? (意味は)あった

  30. 検証項目:他の手法との比較 ビデオ検索と質問応答それぞれのトップクラス手法との比較 (当然のように)CLIPBERTでやると一番高精度 MSRVTT DiDeMo ActivityNet Captions テキストからの ビデオ検索 動画質問応答

    TGIF-QA MSRVTT MSRVTT
  31. おわりに:この論文への所感の再掲 • 機械学習手法自体は自然な設計 – 自然=「納得性が高いが、すごい新しい!というわけではない」 • 圧倒的な実験量と、その精度改善幅が大きい – State-of-the-artを1ポイント更新しました!終わり!と言う論文は •

    そもそもトップ国際会議ではアクセプトされにくい • もちろん賞の対象にもならない • 余談:過去の論文とタイトルが紛らわしい Less Is More: Picking Informative Frames for Video Captioning [Chen+, ECCV 2018] 動画キャプション生成が目的 • キャプションを生成するべきわずかなフレームを抽出 • 検出されたフレームに対してキャプション生成
  32. まとめ • Best PaperとBest Paper Honorable Mentions Best Student PaperとStudent

    Paper Honorable Mentions の紹介 – 賞受賞対象になる論文は新概念を提案しているので難しい? →査読者にも分かりやすいように書いているので実は読みやすい • この会議で何が重要視されているのかが端的に出やすい – 自己教師あり学習 – 表現学習 – 画像からの3次元復元と機械学習