Upgrade to Pro — share decks privately, control downloads, hide ads and more …

CVPR 2021 Best PaperとそのHonorable Mentions+Best Student PaperとそのHonorable Mentions 7本読んでみた

CVPR 2021 Best PaperとそのHonorable Mentions+Best Student PaperとそのHonorable Mentions 7本読んでみた

日本ディープラーニング協会主催 CVPR 2021 技術報告会 (2021/07/25)
第七回 全日本コンピュータビジョン勉強会 (後編、2021/07/31)

で紹介しました。以下の論文を1本1ページで読みつつ、Vision and Language芸人としてLess is Moreをじっくり紹介しております。
CVPR 2021でハイライトされた研究をサッと知りたい場合にお役に立てば幸いです。

Best Student Paper Honorable Mentions
"Less is More: ClipBERT for Video-and-Language Learning via Sparse Sampling"
Jie Lei, Linjie Li, Luowei Zhou, Zhe Gan, Tamara L. Berg, Mohit Bansal, Jingjing Liu
"Binary TTC: A Temporal Geofence for Autonomous Navigation"
Abhishek Badki, Orazio Gallo, Jan Kautz, Pradeep Sen
"Real-Time High-Resolution Background Matting"
Shanchuan Lin, Andrey Ryabtsev, Soumyadip Sengupta, Brian Curless, Steve Seitz, Ira Kemelmacher-Shlizerman

Best Student Paper
"Task Programming: Learning Data Efficient Behavior Representations"
Jennifer J. Sun, Ann Kennedy, Eric Zhan, David J. Anderson, Yisong Yue, Pietro Perona

Best Paper Honorable Mentions
"Exploring Simple Siamese Representation Learning"
Xinlei Chen, Kaiming He
"Learning High Fidelity Depths of Dressed Humans by Watching Social Media Dance Videos"
Yasamin Jafarian, Hyun Soo Park

Best Paper
"GIRAFFE: Representing Scenes as Compositional Generative Neural Feature Fields"
Michael Niemeyer, Andreas Geiger

Yoshitaka Ushiku

July 31, 2021
Tweet

More Decks by Yoshitaka Ushiku

Other Decks in Technology

Transcript

  1. Learning High Fidelity Depths of Dressed Humans by Watching Social

    Media Dance Videos Yasamin Jafarian, Hyun Soo Park
  2. 人物画像からの3次元復元を目指して • TikTokデータセット – 多視点映像の収集は大変 – TikTokのダンス動画を収集 – 人のマスクを背景除去ツールで、 テクスチャの対応(UV座標)をDensePose[Guler+,

    CVPR’18]で付与 • HDNet: Human Depth Neural Network – 違う時刻の画像でも体のパーツの対応は取れるはずなので、これを自己教師 あり学習 – 多視点映像データで法線推定器を学習 さらに推定した法線から3D表面を推定 – 推定した3D表面から演算した法線との 差異も損失関数に加える →色々な画像から人を3次元復元できる
  3. Siamese Netによる表現学習をすんごく簡便にしたよ • 最近の自己教師あり学習:Siamese Net – ネガティブサンプリングで学習データが増大する – モーメントエンコーダやSwAVのクラスタリングは 実装が複雑になる

    • 本来の目的 • 提案手法:SimSiam – 𝜂𝜂𝑥𝑥 を推定するpredictor – 推定した𝜂𝜂𝑥𝑥 との誤差の 最小化→エンコーダの 勾配は片方だけでok • SimCLR [Chen+, ICML’20] • MoCo [He+, CVPR’20] • BYOL [Grill+, NeurIPS’20] • SwAV [Caron+, NeurIPS’20] 下記の少なくとも1つ • 大きなバッチサイズ • ネガティブペアの抽出 • モーメントエンコーダ データ増幅 増幅しまくった𝒙𝒙の表現の平均 エンコーダ
  4. Task Programming: Learning Data Efficient Behavior Representations Jennifer J. Sun,

    Ann Kennedy, Eric Zhan, David J. Anderson, Yisong Yue, Pietro Perona
  5. TREBA: TRajectory Embedding for Behavior Analysis • 行動解析の研究 – 動画を撮った後のアノテーション

    がとても大変 • 提案手法(TREBA)は… – 自己教師あり学習 – タスクプログラミング (データを再現するプログラム を生成する研究) →少ないアノテーションで 大量アノテーションデータと 同様の学習結果
  6. Real-Time High-Resolution Background Matting Shanchuan Lin, Andrey Ryabtsev, Soumyadip Sengupta,

    Brian L. Curless, Steven M. Seitz, Ira Kemelmacher- Shlizerman
  7. Less Is More: ClipBERT for Video-and-Language Learning via Sparse Sampling

    Jie Lei, Linjie Li, Luowei Zhou, Zhe Gan, Tamara L. Berg, Mohit Bansal, Jingjing Liu
  8. Video-and-Language • Vision-and-Language:視覚と言語の融合理解 – 画像/動画キャプション生成 – キャプション翻訳 – ビジュアル質問応答 –

    キャプションからの画像生成 – Vision-Aware Dialog • 視覚が何かによってバリエーションがある – Image-and-Language – Video-and-Language ← 本論文はこれ
  9. CLIPBERT Video-and-Languageタスクのための表現学習 • よくある手法 – 動画・テキストを 個別エンコード – エンコーダ以外を クロスモーダル学習

    • 何がいけないのか – 表現学習をしているデータセットと、実際にタスクを解かせる データセットがズレていることがよくある – 動画をごっそりGPUメモリに載せようとすると容量が足りない
  10. CLIPBERT Video-and-Languageタスクのための表現学習 • この論文では – 動画からフレームを 少量ランダムに抽出 – テキストと合わせて 全部End-to-End学習

    • 何が嬉しいのか – 3DCNNでなく画像のエンコーダ―を用いているのでメモリも安心 – End-to-End学習
  11. はじめに:この論文への所感 • 機械学習手法自体は自然な設計 – 自然=「納得性が高いが、すごい新しい!というわけではない」 • 圧倒的な実験量と、その精度改善幅が大きい – State-of-the-artを1ポイント更新しました!終わり!と言う論文は •

    そもそもトップ国際会議ではアクセプトされにくい • もちろん賞の対象にもならない • 余談:過去の論文とタイトルが紛らわしい Less Is More: Picking Informative Frames for Video Captioning [Chen+, ECCV 2018] 動画キャプション生成が目的 • キャプションを生成するべきわずかなフレームを抽出 • 検出されたフレームに対してキャプション生成
  12. 実験結果の概要 Video-and-Languageの具体的なタスク • テキストからのビデオ検索 – MSRVTT, DiDeMo, ActivityNet Captions •

    動画質問応答 – TGIF-QA, MSRVTT-QA, MSRVTT multiple-choice test 動画の平均的な長さ(単位=秒)
  13. 検証項目:訓練時のメモリ消費量と計算量 少量のクリップとフレームで充分! クリップ数 クリップ毎の フレーム数 NVIDIAのV100で 許容されるバッチサイズ NVIDIAのV100で 許容されるバッチサイズ 1回の順伝播と

    逆伝搬にかかる時間 1回の順伝播と 逆伝搬にかかる時間 テキストからの 動画検索の精度(参考) テキストからの 動画検索の精度(参考)
  14. おわりに:この論文への所感の再掲 • 機械学習手法自体は自然な設計 – 自然=「納得性が高いが、すごい新しい!というわけではない」 • 圧倒的な実験量と、その精度改善幅が大きい – State-of-the-artを1ポイント更新しました!終わり!と言う論文は •

    そもそもトップ国際会議ではアクセプトされにくい • もちろん賞の対象にもならない • 余談:過去の論文とタイトルが紛らわしい Less Is More: Picking Informative Frames for Video Captioning [Chen+, ECCV 2018] 動画キャプション生成が目的 • キャプションを生成するべきわずかなフレームを抽出 • 検出されたフレームに対してキャプション生成
  15. まとめ • Best PaperとBest Paper Honorable Mentions Best Student PaperとStudent

    Paper Honorable Mentions の紹介 – 賞受賞対象になる論文は新概念を提案しているので難しい? →査読者にも分かりやすいように書いているので実は読みやすい • この会議で何が重要視されているのかが端的に出やすい – 自己教師あり学習 – 表現学習 – 画像からの3次元復元と機械学習