Upgrade to Pro — share decks privately, control downloads, hide ads and more …

ICCV 2021 ただただVision and Languageの論文を読んでみた

ICCV 2021 ただただVision and Languageの論文を読んでみた

第九回 全日本コンピュータビジョン勉強会 (2021/12/12)

で紹介しました。
Vision and Language芸人としてICCV 2021で発表された関連論文約60本から独断と偏見でキュレーションしたものです。
これまでのVision and LanguageやTransformer自体を詳しく知りたい人はコンピュータビジョン最前線をご参照ください!(ダイマ)
https://www.kyoritsu-pub.co.jp/bookdetail/9784320125421

Yoshitaka Ushiku

December 12, 2021
Tweet

More Decks by Yoshitaka Ushiku

Other Decks in Research

Transcript

  1. Vision and Language in ICCV 2021 全体の傾向をお知らせ • トピックごとの傾向まとめ •

    ピックアップ論文紹介 トピック分類 • ビジュアル質問応答 • キャプション生成 • ビジョン-ランゲージ ナビゲーション • 表現学習 • その他
  2. ビジュアル質問応答 • 相変わらずの人気 – 全部で14本、一番本数が多い – ビデオ質問応答が増えてきた • 画像のQAも依然として精度競争中だが、新たな切り口も –

    データの偏りを克服するもの[Han+, ICCV’21][Dancette+, 21] – Out-of-distributionデータに強いもの[Cao+, ICCV’21] • その他 QA形式の対話データから 新たな質問を生成 [Matsumori+, ICCV’21] CG環境中での一人称視点 ビデオからQAを収集 [Gao+, ICCV’21]
  3. Pano-AVQA: Grounded Audio-Visual Question Answering on 360° Videos • 5400のパノラマ動画に51700対のQA

    – 動画も音声も理解しないと答えられない – オブジェクト毎にbboxとラベル付け • 音を発生させる/させない • 視覚的な説明 • (音を出す場合)聴覚的な説明 • ベースライン手法による実験 – Transformerで単語/音/画像をエンコード – 映像の位置情報はクオータニオンを利用 – それぞれのモダリティでの表現学習 – 正答率5割程度
  4. Just Ask: Learning to Answer Questions from Millions of Narrated

    Videos • ビデオQAデータセットの自動生成 – 音声解説つきビデオデータセットである HowTo100Mを利用 – 既存手法を組合せてQAペアを生成した HowToVQA69Mを提案 – 手作業でQAペアを付与したiVQAも提案 • 豊富な実験結果のメインポイント – HowToVQA69Mは3割程度しか正しいQAペ アがないが、事前学習に使うと効果大
  5. HAIR: Hierarchical Visual-Semantic Relational Reasoning for Video Question Answering この略称無理やりなの何なの

    • ビデオQAの為にGNNとメモリネット を組み合わせたグラフメモリを提案 – まずオブジェクト間で、次にフレーム間で グラフメモリを更新 – 画像と物体カテゴリで各々グラフを構築 • 4種類のデータセットによる比較 – SoTA(あまり興味がない) – GCNや自己注意、メモリネットより良好
  6. キャプション生成 • 最古参のトピックだが、まだ健在 – 8本というのは第2勢力 – さすがにMS COCOでの精度競争は鎮火 – ビデオや2枚の画像から時系列的な記述を行うものが4本

    • 少しだけピックアップ:シーングラフからのキャプション生成[Nguyen+, ICCV’21] – 画像からシーングラフを経てキャプション生成すると? 精度が良くなる派 vs. 悪くなる派 – 画像からのシーングラフだけじゃなくて、Human-Object-Interaction (HOI) も別途推定して シーングラフを強化するとマシになるよ!
  7. Partial Off-policy Learning: Balance Accuracy and Diversity for Human-Oriented Image

    Captioning • 画像のキャプション生成でのトレードオフ – 強化学習を使う→正確だけど多様性が無いキャプションになる – GANやVAEを使う→多様性は出るが正確でないキャプションになる • 提案手法Partial off-policyな強化学習によって多様性と正確性を両立 – 強化学習を使う(評価指標CIDErの最適化)→正確なキャプション生成のon-policy training – 一定の確率でmax-CIDEr(提案指標)とCIDEr最適化前のモデルに基づいたoff-policy training – max-CIDEr:複数の正解キャプションのどれかに近ければよい – CIDEr:複数の正解キャプションに平均的に近ければよい
  8. Understanding and Evaluating Racial Biases in Image Captioning • キャプション生成の公平性に関する調査

    – Men Also Like Shopping [Zhao+, EMNLP’17] 画像データセットと機械学習モデルにおけるジェンダー バイアスの指摘・本論文にも引用されている – Women Also Snowboard [Hendricks+, ECCV’18] 画像・キャプションデータセットとキャプション生成 モデルにおけるジェンダーバイアスの指摘・引用しろよ • 倫理審査委員会の承認に基づいてMS COCOに含 まれる28,315人のラベル付け – 見た目の性別と肌の色 • データセットと複数のキャプション生成モデルで – まずデータセットが偏っている(白色人種が有色人種の 7.5倍、男性が女性の2倍) – 特に最近のTransformerキャプション生成モデルは • 画像のコンテキストを揃えても肌の色に基づいて記 述が変わる • データセット内の中傷表現も学習してしまう
  9. Describing and Localizing Multiple Changes with Transformers • 2枚の画像間の変化を示すキャプションの生成 –

    既存研究:単一の変化に絞った記述 – CLEVRを利用して、複数の変化が含まれた画像ペアと その記述を含むCLEVR-Multi-Changeデータセットを 構築 – Transformer型の変化キャプション生成モデルである Multi-Change Captioning Transformer (MCCFormer)を 提案 • 2枚の画像間の各領域の関係をエンコードする MCCFormers-D • 画像内の各領域の関係もエンコードできる MCCFormers-S – 提案データセットでも監視カメラ画像のデータセット であるSpot-the-Diffデータセットでも良好な結果 • なお謝辞(右図)は研究メンターシッププログ ラムによるものです(参加者募集中!) https://sites.google.com/view/prmu-rmp/conferences
  10. ビジョン-ランゲージ ナビゲーション • 言語指示によって目的地を目指すエージェントの研究 – Vision-Language Navigation 最初に与えられた言語指示だけで目的地までたどり着くもの (右図) –

    Vision-Dialog Navigation 移動中に言語で質問し、言語による回答を得ることが可能 • 共通の課題はデータセットを潤沢に集めにくいこと – 一方で各エージェントの環境は分散が大きい – 主な方策は以下の2つ • 強化学習の活用 • データをどうにかして増幅 [Anderson+, ICCV 2017] (下はランダムに環境をMixup [Zhu+, ICCV’21])
  11. Self-Motivated Communication Agent for Real-World Vision-Dialog Navigation • VDNでの質問生成はQAの教師データ頼み •

    内発的動機に基づいた質問生成の強化学習 – Whether-to-ask: 今質問するべきか – What-to-ask: 何を質問するべきか • エージェントとナビゲート両方を協調学習 →とくにQAの教師データが無い時に有効
  12. Airbert: In-domain Pretraining for Vision-and-Language Navigation • 目標:データセットの規模小さい問題の解決 • AirbnbからVLNっぽいデータセットを収集

    – BnBデータセット – 室内の画像とそれを記述したキャプション →画像列として道(Path)を生成 →Pathに基づいたインストラクションを生成 (テンプレートとキャプション生成モデル) • 3つの段階による学習で未知環境での精度向上 1: 画像とキャプションのペアから表現学習、2: BnBデー タで事前学習、3: 少数の実データでファインチューン
  13. The Road to Know-Where: An Object-and-Room Informed Sequential BERT for

    Indoor Vision-Language Navigation • BERTをVLNに導入したよ(以上) – VLNならではの損失関数と表現学習アーキテクチャ – 3種類の課題による実験で比較/Ablation study • インストラクションと視界内の物体、向きを 統一的にBERT-likeなモデルで学習(右図) • ステップごとの動作例(下図) – 赤い単語ほどアテンション大 – 青い矩形が認識されている移動先候補 – 緑の矩形が実際に選択された移動先
  14. 表現学習 • これまで:Transformerの流行に合わせて膨大なさいきょうの表現学習が出現 – 画像や文のパーツを1本ずつベクトルで表現 VideoBERT [Sun+, ICCV’19], LXMERT [Tan+Bansal,

    EMNLP’19], ViLBERT [Lu+, NeurIPS’19], VL-BERT [Su+, ICLR’20], UNITER [Chen+, ECCV’20], OSCAR [Li+, ECCV’20], Voken [Tan+Bansal, EMNLP’20], COOT [Ging+, NeurIPS’20] – 画像/文全体をそれぞれ1つのベクトルで表現 VSE++ [Faghri+, BMVC’18], CLIP [Radford+, ICML’21], ALIGN [Jia+, ICML’21] • ICCV 2021では – CrossCLR [Zolfaghari+, ICCV’21]: 動画のクリップと文全体をそれぞれ埋め込む空間の学習 – COOKIE [Wen+, ICCV’21]: 画像と文を独立に入力して埋め込みベクトルを計算可能 ※他の表現学習では画像と文のペアを同時入力しないと埋め込みベクトルが計算できない – LocTex [Liu+, ICCV’21]: マウスカーソル軌跡を利用した表現学習 – GLoRIA [Su+, ICCV’21]: 医療画像と読影レポートからの表現学習 [Tan+Bansal, EMNLP’20]
  15. LocTex: Learning Data-Efficient Visual Representations from Localized Textual Supervision •

    画像、キャプション、その対応を示す マウスカーソルの軌跡から表現学習 – おなじみのContrastive Loss – Localized Narratives [Pont-Tuset+, ECCV’20]を利用して、アテンションがマウ ス軌跡に近づくように(c)を学習 • 比較的少ないデータ量で優れた表現学 習を実現 – 物体のbboxや領域マスクよりも簡便 – ImageNetの数分の一のデータ量で、 ImageNetよりも物体検出や領域分割の精 度が向上
  16. GLoRIA: A Multimodal Global-Local Representation Learning Framework for Label-efficient Medical

    Image Recognition • 医療画像認識のための表現学習 – 画像/文全体の表現はContrastive Lossで学習 – 領域/単語ごとの表現は注意機構によって対 応付けてContrastive Lossで学習 • 実験結果 – CheXpert [Irvin, AAAI’19] データという 65,240人の224,316枚の胸部X線画像と、そ の読影レポートからなるデータを利用 – 3種類の実験結果で、教師データが少数でも 良好な精度が達成されることを確認 • 画像とレポートの検索 • 識別(ファインチューニングとゼロ ショット) • 領域分割 – 右図:アテンションの例 (a) 肺炎、(b) 気胸、 (c) 浮腫, (d) 陰影
  17. その他 その他になっているからと言って論文数が少ない訳では無いので注意 • 3D系が増えてきた – 点群とテキストを扱う論文が4件 – 一部では2次元画像も同時に利用 • Grounding系も引き続き多い

    – 言語と画像内領域(矩形だったりセグメントだったり)との対応 – 言語と動画の時間方向のアライメント – RetrievalやAlignment、Groundingは本質的には類似の課題 (全部ひっくるめるとビジュアル質問応答系に次いで最大派閥) • Vision-Languageを伴うインタラクション理解の論文も多い – Text-to-imageの手法がほとんどない [Ruan+, ICCV’21] のが意外 – Text-guided manipulationの手法の方が多いのがもっと意外
  18. Language-Guided Global Image Editing via Cross-Modal Cyclic Mechanism • 言語指示による画像編集

    – 問題はデータセットの規模の小ささ(VLNと同様) – 正直、このImage ManipulationとImage Editingの分類には懐疑的… • クロスモーダル&サイクルな構造によるEditing Description Network – 編集すべき画像領域を推定するImage-Request Attention (IRA) – ピクセルごとのL1距離などよりも納得性の高い評価指標としての Redescription Similarity Score (RSS) 以下の2つの変化キャプション 同士のCIDEr等の類似度 • 編集前画像と編集後画像(正 解)の変化キャプション • 編集前画像と編集後画像(生 成)の変化キャプション → つまりInception Score的
  19. Towers of Babel: Combining Images, Language, and 3D Geometry for

    Learning Multimodal Vision WikiScenesデータセットの提案といくつかのベースライン実験の報告 23か国の99の聖堂についての6万3千対の画像・キャプション対とCOLMAP [Schonberger+Frahm, CVPR’16] で復元した点群データ
  20. YouRefIt: Embodied Reference Understanding with Language and Gesture • 言語とジェスチャーからなるYouRefItデータセットの

    提案とベースライン実験の報告 – 432の屋内シーンにおける4195のビデオクリップ – 言語による参照と、実際にジェスチャーで指し示したビデオ • Embodied Reference Understanding (ERU) の提案と ベースライン手法による実験 – 視覚的顕著性 – PAF(姿勢) – 元の画像 – 参照表現 を統合して領域を推定 • 右図:フレームごとの 推定結果 – ジェスチャーによって 推定結果が改善
  21. まとめ • Contrastive LossとTransformerが息を吸うように多用されている – 一方でContrastive Loss使うぜというのがコントリビューションとして主張される場合もあっ て格差社会感 • 視覚(静止画)と言語でのVision&Languageから、より多様な世界へ

    – 動画 – 3Dデータ – 音声 • 一方で昔からある研究課題でもまだ研究が続いている – 画像キャプション生成 – ビジュアル質問応答 – まだまだ研究することはありそう! →どうやったらいいか迷った場合はメンターシッププログラムへGo ( https://sites.google.com/view/prmu-rmp/conferences )