Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Vision and Language とその先へ

Vision and Language とその先へ

2022年2月9日(水)- 11日(金)第6回 統計・機械学習若手シンポジウム での講演資料です。

CNNの画像認識におけるブレークスルーから10年、Transformerの機械翻訳におけるブレークスルーから5年。異なる様態のデータに対する機械学習応用の相互参入障壁が大きく緩和された現在、画像情報と言語情報による理解や変換・生成を目的とするVision and Languageは、その周辺分野も巻き込みながら勢いを増している研究分野です。本講演では、Vision and Languageと呼ばれる各研究課題の生い立ちや発展、そして今後の課題について概観します。

いままでもビジョン&ランゲージの講演は何度とやらせて頂いておりますが、今回少し気合を入れて更新しました。ビジョン&ランゲージは本当にタスクが色々増えて来て収集が付かない状況ですが、90分の講演で自分が考え得る限りでは最大のカバレッジを達成したつもりです。また、単にタスクの羅列で終わらないように、タスクの体系化や共通の話題/課題にも言及してあるつもりです。

一方で、最近のキラキラテーマであるTransformer活用については同シンポジウムでチュートリアル講演を行う品川政太朗先生(NAIST)に勝手におんぶにだっこしてほとんど割愛してあります。私自身のTransformerおよびそのビジョン&ランゲージへの応用についての資料は
https://speakerdeck.com/yushiku/end-to-end-object-detection-with-transformers
https://speakerdeck.com/yushiku/do-transformer-modifications-transfer-across-implementations-and-applications
https://speakerdeck.com/yushiku/iccv-2021-tadatadavision-and-languagefalselun-wen-wodu-ndemita
の3本をご覧ください。

Yoshitaka Ushiku

February 09, 2022
Tweet

More Decks by Yoshitaka Ushiku

Other Decks in Technology

Transcript

  1. 自己紹介(学職歴) 2013.6~2013.8 Microsoft Research Intern 2014.3 博士(情報理工学)、東京大学 2014.4~2016.3 NTT CS研

    研究員 2016.4~2018.9 東京大学 講師 (原田牛久研究室) 2016.9~ 産業技術総合研究所 協力研究員 2016.12~2018.9 国立国語研究所 共同研究員 2018.10~ オムロンサイニックエックス株式会社 Principal Investigator 2019.1~ 株式会社 Ridge-i Chief Research Officer 2020.4~ 津田塾大学 非常勤講師 2021.7~ 東北大学 非常勤講師 2022.1~ 合同会社ナインブルズ 代表 [Ushiku+, ACMMM 2012] [Ushiku+, ICCV 2015] 画像キャプション生成 動画の特定区間と キャプションの相互検索 [Yamaguchi+, ICCV 2017] A guy is skiing with no shirt on and yellow snow pants. A yellow train on the tracks near a train station.
  2. 自己紹介(その他) 主な学術団体活動 ACM・IEEE・情報処理学会・応用物理学会 一般会員 コンピュータビジョン勉強会@関東 幹事 電子情報通信学会 パターン認識・メディア理解研究会 専門委員 情報・システムソサイエティ

    庶務幹事 著作権管理委員会 委員 人工知能学会 論文誌編集委員会 編集委員 建築情報学会 理事 日本ロボット学会 代議員 日本ディープラーニング協会 有識者会員 共立出版 コンピュータビジョン最前線 編集 主な研究プロジェクト 2021-2025 マテリアル探索空間拡張プラットフォームの構築 JST 未来社会創造事業(代表:長藤圭介) 2017-2020 多様なデータへのキャプションを自動で生成する技術の創出 JST ACT-I(代表:牛久祥孝) 2017-2021 機械可読時代における文字科学の創成と応用展開 JSPS 基盤研究(S)(代表:内田誠一)
  3. 2011 2012 2014 電話音声認識のエラー率が 30%程度→20%以下に [Seide+, InterSpeech 2011] 大規模画像分類のエラー率が 25%程度→15%程度に

    [Krizhevsky+, NIPS 2012] LSTMで英仏翻訳の精度が 複雑なシステムと同等に [Sutskever+, NIPS 2014]
  4. 深層学習前 • 画像認識(CV) • 機械翻訳(NLP) 局所 記述子 高次元 ベクトル表現 プロダクト

    量子化 オンライン 線形分類 吾輩は猫である。名前 はまだ無い。 どこで生れたかとんと 見当がつかぬ。何でも薄 暗いじめじめした所で ニャーニャー泣いていた 事だけは記憶している。 単語/句 アライメント フレーズ テーブル・ 言語モデル 対数線形 モデル リランキング Thai Cat I am a cat. I don't have a name yet. I have no idea where I was born. I only remember that I was crying in a damp and dimly lit place. NLP研究者には謎 CV研究者には謎
  5. 深層学習後 • 画像認識(CV) • 機械翻訳(NLP) 吾輩は猫である。名前 はまだ無い。 どこで生れたかとんと 見当がつかぬ。何でも薄 暗いじめじめした所で

    ニャーニャー泣いていた 事だけは記憶している。 I am a cat. I don't have a name yet. I have no idea where I was born. I only remember that I was crying in a damp and dimly lit place. NLP研究者も…! CV研究者も…! cat RNN RNN CNN CNN CNN Thai Cat
  6. 深層学習後 • 画像認識(CV) • 機械翻訳(NLP) 吾輩は猫である。名前 はまだ無い。 どこで生れたかとんと 見当がつかぬ。何でも薄 暗いじめじめした所で

    ニャーニャー泣いていた 事だけは記憶している。 I am a cat. I don't have a name yet. I have no idea where I was born. I only remember that I was crying in a damp and dimly lit place. NLP研究者も…! CV研究者も…! cat RNN RNN CNN CNN CNN Thai Cat CNN CNN 吾輩は猫である。名前 はまだ無い。 どこで生れたかとんと 見当がつかぬ。何でも薄 暗いじめじめした所で ニャーニャー泣いていた 事だけは記憶している。 I am a cat. I don't have a name yet. I have no idea where I was born. I only remember that I was crying in a damp and dimly lit place. NLPでもCNNは使う! CNN RNN Hiding CVでもRNNは使う!
  7. Vision and Language の萌芽的な研究 記事付き画像へのキャプション生成 [Feng+Lapata, ACL 2010] • Input:

    article + image Output: caption for image • Dataset: Sets of article + image + caption × 3361 King Toupu IV died at the age of 88 last week.
  8. Vision and Language の萌芽的な研究 × 3361 King Toupu IV died

    at the age of 88 last week. 記事付き画像へのキャプション生成 [Feng+Lapata, ACL 2010] • Input: article + image Output: caption for image • Dataset: Sets of article + image + caption これらの背景から… つぎのような様々な取り組みが!
  9. 画像キャプション生成 Group of people sitting at a table with a

    dinner. Tourists are standing on the middle of a flat desert. [Ushiku+, ICCV 2015]
  10. 画像キャプション生成 Group of people sitting at a table with a

    dinner. Tourists are standing on the middle of a flat desert. [Ushiku+, ICCV 2015] ②Image2Text 入力:ビジュアルデータ → 出力:テキストデータ
  11. キャプションからの画像生成 [Ramesh+, 2021] An illustration of a baby hedgehog in

    a wizard hat riding a car A photo of the food of japan ③Text2Image 入力:テキストデータ → 出力:ビジュアルデータ
  12. ビジュアル対話 Questioner Answerer A couple of people in the snow

    on skis. What are their genders? Are they both adults? Do they wear goggles? Do they have hats on? Are there any other people? What color is man’s hat? Is it snowing now? What is woman wearing? Are they smiling? Do you see trees? 1 man 1 woman Yes Looks like sunglasses Man does No Black No Blue jacket and black pants Yes Yes [Das+, CVPR 2017]
  13. ビジュアル対話 Questioner Answerer A couple of people in the snow

    on skis. What are their genders? Are they both adults? Do they wear goggles? Do they have hats on? Are there any other people? What color is man’s hat? Is it snowing now? What is woman wearing? Are they smiling? Do you see trees? 1 man 1 woman Yes Looks like sunglasses Man does No Black No Blue jacket and black pants Yes Yes [Das+, CVPR 2017] ⑤Image+Text2Text 入力:ビジュアルデータ+テキストデータ → 出力:テキストデータ
  14. 本講演の目的 視覚×言語(Vision and Language)の融合研究を俯瞰 1. ビジョン+ランゲージ→認識結果 ビジュアル質問応答、参照表現理解/ビジュアル接地、ビジュアル含意関係認識、ビ ジョン&ランゲージナビゲーション 2. ビジョン→ランゲージ

    画像によるテキスト検索、キャプション生成、参照表現生成、ビジュアル質問生成 3. ランゲージ→ビジョン テキストによる画像/動画検索、テキストによる画像生成 4. ビジョン+ランゲージ→ビジョン テキストによる画像編集 5. ビジョン+ランゲージ→ランゲージ マルチモーダル翻訳、ビジュアル対話 6. 共通の話題と今後の展望
  15. Visual Question Answering (VQA) 最初はユーザインタフェース分野で注目 • VizWiz [Bigham+, UIST 2010]

    AMTで人力解決 • 初の自動化(ディープラーニング不使用) [Malinowski+Fritz, NIPS 2014] • 類似用語:Visual Turing Test [Malinowski+Fritz, 2014]
  16. VQA: Visual Question Answering • ビジュアル質問応答を分野として確立 – ベンチマークデータセットの提供 – ベースとなるパイプラインでの実験

    • ポータルサイトも運営 – http://www.visualqa.org/ – 国際コンペティションも開催 [Antol+, ICCV 2015] What color are her eyes? What is the mustache made of?
  17. VQA=多クラス分類問題 表現ベクトル𝑍𝑍𝐼𝐼+𝑄𝑄 以降は通常のクラス識別 質問文𝑄𝑄 What objects are found on the

    bed? 応答𝐴𝐴 bed sheets, pillow 画像𝐼𝐼 画像特徴量 𝑥𝑥𝐼𝐼 質問特徴量 𝑥𝑥𝑄𝑄 統合された 表現ベクトル 𝑧𝑧𝐼𝐼+𝑄𝑄
  18. その後の展開:統合方法 「統合された表現ベクトル𝑧𝑧𝐼𝐼+𝑄𝑄」の工夫 • VQA [Antol+, ICCV 2015]:そのまま直列に並べる • 「和」グループ 例

    Attentionで重みづけ和をとった画像特徴と 質問特徴を単純に足す [Xu+Saenko, ECCV 2016] • 「積」グループ 例 双線形積とフーリエ変換を組み合わせる [Fukui+, EMNLP 2016] • 「和」と「積」のハイブリッド 例 要素毎の積と要素毎の和を直列に並べる [Saito+, ICME 2017] 𝑧𝑧𝐼𝐼+𝑄𝑄 = 𝑥𝑥𝐼𝐼 𝑥𝑥𝑄𝑄 𝑥𝑥𝐼𝐼 𝑥𝑥𝑄𝑄 𝑥𝑥𝐼𝐼 𝑥𝑥𝑄𝑄 𝑧𝑧𝐼𝐼+𝑄𝑄 = 𝑧𝑧𝐼𝐼+𝑄𝑄 = 𝑧𝑧𝐼𝐼+𝑄𝑄 = 𝑥𝑥𝐼𝐼 𝑥𝑥𝑄𝑄 𝑥𝑥𝐼𝐼 𝑥𝑥𝑄𝑄
  19. その後の展開:アテンション • 2017年SOTA [Anderson+, CVPR 2018] – これまで:Top-down領域の 画像にアテンション –

    Bottom-upとTow-down領域の 両方にアテンション • 2018年SOTA [Nguyen+Okatani, CVPR 2018] – これまで:画像に対し アテンション – 質問特徴と画像特徴の 両方にアテンション Bottom-up Top-down
  20. R2R データセット 実世界3次元データ [Chang+, 3DV 2017] を利用 • 90の建造物で総計10,800点のパノラマRGBD画像を収集 •

    各点で18方向のRGBD画像を収集→パノラマ化 • 平均2.25m間隔、人の目線の高さ、カメラポーズも記録 この3次元世界を動けるシミュレータを提供 • 観測:3次元位置およびカメラ角度+主観画像(RGB) • 行動:隣接地点への移動またはカメラ角度の更新 [Anderson+, ICCV 2017]
  21. Room-to-Room (R2R) タスク 実体をもつエージェントが • 言語によるインストラクション ̅ 𝑥𝑥 = 𝑥𝑥1

    , 𝑥𝑥2 , … , 𝑥𝑥𝐿𝐿 を受け • 𝑡𝑡番目のカメラパラメータ 𝑣𝑣𝑡𝑡 , 𝜓𝜓𝑡𝑡 , 𝜃𝜃𝑡𝑡 に基づいて、シミュレータからエージェント の見える光景𝑠𝑠𝑡𝑡 を受け • 行動(移動)𝑎𝑎𝑡𝑡 を決定 「停止」を選ぶまで続ける 行動 インストラクション ゴールまでの距離 ・3m未満になったら成功 ・エージェントは知らない数字
  22. 基本的な手法のアプローチ • Vision-and-Language Navigation (VLN) は文と画像を入力して 系列を出力する問題 – Visual Question

    Answering (VQA) も同じでは? →著者「入力画像が時々刻々で異なるところが違う」 • 入力:系列→出力:系列の問題 – 機械翻訳と類似した入出力構造
  23. 探索中に会話ok = Vision-Dialog Navigation (VDN) • VDNでの質問生成はQAの教師データ頼み • 内発的動機に基づいた質問生成の強化学習 –

    Whether-to-ask: 今質問するべきか – What-to-ask: 何を質問するべきか • エージェントとナビゲート両方を協調学習 →とくにQAの教師データが無い時に有効 [Zhu+, ICCV 2021]
  24. Every picture tells a story データセット: 画像+<object, action, scene>+キャプション 1.

    画像の<object, action, scene>をMRFで推定 2. <object, action, scene>が同じキャプションを検索して利用 <Horse, Ride, Field> [Farhadi+, ECCV 2010]
  25. Every picture tells a story <pet, sleep, ground> See something

    unexpected. <transportation, move, track> A man stands next to a train on a cloudy day. [Farhadi+, ECCV 2010]
  26. 再利用?新規生成? • 再利用 • 新規生成 – テンプレート 主語+動詞の文を生成しよう – 非テンプレート

    A small gray dog on a leash. A black dog standing in grassy area. A small white dog wearing a flannel warmer. 入力 データセット
  27. 再利用?新規生成? • 再利用 – A small gray dog on a

    leash. • 新規生成 – テンプレート 主語+動詞の文を生成しよう – 非テンプレート A small gray dog on a leash. A black dog standing in grassy area. A small white dog wearing a flannel warmer. 入力 データセット
  28. 再利用?新規生成? • 再利用 – A small gray dog on a

    leash. • 新規生成 – テンプレート dog+stand ⇒ A dog stands. – 非テンプレート A small gray dog on a leash. A black dog standing in grassy area. A small white dog wearing a flannel warmer. 入力 データセット
  29. 再利用?新規生成? • 再利用 – A small gray dog on a

    leash. • 新規生成 – テンプレート dog+stand ⇒ A dog stands. – 非テンプレート A small white dog standing on a leash. A small gray dog on a leash. A black dog standing in grassy area. A small white dog wearing a flannel warmer. 入力 データセット
  30. 再利用アプローチ→クロスモーダル検索へ 画像によるテキスト検索とテキストによる画像検索を同時に解く • 正準相関分析の利用[Hodosh+, JAIR 2013][Gong+, ECCV 2014] • 文章要約技術の応用[Mason+Charniak,

    ACL 2014] • 係り受け木+RNN[Socher+, TACL 2014] • RCNNによる画像領域と係り受けの対応[Karpathy+, NIPS 2014] • 分散表現によるリランキング[Yagcioglu, ACL 2015] • WordNetの階層性をモデル化したCNN [Vendrov+, ICLR 2016] • 動画/文から得た共通空間で相互検索[Yamaguchi+, ICCV 2017] A woman in blue is playing ping pong in a room. A guy is skiing with no shirt on and yellow snow pants. A man is water skiing while attached to a long rope.
  31. Google Neural Image Captioning Googleで開発された • GoogLeNet [Szegedy+, CVPR 2015]

    • LSTM [Sutskever+, NIPS 2014] を直列させて文生成する。 画像𝐼𝐼への文(単語列)𝑆𝑆0 … 𝑆𝑆𝑁𝑁 は 𝑆𝑆0 : スタートを意味する単語 𝑆𝑆1 = LSTM CNN 𝐼𝐼 𝑆𝑆𝑡𝑡 = LSTM St−1 , 𝑡𝑡 = 2 … 𝑁𝑁 − 1 𝑆𝑆𝑁𝑁 : ストップを意味する単語 [Vinyals+, CVPR 2015]
  32. 問題の発展:変化キャプション生成 • 2枚の画像間の変化を示すキャプションの生成 – 既存研究:単一の変化に絞った記述 – CLEVRを利用して、複数の変化が含まれた画像ペアと その記述を含むCLEVR-Multi-Changeデータセットを 構築 –

    Transformer型の変化キャプション生成モデルである Multi-Change Captioning Transformer (MCCFormer)を 提案 • 2枚の画像間の各領域の関係をエンコードする MCCFormers-D • 画像内の各領域の関係もエンコードできる MCCFormers-S – 提案データセットでも監視カメラ画像のデータセット であるSpot-the-Diffデータセットでも良好な結果 • なお謝辞(右図)は研究メンターシッププログ ラムによるものです(参加者募集中!) https://sites.google.com/view/prmu-rmp/conferences [Qiu+, ICCV 2021]
  33. よくあるアプローチ:参照表現理解との同時最適化 • このアプローチの草分け [Mao+, CVPR 2016] – キャプション生成としての参照表現生成 – 類似画像検索としての参照表現理解

    – データセットに参照表現が無い物体領域 も含めた半教師あり学習が可能 • 強化学習の活用 [Yu+, CVPR 2017] – 参照表現理解をおこなうListener – 参照表現生成をおこなうSpeaker – だけでなく、参照表現と領域のマッチン グをロジスティック回帰で評価した結果 を報酬とするReinforcerを導入 →より曖昧性の低い参照表現生成を実現
  34. Visual Question Generation • 視覚的質問生成 (VQG)の提案 質問生成は画像 キャプションの 生成か検索を検討 •

    Qに対する要求 – その質問から会話が始まるような質問 – 画像を見てわかるような質問ではだめ ✗ How many horses are in the field? ✓ Who won the race? [Mostafazadeh+, ACL 2016]
  35. 再利用アプローチ→クロスモーダル検索へ 画像によるテキスト検索とテキストによる画像検索を同時に解く • 正準相関分析の利用[Hodosh+, JAIR 2013][Gong+, ECCV 2014] • 文章要約技術の応用[Mason+Charniak,

    ACL 2014] • 係り受け木+RNN[Socher+, TACL 2014] • RCNNによる画像領域と係り受けの対応[Karpathy+, NIPS 2014] • 分散表現によるリランキング[Yagcioglu, ACL 2015] • WordNetの階層性をモデル化したCNN [Vendrov+, ICLR 2016] • 動画/文から得た共通空間で相互検索[Yamaguchi+, ICCV 2017] A woman in blue is playing ping pong in a room. A guy is skiing with no shirt on and yellow snow pants. A man is water skiing while attached to a long rope.
  36. 生成できた画像の例 • 鳥(CUB)/花(Oxford-102)データセット – 約1万の鳥/花画像と5キャプション/画像 – 200種類の鳥/102種類の花 A tiny bird,

    with a tiny beak, tarsus and feet, a blue crown, blue coverts, and black cheek patch Bright droopy yellow petals with burgundy streaks, and a yellow stigma
  37. キャプションからの画像生成 This bird is blue with white and has a

    very short beak. (この鳥は白の入った青色 で、とても短いくちばし をもっています。) This flower is white and yellow in color, with petals that are wavy and smooth. (この花は白と黄色で、波 打った滑らかな花びらを もっています。) [Zhang+, ICCV 2017]
  38. キャプションからの画像生成 This bird is blue with white and has a

    very short beak. (この鳥は白の入った青色 で、とても短いくちばし をもっています。) This flower is white and yellow in color, with petals that are wavy and smooth. (この花は白と黄色で、波 打った滑らかな花びらを もっています。) [Zhang+, ICCV 2017] 鳥/花に特化したデータセットでの結果 →一般的な画像を生成するにはより一層のブレイクスルーが必要
  39. GANによるText2Image論文の中で… Generator と Discriminator に文を加える [Reed+, ICML 2016] これがうまく学習されている時: •

    𝝋𝝋が画像のコンテンツ(オブジェクトとその見た目) • 𝒛𝒛が画像のスタイル(背景) を表しているはず!(ある種のDisentangleが実現されているはず)
  40. 敵対的学習による画像編集の直接的な学習 • 直接的な学習をする為の一番単純なアプローチ= 編集前の画像、テキスト、編集後の画像の3点セットをたくさん集めて学習する • 本研究:当たらずも遠からずなテキスト ̅ 𝑡𝑡の活用 – 画像𝑥𝑥+完全一致する内容のテキスト𝑡𝑡

    – 画像𝑥𝑥+何もかも異なる内容のテキスト ̂ 𝑡𝑡 – 画像𝑥𝑥+同じカテゴリだが詳細が異なるテキスト ̅ 𝑡𝑡 そんなデータセット構築するの無理では? ̅ 𝒕𝒕から𝑥𝑥を生成しよう • 𝑥𝑥と𝑡𝑡が来たら+1 • 𝑥𝑥と ̂ 𝑡𝑡が来たら-1 • 𝒙𝒙と ̅ 𝒕𝒕が来たら-1 を出力しよう [Dong+, ICCV 2017]
  41. 変化キャプション生成をフィードバックに利用 • 言語指示による画像編集 – 問題はデータセットの規模の小ささ(VLNと同様) – 正直、右のImage ManipulationとImage Editingの分類には懐疑的… •

    クロスモーダル&サイクルな構造によるEditing Description Network – 編集すべき画像領域を推定するImage-Request Attention (IRA) – ピクセルごとのL1距離などよりも納得性の高い評価指標としての Redescription Similarity Score (RSS) 以下の2つの変化キャプション 同士のCIDEr等の類似度 • 編集前画像と編集後画像(正 解)の変化キャプション • 編集前画像と編集後画像(生 成)の変化キャプション → つまりInception Score的 [Jiang+, ICCV 2021]
  42. 他言語への展開 データセット • IAPR TC12 [Grubinger+, 2006] 20,000画像+英独 • Multi30K

    [Elliot+, 2016] 30,000画像+英独 • STAIR Captions [吉川ら、 2017] MS COCO (10万超画像+英語キャプション) →すべてに日本語キャプションを付与 タスクとしての展開 • 英語でない画像キャプション生成 • マルチモーダル機械翻訳/言語間文書検索 1. 入力:言語Aでのキャプション+画像 2. 入力:言語Aでのキャプション → 出力:言語Bでのキャプション(1.と2.で同じ)
  43. マルチモーダル機械翻訳 • 画像を介した言語横断キャプション翻訳 [Elliott+, 2015] [Hitschler+, ACL 2016] – 最初に候補翻訳を複数生成(画像には非依存)

    – 類似画像に付随する言語Bのキャプションを 利用して翻訳候補から出力を選択 Eine Person in einem Anzug und Krawatte und einem Rock. (独語) 画像を見ない場合の翻訳 A person in a suit and tie and a rock. 画像を利用した場合の翻訳 A person in a suit and tie and a skirt.
  44. 目的の一覧 • Vision-Awareな対話をモデル化したい →VisDial [Das+, CVPR 2017]など • CVの既存/新規な問題を対話的に解きたい –

    画像キャプション生成 – ロボットのPick&Place – 画像内のどこを見ているかを共有したい →GuessWhat?! [de Vries+, CVPR 2017]など – どの画像を見ているかを共有したい – 商品の推薦システムを作りたい →MMD [Saha+, AAAI 2018]など – 対話的なナビゲーションシステムを作りたい →VNL [Anderson+, ICCV 2017], Talk the Walk [de Vries+, 2018]など
  45. SL-Pretrained(教師あり事前学習のみ) Questioner Answerer A couple of people in the snow

    on skis. 2 I can’t tell I can’t tell, they are far away I can’t tell Yes Yes Yes Yes Yes Yes How many people? Male or female? What are they wearing? What color are skis? Are they wearing goggles? Are they wearing goggles? Are they wearing goggles? Are they wearing goggles? Are they wearing hats? Are they wearing goggles?
  46. RL-full-QAf(提案手法) Questioner Answerer A couple of people in the snow

    on skis. Are people male or female or both? What are they wearing? Is it snowing? Can you see any trees? Can you see any buildings in background? Can you see any trees? Can you see any buildings in background? Can you see any trees? Can you see any buildings in background? Does it look like they are in park? I think 1 is male, can’t see other 1 ... They are all wearing snow pants and jackets It does not appear to be snowing at moment Yes, there are lot of trees in background No, I can not Yes, there are lot of trees in background No, I do not see any buildings Yes, there are lot of trees in background No , I do not see any buildings It does not appear to be
  47. データセット Webからクロールしてきたもの • SBU Captioned Image [Ordonez+, NIPS 2011] 100万枚のFlickr画像、1キャプション/画像

    • YFCC-100M [Thomee+, 2015] 1億枚のFlickr画像+動画、一部の画像にキャプション • Déjà Image-Captions [Chen+, ACL 2015] 1つのキャプションに複数の画像が紐づいている
  48. データセット クラウドソーシングを用いたもの • PASCAL Sentence, Flickr 8k/30k (すべてUIUCから) それぞれ1000/8000/30000枚の画像、5キャプション/画像 •

    Abstract Scene Dataset [Zitnick+Parikh, CVPR 2013] 10000枚のクリップアート、6キャプション/画像 • MS COCO [Lin+, 2014] 10万超の画像、5キャプション/画像 • MSR Dense Visual Annotation Corpus [Yatskar+, *SEM 2014] 500枚の画像に100,000の矩形領域+キャプション • PASCAL-50S, ABSTRACT-50S [Vedantam+, CVPR 2015] より人間らしい評価のために作成、50キャプション/画像 • Visual Genome [Krishna+, IJCV 2017] 10万超の画像にキャプションやQAなどが密に付随
  49. データセット クラウドソーシングを用いたもの • PASCAL Sentence, Flickr 8k/30k (すべてUIUCから) それぞれ1000/8000/30000枚の画像、5キャプション/画像 •

    Abstract Scene Dataset [Zitnick+Parikh, CVPR 2013] 10000枚のクリップアート、6キャプション/画像 • MS COCO [Lin+, 2014] 10万超の画像、5キャプション/画像 • MSR Dense Visual Annotation Corpus [Yatskar+, *SEM 2014] 500枚の画像に100,000の矩形領域+キャプション • PASCAL-50S, ABSTRACT-50S [Vedantam+, CVPR 2015] より人間らしい評価のために作成、50キャプション/画像 • Visual Genome [Krishna+, IJCV 2017] 10万超の画像にキャプションやQAなどが密に付随 特にMS COCOとVisual Genomeは… 他のデータセットのベースになる ことが非常に多い
  50. データセット、データセット、データセット • より大規模に – 1000枚の画像とキャプションのペアから4億の画像とキャプションペ ア(CLIPの学習に用いられているWebImageTextデータセット)へ • より複雑に – 画像とキャプションのペアから画像領域ごとのキャプションへ

    – 動画とキャプションのペアから動画の時空間領域ごとのキャプション へ • より多くのモダリティを – 音声 [Yun+, ICCV 2021] – 点群 [Wu+, ICCV 2021] – マウスの軌跡 [Pont-Tuset+, ECCV’20]
  51. YouRefIt: Embodied Reference Understanding with Language and Gesture • 言語とジェスチャーからなるYouRefItデータセットの

    提案とベースライン実験の報告 – 432の屋内シーンにおける4195のビデオクリップ – 言語による参照と、実際にジェスチャーで指し示したビデオ • Embodied Reference Understanding (ERU) の提案と ベースライン手法による実験 – 視覚的顕著性 – PAF(姿勢) – 元の画像 – 参照表現 を統合して領域を推定 • 右図:フレームごとの 推定結果 – ジェスチャーによって 推定結果が改善 [Chen+, ICCV 2021]
  52. Pano-AVQA: Grounded Audio-Visual Question Answering on 360° Videos • 5400のパノラマ動画に51700対のQA

    – 動画も音声も理解しないと答えられない – オブジェクト毎にbboxとラベル付け • 音を発生させる/させない • 視覚的な説明 • (音を出す場合)聴覚的な説明 • ベースライン手法による実験 – Transformerで単語/音/画像をエンコード – 映像の位置情報はクオータニオンを利用 – それぞれのモダリティでの表現学習 – 正答率5割程度 [Yun+, ICCV 2021]
  53. Towers of Babel: Combining Images, Language, and 3D Geometry for

    Learning Multimodal Vision WikiScenesデータセットの提案といくつかのベースライン実験の報告 23か国の99の聖堂についての6万3千対の画像・キャプション対とCOLMAP [Schonberger+Frahm, CVPR’16] で復元した点群データ [Wu+, ICCV 2021]
  54. 手法の良さをどう評価するか • 主観的評価 – 複数人のアンケートによる採点 ✓人の主観を直接反映できる ✕ 新手法を出すにはベースラインを含めて再アンケートすることに • 客観的評価

    – 何らかの客観的評価指標を自動算出 ✓ アンケートのようなコストを掛けずに、素早く優劣を評価できる ✕ 必ずしも人の主観的な優劣と相関しない
  55. 出力が認識結果の場合の客観的評価 認識結果の精度 • 例えばビジュアル質問応答なら…出力はクラス分類結果 – 人間10人が答えた時に3人以上が出した答えと一致するなら1点として、その 平均値 • 例えばビジョン&ランゲージナビゲーションなら…出力は移動結果 –

    ゴールまで3m以内の地点で停止できた割合 – 停止地点とゴールとの環境内での道のり – 移動経路自体の道のり [Wang+, CVPR 2019] • 例えば参照表現理解なら…出力は画像領域の検出結果 – Intersection-over-union (IoU)が0.5より大きい正答の割合 [Wang+, CVPR 2019]
  56. 出力がビジュアルデータの場合の客観的評価 画像生成の評価指標と同様 • Inception Score [Salimans+, NIPS 2016] – 条件付き画像生成に使用可能な指標

    – 以下のKLダイバージェンスの平均値 • 生成した画像を何らかの画像認識器(もともとはGoogleのCNNである Inception)によって識別した事後確率 • 条件となったラベル • Fréchet inception distance [Heusel+, NIPS 2017] – Inception scoreは上記の通り画像の内容を見ない – FIDでは画像認識の事後確率ではなく途中の特徴量ベクトルの分布間距離を用 いる • 実画像の特徴量の確率分布 • 生成された画像の特徴量の確率分布
  57. 出力がランゲージデータの場合の客観的評価 言語生成の評価指標と同様 CoSMoS [Ushiku et al., ICCV 2015] Group of

    people sitting at a table with a dinner. Corpus-Guided [Yang et al., EMNLP 2011] Three people are showing the bottle on the street Midge [Mitchel et al., EACL 2012] people with a bottle at the table
  58. 定量評価指標 機械翻訳では… • テスト文に複数の参照訳が付随(通常5文) • これらの参照訳と近い訳文が「良い」 • 既存の評価指標(BLEUやMETEOR、ROUGEなど) • キャプション生成の評価指標(CIDErやSPICEなど)

    One jet lands at an airport while another takes off next to it. Two airplanes parked in an airport. Two jets taxi past each other. Two parked jet airplanes facing opposite directions. two passenger planes on a grassy plain キャプション生成の評価でも同様の流れ PASCAL Sentenceの画像と参照キャプションの例
  59. 工夫① アテンション(注意)機構 • 機械翻訳とほぼ同時期にアテンション機構が採用される – 画像キャプション生成へのアテンションモデルの利用 [Xu+, ICML 2015] –

    画像+キャプションデータのみからの学習! – 動画キャプション生成:時間方向のアテンション[Laokulrat+, COLING 2016]
  60. 工夫② コンシステンシー損失 • 「行って帰ってくる損失」 – 出力キャプション→入力画像を再推定 – cf. CycleGAN[Zhu+, ICCV

    2017] 変分自己符号化器 [Pu+, NIPS 2016] 出力キャプションで領域検索 [Luo+Shakhnarovich, CVPR 2017]
  61. なぜ強化学習? → (i) 最適化したい目的関数と評価の乖離 学習に用いるのは Cross-Entropy 評価に用いるのは BLEUなどの評価指標 →キャプションの評価指標を直接最適化するべきでは? •

    評価指標の直接最適化 – 機械翻訳では深層学習以前からある着想 [Och, ACL 2003] • 深層学習で評価指標を直接最適化…? – 勾配が求められないから学習できない!! →強化学習の報酬にすればok! 短い文へのペナルティ N-gramのPrecision
  62. なぜ強化学習? → (ii) Exposure Bias 通常のRNNによる系列生成モデル学習では… • 学習時:Teacher forcing –

    入力は𝑡𝑡 − 1番目までの 教師データ • テスト時:Free running – 入力は𝑡𝑡 − 1番目までで 自身が推定したデータ テスト時の生成系列が訓練データから外れだすと不安定に →強化学習によって学習時からFree runningできる!
  63. 工夫④ 事前学習/表現学習 • モダリティごとの事前学習/表現学習 – 画像ならImageNetでの事前学習済みCNNモデル – テキストならBooksCorpusやWikipedia、Text-to-Text Transfer Transformer

    (T5) [Raffel+, JMLR 2020]での事前学習済みTransformerモデル • ビジョン&ランゲージでも: Transformerの流行に合わせて膨大なさいきょうの表現学習が出現 – Transformer以前のCNN+RNNによる表現学習もあるよ! [Kiros+, NIPS WS 2014] – 画像や文のパーツを1本ずつベクトルで表現 VideoBERT [Sun+, ICCV’19], LXMERT [Tan+Bansal, EMNLP’19], ViLBERT [Lu+, NeurIPS’19], VL-BERT [Su+, ICLR’20], UNITER [Chen+, ECCV’20], OSCAR [Li+, ECCV’20], Voken [Tan+Bansal, EMNLP’20], COOT [Ging+, NeurIPS’20] – 画像/文全体をそれぞれ1つのベクトルで表現 VSE++ [Faghri+, BMVC’18], CLIP [Radford+, ICML’21], ALIGN [Jia+, ICML’21] [Tan+Bansal, EMNLP’20]
  64. LocTex: Learning Data-Efficient Visual Representations from Localized Textual Supervision •

    画像、キャプション、その対応を示す マウスカーソルの軌跡から表現学習 – おなじみのContrastive Loss – Localized Narratives [Pont-Tuset+, ECCV’20]を利用して、アテンションがマウ ス軌跡に近づくように(c)を学習 • 比較的少ないデータ量で優れた表現学 習を実現 – 物体のbboxや領域マスクよりも簡便 – ImageNetの数分の一のデータ量で、 ImageNetよりも物体検出や領域分割の精 度が向上
  65. GLoRIA: A Multimodal Global-Local Representation Learning Framework for Label-efficient Medical

    Image Recognition • 医療画像認識のための表現学習 – 画像/文全体の表現はContrastive Lossで学習 – 領域/単語ごとの表現は注意機構によって対 応付けてContrastive Lossで学習 • 実験結果 – CheXpert [Irvin, AAAI’19] データという 65,240人の224,316枚の胸部X線画像と、そ の読影レポートからなるデータを利用 – 3種類の実験結果で、教師データが少数でも 良好な精度が達成されることを確認 • 画像とレポートの検索 • 識別(ファインチューニングとゼロ ショット) • 領域分割 – 右図:アテンションの例 (a) 肺炎、(b) 気胸、 (c) 浮腫, (d) 陰影
  66. 難しさ① データ集めるの大変 • 典型例:ビジョン&ランゲージナビゲーション – Vision-Language Navigation 最初に与えられた言語指示だけで目的地までたどり着くもの (右図) –

    Vision-Dialog Navigation 移動中に言語で質問し、言語による回答を得ることが可能 • 共通の課題してデータセットを潤沢に集めにくい – 一方で各エージェントの環境は分散が大きい – 主な方策は以下の2つ • 強化学習の活用 • データをどうにかして増幅 [Anderson+, ICCV 2017] (下はランダムに環境をMixup [Zhu+, ICCV’21])
  67. 機械学習ベースのデータセット増幅 • 従来 [Anderson+, CVPR 2018]: – 道順を聞いて動くエージェント (Follower) のみモデル

    – Follower は正面の画像のみ見ている設定 • 本研究: – 道順そのものを新たな経路から生成できるエージェント (Speaker) を用意→訓 練データを拡張 – Follower は360°画像を利用 [Fried+, NeurIPS 2018]
  68. 別環境に対しても疑似的に学習データを作ってしまえ • 目標:データセットの規模小さい問題の解決 • AirbnbからVLNっぽいデータセットを収集 – BnBデータセット – 室内の画像とそれを記述したキャプション →画像列として道(Path)を生成

    →Pathに基づいたインストラクションを生成 (テンプレートとキャプション生成モデル) • 3つの段階による学習で未知環境での精度向上 1: 画像とキャプションのペアから表現学習、2: BnBデー タで事前学習、3: 少数の実データでファインチューン [Guhur+, ICCV 2021]
  69. 難しさ② 精度が上がるとは限らない VQAのデータセット[Antol+, ICCV 2015] では • 画像と関連しない質問が混在する [Ray+, EMNLP

    2016] →画像と関連しない質問文の検知 [Mahendru+, EMNLP 2017] • 画像を見ずとも、質問文とバイアス だけである程度正解出来てしまう →バランスをとり直した VQA v2.0 データセット[Goyal+, CVPR 2017] →敵対的な正則化による言語事前分布の影響の解消 [Ramakrishnan+, NeurIPS 2018] [Mahendru+, EMNLP 2017]
  70. マルチモーダル機械翻訳の賛否 • 機械翻訳の国際会議 (WMT) でコンペ開催 初回の2016年から毎年開催・Multi30K を利用 • しかし… –

    運営公式「画像を用いても差が出ない」[Barrault+, 2018] – データセット作者「関係ない画像を与えても翻訳精度にそれほど影響が出な い」[Elliot+, EMNLP 2018] • 機械翻訳に画像を使う意味は? [Caglayan+, ACL 2019] – Multi30Kでは、入力文のみで充分翻訳出来てしまうだけ – 入力文を隠ぺいすると画像の寄与が観察できる
  71. まとめ • 視覚・言語融合課題であるビジョン&ランゲージを俯瞰 1. ビジョン+ランゲージ→認識結果 2. ビジョン→ランゲージ 3. ランゲージ→ビジョン 4.

    ビジョン+ランゲージ→ビジョン 5. ビジョン+ランゲージ→ランゲージ • 共通の話題と今後の展望 – 上記研究課題自体の多くは Deep Learning 以前も存在 – データセットと評価指標 – 深層学習上の工夫 – ビジョン&ランゲージの難しさ 視覚×言語の新たなステージへ