Vision and Language とその先へ

by Yoshitaka Ushiku

Slide 1

Slide 1 text

Vision and Languageとその先へオムロンサイニックエックス株式会社牛久祥孝 losnuevetoros

Slide 2

Slide 2 text

自己紹介（学職歴） 2013.6～2013.8 Microsoft Research Intern 2014.3 博士(情報理工学)、東京大学 2014.4～2016.3 NTT CS研研究員 2016.4～2018.9 東京大学講師 (原田牛久研究室) 2016.9～産業技術総合研究所協力研究員 2016.12～2018.9 国立国語研究所共同研究員 2018.10～オムロンサイニックエックス株式会社 Principal Investigator 2019.1～株式会社 Ridge-i Chief Research Officer 2020.4～津田塾大学非常勤講師 2021.7～東北大学非常勤講師 2022.1～合同会社ナインブルズ代表 [Ushiku+, ACMMM 2012] [Ushiku+, ICCV 2015] 画像キャプション生成動画の特定区間とキャプションの相互検索 [Yamaguchi+, ICCV 2017] A guy is skiing with no shirt on and yellow snow pants. A yellow train on the tracks near a train station.

Slide 3

Slide 3 text

自己紹介（その他）主な学術団体活動 ACM・IEEE・情報処理学会・応用物理学会一般会員コンピュータビジョン勉強会＠関東幹事電子情報通信学会パターン認識・メディア理解研究会専門委員情報・システムソサイエティ庶務幹事著作権管理委員会委員人工知能学会論文誌編集委員会編集委員建築情報学会理事日本ロボット学会代議員日本ディープラーニング協会有識者会員共立出版コンピュータビジョン最前線編集主な研究プロジェクト 2021-2025 マテリアル探索空間拡張プラットフォームの構築 JST 未来社会創造事業（代表:長藤圭介） 2017-2020 多様なデータへのキャプションを自動で生成する技術の創出 JST ACT-I（代表:牛久祥孝） 2017-2021 機械可読時代における文字科学の創成と応用展開 JSPS 基盤研究(S)（代表:内田誠一）

Slide 4

Slide 4 text

2011 2012 2014 電話音声認識のエラー率が 30%程度→20%以下に [Seide+, InterSpeech 2011] 大規模画像分類のエラー率が 25%程度→15%程度に [Krizhevsky+, NIPS 2012] LSTMで英仏翻訳の精度が複雑なシステムと同等に [Sutskever+, NIPS 2014]

Slide 5

Slide 5 text

深層学習前 • 画像認識（CV） • 機械翻訳（NLP）局所記述子高次元ベクトル表現プロダクト量子化オンライン線形分類吾輩は猫である。名前はまだ無い。どこで生れたかとんと見当がつかぬ。何でも薄暗いじめじめした所でニャーニャー泣いていた事だけは記憶している。単語/句アライメントフレーズテーブル・言語モデル対数線形モデルリランキング Thai Cat I am a cat. I don't have a name yet. I have no idea where I was born. I only remember that I was crying in a damp and dimly lit place. NLP研究者には謎 CV研究者には謎

Slide 6

Slide 6 text

Slide 7

Slide 7 text

深層学習後 • 画像認識（CV） • 機械翻訳（NLP）吾輩は猫である。名前はまだ無い。どこで生れたかとんと見当がつかぬ。何でも薄暗いじめじめした所でニャーニャー泣いていた事だけは記憶している。 I am a cat. I don't have a name yet. I have no idea where I was born. I only remember that I was crying in a damp and dimly lit place. NLP研究者も…！ CV研究者も…！ cat RNN RNN CNN CNN CNN Thai Cat CNN CNN 吾輩は猫である。名前はまだ無い。どこで生れたかとんと見当がつかぬ。何でも薄暗いじめじめした所でニャーニャー泣いていた事だけは記憶している。 I am a cat. I don't have a name yet. I have no idea where I was born. I only remember that I was crying in a damp and dimly lit place. NLPでもCNNは使う！ CNN RNN Hiding CVでもRNNは使う！

Slide 8

Slide 8 text

ユーザー生成コンテンツの爆発的増加特にコンテンツ投稿・共有サービスでは… • Facebookにアップロードされる画像 1日で計3億枚 • YouTubeにアップロードされる動画 1分間で計400時間分 Pōhutukawa blooms this time of the year in New Zealand. As the flowers fall, the ground underneath the trees look spectacular. 画像/動画と関連する文章の対 →大量に収集可能

Slide 9

Slide 9 text

Vision and Language の萌芽的な研究記事付き画像へのキャプション生成 [Feng+Lapata, ACL 2010] • Input: article + image Output: caption for image • Dataset: Sets of article + image + caption × 3361 King Toupu IV died at the age of 88 last week.

Slide 10

Slide 10 text

Vision and Language の萌芽的な研究 × 3361 King Toupu IV died at the age of 88 last week. 記事付き画像へのキャプション生成 [Feng+Lapata, ACL 2010] • Input: article + image Output: caption for image • Dataset: Sets of article + image + caption これらの背景から… つぎのような様々な取り組みが！

Slide 11

Slide 11 text

ビジュアル質問応答 [Fukui+, EMNLP 2016]

Slide 12

Slide 12 text

ビジュアル質問応答 [Fukui+, EMNLP 2016]

Slide 13

Slide 13 text

ビジュアル質問応答 [Fukui+, EMNLP 2016] ①マルチモーダル理解入力：ビジュアルデータ＋テキストデータ → 出力：認識結果

Slide 14

Slide 14 text

画像キャプション生成 Group of people sitting at a table with a dinner. Tourists are standing on the middle of a flat desert. [Ushiku+, ICCV 2015]

Slide 15

Slide 15 text

画像キャプション生成 Group of people sitting at a table with a dinner. Tourists are standing on the middle of a flat desert. [Ushiku+, ICCV 2015] ②Image2Text 入力：ビジュアルデータ → 出力：テキストデータ

Slide 16

Slide 16 text

キャプションからの画像生成 [Ramesh+, 2021] An illustration of a baby hedgehog in a wizard hat riding a car A photo of the food of japan

Slide 17

Slide 17 text

キャプションからの画像生成 [Ramesh+, 2021] An illustration of a baby hedgehog in a wizard hat riding a car A photo of the food of japan ③Text2Image 入力：テキストデータ → 出力：ビジュアルデータ

Slide 18

Slide 18 text

テキストによる画像編集 [Dong+, ICCV 2017]

Slide 19

Slide 19 text

テキストによる画像編集 [Dong+, ICCV 2017] ④Image+Text2Image 入力：ビジュアルデータ＋テキストデータ → 出力：テキストデータ

Slide 20

Slide 20 text

ビジュアル対話 Questioner Answerer A couple of people in the snow on skis. What are their genders? Are they both adults? Do they wear goggles? Do they have hats on? Are there any other people? What color is man’s hat? Is it snowing now? What is woman wearing? Are they smiling? Do you see trees? 1 man 1 woman Yes Looks like sunglasses Man does No Black No Blue jacket and black pants Yes Yes [Das+, CVPR 2017]

Slide 21

Slide 21 text

Slide 22

Slide 22 text

本講演の目的視覚×言語（Vision and Language）の融合研究を俯瞰 1. ビジョン+ランゲージ→認識結果ビジュアル質問応答、参照表現理解/ビジュアル接地、ビジュアル含意関係認識、ビジョン＆ランゲージナビゲーション 2. ビジョン→ランゲージ画像によるテキスト検索、キャプション生成、参照表現生成、ビジュアル質問生成 3. ランゲージ→ビジョンテキストによる画像/動画検索、テキストによる画像生成 4. ビジョン+ランゲージ→ビジョンテキストによる画像編集 5. ビジョン+ランゲージ→ランゲージマルチモーダル翻訳、ビジュアル対話 6. 共通の話題と今後の展望

Slide 23

Slide 23 text

Vision and Languageとその先へ1 ビジョン+ランゲージ→認識結果

Slide 24

Slide 24 text

ビジュアル質問応答

Slide 25

Slide 25 text

Visual Question Answering (VQA) 最初はユーザインタフェース分野で注目 • VizWiz [Bigham+, UIST 2010] AMTで人力解決 • 初の自動化（ディープラーニング不使用） [Malinowski+Fritz, NIPS 2014] • 類似用語：Visual Turing Test [Malinowski+Fritz, 2014]

Slide 26

Slide 26 text

VQA: Visual Question Answering • ビジュアル質問応答を分野として確立 – ベンチマークデータセットの提供 – ベースとなるパイプラインでの実験 • ポータルサイトも運営 – http://www.visualqa.org/ – 国際コンペティションも開催 [Antol+, ICCV 2015] What color are her eyes? What is the mustache made of?

Slide 27

Slide 27 text

VQA Dataset AMT で質問と回答を収集 • 10万超の実画像、3万超のアニメ調画像 • 計70万弱の質問＋それぞれ10の模範回答

Slide 28

Slide 28 text

VQA=多クラス分類問題表現ベクトル𝑍𝑍𝐼𝐼+𝑄𝑄 以降は通常のクラス識別質問文𝑄𝑄 What objects are found on the bed? 応答𝐴𝐴 bed sheets, pillow 画像𝐼𝐼 画像特徴量 𝑥𝑥𝐼𝐼 質問特徴量 𝑥𝑥𝑄𝑄 統合された表現ベクトル 𝑧𝑧𝐼𝐼+𝑄𝑄

Slide 29

Slide 29 text

その後の展開：統合方法「統合された表現ベクトル𝑧𝑧𝐼𝐼+𝑄𝑄」の工夫 • VQA [Antol+, ICCV 2015]：そのまま直列に並べる • 「和」グループ例 Attentionで重みづけ和をとった画像特徴と質問特徴を単純に足す [Xu+Saenko, ECCV 2016] • 「積」グループ例双線形積とフーリエ変換を組み合わせる [Fukui+, EMNLP 2016] • 「和」と「積」のハイブリッド例要素毎の積と要素毎の和を直列に並べる [Saito+, ICME 2017] 𝑧𝑧𝐼𝐼+𝑄𝑄 = 𝑥𝑥𝐼𝐼 𝑥𝑥𝑄𝑄 𝑥𝑥𝐼𝐼 𝑥𝑥𝑄𝑄 𝑥𝑥𝐼𝐼 𝑥𝑥𝑄𝑄 𝑧𝑧𝐼𝐼+𝑄𝑄 = 𝑧𝑧𝐼𝐼+𝑄𝑄 = 𝑧𝑧𝐼𝐼+𝑄𝑄 = 𝑥𝑥𝐼𝐼 𝑥𝑥𝑄𝑄 𝑥𝑥𝐼𝐼 𝑥𝑥𝑄𝑄

Slide 30

Slide 30 text

その後の展開：アテンション • 2017年SOTA [Anderson+, CVPR 2018] – これまで：Top-down領域の画像にアテンション – Bottom-upとTow-down領域の両方にアテンション • 2018年SOTA [Nguyen+Okatani, CVPR 2018] – これまで：画像に対しアテンション – 質問特徴と画像特徴の両方にアテンション Bottom-up Top-down

Slide 31

Slide 31 text

ビジュアル含意関係性認識入力された画像と文（仮説）の関係性を3値分類するタスク • 含意関係にある！ • どちらとも言えない • 矛盾している！基本的なアプローチはVQAと同様 [Xie+, 2018]

Slide 32

Slide 32 text

参照表現理解/ビジュアル接地

Slide 33

Slide 33 text

参照表現理解 • 入力画像とクエリ文から、内容的に適合する画像領域を出力するタスク • 候補画像領域を – ある画像の中の複数領域とする場合＝参照表現理解 – 複数の画像とする場合＝テキストによる画像検索 • 本論文でもテキストによる画像検索も実現 [Hu+, CVPR 2016]

Slide 34

Slide 34 text

良くあるアプローチ • 参照表現生成との同時最適化（後述） • 参照表現理解だけを目的とした研究[Yu+, CVPR 2018] – 入力されたクエリ文によってモジュールを重みづけ主語モジュール位置情報モジュール関係性モジュール – 領域分割手法と組み合わせると出力を領域に変更可能

Slide 35

Slide 35 text

No content

Slide 36

Slide 36 text

ロボットのPick&Place 実はComprehensionモデル+α [Hatori+, ICRA 2018]

Slide 37

Slide 37 text

ロボットのPick&Place 実はComprehensionモデル+α [Hatori+, ICRA 2018] Comprehensionに相当する部分（何をPickするか）

Slide 38

Slide 38 text

ロボットのPick&Place 実はComprehensionモデル+α [Hatori+, ICRA 2018] ＋αに相当する部分（どこにPlaceするか）

Slide 39

Slide 39 text

ビジュアル接地（グラウンディング） • 言語と動画内の物体とのグラウンディング [Yu+Siskind, ACL 2013] – 動画とその動画を説明する文のみから学習 – 対象物体が少なく、コントロールされた小規模データセットでの実験大まかな分類 • 文全体と画像のマッチング＝参照表現理解 • 文中のフレーズと画像のマッチング＝ビジュアル接地

Slide 40

Slide 40 text

画像領域とフレーズとのアライメント • 画像キャプション生成と並列でアライメント手法も提案 – キャプション生成は当時急増したCNN+RNNモデル – 画像・キャプションペアの類似度と非ペアの類似度の大小関係を維持するように類似度スコアを学習 – 類似度スコアから対応関係を推定 [Karpathy+Fei-Fei, CVPR 2015] Man in black shirt is playing guitar.

Slide 41

Slide 41 text

ビジョン＆ランゲージナビゲーション

Slide 42

Slide 42 text

Vision-and-Language Navigation (VNL) 対話行為が移動とナビゲーション [Anderson+, ICCV 2017]

Slide 43

Slide 43 text

R2R データセット実世界3次元データ [Chang+, 3DV 2017] を利用 • 90の建造物で総計10,800点のパノラマRGBD画像を収集 • 各点で18方向のRGBD画像を収集→パノラマ化 • 平均2.25m間隔、人の目線の高さ、カメラポーズも記録この3次元世界を動けるシミュレータを提供 • 観測：3次元位置およびカメラ角度＋主観画像（RGB） • 行動：隣接地点への移動またはカメラ角度の更新 [Anderson+, ICCV 2017]

Slide 44

Slide 44 text

Matterport3D Simulator のグラフ表現各位置𝒗𝒗をノードとする重み付き無向グラフ • 5m以上離れたエッジや障害物を挟むエッジは削除 • エッジが張られているノードのうち、現在の視界に含まれるノードに移動

Slide 45

Slide 45 text

Room-to-Room (R2R) タスク実体をもつエージェントが • 言語によるインストラクション ̅ 𝑥𝑥 = 𝑥𝑥1 , 𝑥𝑥2 , … , 𝑥𝑥𝐿𝐿 を受け • 𝑡𝑡番目のカメラパラメータ 𝑣𝑣𝑡𝑡 , 𝜓𝜓𝑡𝑡 , 𝜃𝜃𝑡𝑡 に基づいて、シミュレータからエージェントの見える光景𝑠𝑠𝑡𝑡 を受け • 行動（移動）𝑎𝑎𝑡𝑡 を決定「停止」を選ぶまで続ける行動インストラクションゴールまでの距離・3m未満になったら成功・エージェントは知らない数字

Slide 46

Slide 46 text

基本的な手法のアプローチ • Vision-and-Language Navigation (VLN) は文と画像を入力して系列を出力する問題 – Visual Question Answering (VQA) も同じでは？ →著者「入力画像が時々刻々で異なるところが違う」 • 入力：系列→出力：系列の問題 – 機械翻訳と類似した入出力構造

Slide 47

Slide 47 text

探索中に会話ok = Vision-Dialog Navigation (VDN) • VDNでの質問生成はQAの教師データ頼み • 内発的動機に基づいた質問生成の強化学習 – Whether-to-ask: 今質問するべきか – What-to-ask: 何を質問するべきか • エージェントとナビゲート両方を協調学習 →とくにQAの教師データが無い時に有効 [Zhu+, ICCV 2021]

Slide 48

Slide 48 text

Vision and Languageとその先へ2 ビジョン→ランゲージ

Slide 49

Slide 49 text

画像によるテキスト検索

Slide 50

Slide 50 text

キャプション生成

Slide 51

Slide 51 text

キャプション生成画像によるテキスト検索をすっぽかした訳じゃないですよ

Slide 52

Slide 52 text

Every picture tells a story データセット：画像＋+キャプション 1. 画像のをMRFで推定 2. が同じキャプションを検索して利用 [Farhadi+, ECCV 2010]

Slide 53

Slide 53 text

Every picture tells a story See something unexpected. A man stands next to a train on a cloudy day. [Farhadi+, ECCV 2010]

Slide 54

Slide 54 text

再利用？新規生成？ • 再利用 • 新規生成 – テンプレート主語＋動詞の文を生成しよう – 非テンプレート A small gray dog on a leash. A black dog standing in grassy area. A small white dog wearing a flannel warmer. 入力データセット

Slide 55

Slide 55 text

再利用？新規生成？ • 再利用 – A small gray dog on a leash. • 新規生成 – テンプレート主語＋動詞の文を生成しよう – 非テンプレート A small gray dog on a leash. A black dog standing in grassy area. A small white dog wearing a flannel warmer. 入力データセット

Slide 56

Slide 56 text

再利用？新規生成？ • 再利用 – A small gray dog on a leash. • 新規生成 – テンプレート dog＋stand ⇒ A dog stands. – 非テンプレート A small gray dog on a leash. A black dog standing in grassy area. A small white dog wearing a flannel warmer. 入力データセット

Slide 57

Slide 57 text

再利用？新規生成？ • 再利用 – A small gray dog on a leash. • 新規生成 – テンプレート dog＋stand ⇒ A dog stands. – 非テンプレート A small white dog standing on a leash. A small gray dog on a leash. A black dog standing in grassy area. A small white dog wearing a flannel warmer. 入力データセット

Slide 58

Slide 58 text

再利用アプローチ→クロスモーダル検索へ画像によるテキスト検索とテキストによる画像検索を同時に解く • 正準相関分析の利用[Hodosh+, JAIR 2013][Gong+, ECCV 2014] • 文章要約技術の応用[Mason+Charniak, ACL 2014] • 係り受け木＋RNN[Socher+, TACL 2014] • RCNNによる画像領域と係り受けの対応[Karpathy+, NIPS 2014] • 分散表現によるリランキング[Yagcioglu, ACL 2015] • WordNetの階層性をモデル化したCNN [Vendrov+, ICLR 2016] • 動画/文から得た共通空間で相互検索[Yamaguchi+, ICCV 2017] A woman in blue is playing ping pong in a room. A guy is skiing with no shirt on and yellow snow pants. A man is water skiing while attached to a long rope.

Slide 59

Slide 59 text

マルチキーフレーズ推定アプローチ当時の問題＝使用候補であるフレーズの精度が悪いキーフレーズを独立なラベルとして扱うと… マルチキーフレーズの推定＝一般画像認識文生成は[Ushiku+, ACM MM 2011]と同じ [Ushiku+, ACM MM 2012]

Slide 60

Slide 60 text

文の終わり

Slide 61

Slide 61 text

Google Neural Image Captioning Googleで開発された • GoogLeNet [Szegedy+, CVPR 2015] • LSTM [Sutskever+, NIPS 2014] を直列させて文生成する。画像𝐼𝐼への文（単語列）𝑆𝑆0 … 𝑆𝑆𝑁𝑁 は 𝑆𝑆0 : スタートを意味する単語 𝑆𝑆1 = LSTM CNN 𝐼𝐼 𝑆𝑆𝑡𝑡 = LSTM St−1 , 𝑡𝑡 = 2 … 𝑁𝑁 − 1 𝑆𝑆𝑁𝑁 : ストップを意味する単語 [Vinyals+, CVPR 2015]

Slide 62

Slide 62 text

生成された説明文の例 [https://github.com/tensorflow/models/tree/master/im2txt]

Slide 63

Slide 63 text

No content

Slide 64

Slide 64 text

1 材料を用意します。 ●の調味料を合わせておきます。 2 ごぼうはささがきにし、水にさらしておきます。 3 にんじんは千切りにします。

Slide 65

Slide 65 text

4 フライパンにごま油を熱し、人参を炒めます。 5 人参がしんなりしたら、ごぼうを入れて、全体がしんなりするまで炒めます。 6 全体に火が通ったら、調味料を入れて、よく混ぜます。できあがり！

Slide 66

Slide 66 text

4 フライパンにごま油を熱し、人参を炒めます。 5 人参がしんなりしたら、ごぼうを入れて、全体がしんなりするまで炒めます。 6 全体に火が通ったら、調味料を入れて、よく混ぜます。できあがり！実はこれ… 提案する機械学習手法による学習済みモデルがをに自動変換したものです！

Slide 67

Slide 67 text

問題の発展：手順書生成提案手法はシンプル＋より精度を向上 [Nishimura+, IEEE Access 2020]

Slide 68

Slide 68 text

構造に配慮した写真列からの手順書生成 →疑似材料ツリーを活用した半教師あり学習 →「行って帰ってくる」損失を用いた詳細記述 [Nishimura+, IEEE Access 2020]

Slide 69

Slide 69 text

問題の発展：変化キャプション生成 • 2枚の画像間の変化を示すキャプションの生成 – 既存研究：単一の変化に絞った記述 – CLEVRを利用して、複数の変化が含まれた画像ペアとその記述を含むCLEVR-Multi-Changeデータセットを構築 – Transformer型の変化キャプション生成モデルである Multi-Change Captioning Transformer (MCCFormer)を提案 • 2枚の画像間の各領域の関係をエンコードする MCCFormers-D • 画像内の各領域の関係もエンコードできる MCCFormers-S – 提案データセットでも監視カメラ画像のデータセットであるSpot-the-Diffデータセットでも良好な結果 • なお謝辞（右図）は研究メンターシッププログラムによるものです（参加者募集中！） https://sites.google.com/view/prmu-rmp/conferences [Qiu+, ICCV 2021]

Slide 70

Slide 70 text

参照表現生成

Slide 71

Slide 71 text

参照表現生成 • 与えられた画像の領域に最も適した記述を生成するタスク • 歴史はとても長い – SHRDLU [Winograd, 1972] の一機能として積み木の世界での参照表現生成が実現 [Yu+, CVPR 2017]

Slide 72

Slide 72 text

よくあるアプローチ：参照表現理解との同時最適化 • このアプローチの草分け [Mao+, CVPR 2016] – キャプション生成としての参照表現生成 – 類似画像検索としての参照表現理解 – データセットに参照表現が無い物体領域も含めた半教師あり学習が可能 • 強化学習の活用 [Yu+, CVPR 2017] – 参照表現理解をおこなうListener – 参照表現生成をおこなうSpeaker – だけでなく、参照表現と領域のマッチングをロジスティック回帰で評価した結果を報酬とするReinforcerを導入 →より曖昧性の低い参照表現生成を実現

Slide 73

Slide 73 text

人がすばやく見分けられる差分に注目した記述生成 “ウォーリーを探せの回答を自動生成できる手法” 正しく差分を記述していても見つけられない [Tanaka+, ICCV 2019]

Slide 74

Slide 74 text

参照表現生成モデルと新規データセットの収集・公開 • 「行って帰ってくる」損失で一意性をもった生成モデル「帰ってくる」赤枠の人のために生成したキャプションで赤枠の人が検索できるか？「行って」赤枠の人のためにキャプションを生成できるか？ [Tanaka+, ICCV 2019]

Slide 75

Slide 75 text

実験結果提案手法は • 目立つ物体に言及 • 一意性のある参照表現生成を達成 [Tanaka+, ICCV 2019]

Slide 76

Slide 76 text

ビジュアル質問生成

Slide 77

Slide 77 text

Visual Question Generation • 視覚的質問生成（VQG）の提案質問生成は画像キャプションの生成か検索を検討 • Qに対する要求 – その質問から会話が始まるような質問 – 画像を見てわかるような質問ではだめ ✗ How many horses are in the field? ✓ Who won the race? [Mostafazadeh+, ACL 2016]

Slide 78

Slide 78 text

未知物体についてのVQG 画像認識器が知らない物体: 人から教わりたい • 質問なら何でもいいわけじゃない • 「なにこれ？」のような曖昧な質問だと… 回答も「物体」のように曖昧になりそう • 学習して自動生成できた質問の例 What is the woman holding in her right hand? What type of shirt is the man wearing? What in on the man’s lap? ? [Uehara+, ECCV 2018]

Slide 79

Slide 79 text

Vision and Languageとその先へ3 ランゲージ→ビジョン

Slide 80

Slide 80 text

テキストによる画像/動画検索

Slide 81

Slide 81 text

Slide 82

Slide 82 text

テキストによる画像生成

Slide 83

Slide 83 text

文で生成結果を変えるには Generator と Discriminator に文を加える・自然な画像・文に沿った画像を生成しようとする・不自然な画像・文に合わない画像を識別しようとする [Reed+, ICML 2016]

Slide 84

Slide 84 text

生成できた画像の例 • 鳥(CUB)/花(Oxford-102)データセット – 約1万の鳥/花画像と5キャプション/画像 – 200種類の鳥/102種類の花 A tiny bird, with a tiny beak, tarsus and feet, a blue crown, blue coverts, and black cheek patch Bright droopy yellow petals with burgundy streaks, and a yellow stigma

Slide 85

Slide 85 text

その後の展開 StackGAN [Zhang+, ICCV 2017] • 2段階のGANからなるモデル • 1段目でぼやっとした画像を生成、2段目で高解像+詳細化

Slide 86

Slide 86 text

キャプションからの画像生成 This bird is blue with white and has a very short beak. (この鳥は白の入った青色で、とても短いくちばしをもっています。) This flower is white and yellow in color, with petals that are wavy and smooth. (この花は白と黄色で、波打った滑らかな花びらをもっています。) [Zhang+, ICCV 2017]

Slide 87

Slide 87 text

Slide 88

Slide 88 text

DALL-E Autoregressive decoder using Transformer [Ramesh+, 2021]

Slide 89

Slide 89 text

Vision and Languageとその先へ4 ビジョン＋ランゲージ→ビジョン

Slide 90

Slide 90 text

テキストによる画像編集

Slide 91

Slide 91 text

GANによるText2Image論文の中で… Generator と Discriminator に文を加える [Reed+, ICML 2016] これがうまく学習されている時： • 𝝋𝝋が画像のコンテンツ（オブジェクトとその見た目） • 𝒛𝒛が画像のスタイル（背景）を表しているはず！（ある種のDisentangleが実現されているはず）

Slide 92

Slide 92 text

テキストによる画像編集の萌芽的実験 1. 画像から𝑧𝑧を逆推定する別のCNNを学習させる 2. 推定した𝑧𝑧に対してキャプションのエンコード結果𝜑𝜑を加えてGenerator Networkを推論させる →テキストによる画像編集が出来ているハズ！ [Reed+, ICML 2016]

Slide 93

Slide 93 text

敵対的学習による画像編集の直接的な学習 • 直接的な学習をする為の一番単純なアプローチ＝編集前の画像、テキスト、編集後の画像の3点セットをたくさん集めて学習する • 本研究：当たらずも遠からずなテキスト ̅ 𝑡𝑡の活用 – 画像𝑥𝑥＋完全一致する内容のテキスト𝑡𝑡 – 画像𝑥𝑥＋何もかも異なる内容のテキスト ̂ 𝑡𝑡 – 画像𝑥𝑥＋同じカテゴリだが詳細が異なるテキスト ̅ 𝑡𝑡 そんなデータセット構築するの無理では？ ̅ 𝒕𝒕から𝑥𝑥を生成しよう • 𝑥𝑥と𝑡𝑡が来たら+1 • 𝑥𝑥と ̂ 𝑡𝑡が来たら-1 • 𝒙𝒙と ̅ 𝒕𝒕が来たら-1 を出力しよう [Dong+, ICCV 2017]

Slide 94

Slide 94 text

編集実験結果 • 画像とテキストの表現学習 [Kiros+, TACL 2015] を利用 • Baselineとして先行研究 [Reed+, ICML 2016] と比較アンケート評価で勝ちました

Slide 95

Slide 95 text

変化キャプション生成をフィードバックに利用 • 言語指示による画像編集 – 問題はデータセットの規模の小ささ（VLNと同様） – 正直、右のImage ManipulationとImage Editingの分類には懐疑的… • クロスモーダル&サイクルな構造によるEditing Description Network – 編集すべき画像領域を推定するImage-Request Attention (IRA) – ピクセルごとのL1距離などよりも納得性の高い評価指標としての Redescription Similarity Score (RSS) 以下の2つの変化キャプション同士のCIDEr等の類似度 • 編集前画像と編集後画像（正解）の変化キャプション • 編集前画像と編集後画像（生成）の変化キャプション → つまりInception Score的 [Jiang+, ICCV 2021]

Slide 96

Slide 96 text

Vision and Languageとその先へ5 ビジョン＋ランゲージ→ランゲージ

Slide 97

Slide 97 text

マルチモーダル翻訳

Slide 98

Slide 98 text

他言語への展開データセット • IAPR TC12 [Grubinger+, 2006] 20,000画像+英独 • Multi30K [Elliot+, 2016] 30,000画像+英独 • STAIR Captions [吉川ら、 2017] MS COCO (10万超画像＋英語キャプション) →すべてに日本語キャプションを付与タスクとしての展開 • 英語でない画像キャプション生成 • マルチモーダル機械翻訳/言語間文書検索 1. 入力：言語Aでのキャプション+画像 2. 入力：言語Aでのキャプション → 出力：言語Bでのキャプション（1.と2.で同じ）

Slide 99

Slide 99 text

そもそもの着想画像は機械翻訳の精度に寄与[Calixto+,2012] • 英語でsealとあるけど、・stampに近いsealなのか？・sea animalのsealなのか？がわからず誤ったポルトガル語に翻訳 • （実験してないけど）画像があれば防げるはず！

Slide 100

Slide 100 text

マルチモーダル機械翻訳 • 画像を介した言語横断キャプション翻訳 [Elliott+, 2015] [Hitschler+, ACL 2016] – 最初に候補翻訳を複数生成（画像には非依存） – 類似画像に付随する言語Bのキャプションを利用して翻訳候補から出力を選択 Eine Person in einem Anzug und Krawatte und einem Rock. (独語) 画像を見ない場合の翻訳 A person in a suit and tie and a rock. 画像を利用した場合の翻訳 A person in a suit and tie and a skirt.

Slide 101

Slide 101 text

画像を暗に用いたキャプション翻訳 • 画像を介した言語横断関連文書検索[Funaki+Nakayama, EMNLP 2015] • ゼロ対訳コーパスでのマルチモーダル翻訳 [Nakayama+Nishida, 2017]

Slide 102

Slide 102 text

ビジュアル対話

Slide 103

Slide 103 text

Vision-Aware Dialog エージェントとユーザー以外に視覚的な情報が存在研究を大別すると… • データセットの提供 VisDial [Das+, CVPR 2017] • それらを利用した対話の研究共参照解析を利用したVisDialモデル

Slide 104

Slide 104 text

マルチモーダル対話？ • マルチモーダル対話 – 主にユーザからの入力が複数モーダルの情報 • Vision-Aware Dialog – 環境などに視覚情報を伴うものをさす – マルチモダリティではある本講演では Vision-Aware Dialog と呼ぶことにします

Slide 105

Slide 105 text

目的の一覧 • Vision-Awareな対話をモデル化したい →VisDial [Das+, CVPR 2017]など • CVの既存/新規な問題を対話的に解きたい – 画像キャプション生成 – ロボットのPick&Place – 画像内のどこを見ているかを共有したい →GuessWhat?! [de Vries+, CVPR 2017]など – どの画像を見ているかを共有したい – 商品の推薦システムを作りたい →MMD [Saha+, AAAI 2018]など – 対話的なナビゲーションシステムを作りたい →VNL [Anderson+, ICCV 2017], Talk the Walk [de Vries+, 2018]など

Slide 106

Slide 106 text

どの画像を見ているかを共有したい 10 Round のQA後Questionerが画像を当てる当たれば2エージェント共に勝利（協調） 10 Rounds [Das+, ICCV 2017]

Slide 107

Slide 107 text

なぜ言語か • 一番トリビアルな解: 「Questionerを無視してAnswererが画像や画像特徴量を送付」自然言語（シンボル列）はボトルネックとして作用→トリビアルな解を回避できる • 人間に理解可能：学習後、どちらかのエージェントと人間が交替して対話できる Questioner Answerer 大人が写っていますか？（無視） [Das+, ICCV 2017]

Slide 108

Slide 108 text

提案手法による対話と学習 • 質問𝑞𝑞𝑡𝑡 と応答𝑎𝑎𝑡𝑡 の生成・理解: Hierarchical Recurrent Encoder-Decoder • 画像(特徴量)𝑦𝑦の推定値� 𝑦𝑦の出力: 単層全結合ネットワークによる回帰 [Das+, ICCV 2017]

Slide 109

Slide 109 text

SL-Pretrained（教師あり事前学習のみ） Questioner Answerer A couple of people in the snow on skis. 2 I can’t tell I can’t tell, they are far away I can’t tell Yes Yes Yes Yes Yes Yes How many people? Male or female? What are they wearing? What color are skis? Are they wearing goggles? Are they wearing goggles? Are they wearing goggles? Are they wearing goggles? Are they wearing hats? Are they wearing goggles?

Slide 110

Slide 110 text

RL-full-QAf（提案手法） Questioner Answerer A couple of people in the snow on skis. Are people male or female or both? What are they wearing? Is it snowing? Can you see any trees? Can you see any buildings in background? Can you see any trees? Can you see any buildings in background? Can you see any trees? Can you see any buildings in background? Does it look like they are in park? I think 1 is male, can’t see other 1 ... They are all wearing snow pants and jackets It does not appear to be snowing at moment Yes, there are lot of trees in background No, I can not Yes, there are lot of trees in background No, I do not see any buildings Yes, there are lot of trees in background No , I do not see any buildings It does not appear to be

Slide 111

Slide 111 text

Vision and Languageとその先へ共通の話題と今後の展望

Slide 112

Slide 112 text

データセット

Slide 113

Slide 113 text

データセット Webからクロールしてきたもの • SBU Captioned Image [Ordonez+, NIPS 2011] 100万枚のFlickr画像、1キャプション/画像 • YFCC-100M [Thomee+, 2015] 1億枚のFlickr画像＋動画、一部の画像にキャプション • Déjà Image-Captions [Chen+, ACL 2015] 1つのキャプションに複数の画像が紐づいている

Slide 114

Slide 114 text

データセットクラウドソーシングを用いたもの • PASCAL Sentence, Flickr 8k/30k (すべてUIUCから) それぞれ1000/8000/30000枚の画像、5キャプション/画像 • Abstract Scene Dataset [Zitnick+Parikh, CVPR 2013] 10000枚のクリップアート、6キャプション/画像 • MS COCO [Lin+, 2014] 10万超の画像、5キャプション/画像 • MSR Dense Visual Annotation Corpus [Yatskar+, *SEM 2014] 500枚の画像に100,000の矩形領域+キャプション • PASCAL-50S, ABSTRACT-50S [Vedantam+, CVPR 2015] より人間らしい評価のために作成、50キャプション/画像 • Visual Genome [Krishna+, IJCV 2017] 10万超の画像にキャプションやQAなどが密に付随

Slide 115

Slide 115 text

Slide 116

Slide 116 text

データセット、データセット、データセット • より大規模に – 1000枚の画像とキャプションのペアから4億の画像とキャプションペア（CLIPの学習に用いられているWebImageTextデータセット）へ • より複雑に – 画像とキャプションのペアから画像領域ごとのキャプションへ – 動画とキャプションのペアから動画の時空間領域ごとのキャプションへ • より多くのモダリティを – 音声 [Yun+, ICCV 2021] – 点群 [Wu+, ICCV 2021] – マウスの軌跡 [Pont-Tuset+, ECCV’20]

Slide 117

Slide 117 text

YouRefIt: Embodied Reference Understanding with Language and Gesture • 言語とジェスチャーからなるYouRefItデータセットの提案とベースライン実験の報告 – 432の屋内シーンにおける4195のビデオクリップ – 言語による参照と、実際にジェスチャーで指し示したビデオ • Embodied Reference Understanding (ERU) の提案とベースライン手法による実験 – 視覚的顕著性 – PAF（姿勢） – 元の画像 – 参照表現を統合して領域を推定 • 右図：フレームごとの推定結果 – ジェスチャーによって推定結果が改善 [Chen+, ICCV 2021]

Slide 118

Slide 118 text

Pano-AVQA: Grounded Audio-Visual Question Answering on 360° Videos • 5400のパノラマ動画に51700対のQA – 動画も音声も理解しないと答えられない – オブジェクト毎にbboxとラベル付け • 音を発生させる/させない • 視覚的な説明 • （音を出す場合）聴覚的な説明 • ベースライン手法による実験 – Transformerで単語/音/画像をエンコード – 映像の位置情報はクオータニオンを利用 – それぞれのモダリティでの表現学習 – 正答率5割程度 [Yun+, ICCV 2021]

Slide 119

Slide 119 text

Towers of Babel: Combining Images, Language, and 3D Geometry for Learning Multimodal Vision WikiScenesデータセットの提案といくつかのベースライン実験の報告 23か国の99の聖堂についての6万3千対の画像・キャプション対とCOLMAP [Schonberger+Frahm, CVPR’16] で復元した点群データ [Wu+, ICCV 2021]

Slide 120

Slide 120 text

評価指標

Slide 121

Slide 121 text

手法の良さをどう評価するか • 主観的評価 – 複数人のアンケートによる採点 ✓人の主観を直接反映できる ✕ 新手法を出すにはベースラインを含めて再アンケートすることに • 客観的評価 – 何らかの客観的評価指標を自動算出 ✓ アンケートのようなコストを掛けずに、素早く優劣を評価できる ✕ 必ずしも人の主観的な優劣と相関しない

Slide 122

Slide 122 text

出力が認識結果の場合の客観的評価認識結果の精度 • 例えばビジュアル質問応答なら…出力はクラス分類結果 – 人間10人が答えた時に3人以上が出した答えと一致するなら1点として、その平均値 • 例えばビジョン＆ランゲージナビゲーションなら…出力は移動結果 – ゴールまで3m以内の地点で停止できた割合 – 停止地点とゴールとの環境内での道のり – 移動経路自体の道のり [Wang+, CVPR 2019] • 例えば参照表現理解なら…出力は画像領域の検出結果 – Intersection-over-union (IoU)が0.5より大きい正答の割合 [Wang+, CVPR 2019]

Slide 123

Slide 123 text

出力がビジュアルデータの場合の客観的評価画像生成の評価指標と同様 • Inception Score [Salimans+, NIPS 2016] – 条件付き画像生成に使用可能な指標 – 以下のKLダイバージェンスの平均値 • 生成した画像を何らかの画像認識器（もともとはGoogleのCNNである Inception）によって識別した事後確率 • 条件となったラベル • Fréchet inception distance [Heusel+, NIPS 2017] – Inception scoreは上記の通り画像の内容を見ない – FIDでは画像認識の事後確率ではなく途中の特徴量ベクトルの分布間距離を用いる • 実画像の特徴量の確率分布 • 生成された画像の特徴量の確率分布

Slide 124

Slide 124 text

出力がランゲージデータの場合の客観的評価言語生成の評価指標と同様 CoSMoS [Ushiku et al., ICCV 2015] Group of people sitting at a table with a dinner. Corpus-Guided [Yang et al., EMNLP 2011] Three people are showing the bottle on the street Midge [Mitchel et al., EACL 2012] people with a bottle at the table

Slide 125

Slide 125 text

定量評価指標機械翻訳では… • テスト文に複数の参照訳が付随（通常5文） • これらの参照訳と近い訳文が「良い」 • 既存の評価指標（BLEUやMETEOR、ROUGEなど） • キャプション生成の評価指標（CIDErやSPICEなど） One jet lands at an airport while another takes off next to it. Two airplanes parked in an airport. Two jets taxi past each other. Two parked jet airplanes facing opposite directions. two passenger planes on a grassy plain キャプション生成の評価でも同様の流れ PASCAL Sentenceの画像と参照キャプションの例

Slide 126

Slide 126 text

深層学習上の工夫

Slide 127

Slide 127 text

工夫① アテンション（注意）機構 • 機械翻訳とほぼ同時期にアテンション機構が採用される – 画像キャプション生成へのアテンションモデルの利用 [Xu+, ICML 2015] – 画像+キャプションデータのみからの学習！ – 動画キャプション生成：時間方向のアテンション[Laokulrat+, COLING 2016]

Slide 128

Slide 128 text

日本語を英語にGoogle翻訳してみるこの結果を日本語にGoogle翻訳してみる

Slide 129

Slide 129 text

工夫② コンシステンシー損失 • 「行って帰ってくる損失」 – 出力キャプション→入力画像を再推定 – cf. CycleGAN[Zhu+, ICCV 2017] 変分自己符号化器 [Pu+, NIPS 2016] 出力キャプションで領域検索 [Luo+Shakhnarovich, CVPR 2017]

Slide 130

Slide 130 text

工夫③ 強化学習の利用 • 強化学習を利用したキャプション生成評価指標を報酬とする強化学習を導入 • ビジュアル対話やビジョン＆ランゲージナビゲーションでも強化学習が活躍 state RNNの状態変数 action 単語系列の推定 reward 評価指標 environment 画像特徴と生成中のキャプション [Ranzato+, ICLR 2016][Rennie+, CVPR 2017]

Slide 131

Slide 131 text

なぜ強化学習？ → (i) 最適化したい目的関数と評価の乖離学習に用いるのは Cross-Entropy 評価に用いるのは BLEUなどの評価指標 →キャプションの評価指標を直接最適化するべきでは？ • 評価指標の直接最適化 – 機械翻訳では深層学習以前からある着想 [Och, ACL 2003] • 深層学習で評価指標を直接最適化…？ – 勾配が求められないから学習できない！！ →強化学習の報酬にすればok！短い文へのペナルティ N-gramのPrecision

Slide 132

Slide 132 text

なぜ強化学習？ → (ii) Exposure Bias 通常のRNNによる系列生成モデル学習では… • 学習時：Teacher forcing – 入力は𝑡𝑡 − 1番目までの教師データ • テスト時：Free running – 入力は𝑡𝑡 − 1番目までで自身が推定したデータテスト時の生成系列が訓練データから外れだすと不安定に →強化学習によって学習時からFree runningできる！

Slide 133

Slide 133 text

工夫④ 事前学習/表現学習 • モダリティごとの事前学習/表現学習 – 画像ならImageNetでの事前学習済みCNNモデル – テキストならBooksCorpusやWikipedia、Text-to-Text Transfer Transformer (T5) [Raffel+, JMLR 2020]での事前学習済みTransformerモデル • ビジョン＆ランゲージでも： Transformerの流行に合わせて膨大なさいきょうの表現学習が出現 – Transformer以前のCNN+RNNによる表現学習もあるよ！ [Kiros+, NIPS WS 2014] – 画像や文のパーツを1本ずつベクトルで表現 VideoBERT [Sun+, ICCV’19], LXMERT [Tan+Bansal, EMNLP’19], ViLBERT [Lu+, NeurIPS’19], VL-BERT [Su+, ICLR’20], UNITER [Chen+, ECCV’20], OSCAR [Li+, ECCV’20], Voken [Tan+Bansal, EMNLP’20], COOT [Ging+, NeurIPS’20] – 画像/文全体をそれぞれ1つのベクトルで表現 VSE++ [Faghri+, BMVC’18], CLIP [Radford+, ICML’21], ALIGN [Jia+, ICML’21] [Tan+Bansal, EMNLP’20]

Slide 134

Slide 134 text

LocTex: Learning Data-Efficient Visual Representations from Localized Textual Supervision • 画像、キャプション、その対応を示すマウスカーソルの軌跡から表現学習 – おなじみのContrastive Loss – Localized Narratives [Pont-Tuset+, ECCV’20]を利用して、アテンションがマウス軌跡に近づくように(c)を学習 • 比較的少ないデータ量で優れた表現学習を実現 – 物体のbboxや領域マスクよりも簡便 – ImageNetの数分の一のデータ量で、 ImageNetよりも物体検出や領域分割の精度が向上

Slide 135

Slide 135 text

GLoRIA: A Multimodal Global-Local Representation Learning Framework for Label-efficient Medical Image Recognition • 医療画像認識のための表現学習 – 画像/文全体の表現はContrastive Lossで学習 – 領域/単語ごとの表現は注意機構によって対応付けてContrastive Lossで学習 • 実験結果 – CheXpert [Irvin, AAAI’19] データという 65,240人の224,316枚の胸部X線画像と、その読影レポートからなるデータを利用 – 3種類の実験結果で、教師データが少数でも良好な精度が達成されることを確認 • 画像とレポートの検索 • 識別（ファインチューニングとゼロショット） • 領域分割 – 右図：アテンションの例 (a) 肺炎、(b) 気胸、 (c) 浮腫, (d) 陰影

Slide 136

Slide 136 text

ビジョン＆ランゲージの難しさ

Slide 137

Slide 137 text

難しさ① データ集めるの大変 • 典型例：ビジョン＆ランゲージナビゲーション – Vision-Language Navigation 最初に与えられた言語指示だけで目的地までたどり着くもの（右図） – Vision-Dialog Navigation 移動中に言語で質問し、言語による回答を得ることが可能 • 共通の課題してデータセットを潤沢に集めにくい – 一方で各エージェントの環境は分散が大きい – 主な方策は以下の2つ • 強化学習の活用 • データをどうにかして増幅 [Anderson+, ICCV 2017] （下はランダムに環境をMixup [Zhu+, ICCV’21]）

Slide 138

Slide 138 text

機械学習ベースのデータセット増幅 • 従来 [Anderson+, CVPR 2018]： – 道順を聞いて動くエージェント (Follower) のみモデル – Follower は正面の画像のみ見ている設定 • 本研究： – 道順そのものを新たな経路から生成できるエージェント (Speaker) を用意→訓練データを拡張 – Follower は360°画像を利用 [Fried+, NeurIPS 2018]

Slide 139

Slide 139 text

別環境に対しても疑似的に学習データを作ってしまえ • 目標：データセットの規模小さい問題の解決 • AirbnbからVLNっぽいデータセットを収集 – BnBデータセット – 室内の画像とそれを記述したキャプション →画像列として道（Path）を生成 →Pathに基づいたインストラクションを生成（テンプレートとキャプション生成モデル） • 3つの段階による学習で未知環境での精度向上 1: 画像とキャプションのペアから表現学習、2: BnBデータで事前学習、3: 少数の実データでファインチューン [Guhur+, ICCV 2021]

Slide 140

Slide 140 text

ビジュアル対話でも… MMD：対話に基づく画像検索（商品推薦） • 従来：対話データで訓練 • 本研究：2枚の画像を比較したキャプションを集めて事前学習 [Guo+, NeurIPS 2018]

Slide 141

Slide 141 text

難しさ② 精度が上がるとは限らない VQAのデータセット[Antol+, ICCV 2015] では • 画像と関連しない質問が混在する [Ray+, EMNLP 2016] →画像と関連しない質問文の検知 [Mahendru+, EMNLP 2017] • 画像を見ずとも、質問文とバイアスだけである程度正解出来てしまう →バランスをとり直した VQA v2.0 データセット[Goyal+, CVPR 2017] →敵対的な正則化による言語事前分布の影響の解消 [Ramakrishnan+, NeurIPS 2018] [Mahendru+, EMNLP 2017]

Slide 142

Slide 142 text

マルチモーダル機械翻訳の賛否 • 機械翻訳の国際会議 (WMT) でコンペ開催初回の2016年から毎年開催・Multi30K を利用 • しかし… – 運営公式「画像を用いても差が出ない」[Barrault+, 2018] – データセット作者「関係ない画像を与えても翻訳精度にそれほど影響が出ない」[Elliot+, EMNLP 2018] • 機械翻訳に画像を使う意味は？ [Caglayan+, ACL 2019] – Multi30Kでは、入力文のみで充分翻訳出来てしまうだけ – 入力文を隠ぺいすると画像の寄与が観察できる

Slide 143

Slide 143 text

No content

Slide 144

Slide 144 text

The 1st CVPR 2019 Workshop on Computer Vision After 5 Years

Slide 145

Slide 145 text

No content

Slide 146

Slide 146 text

Cross-Modal Matching Criticも使っている Cycle consistencyといえばコレ！

Slide 147

Slide 147 text

No content

Slide 148

Slide 148 text

No content

Slide 149

Slide 149 text

牛久の独断と偏見 • さすがに全タスクで最近傍探索や単一モダリティのベースラインに負けることはない • が、キャプション翻訳などはまさにこの指摘が該当する • 既に存在するタスクにモダリティを無邪気に追加するのは危険 • 複数のモダリティを入力や出力とするのは危険天真爛漫に新タスクを考えてデータセットとマルチモーダル深層学習ベースラインを作ってないかは要注意

Slide 150

Slide 150 text

まとめ • 視覚・言語融合課題であるビジョン＆ランゲージを俯瞰 1. ビジョン+ランゲージ→認識結果 2. ビジョン→ランゲージ 3. ランゲージ→ビジョン 4. ビジョン+ランゲージ→ビジョン 5. ビジョン+ランゲージ→ランゲージ • 共通の話題と今後の展望 – 上記研究課題自体の多くは Deep Learning 以前も存在 – データセットと評価指標 – 深層学習上の工夫 – ビジョン＆ランゲージの難しさ視覚×言語の新たなステージへ