Vision and Language とその先へ

Vision and Languageとその先へオムロンサイニックエックス株式会社牛久祥孝 losnuevetoros

自己紹介（学職歴） 2013.6～2013.8 Microsoft Research Intern 2014.3 博士(情報理工学)、東京大学 2014.4～2016.3 NTT CS研
研究員 2016.4～2018.9 東京大学講師 (原田牛久研究室) 2016.9～産業技術総合研究所協力研究員 2016.12～2018.9 国立国語研究所共同研究員 2018.10～オムロンサイニックエックス株式会社 Principal Investigator 2019.1～株式会社 Ridge-i Chief Research Officer 2020.4～津田塾大学非常勤講師 2021.7～東北大学非常勤講師 2022.1～合同会社ナインブルズ代表 [Ushiku+, ACMMM 2012] [Ushiku+, ICCV 2015] 画像キャプション生成動画の特定区間とキャプションの相互検索 [Yamaguchi+, ICCV 2017] A guy is skiing with no shirt on and yellow snow pants. A yellow train on the tracks near a train station.

自己紹介（その他）主な学術団体活動 ACM・IEEE・情報処理学会・応用物理学会一般会員コンピュータビジョン勉強会＠関東幹事電子情報通信学会パターン認識・メディア理解研究会専門委員情報・システムソサイエティ
庶務幹事著作権管理委員会委員人工知能学会論文誌編集委員会編集委員建築情報学会理事日本ロボット学会代議員日本ディープラーニング協会有識者会員共立出版コンピュータビジョン最前線編集主な研究プロジェクト 2021-2025 マテリアル探索空間拡張プラットフォームの構築 JST 未来社会創造事業（代表:長藤圭介） 2017-2020 多様なデータへのキャプションを自動で生成する技術の創出 JST ACT-I（代表:牛久祥孝） 2017-2021 機械可読時代における文字科学の創成と応用展開 JSPS 基盤研究(S)（代表:内田誠一）

2011 2012 2014 電話音声認識のエラー率が 30%程度→20%以下に [Seide+, InterSpeech 2011] 大規模画像分類のエラー率が 25%程度→15%程度に
[Krizhevsky+, NIPS 2012] LSTMで英仏翻訳の精度が複雑なシステムと同等に [Sutskever+, NIPS 2014]

深層学習前 • 画像認識（CV） • 機械翻訳（NLP）局所記述子高次元ベクトル表現プロダクト
量子化オンライン線形分類吾輩は猫である。名前はまだ無い。どこで生れたかとんと見当がつかぬ。何でも薄暗いじめじめした所でニャーニャー泣いていた事だけは記憶している。単語/句アライメントフレーズテーブル・言語モデル対数線形モデルリランキング Thai Cat I am a cat. I don't have a name yet. I have no idea where I was born. I only remember that I was crying in a damp and dimly lit place. NLP研究者には謎 CV研究者には謎

深層学習後 • 画像認識（CV） • 機械翻訳（NLP）吾輩は猫である。名前はまだ無い。どこで生れたかとんと見当がつかぬ。何でも薄暗いじめじめした所で
ニャーニャー泣いていた事だけは記憶している。 I am a cat. I don't have a name yet. I have no idea where I was born. I only remember that I was crying in a damp and dimly lit place. NLP研究者も…！ CV研究者も…！ cat RNN RNN CNN CNN CNN Thai Cat

深層学習後 • 画像認識（CV） • 機械翻訳（NLP）吾輩は猫である。名前はまだ無い。どこで生れたかとんと見当がつかぬ。何でも薄暗いじめじめした所で
ニャーニャー泣いていた事だけは記憶している。 I am a cat. I don't have a name yet. I have no idea where I was born. I only remember that I was crying in a damp and dimly lit place. NLP研究者も…！ CV研究者も…！ cat RNN RNN CNN CNN CNN Thai Cat CNN CNN 吾輩は猫である。名前はまだ無い。どこで生れたかとんと見当がつかぬ。何でも薄暗いじめじめした所でニャーニャー泣いていた事だけは記憶している。 I am a cat. I don't have a name yet. I have no idea where I was born. I only remember that I was crying in a damp and dimly lit place. NLPでもCNNは使う！ CNN RNN Hiding CVでもRNNは使う！

ユーザー生成コンテンツの爆発的増加特にコンテンツ投稿・共有サービスでは… • Facebookにアップロードされる画像 1日で計3億枚 • YouTubeにアップロードされる動画 1分間で計400時間分 Pōhutukawa blooms
this time of the year in New Zealand. As the flowers fall, the ground underneath the trees look spectacular. 画像/動画と関連する文章の対 →大量に収集可能

Vision and Language の萌芽的な研究記事付き画像へのキャプション生成 [Feng+Lapata, ACL 2010] • Input:
article + image Output: caption for image • Dataset: Sets of article + image + caption × 3361 King Toupu IV died at the age of 88 last week.

Vision and Language の萌芽的な研究 × 3361 King Toupu IV died
at the age of 88 last week. 記事付き画像へのキャプション生成 [Feng+Lapata, ACL 2010] • Input: article + image Output: caption for image • Dataset: Sets of article + image + caption これらの背景から… つぎのような様々な取り組みが！

ビジュアル質問応答 [Fukui+, EMNLP 2016]

ビジュアル質問応答 [Fukui+, EMNLP 2016] ①マルチモーダル理解入力：ビジュアルデータ＋テキストデータ → 出力：認識結果

画像キャプション生成 Group of people sitting at a table with a
dinner. Tourists are standing on the middle of a flat desert. [Ushiku+, ICCV 2015]

画像キャプション生成 Group of people sitting at a table with a
dinner. Tourists are standing on the middle of a flat desert. [Ushiku+, ICCV 2015] ②Image2Text 入力：ビジュアルデータ → 出力：テキストデータ

キャプションからの画像生成 [Ramesh+, 2021] An illustration of a baby hedgehog in
a wizard hat riding a car A photo of the food of japan

キャプションからの画像生成 [Ramesh+, 2021] An illustration of a baby hedgehog in
a wizard hat riding a car A photo of the food of japan ③Text2Image 入力：テキストデータ → 出力：ビジュアルデータ

テキストによる画像編集 [Dong+, ICCV 2017]

テキストによる画像編集 [Dong+, ICCV 2017] ④Image+Text2Image 入力：ビジュアルデータ＋テキストデータ → 出力：テキストデータ

ビジュアル対話 Questioner Answerer A couple of people in the snow
on skis. What are their genders? Are they both adults? Do they wear goggles? Do they have hats on? Are there any other people? What color is man’s hat? Is it snowing now? What is woman wearing? Are they smiling? Do you see trees? 1 man 1 woman Yes Looks like sunglasses Man does No Black No Blue jacket and black pants Yes Yes [Das+, CVPR 2017]

ビジュアル対話 Questioner Answerer A couple of people in the snow
on skis. What are their genders? Are they both adults? Do they wear goggles? Do they have hats on? Are there any other people? What color is man’s hat? Is it snowing now? What is woman wearing? Are they smiling? Do you see trees? 1 man 1 woman Yes Looks like sunglasses Man does No Black No Blue jacket and black pants Yes Yes [Das+, CVPR 2017] ⑤Image+Text2Text 入力：ビジュアルデータ＋テキストデータ → 出力：テキストデータ

本講演の目的視覚×言語（Vision and Language）の融合研究を俯瞰 1. ビジョン+ランゲージ→認識結果ビジュアル質問応答、参照表現理解/ビジュアル接地、ビジュアル含意関係認識、ビジョン＆ランゲージナビゲーション 2. ビジョン→ランゲージ
画像によるテキスト検索、キャプション生成、参照表現生成、ビジュアル質問生成 3. ランゲージ→ビジョンテキストによる画像/動画検索、テキストによる画像生成 4. ビジョン+ランゲージ→ビジョンテキストによる画像編集 5. ビジョン+ランゲージ→ランゲージマルチモーダル翻訳、ビジュアル対話 6. 共通の話題と今後の展望

Vision and Languageとその先へ1 ビジョン+ランゲージ→認識結果

ビジュアル質問応答

Visual Question Answering (VQA) 最初はユーザインタフェース分野で注目 • VizWiz [Bigham+, UIST 2010]
AMTで人力解決 • 初の自動化（ディープラーニング不使用） [Malinowski+Fritz, NIPS 2014] • 類似用語：Visual Turing Test [Malinowski+Fritz, 2014]

VQA: Visual Question Answering • ビジュアル質問応答を分野として確立 – ベンチマークデータセットの提供 – ベースとなるパイプラインでの実験
• ポータルサイトも運営 – http://www.visualqa.org/ – 国際コンペティションも開催 [Antol+, ICCV 2015] What color are her eyes? What is the mustache made of?

VQA Dataset AMT で質問と回答を収集 • 10万超の実画像、3万超のアニメ調画像 • 計70万弱の質問＋それぞれ10の模範回答

VQA=多クラス分類問題表現ベクトル𝑍𝑍𝐼𝐼+𝑄𝑄 以降は通常のクラス識別質問文𝑄𝑄 What objects are found on the
bed? 応答𝐴𝐴 bed sheets, pillow 画像𝐼𝐼 画像特徴量 𝑥𝑥𝐼𝐼 質問特徴量 𝑥𝑥𝑄𝑄 統合された表現ベクトル 𝑧𝑧𝐼𝐼+𝑄𝑄

その後の展開：統合方法「統合された表現ベクトル𝑧𝑧𝐼𝐼+𝑄𝑄」の工夫 • VQA [Antol+, ICCV 2015]：そのまま直列に並べる • 「和」グループ例
Attentionで重みづけ和をとった画像特徴と質問特徴を単純に足す [Xu+Saenko, ECCV 2016] • 「積」グループ例双線形積とフーリエ変換を組み合わせる [Fukui+, EMNLP 2016] • 「和」と「積」のハイブリッド例要素毎の積と要素毎の和を直列に並べる [Saito+, ICME 2017] 𝑧𝑧𝐼𝐼+𝑄𝑄 = 𝑥𝑥𝐼𝐼 𝑥𝑥𝑄𝑄 𝑥𝑥𝐼𝐼 𝑥𝑥𝑄𝑄 𝑥𝑥𝐼𝐼 𝑥𝑥𝑄𝑄 𝑧𝑧𝐼𝐼+𝑄𝑄 = 𝑧𝑧𝐼𝐼+𝑄𝑄 = 𝑧𝑧𝐼𝐼+𝑄𝑄 = 𝑥𝑥𝐼𝐼 𝑥𝑥𝑄𝑄 𝑥𝑥𝐼𝐼 𝑥𝑥𝑄𝑄

その後の展開：アテンション • 2017年SOTA [Anderson+, CVPR 2018] – これまで：Top-down領域の画像にアテンション –
Bottom-upとTow-down領域の両方にアテンション • 2018年SOTA [Nguyen+Okatani, CVPR 2018] – これまで：画像に対しアテンション – 質問特徴と画像特徴の両方にアテンション Bottom-up Top-down

ビジュアル含意関係性認識入力された画像と文（仮説）の関係性を3値分類するタスク • 含意関係にある！ • どちらとも言えない • 矛盾している！基本的なアプローチはVQAと同様 [Xie+,
2018]

参照表現理解/ビジュアル接地

参照表現理解 • 入力画像とクエリ文から、内容的に適合する画像領域を出力するタスク • 候補画像領域を – ある画像の中の複数領域とする場合＝参照表現理解 –
複数の画像とする場合＝テキストによる画像検索 • 本論文でもテキストによる画像検索も実現 [Hu+, CVPR 2016]

良くあるアプローチ • 参照表現生成との同時最適化（後述） • 参照表現理解だけを目的とした研究[Yu+, CVPR 2018] – 入力されたクエリ文によってモジュールを重みづけ主語モジュール
位置情報モジュール関係性モジュール – 領域分割手法と組み合わせると出力を領域に変更可能

ロボットのPick&Place 実はComprehensionモデル+α [Hatori+, ICRA 2018]

ロボットのPick&Place 実はComprehensionモデル+α [Hatori+, ICRA 2018] Comprehensionに相当する部分（何をPickするか）

ロボットのPick&Place 実はComprehensionモデル+α [Hatori+, ICRA 2018] ＋αに相当する部分（どこにPlaceするか）

ビジュアル接地（グラウンディング） • 言語と動画内の物体とのグラウンディング [Yu+Siskind, ACL 2013] – 動画とその動画を説明する文のみから学習 – 対象物体が少なく、コントロールされた小規模データセットでの実験
大まかな分類 • 文全体と画像のマッチング＝参照表現理解 • 文中のフレーズと画像のマッチング＝ビジュアル接地

画像領域とフレーズとのアライメント • 画像キャプション生成と並列でアライメント手法も提案 – キャプション生成は当時急増したCNN+RNNモデル – 画像・キャプションペアの類似度と非ペアの類似度の大小関係を維持するように類似度スコアを学習 –
類似度スコアから対応関係を推定 [Karpathy+Fei-Fei, CVPR 2015] Man in black shirt is playing guitar.

ビジョン＆ランゲージナビゲーション

Vision-and-Language Navigation (VNL) 対話行為が移動とナビゲーション [Anderson+, ICCV 2017]

R2R データセット実世界3次元データ [Chang+, 3DV 2017] を利用 • 90の建造物で総計10,800点のパノラマRGBD画像を収集 •
各点で18方向のRGBD画像を収集→パノラマ化 • 平均2.25m間隔、人の目線の高さ、カメラポーズも記録この3次元世界を動けるシミュレータを提供 • 観測：3次元位置およびカメラ角度＋主観画像（RGB） • 行動：隣接地点への移動またはカメラ角度の更新 [Anderson+, ICCV 2017]

Matterport3D Simulator のグラフ表現各位置𝒗𝒗をノードとする重み付き無向グラフ • 5m以上離れたエッジや障害物を挟むエッジは削除 • エッジが張られているノードのうち、現在の視界に含まれるノードに移動

Room-to-Room (R2R) タスク実体をもつエージェントが • 言語によるインストラクション ̅ 𝑥𝑥 = 𝑥𝑥1
, 𝑥𝑥2 , … , 𝑥𝑥𝐿𝐿 を受け • 𝑡𝑡番目のカメラパラメータ 𝑣𝑣𝑡𝑡 , 𝜓𝜓𝑡𝑡 , 𝜃𝜃𝑡𝑡 に基づいて、シミュレータからエージェントの見える光景𝑠𝑠𝑡𝑡 を受け • 行動（移動）𝑎𝑎𝑡𝑡 を決定「停止」を選ぶまで続ける行動インストラクションゴールまでの距離・3m未満になったら成功・エージェントは知らない数字

基本的な手法のアプローチ • Vision-and-Language Navigation (VLN) は文と画像を入力して系列を出力する問題 – Visual Question
Answering (VQA) も同じでは？ →著者「入力画像が時々刻々で異なるところが違う」 • 入力：系列→出力：系列の問題 – 機械翻訳と類似した入出力構造

探索中に会話ok = Vision-Dialog Navigation (VDN) • VDNでの質問生成はQAの教師データ頼み • 内発的動機に基づいた質問生成の強化学習 –
Whether-to-ask: 今質問するべきか – What-to-ask: 何を質問するべきか • エージェントとナビゲート両方を協調学習 →とくにQAの教師データが無い時に有効 [Zhu+, ICCV 2021]

Vision and Languageとその先へ2 ビジョン→ランゲージ

画像によるテキスト検索

キャプション生成

キャプション生成画像によるテキスト検索をすっぽかした訳じゃないですよ

Every picture tells a story データセット：画像＋<object, action, scene>+キャプション 1.
画像の<object, action, scene>をMRFで推定 2. <object, action, scene>が同じキャプションを検索して利用 <Horse, Ride, Field> [Farhadi+, ECCV 2010]

Every picture tells a story <pet, sleep, ground> See something
unexpected. <transportation, move, track> A man stands next to a train on a cloudy day. [Farhadi+, ECCV 2010]

再利用？新規生成？ • 再利用 • 新規生成 – テンプレート主語＋動詞の文を生成しよう – 非テンプレート
A small gray dog on a leash. A black dog standing in grassy area. A small white dog wearing a flannel warmer. 入力データセット

再利用？新規生成？ • 再利用 – A small gray dog on a
leash. • 新規生成 – テンプレート主語＋動詞の文を生成しよう – 非テンプレート A small gray dog on a leash. A black dog standing in grassy area. A small white dog wearing a flannel warmer. 入力データセット

leash. • 新規生成 – テンプレート dog＋stand ⇒ A dog stands. – 非テンプレート A small gray dog on a leash. A black dog standing in grassy area. A small white dog wearing a flannel warmer. 入力データセット

leash. • 新規生成 – テンプレート dog＋stand ⇒ A dog stands. – 非テンプレート A small white dog standing on a leash. A small gray dog on a leash. A black dog standing in grassy area. A small white dog wearing a flannel warmer. 入力データセット

再利用アプローチ→クロスモーダル検索へ画像によるテキスト検索とテキストによる画像検索を同時に解く • 正準相関分析の利用[Hodosh+, JAIR 2013][Gong+, ECCV 2014] • 文章要約技術の応用[Mason+Charniak,
ACL 2014] • 係り受け木＋RNN[Socher+, TACL 2014] • RCNNによる画像領域と係り受けの対応[Karpathy+, NIPS 2014] • 分散表現によるリランキング[Yagcioglu, ACL 2015] • WordNetの階層性をモデル化したCNN [Vendrov+, ICLR 2016] • 動画/文から得た共通空間で相互検索[Yamaguchi+, ICCV 2017] A woman in blue is playing ping pong in a room. A guy is skiing with no shirt on and yellow snow pants. A man is water skiing while attached to a long rope.

マルチキーフレーズ推定アプローチ当時の問題＝使用候補であるフレーズの精度が悪いキーフレーズを独立なラベルとして扱うと… マルチキーフレーズの推定＝一般画像認識文生成は[Ushiku+, ACM MM 2011]と同じ [Ushiku+, ACM
MM 2012]

文の終わり

Google Neural Image Captioning Googleで開発された • GoogLeNet [Szegedy+, CVPR 2015]
• LSTM [Sutskever+, NIPS 2014] を直列させて文生成する。画像𝐼𝐼への文（単語列）𝑆𝑆0 … 𝑆𝑆𝑁𝑁 は 𝑆𝑆0 : スタートを意味する単語 𝑆𝑆1 = LSTM CNN 𝐼𝐼 𝑆𝑆𝑡𝑡 = LSTM St−1 , 𝑡𝑡 = 2 … 𝑁𝑁 − 1 𝑆𝑆𝑁𝑁 : ストップを意味する単語 [Vinyals+, CVPR 2015]

生成された説明文の例 [https://github.com/tensorflow/models/tree/master/im2txt]

1 材料を用意します。 •の調味料を合わせておきます。 2 ごぼうはささがきにし、水にさらしておきます。 3 にんじんは千切りにします。

4 フライパンにごま油を熱し、人参を炒めます。 5 人参がしんなりしたら、ごぼうを入れて、全体がしんなりするまで炒めます。 6 全体に火が通ったら、調味料を入れて、よく混ぜます。できあがり！

4 フライパンにごま油を熱し、人参を炒めます。 5 人参がしんなりしたら、ごぼうを入れて、全体がしんなりするまで炒めます。 6 全体に火が通ったら、調味料を入れて、よく混ぜます。できあがり！実はこれ…
提案する機械学習手法による学習済みモデルがをに自動変換したものです！

問題の発展：手順書生成提案手法はシンプル＋より精度を向上 [Nishimura+, IEEE Access 2020]

構造に配慮した写真列からの手順書生成 →疑似材料ツリーを活用した半教師あり学習 →「行って帰ってくる」損失を用いた詳細記述 [Nishimura+, IEEE Access 2020]

問題の発展：変化キャプション生成 • 2枚の画像間の変化を示すキャプションの生成 – 既存研究：単一の変化に絞った記述 – CLEVRを利用して、複数の変化が含まれた画像ペアとその記述を含むCLEVR-Multi-Changeデータセットを構築 –
Transformer型の変化キャプション生成モデルである Multi-Change Captioning Transformer (MCCFormer)を提案 • 2枚の画像間の各領域の関係をエンコードする MCCFormers-D • 画像内の各領域の関係もエンコードできる MCCFormers-S – 提案データセットでも監視カメラ画像のデータセットであるSpot-the-Diffデータセットでも良好な結果 • なお謝辞（右図）は研究メンターシッププログラムによるものです（参加者募集中！） https://sites.google.com/view/prmu-rmp/conferences [Qiu+, ICCV 2021]

参照表現生成

参照表現生成 • 与えられた画像の領域に最も適した記述を生成するタスク • 歴史はとても長い – SHRDLU [Winograd, 1972] の一機能として
積み木の世界での参照表現生成が実現 [Yu+, CVPR 2017]

よくあるアプローチ：参照表現理解との同時最適化 • このアプローチの草分け [Mao+, CVPR 2016] – キャプション生成としての参照表現生成 – 類似画像検索としての参照表現理解
– データセットに参照表現が無い物体領域も含めた半教師あり学習が可能 • 強化学習の活用 [Yu+, CVPR 2017] – 参照表現理解をおこなうListener – 参照表現生成をおこなうSpeaker – だけでなく、参照表現と領域のマッチングをロジスティック回帰で評価した結果を報酬とするReinforcerを導入 →より曖昧性の低い参照表現生成を実現

人がすばやく見分けられる差分に注目した記述生成 “ウォーリーを探せの回答を自動生成できる手法” 正しく差分を記述していても見つけられない [Tanaka+, ICCV 2019]

参照表現生成モデルと新規データセットの収集・公開 • 「行って帰ってくる」損失で一意性をもった生成モデル「帰ってくる」赤枠の人のために生成したキャプションで赤枠の人が検索できるか？「行って」赤枠の人のためにキャプションを
生成できるか？ [Tanaka+, ICCV 2019]

実験結果提案手法は • 目立つ物体に言及 • 一意性のある参照表現生成を達成 [Tanaka+, ICCV 2019]

ビジュアル質問生成

Visual Question Generation • 視覚的質問生成（VQG）の提案質問生成は画像キャプションの生成か検索を検討 •
Qに対する要求 – その質問から会話が始まるような質問 – 画像を見てわかるような質問ではだめ ✗ How many horses are in the field? ✓ Who won the race? [Mostafazadeh+, ACL 2016]

未知物体についてのVQG 画像認識器が知らない物体: 人から教わりたい • 質問なら何でもいいわけじゃない • 「なにこれ？」のような曖昧な質問だと… 回答も「物体」のように曖昧になりそう • 学習して自動生成できた質問の例
What is the woman holding in her right hand? What type of shirt is the man wearing? What in on the man’s lap? ? [Uehara+, ECCV 2018]

Vision and Languageとその先へ3 ランゲージ→ビジョン

テキストによる画像/動画検索

再利用アプローチ→クロスモーダル検索へ画像によるテキスト検索とテキストによる画像検索を同時に解く • 正準相関分析の利用[Hodosh+, JAIR 2013][Gong+, ECCV 2014] • 文章要約技術の応用[Mason+Charniak,
ACL 2014] • 係り受け木＋RNN[Socher+, TACL 2014] • RCNNによる画像領域と係り受けの対応[Karpathy+, NIPS 2014] • 分散表現によるリランキング[Yagcioglu, ACL 2015] • WordNetの階層性をモデル化したCNN [Vendrov+, ICLR 2016] • 動画/文から得た共通空間で相互検索[Yamaguchi+, ICCV 2017] A woman in blue is playing ping pong in a room. A guy is skiing with no shirt on and yellow snow pants. A man is water skiing while attached to a long rope.

テキストによる画像生成

文で生成結果を変えるには Generator と Discriminator に文を加える・自然な画像・文に沿った画像を生成しようとする・不自然な画像・文に合わない画像
を識別しようとする [Reed+, ICML 2016]

生成できた画像の例 • 鳥(CUB)/花(Oxford-102)データセット – 約1万の鳥/花画像と5キャプション/画像 – 200種類の鳥/102種類の花 A tiny bird,
with a tiny beak, tarsus and feet, a blue crown, blue coverts, and black cheek patch Bright droopy yellow petals with burgundy streaks, and a yellow stigma

その後の展開 StackGAN [Zhang+, ICCV 2017] • 2段階のGANからなるモデル • 1段目でぼやっとした画像を生成、2段目で高解像+詳細化

キャプションからの画像生成 This bird is blue with white and has a
very short beak. (この鳥は白の入った青色で、とても短いくちばしをもっています。) This flower is white and yellow in color, with petals that are wavy and smooth. (この花は白と黄色で、波打った滑らかな花びらをもっています。) [Zhang+, ICCV 2017]

キャプションからの画像生成 This bird is blue with white and has a
very short beak. (この鳥は白の入った青色で、とても短いくちばしをもっています。) This flower is white and yellow in color, with petals that are wavy and smooth. (この花は白と黄色で、波打った滑らかな花びらをもっています。) [Zhang+, ICCV 2017] 鳥/花に特化したデータセットでの結果 →一般的な画像を生成するにはより一層のブレイクスルーが必要

DALL-E Autoregressive decoder using Transformer [Ramesh+, 2021]

Vision and Languageとその先へ4 ビジョン＋ランゲージ→ビジョン

テキストによる画像編集

GANによるText2Image論文の中で… Generator と Discriminator に文を加える [Reed+, ICML 2016] これがうまく学習されている時： •
𝝋𝝋が画像のコンテンツ（オブジェクトとその見た目） • 𝒛𝒛が画像のスタイル（背景）を表しているはず！（ある種のDisentangleが実現されているはず）

テキストによる画像編集の萌芽的実験 1. 画像から𝑧𝑧を逆推定する別のCNNを学習させる 2. 推定した𝑧𝑧に対してキャプションのエンコード結果𝜑𝜑を加えてGenerator Networkを推論させる →テキストによる画像編集が出来ているハズ！ [Reed+, ICML
2016]

敵対的学習による画像編集の直接的な学習 • 直接的な学習をする為の一番単純なアプローチ＝編集前の画像、テキスト、編集後の画像の3点セットをたくさん集めて学習する • 本研究：当たらずも遠からずなテキスト ̅ 𝑡𝑡の活用 – 画像𝑥𝑥＋完全一致する内容のテキスト𝑡𝑡
– 画像𝑥𝑥＋何もかも異なる内容のテキスト ̂ 𝑡𝑡 – 画像𝑥𝑥＋同じカテゴリだが詳細が異なるテキスト ̅ 𝑡𝑡 そんなデータセット構築するの無理では？ ̅ 𝒕𝒕から𝑥𝑥を生成しよう • 𝑥𝑥と𝑡𝑡が来たら+1 • 𝑥𝑥と ̂ 𝑡𝑡が来たら-1 • 𝒙𝒙と ̅ 𝒕𝒕が来たら-1 を出力しよう [Dong+, ICCV 2017]

編集実験結果 • 画像とテキストの表現学習 [Kiros+, TACL 2015] を利用 • Baselineとして先行研究 [Reed+,
ICML 2016] と比較アンケート評価で勝ちました

変化キャプション生成をフィードバックに利用 • 言語指示による画像編集 – 問題はデータセットの規模の小ささ（VLNと同様） – 正直、右のImage ManipulationとImage Editingの分類には懐疑的… •
クロスモーダル&サイクルな構造によるEditing Description Network – 編集すべき画像領域を推定するImage-Request Attention (IRA) – ピクセルごとのL1距離などよりも納得性の高い評価指標としての Redescription Similarity Score (RSS) 以下の2つの変化キャプション同士のCIDEr等の類似度 • 編集前画像と編集後画像（正解）の変化キャプション • 編集前画像と編集後画像（生成）の変化キャプション → つまりInception Score的 [Jiang+, ICCV 2021]

Vision and Languageとその先へ5 ビジョン＋ランゲージ→ランゲージ

マルチモーダル翻訳

他言語への展開データセット • IAPR TC12 [Grubinger+, 2006] 20,000画像+英独 • Multi30K
[Elliot+, 2016] 30,000画像+英独 • STAIR Captions [吉川ら、 2017] MS COCO (10万超画像＋英語キャプション) →すべてに日本語キャプションを付与タスクとしての展開 • 英語でない画像キャプション生成 • マルチモーダル機械翻訳/言語間文書検索 1. 入力：言語Aでのキャプション+画像 2. 入力：言語Aでのキャプション → 出力：言語Bでのキャプション（1.と2.で同じ）

そもそもの着想画像は機械翻訳の精度に寄与[Calixto+,2012] • 英語でsealとあるけど、・stampに近いsealなのか？・sea animalのsealなのか？がわからず誤ったポルトガル語に翻訳 • （実験してないけど）画像があれば防げるはず！

マルチモーダル機械翻訳 • 画像を介した言語横断キャプション翻訳 [Elliott+, 2015] [Hitschler+, ACL 2016] – 最初に候補翻訳を複数生成（画像には非依存）
– 類似画像に付随する言語Bのキャプションを利用して翻訳候補から出力を選択 Eine Person in einem Anzug und Krawatte und einem Rock. (独語) 画像を見ない場合の翻訳 A person in a suit and tie and a rock. 画像を利用した場合の翻訳 A person in a suit and tie and a skirt.

画像を暗に用いたキャプション翻訳 • 画像を介した言語横断関連文書検索[Funaki+Nakayama, EMNLP 2015] • ゼロ対訳コーパスでのマルチモーダル翻訳 [Nakayama+Nishida, 2017]

ビジュアル対話

Vision-Aware Dialog エージェントとユーザー以外に視覚的な情報が存在研究を大別すると… • データセットの提供 VisDial [Das+, CVPR 2017]
• それらを利用した対話の研究共参照解析を利用したVisDialモデル

マルチモーダル対話？ • マルチモーダル対話 – 主にユーザからの入力が複数モーダルの情報 • Vision-Aware Dialog – 環境などに視覚情報を伴うものをさす
– マルチモダリティではある本講演では Vision-Aware Dialog と呼ぶことにします

目的の一覧 • Vision-Awareな対話をモデル化したい →VisDial [Das+, CVPR 2017]など • CVの既存/新規な問題を対話的に解きたい –
画像キャプション生成 – ロボットのPick&Place – 画像内のどこを見ているかを共有したい →GuessWhat?! [de Vries+, CVPR 2017]など – どの画像を見ているかを共有したい – 商品の推薦システムを作りたい →MMD [Saha+, AAAI 2018]など – 対話的なナビゲーションシステムを作りたい →VNL [Anderson+, ICCV 2017], Talk the Walk [de Vries+, 2018]など

どの画像を見ているかを共有したい 10 Round のQA後Questionerが画像を当てる当たれば2エージェント共に勝利（協調） 10 Rounds [Das+, ICCV 2017]

なぜ言語か • 一番トリビアルな解: 「Questionerを無視してAnswererが画像や画像特徴量を送付」自然言語（シンボル列）はボトルネックとして作用→トリビアルな解を回避できる • 人間に理解可能：学習後、どちらかのエージェントと人間が交替して対話できる
Questioner Answerer 大人が写っていますか？（無視） [Das+, ICCV 2017]

提案手法による対話と学習 • 質問𝑞𝑞𝑡𝑡 と応答𝑎𝑎𝑡𝑡 の生成・理解: Hierarchical Recurrent Encoder-Decoder • 画像(特徴量)𝑦𝑦の推定値�
𝑦𝑦の出力: 単層全結合ネットワークによる回帰 [Das+, ICCV 2017]

SL-Pretrained（教師あり事前学習のみ） Questioner Answerer A couple of people in the snow
on skis. 2 I can’t tell I can’t tell, they are far away I can’t tell Yes Yes Yes Yes Yes Yes How many people? Male or female? What are they wearing? What color are skis? Are they wearing goggles? Are they wearing goggles? Are they wearing goggles? Are they wearing goggles? Are they wearing hats? Are they wearing goggles?

RL-full-QAf（提案手法） Questioner Answerer A couple of people in the snow
on skis. Are people male or female or both? What are they wearing? Is it snowing? Can you see any trees? Can you see any buildings in background? Can you see any trees? Can you see any buildings in background? Can you see any trees? Can you see any buildings in background? Does it look like they are in park? I think 1 is male, can’t see other 1 ... They are all wearing snow pants and jackets It does not appear to be snowing at moment Yes, there are lot of trees in background No, I can not Yes, there are lot of trees in background No, I do not see any buildings Yes, there are lot of trees in background No , I do not see any buildings It does not appear to be

Vision and Languageとその先へ共通の話題と今後の展望

データセット

データセット Webからクロールしてきたもの • SBU Captioned Image [Ordonez+, NIPS 2011] 100万枚のFlickr画像、1キャプション/画像
• YFCC-100M [Thomee+, 2015] 1億枚のFlickr画像＋動画、一部の画像にキャプション • Déjà Image-Captions [Chen+, ACL 2015] 1つのキャプションに複数の画像が紐づいている

データセットクラウドソーシングを用いたもの • PASCAL Sentence, Flickr 8k/30k (すべてUIUCから) それぞれ1000/8000/30000枚の画像、5キャプション/画像 •
Abstract Scene Dataset [Zitnick+Parikh, CVPR 2013] 10000枚のクリップアート、6キャプション/画像 • MS COCO [Lin+, 2014] 10万超の画像、5キャプション/画像 • MSR Dense Visual Annotation Corpus [Yatskar+, *SEM 2014] 500枚の画像に100,000の矩形領域+キャプション • PASCAL-50S, ABSTRACT-50S [Vedantam+, CVPR 2015] より人間らしい評価のために作成、50キャプション/画像 • Visual Genome [Krishna+, IJCV 2017] 10万超の画像にキャプションやQAなどが密に付随

データセットクラウドソーシングを用いたもの • PASCAL Sentence, Flickr 8k/30k (すべてUIUCから) それぞれ1000/8000/30000枚の画像、5キャプション/画像 •
Abstract Scene Dataset [Zitnick+Parikh, CVPR 2013] 10000枚のクリップアート、6キャプション/画像 • MS COCO [Lin+, 2014] 10万超の画像、5キャプション/画像 • MSR Dense Visual Annotation Corpus [Yatskar+, *SEM 2014] 500枚の画像に100,000の矩形領域+キャプション • PASCAL-50S, ABSTRACT-50S [Vedantam+, CVPR 2015] より人間らしい評価のために作成、50キャプション/画像 • Visual Genome [Krishna+, IJCV 2017] 10万超の画像にキャプションやQAなどが密に付随特にMS COCOとVisual Genomeは… 他のデータセットのベースになることが非常に多い

データセット、データセット、データセット • より大規模に – 1000枚の画像とキャプションのペアから4億の画像とキャプションペア（CLIPの学習に用いられているWebImageTextデータセット）へ • より複雑に – 画像とキャプションのペアから画像領域ごとのキャプションへ
– 動画とキャプションのペアから動画の時空間領域ごとのキャプションへ • より多くのモダリティを – 音声 [Yun+, ICCV 2021] – 点群 [Wu+, ICCV 2021] – マウスの軌跡 [Pont-Tuset+, ECCV’20]

YouRefIt: Embodied Reference Understanding with Language and Gesture • 言語とジェスチャーからなるYouRefItデータセットの
提案とベースライン実験の報告 – 432の屋内シーンにおける4195のビデオクリップ – 言語による参照と、実際にジェスチャーで指し示したビデオ • Embodied Reference Understanding (ERU) の提案とベースライン手法による実験 – 視覚的顕著性 – PAF（姿勢） – 元の画像 – 参照表現を統合して領域を推定 • 右図：フレームごとの推定結果 – ジェスチャーによって推定結果が改善 [Chen+, ICCV 2021]

Pano-AVQA: Grounded Audio-Visual Question Answering on 360° Videos • 5400のパノラマ動画に51700対のQA
– 動画も音声も理解しないと答えられない – オブジェクト毎にbboxとラベル付け • 音を発生させる/させない • 視覚的な説明 • （音を出す場合）聴覚的な説明 • ベースライン手法による実験 – Transformerで単語/音/画像をエンコード – 映像の位置情報はクオータニオンを利用 – それぞれのモダリティでの表現学習 – 正答率5割程度 [Yun+, ICCV 2021]

Towers of Babel: Combining Images, Language, and 3D Geometry for
Learning Multimodal Vision WikiScenesデータセットの提案といくつかのベースライン実験の報告 23か国の99の聖堂についての6万3千対の画像・キャプション対とCOLMAP [Schonberger+Frahm, CVPR’16] で復元した点群データ [Wu+, ICCV 2021]

評価指標

手法の良さをどう評価するか • 主観的評価 – 複数人のアンケートによる採点 ✓人の主観を直接反映できる ✕ 新手法を出すにはベースラインを含めて再アンケートすることに • 客観的評価
– 何らかの客観的評価指標を自動算出 ✓ アンケートのようなコストを掛けずに、素早く優劣を評価できる ✕ 必ずしも人の主観的な優劣と相関しない

出力が認識結果の場合の客観的評価認識結果の精度 • 例えばビジュアル質問応答なら…出力はクラス分類結果 – 人間10人が答えた時に3人以上が出した答えと一致するなら1点として、その平均値 • 例えばビジョン＆ランゲージナビゲーションなら…出力は移動結果 –
ゴールまで3m以内の地点で停止できた割合 – 停止地点とゴールとの環境内での道のり – 移動経路自体の道のり [Wang+, CVPR 2019] • 例えば参照表現理解なら…出力は画像領域の検出結果 – Intersection-over-union (IoU)が0.5より大きい正答の割合 [Wang+, CVPR 2019]

出力がビジュアルデータの場合の客観的評価画像生成の評価指標と同様 • Inception Score [Salimans+, NIPS 2016] – 条件付き画像生成に使用可能な指標
– 以下のKLダイバージェンスの平均値 • 生成した画像を何らかの画像認識器（もともとはGoogleのCNNである Inception）によって識別した事後確率 • 条件となったラベル • Fréchet inception distance [Heusel+, NIPS 2017] – Inception scoreは上記の通り画像の内容を見ない – FIDでは画像認識の事後確率ではなく途中の特徴量ベクトルの分布間距離を用いる • 実画像の特徴量の確率分布 • 生成された画像の特徴量の確率分布

出力がランゲージデータの場合の客観的評価言語生成の評価指標と同様 CoSMoS [Ushiku et al., ICCV 2015] Group of
people sitting at a table with a dinner. Corpus-Guided [Yang et al., EMNLP 2011] Three people are showing the bottle on the street Midge [Mitchel et al., EACL 2012] people with a bottle at the table

定量評価指標機械翻訳では… • テスト文に複数の参照訳が付随（通常5文） • これらの参照訳と近い訳文が「良い」 • 既存の評価指標（BLEUやMETEOR、ROUGEなど） • キャプション生成の評価指標（CIDErやSPICEなど）
One jet lands at an airport while another takes off next to it. Two airplanes parked in an airport. Two jets taxi past each other. Two parked jet airplanes facing opposite directions. two passenger planes on a grassy plain キャプション生成の評価でも同様の流れ PASCAL Sentenceの画像と参照キャプションの例

深層学習上の工夫

工夫① アテンション（注意）機構 • 機械翻訳とほぼ同時期にアテンション機構が採用される – 画像キャプション生成へのアテンションモデルの利用 [Xu+, ICML 2015] –
画像+キャプションデータのみからの学習！ – 動画キャプション生成：時間方向のアテンション[Laokulrat+, COLING 2016]

日本語を英語にGoogle翻訳してみるこの結果を日本語にGoogle翻訳してみる

工夫② コンシステンシー損失 • 「行って帰ってくる損失」 – 出力キャプション→入力画像を再推定 – cf. CycleGAN[Zhu+, ICCV
2017] 変分自己符号化器 [Pu+, NIPS 2016] 出力キャプションで領域検索 [Luo+Shakhnarovich, CVPR 2017]

工夫③ 強化学習の利用 • 強化学習を利用したキャプション生成評価指標を報酬とする強化学習を導入 • ビジュアル対話やビジョン＆ランゲージナビゲーションでも強化学習が活躍 state RNNの状態変数
action 単語系列の推定 reward 評価指標 environment 画像特徴と生成中のキャプション [Ranzato+, ICLR 2016][Rennie+, CVPR 2017]

なぜ強化学習？ → (i) 最適化したい目的関数と評価の乖離学習に用いるのは Cross-Entropy 評価に用いるのは BLEUなどの評価指標 →キャプションの評価指標を直接最適化するべきでは？ •
評価指標の直接最適化 – 機械翻訳では深層学習以前からある着想 [Och, ACL 2003] • 深層学習で評価指標を直接最適化…？ – 勾配が求められないから学習できない！！ →強化学習の報酬にすればok！短い文へのペナルティ N-gramのPrecision

なぜ強化学習？ → (ii) Exposure Bias 通常のRNNによる系列生成モデル学習では… • 学習時：Teacher forcing –
入力は𝑡𝑡 − 1番目までの教師データ • テスト時：Free running – 入力は𝑡𝑡 − 1番目までで自身が推定したデータテスト時の生成系列が訓練データから外れだすと不安定に →強化学習によって学習時からFree runningできる！

工夫④ 事前学習/表現学習 • モダリティごとの事前学習/表現学習 – 画像ならImageNetでの事前学習済みCNNモデル – テキストならBooksCorpusやWikipedia、Text-to-Text Transfer Transformer
(T5) [Raffel+, JMLR 2020]での事前学習済みTransformerモデル • ビジョン＆ランゲージでも： Transformerの流行に合わせて膨大なさいきょうの表現学習が出現 – Transformer以前のCNN+RNNによる表現学習もあるよ！ [Kiros+, NIPS WS 2014] – 画像や文のパーツを1本ずつベクトルで表現 VideoBERT [Sun+, ICCV’19], LXMERT [Tan+Bansal, EMNLP’19], ViLBERT [Lu+, NeurIPS’19], VL-BERT [Su+, ICLR’20], UNITER [Chen+, ECCV’20], OSCAR [Li+, ECCV’20], Voken [Tan+Bansal, EMNLP’20], COOT [Ging+, NeurIPS’20] – 画像/文全体をそれぞれ1つのベクトルで表現 VSE++ [Faghri+, BMVC’18], CLIP [Radford+, ICML’21], ALIGN [Jia+, ICML’21] [Tan+Bansal, EMNLP’20]

LocTex: Learning Data-Efficient Visual Representations from Localized Textual Supervision •
画像、キャプション、その対応を示すマウスカーソルの軌跡から表現学習 – おなじみのContrastive Loss – Localized Narratives [Pont-Tuset+, ECCV’20]を利用して、アテンションがマウス軌跡に近づくように(c)を学習 • 比較的少ないデータ量で優れた表現学習を実現 – 物体のbboxや領域マスクよりも簡便 – ImageNetの数分の一のデータ量で、 ImageNetよりも物体検出や領域分割の精度が向上

GLoRIA: A Multimodal Global-Local Representation Learning Framework for Label-efficient Medical
Image Recognition • 医療画像認識のための表現学習 – 画像/文全体の表現はContrastive Lossで学習 – 領域/単語ごとの表現は注意機構によって対応付けてContrastive Lossで学習 • 実験結果 – CheXpert [Irvin, AAAI’19] データという 65,240人の224,316枚の胸部X線画像と、その読影レポートからなるデータを利用 – 3種類の実験結果で、教師データが少数でも良好な精度が達成されることを確認 • 画像とレポートの検索 • 識別（ファインチューニングとゼロショット） • 領域分割 – 右図：アテンションの例 (a) 肺炎、(b) 気胸、 (c) 浮腫, (d) 陰影

ビジョン＆ランゲージの難しさ

難しさ① データ集めるの大変 • 典型例：ビジョン＆ランゲージナビゲーション – Vision-Language Navigation 最初に与えられた言語指示だけで目的地までたどり着くもの（右図） –
Vision-Dialog Navigation 移動中に言語で質問し、言語による回答を得ることが可能 • 共通の課題してデータセットを潤沢に集めにくい – 一方で各エージェントの環境は分散が大きい – 主な方策は以下の2つ • 強化学習の活用 • データをどうにかして増幅 [Anderson+, ICCV 2017] （下はランダムに環境をMixup [Zhu+, ICCV’21]）

機械学習ベースのデータセット増幅 • 従来 [Anderson+, CVPR 2018]： – 道順を聞いて動くエージェント (Follower) のみモデル
– Follower は正面の画像のみ見ている設定 • 本研究： – 道順そのものを新たな経路から生成できるエージェント (Speaker) を用意→訓練データを拡張 – Follower は360°画像を利用 [Fried+, NeurIPS 2018]

別環境に対しても疑似的に学習データを作ってしまえ • 目標：データセットの規模小さい問題の解決 • AirbnbからVLNっぽいデータセットを収集 – BnBデータセット – 室内の画像とそれを記述したキャプション →画像列として道（Path）を生成
→Pathに基づいたインストラクションを生成（テンプレートとキャプション生成モデル） • 3つの段階による学習で未知環境での精度向上 1: 画像とキャプションのペアから表現学習、2: BnBデータで事前学習、3: 少数の実データでファインチューン [Guhur+, ICCV 2021]

ビジュアル対話でも… MMD：対話に基づく画像検索（商品推薦） • 従来：対話データで訓練 • 本研究：2枚の画像を比較したキャプションを集めて事前学習 [Guo+, NeurIPS 2018]

難しさ② 精度が上がるとは限らない VQAのデータセット[Antol+, ICCV 2015] では • 画像と関連しない質問が混在する [Ray+, EMNLP
2016] →画像と関連しない質問文の検知 [Mahendru+, EMNLP 2017] • 画像を見ずとも、質問文とバイアスだけである程度正解出来てしまう →バランスをとり直した VQA v2.0 データセット[Goyal+, CVPR 2017] →敵対的な正則化による言語事前分布の影響の解消 [Ramakrishnan+, NeurIPS 2018] [Mahendru+, EMNLP 2017]

マルチモーダル機械翻訳の賛否 • 機械翻訳の国際会議 (WMT) でコンペ開催初回の2016年から毎年開催・Multi30K を利用 • しかし… –
運営公式「画像を用いても差が出ない」[Barrault+, 2018] – データセット作者「関係ない画像を与えても翻訳精度にそれほど影響が出ない」[Elliot+, EMNLP 2018] • 機械翻訳に画像を使う意味は？ [Caglayan+, ACL 2019] – Multi30Kでは、入力文のみで充分翻訳出来てしまうだけ – 入力文を隠ぺいすると画像の寄与が観察できる

The 1st CVPR 2019 Workshop on Computer Vision After 5
Years

Cross-Modal Matching Criticも使っている Cycle consistencyといえばコレ！

牛久の独断と偏見 • さすがに全タスクで最近傍探索や単一モダリティのベースラインに負けることはない • が、キャプション翻訳などはまさにこの指摘が該当する • 既に存在するタスクにモダリティを無邪気に追加するのは危険 • 複数のモダリティを入力や出力とするのは危険
天真爛漫に新タスクを考えてデータセットとマルチモーダル深層学習ベースラインを作ってないかは要注意

まとめ • 視覚・言語融合課題であるビジョン＆ランゲージを俯瞰 1. ビジョン+ランゲージ→認識結果 2. ビジョン→ランゲージ 3. ランゲージ→ビジョン 4.
ビジョン+ランゲージ→ビジョン 5. ビジョン+ランゲージ→ランゲージ • 共通の話題と今後の展望 – 上記研究課題自体の多くは Deep Learning 以前も存在 – データセットと評価指標 – 深層学習上の工夫 – ビジョン＆ランゲージの難しさ視覚×言語の新たなステージへ

12/10発売！

Vision and Language とその先へ

Vision and Language とその先へ

More Decks by Yoshitaka Ushiku

Other Decks in Technology

Featured

Transcript