Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Deep Learning による視覚×言語融合の最前線

Deep Learning による視覚×言語融合の最前線

以下の講演やセミナーで選択+更新して使用してきました!
・東北大学 乾・鈴木研究室 みちのく情報伝達学セミナー, 2019/01/25.
・人工知能学会 言語・音声理解と対話処理研究会(SLUD)第84回研究会, 2018/11/21.
・中部大学 藤吉弘亘教授 総監修 深層学習の基礎と最新動向~画像認識・音声認識・自然言語処理による深層学習とその融合、生成、強化学習, 2018/10/30.
・NLP若手の会 (YANS) 第13回シンポジウム, 2018/8/28.
・精密工学会 画像応用技術専門委員会(IAIP), 2018/7/13.
・情報処理学会 IPSJ-ONE, 2018/3/15.
・情報処理学会 コンピュータビジョンとイメージメディア研究会(CVIM), 2018/3/2.
・映像情報メディア学会 冬季大会, 2017/12/13.
・画像符号化シンポジウム(PCSJ) / 映像メディア処理シンポジウム(IMPS), 2017/11/22.
・中部大学 藤吉弘亘教授 総監修 深層学習の基礎と最新動向~画像認識・音声認識・自然言語処理による深層学習とその融合、生成、強化学習, 2017/11/21.
・ABEJA Technopreneur College, 2017/06/30.
・電子情報通信学会総合大会 企画講演セッション「もっと知りたい! Deep Learning 〜基礎から活用ノウハウ,応用まで〜」, 2017/03/22.

SlideShare(https://www.slideshare.net/YoshitakaUshiku/deep-learning-73499744)上にあった資料をお引越し+更新させました

画像キャプション生成については (https://www.slideshare.net/YoshitakaUshiku/ss-57148161) により詳細な説明を譲りますが、画像×言語の研究に関する日本語資料としての網羅的をより高めるように試みた資料です。

Yoshitaka Ushiku

March 22, 2017
Tweet

More Decks by Yoshitaka Ushiku

Other Decks in Research

Transcript

  1. 自己紹介 2014.3 博士(情報理工学)、東京大学 2014.4~2016.3 NTT CS研 研究員 2016.4~2018.9 東京大学 講師

    (原田・牛久研究室) 2016.9~ 産業技術総合研究所 協力研究員 2016.12~2018.9 国立国語研究所 共同研究員 2018.10~ オムロンサイニックエックス株式会社 Principal Investigator [Ushiku+, ACMMM 2012] [Ushiku+, ICCV 2015] 画像キャプション生成 主観的な感性表現を持つ 画像キャプション生成 動画の特定区間と キャプションの相互検索 [Yamaguchi+, ICCV 2017] A guy is skiing with no shirt on and yellow snow pants. A zebra standing in a field with a tree in the dirty background. [Shin+, BMVC 2016] A yellow train on the tracks near a train station.
  2. 2011 2012 2014 電話音声認識のエラー率が 30%程度→20%以下に [Seide+, InterSpeech 2011] 大規模画像分類のエラー率が 25%程度→15%程度に

    [Krizhevsky+, NIPS 2012] LSTMで英仏翻訳の精度が 複雑なシステムと同等に [Sutskever+, NIPS 2014]
  3. 2012年:一般物体認識における激震 公式サイトにアクセスしてみると… 1st team w/ DL Error rate: 15% 2nd

    team w/o DL Error rate: 26% [http://image-net.org/challenges/LSVRC/2012/results.html]
  4. 2012年:一般物体認識における激震 公式サイトにアクセスしてみると… 1st team w/ DL Error rate: 15% 2nd

    team w/o DL Error rate: 26% [http://image-net.org/challenges/LSVRC/2012/results.html] It’s me!!
  5. 入力 出力 Deep Learning の影響 • 機械翻訳でも深層学習が登場 [Sutskever+, NIPS 2014]

    – RNNで問題になっていた勾配の消失をLSTM [Hochreiter+Schmidhuber, 1997] で解決 →文中の離れた単語間での関係を扱えるように – LSTMを4層つなぎ、end-to-endで機械学習 →state-of-the-art並み(英仏翻訳) CNN/RNNなどの共通技術が台頭 画像認識や機械翻訳の参入障壁が低下
  6. ユーザー生成コンテンツの爆発的増加 特にコンテンツ投稿・共有サービスでは… • Facebookに画像が2500億枚 (2013年9月時点) • YouTubeにアップロードされる動画 1分間で計400時間分 (2015年7月時点) Pōhutukawa

    blooms this time of the year in New Zealand. As the flowers fall, the ground underneath the trees look spectacular. 画像/動画と 関連する文章の対 →大量に収集可能
  7. Vision and Language の萌芽的な研究 記事付き画像へのキャプション生成 [Feng+Lapata, ACL 2010] • Input:

    article + image Output: caption for image • Dataset: Sets of article + image + caption × 3361 King Toupu IV died at the age of 88 last week.
  8. Vision and Language の萌芽的な研究 × 3361 King Toupu IV died

    at the age of 88 last week. 記事付き画像へのキャプション生成 [Feng+Lapata, ACL 2010] • Input: article + image Output: caption for image • Dataset: Sets of article + image + caption これらの背景から… つぎのような様々な取り組みが!
  9. 画像キャプション生成 Group of people sitting at a table with a

    dinner. Tourists are standing on the middle of a flat desert. [Ushiku+, ICCV 2015]
  10. 動画キャプション生成 A man is holding a box of doughnuts. Then

    he and a woman are standing next each other. Then she is holding a plate of food. [Shin+, ICIP 2016]
  11. 他言語化・キャプション翻訳 Ein Masten mit zwei Ampeln fur Autofahrer. (独語) A

    pole with two lights for drivers. (英語) [Hitschler+, ACL 2016]
  12. キャプションからの画像生成 This bird is blue with white and has a

    very short beak. (この鳥は白の入った青色 で、とても短いくちばし をもっています。) This flower is white and yellow in color, with petals that are wavy and smooth. (この花は白と黄色で、波 打った滑らかな花びらを もっています。) [Zhang+, 2016]
  13. 本講演の目的 視覚×言語の融合研究を俯瞰 • 各領域の歴史的な流れ • Deep Learning 登場以前と以後の変化を説明 × Deep

    Learning で初めてこれらの研究が誕生 ✓ Deep Learning でこれらの研究が精緻化 1. 画像・動画キャプション生成 2. 言語横断 3. 画像に関する質問への応答 4. キャプションからの画像生成 5. Vision-aware Dialog
  14. Every picture tells a story データセット: 画像+<object, action, scene>+キャプション 1.

    画像の<object, action, scene>をMRFで推定 2. <object, action, scene>が同じキャプションを検 索して利用 <Horse, Ride, Field> [Farhadi+, ECCV 2010]
  15. Every picture tells a story <pet, sleep, ground> See something

    unexpected. <transportation, move, track> A man stands next to a train on a cloudy day. [Farhadi+, ECCV 2010]
  16. 再利用?新規生成? • 再利用 • 新規生成 – テンプレート 主語+動詞の文を生成しよう – 非テンプレート

    A small gray dog on a leash. A black dog standing in grassy area. A small white dog wearing a flannel warmer. 入力 データセット
  17. 再利用?新規生成? • 再利用 – A small gray dog on a

    leash. • 新規生成 – テンプレート 主語+動詞の文を生成しよう – 非テンプレート A small gray dog on a leash. A black dog standing in grassy area. A small white dog wearing a flannel warmer. 入力 データセット
  18. 再利用?新規生成? • 再利用 – A small gray dog on a

    leash. • 新規生成 – テンプレート dog+stand ⇒ A dog stands. – 非テンプレート A small gray dog on a leash. A black dog standing in grassy area. A small white dog wearing a flannel warmer. 入力 データセット
  19. 再利用?新規生成? • 再利用 – A small gray dog on a

    leash. • 新規生成 – テンプレート dog+stand ⇒ A dog stands. – 非テンプレート A small white dog standing on a leash. A small gray dog on a leash. A black dog standing in grassy area. A small white dog wearing a flannel warmer. 入力 データセット
  20. 再利用アプローチもいまだに健在 その後も継続して新規手法が提案されている • 正準相関分析の利用[Hodosh+, JAIR 2013][Gong+, ECCV 2014] • 文章要約技術の応用[Mason+Charniak,

    ACL 2014] • 係り受け木+RNN[Socher+, TACL 2014] • RCNNによる画像領域と係り受けの対応[Karpathy+, NIPS 2014] • 分散表現によるリランキング[Yagcioglu, ACL 2015] • WordNetの階層性をモデル化したCNN [Vendrov+, ICLR 2016] • 動画/文から得た共通空間で相互検索[Yamaguchi+, ICCV 2017] A woman in blue is playing ping pong in a room. A guy is skiing with no shirt on and yellow snow pants. A man is water skiing while attached to a long rope.
  21. 入力 出力 Deep Learning の恩恵 (再掲) • 深層学習による画像認識の精緻化 [Krizhevsky+, NIPS

    2012] • 機械翻訳でも深層学習が登場 [Sutskever+, NIPS 2014] – RNNで問題になっていた勾配の消失をLSTM [Hochreiter+Schmidhuber, 1997] で解決 →文中の離れた単語間での関係を扱えるように – LSTMを4層つなぎ、end-to-endで機械学習 →state-of-the-art並み(英仏翻訳) CNN/RNNなどの共通技術が台頭 画像認識や機械翻訳の参入障壁が低下
  22. Google NIC [Vinyals+, CVPR 2015] Googleで開発された • GoogLeNet [Szegedy+, CVPR

    2015] • LSTM [Sutskever+, NIPS 2014] を直列させて文生成する。 画像への文(単語列)0 … は 0 : スタートを意味する単語 1 = LSTM CNN = LSTM St−1 , = 2 … − 1 : ストップを意味する単語
  23. [Ushiku+, ACM MM 2012]と比べると 入力画像 [Ushiku+, ACM MM 2012]では: Fisher

    Vector + 線形分類オンライン学習 CVPR 2015 の各論文では: CNN(オンライン学習なのは一緒) CVPR 2015 の各論文では: RNNとビームサーチで文をつなぐ [Ushiku+, ACM MM 2012]では: キーフレーズと文法モデル、 ビームサーチで文をつなぐ 文の一部で重要そうなものを複数推定 文法モデルを利用して繋ぎ、説明文に • いずれも画像+キャプションのみから学習可能 • 全体の流れは非常に似ている “キーフレーズ”
  24. Deep Learning による動画キャプション生成 • LRCN [Donahue+, CVPR 2015] – CNN+RNN

    • 動作認識 • 画像/動画 キャプション生成 • Video to Text [Venugopalan+, ICCV 2015] – CNN+RNN • RGB画像で物体を • オプティカルフローで 動作を 認識→キャプション生成
  25. どれがどれくらい良いキャプションなのか? CoSMoS [Ushiku et al., ICCV 2015] Group of people

    sitting at a table with a dinner. Corpus-Guided [Yang et al., EMNLP 2011] Three people are showing the bottle on the street Midge [Mitchel et al., EACL 2012] people with a bottle at the table アンケートによる比較:相対的な良さの評価 • 毎回ほかの手法と比較してもらわなければならない • 絶対的なキャプションの良さの評価がほしい
  26. 定量評価指標 機械翻訳では… • テスト文に複数の参照訳が付随(通常5文) • これらの参照訳と近い訳文が「良い」 • 既存の評価指標(BLEUやMETEOR、ROUGEなど) • キャプション生成の評価指標(CIDErやSPICEなど)

    One jet lands at an airport while another takes off next to it. Two airplanes parked in an airport. Two jets taxi past each other. Two parked jet airplanes facing opposite directions. two passenger planes on a grassy plain キャプション生成の評価でも同様の流れ PASCAL Sentenceの画像と参照キャプションの例
  27. データセット Webからクロールしてきたもの • SBU Captioned Image [Ordonez+, NIPS 2011] 100万枚のFlickr画像、1キャプション/画像

    • YFCC-100M [Thomee+, 2015] 1億枚のFlickr画像+動画、一部の画像にキャプショ ン • Déjà Images [Chen+, ACL 2015] 1つのキャプションに複数の画像が紐づいている
  28. データセット クラウドソーシングを用いたもの • PASCAL Sentence, Flickr 8k/30k (すべてUIUCから) それぞれ1000/8000/30000枚の画像、5キャプション/画像 •

    Abstract Scene Dataset [Zitnick+Parikh, CVPR 2013] 10000枚のクリップアート、6キャプション/画像 • MS COCO [Lin+, 2014] 10万超の画像、5キャプション/画像 • MSR Dense Visual Annotation Corpus [Yatskar+, *SEM 2014] 500枚の画像に100,000の矩形領域+キャプション • PASCAL-50S, ABSTRACT-50S [Vedantam+, CVPR 2015] より人間らしい評価のために作成、50キャプション/画像 • Visual Genome [Krishna+, IJCV 2017] 10万超の画像にキャプションやQAなどが密に付随
  29. データセット クラウドソーシングを用いたもの • PASCAL Sentence, Flickr 8k/30k (すべてUIUCから) それぞれ1000/8000/30000枚の画像、5キャプション/画像 •

    Abstract Scene Dataset [Zitnick+Parikh, CVPR 2013] 10000枚のクリップアート、6キャプション/画像 • MS COCO [Lin+, 2014] 10万超の画像、5キャプション/画像 • MSR Dense Visual Annotation Corpus [Yatskar+, *SEM 2014] 500枚の画像に100,000の矩形領域+キャプション • PASCAL-50S, ABSTRACT-50S [Vedantam+, CVPR 2015] より人間らしい評価のために作成、50キャプション/画像 • Visual Genome [Krishna+, IJCV 2017] 10万超の画像にキャプションやQAなどが密に付随 特にMS COCOとVisual Genomeは… 他のデータセットのベースになる ことが非常に多い
  30. 精度の発展:CV / NLP それぞれでの取組み • 画像認識 より高精度なCNN – 当初は大体 AlexNet

    – 多いのは VGG, Inception, ResNet – ResNeXt, SqueezeNet, NASNet 等はこれから? • 自然言語処理 画像認識側が完璧になったと仮定した文生成 [Gupta+Mannem, ICONIP 2012][Elliott+Keller, EMNLP 2013][Yatskar+, *Sem 2014][Yao+, ICLR workshop 2016]
  31. ここまでの問題点1:最適化したい目的関数 学習に用いるのは Cross-Entropy 評価に用いるのは BLEUなどの評価指標 → 生成したキャプションの評価指標を 直接最適化するべきでは? • 評価指標の直接最適化

    – 機械翻訳ではディープ以前からある [Och, ACL 2003] • 深層学習で評価指標を直接最適化…? – 勾配が求められないから学習できない!! 短い文へのペナルティ N-gramのPrecision
  32. ここまでの問題点2: Exposure Bias 通常のRNNによる系列生成モデル学習では… • 学習時:Teacher forcing – 入力は −

    1番目までの 教師データ • テスト時:Free running – 入力は − 1番目までで 自身が推定したデータ テスト時の生成系列が学習時から外れだすと エラーが蓄積し続ける
  33. 問題の発展:キャプション列生成 アルバムのような系列画像に対して The family got together for a cookout. They

    had a lot of delicious food. The dog was happy to be there. They had a great time on the beach. They even had a swim in the water. [Park+Kim, NIPS 2015][Huang+, NAACL 2016]
  34. 問題の発展:キャプション列生成 A man is holding a box of doughnuts. Then

    he and a woman are standing next each other. Then she is holding a plate of food. [Shin+, ICIP 2016] シーンの切り替わる動画に対して
  35. 問題の発展:キャプション列生成 A boat is floating on the water near a

    mountain. And a man riding a wave on top of a surfboard. Then he on the surfboard in the water. [Shin+, ICIP 2016]
  36. 他言語への展開 データセット • IAPR TC12 [Grubinger+, 2006] 20,000画像+英独 • Multi30K

    [Elliot+, 2016] 30,000画像+英独 • STAIR Captions [吉川ら、 2017] MS COCO (10万超画像+英語キャプション) →すべてに日本語キャプションを付与 タスクとしての展開 • 英語でない画像キャプション生成 • マルチモーダル機械翻訳/言語間文書検索 1. 入力:言語Aでのキャプション+画像 2. 入力:言語Aでのキャプション → 出力:言語Bでのキャプション(1.と2.で同じ)
  37. 英語でない画像キャプション生成 多くは英語のキャプションを生成するが… • 日本語 [Miyazaki+Shimizu, ACL 2016] • 中国語 [Li+,

    ICMR 2016] • トルコ語 [Unal+, SIU 2016] Çimlerde ko¸ san bir köpek 金色头发的小女孩 柵の中にキリンが一頭 立っています
  38. 入力:言語Aのキャプション+画像 • 画像を介した言語横断キャプション翻訳 [Elliott+, 2015] [Hitschler+, ACL 2016] – 最初に候補翻訳を複数生成(画像には非依存)

    – 類似画像に付随する言語Bのキャプションを 利用して翻訳候補から出力を選択 Eine Person in einem Anzug und Krawatte und einem Rock. (独語) 画像を見ない場合の翻訳 A person in a suit and tie and a rock. 画像を利用した場合の翻訳 A person in a suit and tie and a skirt.
  39. Visual Question Answering (VQA) 最初はユーザインタフェース分野で注目 • VizWiz [Bigham+, UIST 2010]

    AMTで人力解決 • 初の自動化(ディープラーニング不使用) [Malinowski+Fritz, NIPS 2014] • 類似用語:Visual Turing Test [Malinowski+Fritz, 2014]
  40. VQA: Visual Question Answering • ビジュアル質問応答を分野として確立 – ベンチマークデータセットの提供 – ベースとなるパイプラインでの実験

    • ポータルサイトも運営 – http://www.visualqa.org/ – 国際コンペティションも開催 [Antol+, ICCV 2015] What color are her eyes? What is the mustache made of?
  41. VQA=多クラス分類問題 表現ベクトル+ 以降は通常のクラス識別 質問文 What objects are found on the

    bed? 応答 bed sheets, pillow 画像 画像特徴量 質問特徴量 統合された 表現ベクトル +
  42. その後の展開:統合方法 「統合された表現ベクトル+ 」の工夫 • VQA [Antol+, ICCV 2015] :そのまま直列に並べる •

    「和」グループ 例 Attentionで重みづけ和をとった画像特徴と 質問特徴を単純に足す [Xu+Saenko, ECCV 2016] • 「積」グループ 例 双線形積とフーリエ変換を組み合わせる [Fukui+, EMNLP 2016] • 「和」と「積」のハイブリッド 例 要素毎の積と要素毎の和を直列に並べる [Saito+, ICME 2017] + = + = + = + =
  43. その後の展開:アテンション • 2017年SOTA [Anderson+, CVPR 2018] – これまで:Top-down領域の 画像にアテンション –

    Bottom-upとTow-down領域の 両方にアテンション • 2018年SOTA [Nguyen+Okatani, CVPR 2018] – これまで:画像に対し アテンション – 質問特徴と画像特徴の 両方にアテンション Bottom-up Top-down
  44. VQA Challenge コンペティション参加チームの解答例から Q: What is the woman holding? GT

    A: laptop Machine A: laptop Q: Is it going to rain soon? GT A: yes Machine A: yes
  45. VQA Challenge コンペティション参加チームの解答例から Q: Why is there snow on one

    side of the stream and clear grass on the other? GT A: shade Machine A: yes Q: Is the hydrant painted a new color? GT A: yes Machine A: no
  46. その他にも… • QuAC [Choi+, EMNLP 2018] – Question Answering in

    Context – Wikipedia記事で 対話形式のQAを 整備 • Textbook Question Answering – 教科書をデータセット として整備 →外部知識は不要 – Machine Comprehension では一文探せば回答可能 →より高度な問題を用意
  47. Visual Question Generation • 視覚的質問生成 (VQG)の提案 質問生成は画像 キャプションの 生成か検索を検討 •

    Qに対する要求 – その質問から会話が始まるような質問 – 画像を見てわかるような質問ではだめ ✗ How many horses are in the field? ✓ Who won the race? [Mostafazadeh+, ACL 2016]
  48. その他にも… • Visual Discriminative Question Generation [Li+, ICCV 2017] ペアになっている画像に

    – DiscriminativeなQ – そうでないQ を付与→生成モデルを学習 • Inverse Visual Question Answering [Liu+, CVPR 2018] 入力: 画像と解答 出力: 適切な質問
  49. 文からの画像生成=条件つき生成 まずは…Generative Adversarial Networks (GAN) [Goodfellow+, NIPS 2014] • 条件を持たない生成学習手法

    • Generator と Discriminator の敵対的学習 • 畳込み層をもつ場合…DCGAN [Radford+, ICLR 2016] Generator 乱数から画像を生成 Discriminator 実画像と生成画像を見分ける は お前が生成したな!
  50. 文からの画像生成=条件つき生成 まずは…Generative Adversarial Networks (GAN) [Goodfellow+, NIPS 2014] • 条件を持たない生成学習手法

    • Generator と Discriminator の敵対的学習 • 畳込み層をもつ場合…DCGAN [Radford+, ICLR 2016] Generator 乱数から画像を生成 Discriminator 実画像と生成画像を見分ける は お前が生成したな!
  51. 文からの画像生成=条件つき生成 まずは…Generative Adversarial Networks (GAN) [Goodfellow+, NIPS 2014] • 条件を持たない生成学習手法

    • Generator と Discriminator の敵対的学習 • 畳込み層をもつ場合…DCGAN [Radford+, ICLR 2016] Generator 乱数から画像を生成 Discriminator 実画像と生成画像を見分ける は お前が生成したな!
  52. 文からの画像生成=条件つき生成 まずは…Generative Adversarial Networks (GAN) [Goodfellow+, NIPS 2014] • 条件を持たない生成学習手法

    • Generator と Discriminator の敵対的学習 • 畳込み層をもつ場合…DCGAN [Radford+, ICLR 2016] Generator 乱数から画像を生成 Discriminator 実画像と生成画像を見分ける は お前が生成したな!
  53. 文からの画像生成=条件つき生成 まずは…Generative Adversarial Networks (GAN) [Goodfellow+, NIPS 2014] • 条件を持たない生成学習手法

    • Generator と Discriminator の敵対的学習 学習が進むと: • 畳込み層をもつ場合…DCGAN [Radford+, ICLR 2016] Generator 乱数から画像を生成 Discriminator 実画像と生成画像を見分ける むむむ…
  54. 生成できた画像の例 • 鳥(CUB)/花(Oxford-102)データセット – 約1万の鳥/花画像と5キャプション/画像 – 200種類の鳥/102種類の花 A tiny bird,

    with a tiny beak, tarsus and feet, a blue crown, blue coverts, and black cheek patch Bright droopy yellow petals with burgundy streaks, and a yellow stigma
  55. キャプションからの画像生成 This bird is blue with white and has a

    very short beak. (この鳥は白の入った青色 で、とても短いくちばし をもっています。) This flower is white and yellow in color, with petals that are wavy and smooth. (この花は白と黄色で、波 打った滑らかな花びらを もっています。) [Zhang+, ICCV 2017]
  56. キャプションからの画像生成 This bird is blue with white and has a

    very short beak. (この鳥は白の入った青色 で、とても短いくちばし をもっています。) This flower is white and yellow in color, with petals that are wavy and smooth. (この花は白と黄色で、波 打った滑らかな花びらを もっています。) [Zhang+, ICCV 2017] 鳥/花に特化したデータセットでの結果 →一般的な画像を生成するにはより一層のブレイクスルーが必要
  57. キャプションからの動画生成 [Marwah+, ICCV 2017] digit 6 is moving up and

    down digit 3 is moving left and right person 4 is walking left to right
  58. 紹介するデータセット一覧 • GuessWhat?! [de Vries+, CVPR 2017] • Visual Dialog

    (VisDial) [Das+, CVPR 2017] • Vision-and-Language Navigation (VNL) [Anderson+, ICCV 2017] • MNIST Dialog [Seo+, NIPS 2017] • Multimodal Dialog (MMD) [Saha+, AAAI 2018] • Twitch-FIFA [Pasunuru+Bansal, EMNLP 2018] • Talk the Walk [de Vries+, arXiv 2018]
  59. GuessWhat?! 連続するYes/No型のVQAデータ Is it a person? No Is it an

    item being worn or held? Yes Is it a snowboard? Yes Is it the red one? No Is it the one being held by the Yes person in blue? Is it a cow? Yes Is it the big cow in the middle? No Is the cow on the left? No On the right? Yes First cow near us? Yes [de Vries+, CVPR 2017]
  60. GuessWhat?! の概要 • Questioner – Guesserが何を見ているのかを知るために質問 • Guesser – 自分が見ているものに応じてYes/Noで応答

    • MS COCOを利用 – 画像数 64,000 – 対話 135,000 – 質問 673,000 Is it a vase? Yes Is it partially visible? No Is it in the left corner? No Is it the turquoise and Yes purple one? [de Vries+, CVPR 2017]
  61. Visual Dialog (VisDial) Questioner Answerer A couple of people in

    the snow on skis. What are their genders? Are they both adults? Do they wear goggles? Do they have hats on? Are there any other people? What color is man’s hat? Is it snowing now? What is woman wearing? Are they smiling? Do you see trees? 1 man 1 woman Yes Looks like sunglasses Man does No Black No Blue jacket and black pants Yes Yes [Das+, CVPR 2017]
  62. Visual Dialog (VisDial) の概要 • MS COCOが基本 – 12万枚の画像 –

    5キャプション/画像 • 1対話/画像を収集 – Amazon Mechanical Turk – QA形式で10ラウンド • 2017年12月現在はv0.9 – 画像約12万枚の対話 – 1画像に付き1対話 [Das+, CVPR 2017]
  63. R2R データセット 実世界3次元データ [Chang+, 3DV 2017] を利用 • 90の建造物で総計10,800点のパノラマRGBD画像を収集 •

    各点で18方向のRGBD画像を収集→パノラマ化 • 平均2.25m間隔、人の目線の高さ、カメラポーズも記録 この3次元世界を動けるシミュレータを提供 • 観測:3次元位置およびカメラ角度+主観画像(RGB) • 行動:隣接地点への移動またはカメラ角度の更新 [Anderson+, ICCV 2017]
  64. R2R データセット Amazon Mechanical Turk で収集 • 7189経路を抽出 – 5m以上離れた2地点

    →平均10m程度 – 最低4~6回移動 • 経路あたり3つずつの インストラクション (非対話)を収集 – 平均29単語 (類似課題に比べて長め) – 約3100語彙 (類似課題に比べて少量) [Anderson+, ICCV 2017]
  65. MNIST Dialog VisDialのMNIST版 • 4x4のMNIST画像(白黒)に – 文字色5種、背景色5種、スタイル2種を適用 – 画像数 50,000

    – 対話 3 dialogs/image – 質問 10 Q&As/dialog How many 9’s are there in the image? four How many brown digits are there among them? one What is the background color of the digit at the left of it? white What is the style of the digit? flat What is the color of the digit at the left of it? blue What is the number of the blue digit? 4 Are there other blue digits? two [Seo+, NIPS 2017]
  66. Multimodal Dialog (MMD) の概要 [Saha+, AAAI 2018] • Shopper –

    客であり、要望を言語もしくは画像で伝える • Agent – 店員であり、要望に言語もしくは画像で応える • 20人で100万枚画像を用いながら対話 – 対話 150,000 – 平均発話 40/対話 – 画像を伴う発話 総計 約1,200,000
  67. Talk the Walk NYCを歩くTouristと目的地へ導くGuide • 1万程度の発話 – 行動: 約44回 –

    Guide発話: 約9回 – Tourist発話: 約8回 [de Vries+, arXiv 2018]
  68. その他にも… • Image-Grounded Conversation [Mostafazadeh+, IJCNLP 2017] – VisDialはVQAベース No

    Any huge pumpkins? No Do you see trees? No Do you see anyone? That is possible Do you think it's for Halloween? Possibly Is this at a farm? No Is the photo close up? Yes Is the photo in color?
  69. その他にも… • Image-Grounded Conversation [Mostafazadeh+, IJCNLP 2017] – VisDialはVQAベース –

    雑談の様な対話を収集 Place near my house is getting ready for Halloween a little early. Don't you think Halloween should be year-round, though? That'd be fun since it's my favorite holiday! It‘s my favorite holiday as well! I never got around to carving a pumpkin last year even though I bought one. Well, it's a good thing that they are starting to sell them early this year!
  70. その他にも… • DialEdit [Ramesh+, 2018] • Video Scene-Aware Dialog Data

    [Hori+, 2018] – Dialog System Technology Challenge (DSTC) 7 – VisDialの動画バージョン
  71. 目的の一覧 • Vision-Awareな対話をモデル化したい →VisDial [Das+, CVPR 2017]など • CVの既存/新規な問題を対話的に解きたい –

    画像キャプション生成 – ロボットのPick&Place – 画像内のどこを見ているかを共有したい →GuessWhat?! [de Vries+, CVPR 2017]など – どの画像を見ているかを共有したい – 商品の推薦システムを作りたい →MMD [Saha+, AAAI 2018]など – 対話的なナビゲーションシステムを作りたい →VNL [Anderson+, ICCV 2017], Talk the Walk [de Vries+, 2018]など
  72. Cooperative Visual Dialog with RL • 強化学習の活用 – AlphaGo [Silver+,

    Nature 2016] からの着想 – 画像あてゲームの成功/失敗を報酬として最適化 • Fine-tuneとして採用 – 事前学習はこれまで同様教師あり学習 – フルスクラッチでの強化学習だと… • 画像と言語の関係やコミュニケーションプロトコルの 学習が困難 • 学習できたとしても、結果としてエージェントが人間 の言葉を喋る可能性は低い [Das+, ICCV 2017]
  73. SL-Pretrained(教師あり事前学習のみ) Questioner Answerer A couple of people in the snow

    on skis. 2 I can’t tell I can’t tell, they are far away I can’t tell Yes Yes Yes Yes Yes Yes How many people? Male or female? What are they wearing? What color are skis? Are they wearing goggles? Are they wearing goggles? Are they wearing goggles? Are they wearing goggles? Are they wearing hats? Are they wearing goggles?
  74. RL-full-QAf(提案手法) Questioner Answerer A couple of people in the snow

    on skis. Are people male or female or both? What are they wearing? Is it snowing? Can you see any trees? Can you see any buildings in background? Can you see any trees? Can you see any buildings in background? Can you see any trees? Can you see any buildings in background? Does it look like they are in park? I think 1 is male, can’t see other 1 ... They are all wearing snow pants and jackets It does not appear to be snowing at moment Yes, there are lot of trees in background No, I can not Yes, there are lot of trees in background No, I do not see any buildings Yes, there are lot of trees in background No , I do not see any buildings It does not appear to be
  75. 会話データ集めるの大変だよね? • 従来 [Anderson+, CVPR 2018] : – 道順を聞いて動くエージェント (Follower)

    のみモデル – Follower は正面の画像のみ見ている設定 • 本研究: – 道順そのものを新たな経路から生成できるエージェント (Speaker) を用意→訓練データを拡張 – Follower は360°画像を利用 [Fried+, NeurIPS 2018]
  76. まとめ • Deep Learning による視覚・言語融合を俯瞰 1. 画像・動画キャプション生成 2. 言語横断 3.

    画像に関する質問への応答 4. キャプションからの画像生成 5. Vision-Aware Dialog • Deep Learning の貢献 – 上記研究課題自体は Deep Learning 以前も存在 – 画像、動画、自然言語処理技術の共通化 – 認識と生成の精緻化 視覚×言語の新たなステージへ