Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Vision and Language とその先へ

Vision and Language とその先へ

2022年2月9日(水)- 11日(金)第6回 統計・機械学習若手シンポジウム での講演資料です。

CNNの画像認識におけるブレークスルーから10年、Transformerの機械翻訳におけるブレークスルーから5年。異なる様態のデータに対する機械学習応用の相互参入障壁が大きく緩和された現在、画像情報と言語情報による理解や変換・生成を目的とするVision and Languageは、その周辺分野も巻き込みながら勢いを増している研究分野です。本講演では、Vision and Languageと呼ばれる各研究課題の生い立ちや発展、そして今後の課題について概観します。

いままでもビジョン&ランゲージの講演は何度とやらせて頂いておりますが、今回少し気合を入れて更新しました。ビジョン&ランゲージは本当にタスクが色々増えて来て収集が付かない状況ですが、90分の講演で自分が考え得る限りでは最大のカバレッジを達成したつもりです。また、単にタスクの羅列で終わらないように、タスクの体系化や共通の話題/課題にも言及してあるつもりです。

一方で、最近のキラキラテーマであるTransformer活用については同シンポジウムでチュートリアル講演を行う品川政太朗先生(NAIST)に勝手におんぶにだっこしてほとんど割愛してあります。私自身のTransformerおよびそのビジョン&ランゲージへの応用についての資料は
https://speakerdeck.com/yushiku/end-to-end-object-detection-with-transformers
https://speakerdeck.com/yushiku/do-transformer-modifications-transfer-across-implementations-and-applications
https://speakerdeck.com/yushiku/iccv-2021-tadatadavision-and-languagefalselun-wen-wodu-ndemita
の3本をご覧ください。

Yoshitaka Ushiku
PRO

February 09, 2022
Tweet

More Decks by Yoshitaka Ushiku

Other Decks in Technology

Transcript

  1. Vision and Languageとその先へ
    オムロンサイニックエックス株式会社
    牛久 祥孝
    losnuevetoros

    View Slide

  2. 自己紹介(学職歴)
    2013.6~2013.8 Microsoft Research Intern
    2014.3 博士(情報理工学)、東京大学
    2014.4~2016.3 NTT CS研 研究員
    2016.4~2018.9 東京大学 講師 (原田牛久研究室)
    2016.9~ 産業技術総合研究所 協力研究員
    2016.12~2018.9 国立国語研究所 共同研究員
    2018.10~ オムロンサイニックエックス株式会社 Principal Investigator
    2019.1~ 株式会社 Ridge-i Chief Research Officer
    2020.4~ 津田塾大学 非常勤講師
    2021.7~ 東北大学 非常勤講師
    2022.1~ 合同会社ナインブルズ 代表
    [Ushiku+, ACMMM 2012]
    [Ushiku+, ICCV 2015]
    画像キャプション生成 動画の特定区間と
    キャプションの相互検索
    [Yamaguchi+, ICCV 2017]
    A guy is skiing with no shirt on
    and yellow snow pants.
    A yellow train on the tracks
    near a train station.

    View Slide

  3. 自己紹介(その他)
    主な学術団体活動
    ACM・IEEE・情報処理学会・応用物理学会 一般会員
    コンピュータビジョン勉強会@関東 幹事
    電子情報通信学会 パターン認識・メディア理解研究会 専門委員
    情報・システムソサイエティ 庶務幹事
    著作権管理委員会 委員
    人工知能学会 論文誌編集委員会 編集委員
    建築情報学会 理事
    日本ロボット学会 代議員
    日本ディープラーニング協会 有識者会員
    共立出版 コンピュータビジョン最前線 編集
    主な研究プロジェクト
    2021-2025 マテリアル探索空間拡張プラットフォームの構築 JST 未来社会創造事業(代表:長藤圭介)
    2017-2020 多様なデータへのキャプションを自動で生成する技術の創出 JST ACT-I(代表:牛久祥孝)
    2017-2021 機械可読時代における文字科学の創成と応用展開 JSPS 基盤研究(S)(代表:内田誠一)

    View Slide

  4. 2011
    2012
    2014
    電話音声認識のエラー率が
    30%程度→20%以下に
    [Seide+, InterSpeech 2011]
    大規模画像分類のエラー率が
    25%程度→15%程度に
    [Krizhevsky+, NIPS 2012]
    LSTMで英仏翻訳の精度が
    複雑なシステムと同等に
    [Sutskever+, NIPS 2014]

    View Slide

  5. 深層学習前
    • 画像認識(CV)
    • 機械翻訳(NLP)
    局所
    記述子
    高次元
    ベクトル表現
    プロダクト
    量子化
    オンライン
    線形分類
    吾輩は猫である。名前
    はまだ無い。
    どこで生れたかとんと
    見当がつかぬ。何でも薄
    暗いじめじめした所で
    ニャーニャー泣いていた
    事だけは記憶している。
    単語/句
    アライメント
    フレーズ
    テーブル・
    言語モデル
    対数線形
    モデル
    リランキング
    Thai Cat
    I am a cat. I don't
    have a name yet.
    I have no idea where I
    was born. I only
    remember that I was
    crying in a damp and
    dimly lit place.
    NLP研究者には謎
    CV研究者には謎

    View Slide

  6. 深層学習後
    • 画像認識(CV)
    • 機械翻訳(NLP)
    吾輩は猫である。名前
    はまだ無い。
    どこで生れたかとんと
    見当がつかぬ。何でも薄
    暗いじめじめした所で
    ニャーニャー泣いていた
    事だけは記憶している。
    I am a cat. I don't
    have a name yet.
    I have no idea where I
    was born. I only
    remember that I was
    crying in a damp and
    dimly lit place.
    NLP研究者も…!
    CV研究者も…!
    cat
    RNN RNN
    CNN CNN
    CNN Thai Cat

    View Slide

  7. 深層学習後
    • 画像認識(CV)
    • 機械翻訳(NLP)
    吾輩は猫である。名前
    はまだ無い。
    どこで生れたかとんと
    見当がつかぬ。何でも薄
    暗いじめじめした所で
    ニャーニャー泣いていた
    事だけは記憶している。
    I am a cat. I don't
    have a name yet.
    I have no idea where I
    was born. I only
    remember that I was
    crying in a damp and
    dimly lit place.
    NLP研究者も…!
    CV研究者も…!
    cat
    RNN RNN
    CNN CNN
    CNN Thai Cat
    CNN CNN
    吾輩は猫である。名前
    はまだ無い。
    どこで生れたかとんと
    見当がつかぬ。何でも薄
    暗いじめじめした所で
    ニャーニャー泣いていた
    事だけは記憶している。
    I am a cat. I don't
    have a name yet.
    I have no idea where I
    was born. I only
    remember that I was
    crying in a damp and
    dimly lit place.
    NLPでもCNNは使う!
    CNN RNN Hiding
    CVでもRNNは使う!

    View Slide

  8. ユーザー生成コンテンツの爆発的増加
    特にコンテンツ投稿・共有サービスでは…
    • Facebookにアップロードされる画像 1日で計3億枚
    • YouTubeにアップロードされる動画 1分間で計400時間分
    Pōhutukawa blooms this
    time of the year in New
    Zealand. As the flowers
    fall, the ground
    underneath the trees look
    spectacular.
    画像/動画と
    関連する文章の対
    →大量に収集可能

    View Slide

  9. Vision and Language の萌芽的な研究
    記事付き画像へのキャプション生成
    [Feng+Lapata, ACL 2010]
    • Input: article + image Output: caption for image
    • Dataset: Sets of article + image + caption
    × 3361
    King Toupu IV died at the
    age of 88 last week.

    View Slide

  10. Vision and Language の萌芽的な研究
    × 3361
    King Toupu IV died at the
    age of 88 last week.
    記事付き画像へのキャプション生成
    [Feng+Lapata, ACL 2010]
    • Input: article + image Output: caption for image
    • Dataset: Sets of article + image + caption
    これらの背景から…
    つぎのような様々な取り組みが!

    View Slide

  11. ビジュアル質問応答
    [Fukui+, EMNLP 2016]

    View Slide

  12. ビジュアル質問応答
    [Fukui+, EMNLP 2016]

    View Slide

  13. ビジュアル質問応答
    [Fukui+, EMNLP 2016]
    ①マルチモーダル理解
    入力:ビジュアルデータ+テキストデータ
    → 出力:認識結果

    View Slide

  14. 画像キャプション生成
    Group of people sitting
    at a table with a dinner.
    Tourists are standing on
    the middle of a flat desert.
    [Ushiku+, ICCV 2015]

    View Slide

  15. 画像キャプション生成
    Group of people sitting
    at a table with a dinner.
    Tourists are standing on
    the middle of a flat desert.
    [Ushiku+, ICCV 2015]
    ②Image2Text
    入力:ビジュアルデータ
    → 出力:テキストデータ

    View Slide

  16. キャプションからの画像生成
    [Ramesh+, 2021]
    An illustration of a baby hedgehog
    in a wizard hat riding a car
    A photo of the food of japan

    View Slide

  17. キャプションからの画像生成
    [Ramesh+, 2021]
    An illustration of a baby hedgehog
    in a wizard hat riding a car
    A photo of the food of japan
    ③Text2Image
    入力:テキストデータ
    → 出力:ビジュアルデータ

    View Slide

  18. テキストによる画像編集
    [Dong+, ICCV 2017]

    View Slide

  19. テキストによる画像編集
    [Dong+, ICCV 2017]
    ④Image+Text2Image
    入力:ビジュアルデータ+テキストデータ
    → 出力:テキストデータ

    View Slide

  20. ビジュアル対話
    Questioner Answerer
    A couple of people
    in the snow on skis.
    What are their genders?
    Are they both adults?
    Do they wear goggles?
    Do they have hats on?
    Are there any other people?
    What color is man’s hat?
    Is it snowing now?
    What is woman wearing?
    Are they smiling?
    Do you see trees?
    1 man 1 woman
    Yes
    Looks like sunglasses
    Man does
    No
    Black
    No
    Blue jacket and black pants
    Yes
    Yes
    [Das+, CVPR 2017]

    View Slide

  21. ビジュアル対話
    Questioner Answerer
    A couple of people
    in the snow on skis.
    What are their genders?
    Are they both adults?
    Do they wear goggles?
    Do they have hats on?
    Are there any other people?
    What color is man’s hat?
    Is it snowing now?
    What is woman wearing?
    Are they smiling?
    Do you see trees?
    1 man 1 woman
    Yes
    Looks like sunglasses
    Man does
    No
    Black
    No
    Blue jacket and black pants
    Yes
    Yes
    [Das+, CVPR 2017]
    ⑤Image+Text2Text
    入力:ビジュアルデータ+テキストデータ
    → 出力:テキストデータ

    View Slide

  22. 本講演の目的
    視覚×言語(Vision and Language)の融合研究を俯瞰
    1. ビジョン+ランゲージ→認識結果
    ビジュアル質問応答、参照表現理解/ビジュアル接地、ビジュアル含意関係認識、ビ
    ジョン&ランゲージナビゲーション
    2. ビジョン→ランゲージ
    画像によるテキスト検索、キャプション生成、参照表現生成、ビジュアル質問生成
    3. ランゲージ→ビジョン
    テキストによる画像/動画検索、テキストによる画像生成
    4. ビジョン+ランゲージ→ビジョン
    テキストによる画像編集
    5. ビジョン+ランゲージ→ランゲージ
    マルチモーダル翻訳、ビジュアル対話 6. 共通の話題と今後の展望

    View Slide

  23. Vision and Languageとその先へ1
    ビジョン+ランゲージ→認識結果

    View Slide

  24. ビジュアル質問応答

    View Slide

  25. Visual Question Answering (VQA)
    最初はユーザインタフェース分野で注目
    • VizWiz [Bigham+, UIST 2010]
    AMTで人力解決
    • 初の自動化(ディープラーニング不使用) [Malinowski+Fritz, NIPS 2014]
    • 類似用語:Visual Turing Test [Malinowski+Fritz, 2014]

    View Slide

  26. VQA: Visual Question Answering
    • ビジュアル質問応答を分野として確立
    – ベンチマークデータセットの提供
    – ベースとなるパイプラインでの実験
    • ポータルサイトも運営
    – http://www.visualqa.org/
    – 国際コンペティションも開催
    [Antol+, ICCV 2015]
    What color are her eyes?
    What is the mustache made of?

    View Slide

  27. VQA Dataset
    AMT で質問と回答を収集
    • 10万超の実画像、3万超のアニメ調画像
    • 計70万弱の質問+それぞれ10の模範回答

    View Slide

  28. VQA=多クラス分類問題
    表現ベクトル𝑍𝑍𝐼𝐼+𝑄𝑄
    以降は通常のクラス識別
    質問文𝑄𝑄
    What objects are
    found on the bed?
    応答𝐴𝐴
    bed sheets, pillow
    画像𝐼𝐼
    画像特徴量
    𝑥𝑥𝐼𝐼
    質問特徴量
    𝑥𝑥𝑄𝑄
    統合された
    表現ベクトル
    𝑧𝑧𝐼𝐼+𝑄𝑄

    View Slide

  29. その後の展開:統合方法
    「統合された表現ベクトル𝑧𝑧𝐼𝐼+𝑄𝑄」の工夫
    • VQA [Antol+, ICCV 2015]:そのまま直列に並べる
    • 「和」グループ
    例 Attentionで重みづけ和をとった画像特徴と
    質問特徴を単純に足す [Xu+Saenko, ECCV 2016]
    • 「積」グループ
    例 双線形積とフーリエ変換を組み合わせる
    [Fukui+, EMNLP 2016]
    • 「和」と「積」のハイブリッド
    例 要素毎の積と要素毎の和を直列に並べる
    [Saito+, ICME 2017]
    𝑧𝑧𝐼𝐼+𝑄𝑄
    =
    𝑥𝑥𝐼𝐼
    𝑥𝑥𝑄𝑄
    𝑥𝑥𝐼𝐼
    𝑥𝑥𝑄𝑄
    𝑥𝑥𝐼𝐼
    𝑥𝑥𝑄𝑄
    𝑧𝑧𝐼𝐼+𝑄𝑄
    =
    𝑧𝑧𝐼𝐼+𝑄𝑄
    =
    𝑧𝑧𝐼𝐼+𝑄𝑄
    =
    𝑥𝑥𝐼𝐼
    𝑥𝑥𝑄𝑄
    𝑥𝑥𝐼𝐼
    𝑥𝑥𝑄𝑄

    View Slide

  30. その後の展開:アテンション
    • 2017年SOTA [Anderson+, CVPR 2018]
    – これまで:Top-down領域の
    画像にアテンション
    – Bottom-upとTow-down領域の
    両方にアテンション
    • 2018年SOTA [Nguyen+Okatani, CVPR 2018]
    – これまで:画像に対し
    アテンション
    – 質問特徴と画像特徴の
    両方にアテンション
    Bottom-up
    Top-down

    View Slide

  31. ビジュアル含意関係性認識
    入力された画像と文(仮説)の関係性を3値分類するタスク
    • 含意関係にある!
    • どちらとも言えない
    • 矛盾している!
    基本的なアプローチはVQAと同様
    [Xie+, 2018]

    View Slide

  32. 参照表現理解/ビジュアル接地

    View Slide

  33. 参照表現理解
    • 入力画像とクエリ文から、内容的に適合する
    画像領域を出力するタスク
    • 候補画像領域を
    – ある画像の中の複数領域とする場合=
    参照表現理解
    – 複数の画像とする場合=
    テキストによる画像検索
    • 本論文でもテキストによる画像検索も実現
    [Hu+, CVPR 2016]

    View Slide

  34. 良くあるアプローチ
    • 参照表現生成との同時最適化(後述)
    • 参照表現理解だけを目的とした研究[Yu+, CVPR 2018]
    – 入力されたクエリ文によってモジュールを重みづけ
    主語モジュール
    位置情報モジュール
    関係性モジュール
    – 領域分割手法と組み合わせると
    出力を領域に変更可能

    View Slide

  35. View Slide

  36. ロボットのPick&Place
    実はComprehensionモデル+α
    [Hatori+, ICRA 2018]

    View Slide

  37. ロボットのPick&Place
    実はComprehensionモデル+α
    [Hatori+, ICRA 2018]
    Comprehensionに相当する部分
    (何をPickするか)

    View Slide

  38. ロボットのPick&Place
    実はComprehensionモデル+α
    [Hatori+, ICRA 2018]
    +αに相当する部分
    (どこにPlaceするか)

    View Slide

  39. ビジュアル接地(グラウンディング)
    • 言語と動画内の物体とのグラウンディング
    [Yu+Siskind, ACL 2013]
    – 動画とその動画を説明する文のみから学習
    – 対象物体が少なく、コントロールされた小規模データセットでの実験
    大まかな分類
    • 文全体と画像のマッチング=参照表現理解
    • 文中のフレーズと画像のマッチング=ビジュアル接地

    View Slide

  40. 画像領域とフレーズとのアライメント
    • 画像キャプション生成と並列でアライメント手法も提案
    – キャプション生成は当時急増したCNN+RNNモデル
    – 画像・キャプションペアの類似度と
    非ペアの類似度の大小関係を
    維持するように類似度スコアを学習
    – 類似度スコアから対応関係を推定
    [Karpathy+Fei-Fei, CVPR 2015]
    Man in black shirt is playing guitar.

    View Slide

  41. ビジョン&ランゲージナビゲーション

    View Slide

  42. Vision-and-Language Navigation (VNL)
    対話行為が移動とナビゲーション
    [Anderson+, ICCV 2017]

    View Slide

  43. R2R データセット
    実世界3次元データ [Chang+, 3DV 2017] を利用
    • 90の建造物で総計10,800点のパノラマRGBD画像を収集
    • 各点で18方向のRGBD画像を収集→パノラマ化
    • 平均2.25m間隔、人の目線の高さ、カメラポーズも記録
    この3次元世界を動けるシミュレータを提供
    • 観測:3次元位置およびカメラ角度+主観画像(RGB)
    • 行動:隣接地点への移動またはカメラ角度の更新
    [Anderson+, ICCV 2017]

    View Slide

  44. Matterport3D Simulator のグラフ表現
    各位置𝒗𝒗をノードとする重み付き無向グラフ
    • 5m以上離れたエッジや障害物を挟むエッジは削除
    • エッジが張られているノードのうち、現在の視界に含まれる
    ノードに移動

    View Slide

  45. Room-to-Room (R2R) タスク
    実体をもつエージェントが
    • 言語によるインストラクション ̅
    𝑥𝑥 = 𝑥𝑥1
    , 𝑥𝑥2
    , … , 𝑥𝑥𝐿𝐿
    を受け
    • 𝑡𝑡番目のカメラパラメータ 𝑣𝑣𝑡𝑡
    , 𝜓𝜓𝑡𝑡
    , 𝜃𝜃𝑡𝑡
    に基づいて、シミュレータからエージェント
    の見える光景𝑠𝑠𝑡𝑡
    を受け
    • 行動(移動)𝑎𝑎𝑡𝑡
    を決定
    「停止」を選ぶまで続ける
    行動
    インストラクション
    ゴールまでの距離
    ・3m未満になったら成功
    ・エージェントは知らない数字

    View Slide

  46. 基本的な手法のアプローチ
    • Vision-and-Language Navigation (VLN) は文と画像を入力して
    系列を出力する問題
    – Visual Question Answering (VQA) も同じでは?
    →著者「入力画像が時々刻々で異なるところが違う」
    • 入力:系列→出力:系列の問題
    – 機械翻訳と類似した入出力構造

    View Slide

  47. 探索中に会話ok = Vision-Dialog Navigation (VDN)
    • VDNでの質問生成はQAの教師データ頼み
    • 内発的動機に基づいた質問生成の強化学習
    – Whether-to-ask: 今質問するべきか
    – What-to-ask: 何を質問するべきか
    • エージェントとナビゲート両方を協調学習
    →とくにQAの教師データが無い時に有効
    [Zhu+, ICCV 2021]

    View Slide

  48. Vision and Languageとその先へ2
    ビジョン→ランゲージ

    View Slide

  49. 画像によるテキスト検索

    View Slide

  50. キャプション生成

    View Slide

  51. キャプション生成
    画像によるテキスト検索をすっぽかした訳じゃないですよ

    View Slide

  52. Every picture tells a story
    データセット:
    画像++キャプション
    1. 画像のをMRFで推定
    2. が同じキャプションを検索して利用

    [Farhadi+, ECCV 2010]

    View Slide

  53. Every picture tells a story

    See something unexpected.

    A man stands next to a train
    on a cloudy day.
    [Farhadi+, ECCV 2010]

    View Slide

  54. 再利用?新規生成?
    • 再利用
    • 新規生成
    – テンプレート
    主語+動詞の文を生成しよう
    – 非テンプレート
    A small gray dog
    on a leash.
    A black dog
    standing in
    grassy area.
    A small white dog
    wearing a flannel
    warmer.
    入力 データセット

    View Slide

  55. 再利用?新規生成?
    • 再利用
    – A small gray dog on a leash.
    • 新規生成
    – テンプレート
    主語+動詞の文を生成しよう
    – 非テンプレート
    A small gray dog
    on a leash.
    A black dog
    standing in
    grassy area.
    A small white dog
    wearing a flannel
    warmer.
    入力 データセット

    View Slide

  56. 再利用?新規生成?
    • 再利用
    – A small gray dog on a leash.
    • 新規生成
    – テンプレート
    dog+stand ⇒ A dog stands.
    – 非テンプレート
    A small gray dog
    on a leash.
    A black dog
    standing in
    grassy area.
    A small white dog
    wearing a flannel
    warmer.
    入力 データセット

    View Slide

  57. 再利用?新規生成?
    • 再利用
    – A small gray dog on a leash.
    • 新規生成
    – テンプレート
    dog+stand ⇒ A dog stands.
    – 非テンプレート
    A small white dog standing on a leash.
    A small gray dog
    on a leash.
    A black dog
    standing in
    grassy area.
    A small white dog
    wearing a flannel
    warmer.
    入力 データセット

    View Slide

  58. 再利用アプローチ→クロスモーダル検索へ
    画像によるテキスト検索とテキストによる画像検索を同時に解く
    • 正準相関分析の利用[Hodosh+, JAIR 2013][Gong+, ECCV 2014]
    • 文章要約技術の応用[Mason+Charniak, ACL 2014]
    • 係り受け木+RNN[Socher+, TACL 2014]
    • RCNNによる画像領域と係り受けの対応[Karpathy+, NIPS 2014]
    • 分散表現によるリランキング[Yagcioglu, ACL 2015]
    • WordNetの階層性をモデル化したCNN [Vendrov+, ICLR 2016]
    • 動画/文から得た共通空間で相互検索[Yamaguchi+, ICCV 2017]
    A woman in blue is
    playing ping pong in
    a room.
    A guy is skiing with
    no shirt on and
    yellow snow pants.
    A man is water skiing
    while attached to a
    long rope.

    View Slide

  59. マルチキーフレーズ推定アプローチ
    当時の問題=使用候補であるフレーズの精度が悪い
    キーフレーズを独立なラベルとして扱うと…
    マルチキーフレーズの推定=一般画像認識
    文生成は[Ushiku+, ACM MM 2011]と同じ
    [Ushiku+, ACM MM 2012]

    View Slide

  60. 文の終わり

    View Slide

  61. Google Neural Image Captioning
    Googleで開発された
    • GoogLeNet [Szegedy+, CVPR 2015]
    • LSTM [Sutskever+, NIPS 2014]
    を直列させて文生成する。
    画像𝐼𝐼への文(単語列)𝑆𝑆0
    … 𝑆𝑆𝑁𝑁

    𝑆𝑆0
    : スタートを意味する単語
    𝑆𝑆1
    = LSTM CNN 𝐼𝐼
    𝑆𝑆𝑡𝑡
    = LSTM St−1
    , 𝑡𝑡 = 2 … 𝑁𝑁 − 1
    𝑆𝑆𝑁𝑁
    : ストップを意味する単語
    [Vinyals+, CVPR 2015]

    View Slide

  62. 生成された説明文の例
    [https://github.com/tensorflow/models/tree/master/im2txt]

    View Slide

  63. View Slide

  64. 1
    材料を用意します。
    ●の調味料を合わせておきます。
    2
    ごぼうはささがきにし、水にさらしておきます。
    3
    にんじんは千切りにします。

    View Slide

  65. 4
    フライパンにごま油を熱し、人参を炒めます。
    5
    人参がしんなりしたら、ごぼうを入れて、全体が
    しんなりするまで炒めます。
    6
    全体に火が通ったら、調味料を入れて、よく混ぜ
    ます。
    できあがり!

    View Slide

  66. 4
    フライパンにごま油を熱し、人参を炒めます。
    5
    人参がしんなりしたら、ごぼうを入れて、全体が
    しんなりするまで炒めます。
    6
    全体に火が通ったら、調味料を入れて、よく混ぜ
    ます。
    できあがり!
    実はこれ…
    提案する機械学習手法による学習済みモデルが
    を に自動変換したものです!

    View Slide

  67. 問題の発展:手順書生成
    提案手法はシンプル+より精度を向上
    [Nishimura+, IEEE Access 2020]

    View Slide

  68. 構造に配慮した写真列からの手順書生成
    →疑似材料ツリーを
    活用した半教師あり学習
    →「行って帰ってくる」
    損失を用いた詳細記述
    [Nishimura+, IEEE Access 2020]

    View Slide

  69. 問題の発展:変化キャプション生成
    • 2枚の画像間の変化を示すキャプションの生成
    – 既存研究:単一の変化に絞った記述
    – CLEVRを利用して、複数の変化が含まれた画像ペアと
    その記述を含むCLEVR-Multi-Changeデータセットを
    構築
    – Transformer型の変化キャプション生成モデルである
    Multi-Change Captioning Transformer (MCCFormer)を
    提案
    • 2枚の画像間の各領域の関係をエンコードする
    MCCFormers-D
    • 画像内の各領域の関係もエンコードできる
    MCCFormers-S
    – 提案データセットでも監視カメラ画像のデータセット
    であるSpot-the-Diffデータセットでも良好な結果
    • なお謝辞(右図)は研究メンターシッププログ
    ラムによるものです(参加者募集中!)
    https://sites.google.com/view/prmu-rmp/conferences
    [Qiu+, ICCV 2021]

    View Slide

  70. 参照表現生成

    View Slide

  71. 参照表現生成
    • 与えられた画像の領域に最も適した記述を生成するタスク
    • 歴史はとても長い
    – SHRDLU [Winograd, 1972] の一機能として
    積み木の世界での参照表現生成が実現
    [Yu+, CVPR 2017]

    View Slide

  72. よくあるアプローチ:参照表現理解との同時最適化
    • このアプローチの草分け [Mao+, CVPR 2016]
    – キャプション生成としての参照表現生成
    – 類似画像検索としての参照表現理解
    – データセットに参照表現が無い物体領域
    も含めた半教師あり学習が可能
    • 強化学習の活用 [Yu+, CVPR 2017]
    – 参照表現理解をおこなうListener
    – 参照表現生成をおこなうSpeaker
    – だけでなく、参照表現と領域のマッチン
    グをロジスティック回帰で評価した結果
    を報酬とするReinforcerを導入
    →より曖昧性の低い参照表現生成を実現

    View Slide

  73. 人がすばやく見分けられる差分に注目した記述生成
    “ウォーリーを探せの回答を自動生成できる手法”
    正しく差分を
    記述していても
    見つけられない
    [Tanaka+, ICCV 2019]

    View Slide

  74. 参照表現生成モデルと新規データセットの収集・公開
    • 「行って帰ってくる」損失で一意性をもった生成モデル
    「帰ってくる」
    赤枠の人のために生成した
    キャプションで
    赤枠の人が検索できるか?
    「行って」
    赤枠の人のために
    キャプションを
    生成できるか?
    [Tanaka+, ICCV 2019]

    View Slide

  75. 実験結果
    提案手法は
    • 目立つ物体に言及
    • 一意性のある参照表現生成を達成
    [Tanaka+, ICCV 2019]

    View Slide

  76. ビジュアル質問生成

    View Slide

  77. Visual Question Generation
    • 視覚的質問生成
    (VQG)の提案
    質問生成は画像
    キャプションの
    生成か検索を検討
    • Qに対する要求
    – その質問から会話が始まるような質問
    – 画像を見てわかるような質問ではだめ
    ✗ How many horses
    are in the field?
    ✓ Who won the race?
    [Mostafazadeh+, ACL 2016]

    View Slide

  78. 未知物体についてのVQG
    画像認識器が知らない物体: 人から教わりたい
    • 質問なら何でもいいわけじゃない
    • 「なにこれ?」のような曖昧な質問だと…
    回答も「物体」のように曖昧になりそう
    • 学習して自動生成できた質問の例
    What is the
    woman
    holding in
    her right
    hand?
    What type
    of shirt is
    the man
    wearing?
    What in
    on the
    man’s
    lap?
    ?
    [Uehara+, ECCV 2018]

    View Slide

  79. Vision and Languageとその先へ3
    ランゲージ→ビジョン

    View Slide

  80. テキストによる画像/動画検索

    View Slide

  81. 再利用アプローチ→クロスモーダル検索へ
    画像によるテキスト検索とテキストによる画像検索を同時に解く
    • 正準相関分析の利用[Hodosh+, JAIR 2013][Gong+, ECCV 2014]
    • 文章要約技術の応用[Mason+Charniak, ACL 2014]
    • 係り受け木+RNN[Socher+, TACL 2014]
    • RCNNによる画像領域と係り受けの対応[Karpathy+, NIPS 2014]
    • 分散表現によるリランキング[Yagcioglu, ACL 2015]
    • WordNetの階層性をモデル化したCNN [Vendrov+, ICLR 2016]
    • 動画/文から得た共通空間で相互検索[Yamaguchi+, ICCV 2017]
    A woman in blue is
    playing ping pong in
    a room.
    A guy is skiing with
    no shirt on and
    yellow snow pants.
    A man is water skiing
    while attached to a
    long rope.

    View Slide

  82. テキストによる画像生成

    View Slide

  83. 文で生成結果を変えるには
    Generator と Discriminator に文を加える
    ・自然な画像
    ・文に沿った画像
    を生成しようとする
    ・不自然な画像
    ・文に合わない画像
    を識別しようとする
    [Reed+, ICML 2016]

    View Slide

  84. 生成できた画像の例
    • 鳥(CUB)/花(Oxford-102)データセット
    – 約1万の鳥/花画像と5キャプション/画像
    – 200種類の鳥/102種類の花
    A tiny bird, with a tiny beak,
    tarsus and feet, a blue crown,
    blue coverts, and black
    cheek patch
    Bright droopy yellow petals
    with burgundy streaks, and a
    yellow stigma

    View Slide

  85. その後の展開
    StackGAN [Zhang+, ICCV 2017]
    • 2段階のGANからなるモデル
    • 1段目でぼやっとした画像を生成、2段目で高解像+詳細化

    View Slide

  86. キャプションからの画像生成
    This bird is blue with white
    and has a very short beak.
    (この鳥は白の入った青色
    で、とても短いくちばし
    をもっています。)
    This flower is white and
    yellow in color, with petals
    that are wavy and smooth.
    (この花は白と黄色で、波
    打った滑らかな花びらを
    もっています。)
    [Zhang+, ICCV 2017]

    View Slide

  87. キャプションからの画像生成
    This bird is blue with white
    and has a very short beak.
    (この鳥は白の入った青色
    で、とても短いくちばし
    をもっています。)
    This flower is white and
    yellow in color, with petals
    that are wavy and smooth.
    (この花は白と黄色で、波
    打った滑らかな花びらを
    もっています。)
    [Zhang+, ICCV 2017]
    鳥/花に特化したデータセットでの結果
    →一般的な画像を生成するにはより一層のブレイクスルーが必要

    View Slide

  88. DALL-E
    Autoregressive decoder using Transformer
    [Ramesh+, 2021]

    View Slide

  89. Vision and Languageとその先へ4
    ビジョン+ランゲージ→ビジョン

    View Slide

  90. テキストによる画像編集

    View Slide

  91. GANによるText2Image論文の中で…
    Generator と Discriminator に文を加える
    [Reed+, ICML 2016]
    これがうまく学習されている時:
    • 𝝋𝝋が画像のコンテンツ(オブジェクトとその見た目)
    • 𝒛𝒛が画像のスタイル(背景)
    を表しているはず!(ある種のDisentangleが実現されているはず)

    View Slide

  92. テキストによる画像編集の萌芽的実験
    1. 画像から𝑧𝑧を逆推定する別のCNNを学習させる
    2. 推定した𝑧𝑧に対してキャプションのエンコード
    結果𝜑𝜑を加えてGenerator Networkを推論させる
    →テキストによる画像編集が出来ているハズ!
    [Reed+, ICML 2016]

    View Slide

  93. 敵対的学習による画像編集の直接的な学習
    • 直接的な学習をする為の一番単純なアプローチ=
    編集前の画像、テキスト、編集後の画像の3点セットをたくさん集めて学習する
    • 本研究:当たらずも遠からずなテキスト ̅
    𝑡𝑡の活用
    – 画像𝑥𝑥+完全一致する内容のテキスト𝑡𝑡
    – 画像𝑥𝑥+何もかも異なる内容のテキスト ̂
    𝑡𝑡
    – 画像𝑥𝑥+同じカテゴリだが詳細が異なるテキスト ̅
    𝑡𝑡
    そんなデータセット構築するの無理では?
    ̅
    𝒕𝒕から𝑥𝑥を生成しよう
    • 𝑥𝑥と𝑡𝑡が来たら+1
    • 𝑥𝑥と ̂
    𝑡𝑡が来たら-1
    • 𝒙𝒙と ̅
    𝒕𝒕が来たら-1
    を出力しよう
    [Dong+, ICCV 2017]

    View Slide

  94. 編集実験結果
    • 画像とテキストの表現学習 [Kiros+, TACL 2015] を利用
    • Baselineとして先行研究 [Reed+, ICML 2016] と比較
    アンケート評価で
    勝ちました

    View Slide

  95. 変化キャプション生成をフィードバックに利用
    • 言語指示による画像編集
    – 問題はデータセットの規模の小ささ(VLNと同様)
    – 正直、右のImage ManipulationとImage Editingの分類には懐疑的…
    • クロスモーダル&サイクルな構造によるEditing Description
    Network
    – 編集すべき画像領域を推定するImage-Request Attention (IRA)
    – ピクセルごとのL1距離などよりも納得性の高い評価指標としての
    Redescription Similarity Score (RSS)
    以下の2つの変化キャプション
    同士のCIDEr等の類似度
    • 編集前画像と編集後画像(正
    解)の変化キャプション
    • 編集前画像と編集後画像(生
    成)の変化キャプション
    → つまりInception Score的
    [Jiang+, ICCV 2021]

    View Slide

  96. Vision and Languageとその先へ5
    ビジョン+ランゲージ→ランゲージ

    View Slide

  97. マルチモーダル翻訳

    View Slide

  98. 他言語への展開
    データセット
    • IAPR TC12 [Grubinger+, 2006] 20,000画像+英独
    • Multi30K [Elliot+, 2016] 30,000画像+英独
    • STAIR Captions [吉川ら、 2017]
    MS COCO (10万超画像+英語キャプション)
    →すべてに日本語キャプションを付与
    タスクとしての展開
    • 英語でない画像キャプション生成
    • マルチモーダル機械翻訳/言語間文書検索
    1. 入力:言語Aでのキャプション+画像
    2. 入力:言語Aでのキャプション
    → 出力:言語Bでのキャプション(1.と2.で同じ)

    View Slide

  99. そもそもの着想
    画像は機械翻訳の精度に寄与[Calixto+,2012]
    • 英語でsealとあるけど、
    ・stampに近いsealなのか?
    ・sea animalのsealなのか?
    がわからず誤ったポルトガル語に翻訳
    • (実験してないけど)画像があれば防げるはず!

    View Slide

  100. マルチモーダル機械翻訳
    • 画像を介した言語横断キャプション翻訳
    [Elliott+, 2015] [Hitschler+, ACL 2016]
    – 最初に候補翻訳を複数生成(画像には非依存)
    – 類似画像に付随する言語Bのキャプションを
    利用して翻訳候補から出力を選択
    Eine Person in
    einem Anzug
    und Krawatte
    und einem Rock.
    (独語)
    画像を見ない場合の翻訳
    A person in a suit and tie
    and a rock.
    画像を利用した場合の翻訳
    A person in a suit and tie
    and a skirt.

    View Slide

  101. 画像を暗に用いたキャプション翻訳
    • 画像を介した言語横断関連文書検索[Funaki+Nakayama, EMNLP 2015]
    • ゼロ対訳コーパスでのマルチモーダル翻訳
    [Nakayama+Nishida, 2017]

    View Slide

  102. ビジュアル対話

    View Slide

  103. Vision-Aware Dialog
    エージェントとユーザー以外に視覚的な情報が存在
    研究を大別すると…
    • データセットの提供
    VisDial [Das+, CVPR 2017]
    • それらを利用した対話の研究
    共参照解析を利用したVisDialモデル

    View Slide

  104. マルチモーダル対話?
    • マルチモーダル対話
    – 主にユーザからの入力が複数モーダルの情報
    • Vision-Aware Dialog
    – 環境などに視覚情報を伴うものをさす
    – マルチモダリティではある
    本講演では
    Vision-Aware Dialog
    と呼ぶことにします

    View Slide

  105. 目的の一覧
    • Vision-Awareな対話をモデル化したい
    →VisDial [Das+, CVPR 2017]など
    • CVの既存/新規な問題を対話的に解きたい
    – 画像キャプション生成
    – ロボットのPick&Place
    – 画像内のどこを見ているかを共有したい
    →GuessWhat?! [de Vries+, CVPR 2017]など
    – どの画像を見ているかを共有したい
    – 商品の推薦システムを作りたい
    →MMD [Saha+, AAAI 2018]など
    – 対話的なナビゲーションシステムを作りたい
    →VNL [Anderson+, ICCV 2017], Talk the Walk [de Vries+, 2018]など

    View Slide

  106. どの画像を見ているかを共有したい
    10 Round のQA後Questionerが画像を当てる
    当たれば2エージェント共に勝利(協調)
    10
    Rounds
    [Das+, ICCV 2017]

    View Slide

  107. なぜ言語か
    • 一番トリビアルな解:
    「Questionerを無視してAnswererが画像や
    画像特徴量を送付」
    自然言語(シンボル列)はボトルネックとして
    作用→トリビアルな解を回避できる
    • 人間に理解可能:学習後、どちらかのエージェントと人間が
    交替して対話できる
    Questioner Answerer
    大人が写っていますか?
    (無視)
    [Das+, ICCV 2017]

    View Slide

  108. 提案手法による対話と学習
    • 質問𝑞𝑞𝑡𝑡
    と応答𝑎𝑎𝑡𝑡
    の生成・理解:
    Hierarchical Recurrent Encoder-Decoder
    • 画像(特徴量)𝑦𝑦の推定値�
    𝑦𝑦の出力:
    単層全結合ネットワークによる回帰
    [Das+, ICCV 2017]

    View Slide

  109. SL-Pretrained(教師あり事前学習のみ)
    Questioner Answerer
    A couple of people
    in the snow on skis.
    2
    I can’t tell
    I can’t tell, they are far away
    I can’t tell
    Yes
    Yes
    Yes
    Yes
    Yes
    Yes
    How many people?
    Male or female?
    What are they wearing?
    What color are skis?
    Are they wearing goggles?
    Are they wearing goggles?
    Are they wearing goggles?
    Are they wearing goggles?
    Are they wearing hats?
    Are they wearing goggles?

    View Slide

  110. RL-full-QAf(提案手法)
    Questioner Answerer
    A couple of people
    in the snow on skis.
    Are people male or female or both?
    What are they wearing?
    Is it snowing?
    Can you see any trees?
    Can you see any buildings in background?
    Can you see any trees?
    Can you see any buildings in background?
    Can you see any trees?
    Can you see any buildings in background?
    Does it look like they are in park?
    I think 1 is male, can’t see other 1 ...
    They are all wearing snow pants and jackets
    It does not appear to be snowing at moment
    Yes, there are lot of trees in background
    No, I can not
    Yes, there are lot of trees in background
    No, I do not see any buildings
    Yes, there are lot of trees in background
    No , I do not see any buildings
    It does not appear to be

    View Slide

  111. Vision and Languageとその先へ
    共通の話題と今後の展望

    View Slide

  112. データセット

    View Slide

  113. データセット
    Webからクロールしてきたもの
    • SBU Captioned Image [Ordonez+, NIPS 2011]
    100万枚のFlickr画像、1キャプション/画像
    • YFCC-100M [Thomee+, 2015]
    1億枚のFlickr画像+動画、一部の画像にキャプション
    • Déjà Image-Captions [Chen+, ACL 2015]
    1つのキャプションに複数の画像が紐づいている

    View Slide

  114. データセット
    クラウドソーシングを用いたもの
    • PASCAL Sentence, Flickr 8k/30k (すべてUIUCから)
    それぞれ1000/8000/30000枚の画像、5キャプション/画像
    • Abstract Scene Dataset [Zitnick+Parikh, CVPR 2013]
    10000枚のクリップアート、6キャプション/画像
    • MS COCO [Lin+, 2014]
    10万超の画像、5キャプション/画像
    • MSR Dense Visual Annotation Corpus [Yatskar+, *SEM 2014]
    500枚の画像に100,000の矩形領域+キャプション
    • PASCAL-50S, ABSTRACT-50S [Vedantam+, CVPR 2015]
    より人間らしい評価のために作成、50キャプション/画像
    • Visual Genome [Krishna+, IJCV 2017]
    10万超の画像にキャプションやQAなどが密に付随

    View Slide

  115. データセット
    クラウドソーシングを用いたもの
    • PASCAL Sentence, Flickr 8k/30k (すべてUIUCから)
    それぞれ1000/8000/30000枚の画像、5キャプション/画像
    • Abstract Scene Dataset [Zitnick+Parikh, CVPR 2013]
    10000枚のクリップアート、6キャプション/画像
    • MS COCO [Lin+, 2014]
    10万超の画像、5キャプション/画像
    • MSR Dense Visual Annotation Corpus [Yatskar+, *SEM 2014]
    500枚の画像に100,000の矩形領域+キャプション
    • PASCAL-50S, ABSTRACT-50S [Vedantam+, CVPR 2015]
    より人間らしい評価のために作成、50キャプション/画像
    • Visual Genome [Krishna+, IJCV 2017]
    10万超の画像にキャプションやQAなどが密に付随
    特にMS COCOとVisual Genomeは…
    他のデータセットのベースになる
    ことが非常に多い

    View Slide

  116. データセット、データセット、データセット
    • より大規模に
    – 1000枚の画像とキャプションのペアから4億の画像とキャプションペ
    ア(CLIPの学習に用いられているWebImageTextデータセット)へ
    • より複雑に
    – 画像とキャプションのペアから画像領域ごとのキャプションへ
    – 動画とキャプションのペアから動画の時空間領域ごとのキャプション

    • より多くのモダリティを
    – 音声 [Yun+, ICCV 2021]
    – 点群 [Wu+, ICCV 2021]
    – マウスの軌跡 [Pont-Tuset+, ECCV’20]

    View Slide

  117. YouRefIt: Embodied Reference Understanding with Language and Gesture
    • 言語とジェスチャーからなるYouRefItデータセットの
    提案とベースライン実験の報告
    – 432の屋内シーンにおける4195のビデオクリップ
    – 言語による参照と、実際にジェスチャーで指し示したビデオ
    • Embodied Reference Understanding (ERU) の提案と
    ベースライン手法による実験
    – 視覚的顕著性
    – PAF(姿勢)
    – 元の画像
    – 参照表現
    を統合して領域を推定
    • 右図:フレームごとの
    推定結果
    – ジェスチャーによって
    推定結果が改善
    [Chen+, ICCV 2021]

    View Slide

  118. Pano-AVQA: Grounded Audio-Visual Question Answering on 360° Videos
    • 5400のパノラマ動画に51700対のQA
    – 動画も音声も理解しないと答えられない
    – オブジェクト毎にbboxとラベル付け
    • 音を発生させる/させない
    • 視覚的な説明
    • (音を出す場合)聴覚的な説明
    • ベースライン手法による実験
    – Transformerで単語/音/画像をエンコード
    – 映像の位置情報はクオータニオンを利用
    – それぞれのモダリティでの表現学習
    – 正答率5割程度
    [Yun+, ICCV 2021]

    View Slide

  119. Towers of Babel: Combining Images, Language, and 3D Geometry
    for Learning Multimodal Vision
    WikiScenesデータセットの提案といくつかのベースライン実験の報告
    23か国の99の聖堂についての6万3千対の画像・キャプション対とCOLMAP [Schonberger+Frahm,
    CVPR’16] で復元した点群データ
    [Wu+, ICCV 2021]

    View Slide

  120. 評価指標

    View Slide

  121. 手法の良さをどう評価するか
    • 主観的評価
    – 複数人のアンケートによる採点
    ✓人の主観を直接反映できる
    ✕ 新手法を出すにはベースラインを含めて再アンケートすることに
    • 客観的評価
    – 何らかの客観的評価指標を自動算出
    ✓ アンケートのようなコストを掛けずに、素早く優劣を評価できる
    ✕ 必ずしも人の主観的な優劣と相関しない

    View Slide

  122. 出力が認識結果の場合の客観的評価
    認識結果の精度
    • 例えばビジュアル質問応答なら…出力はクラス分類結果
    – 人間10人が答えた時に3人以上が出した答えと一致するなら1点として、その
    平均値
    • 例えばビジョン&ランゲージナビゲーションなら…出力は移動結果
    – ゴールまで3m以内の地点で停止できた割合
    – 停止地点とゴールとの環境内での道のり
    – 移動経路自体の道のり [Wang+, CVPR 2019]
    • 例えば参照表現理解なら…出力は画像領域の検出結果
    – Intersection-over-union (IoU)が0.5より大きい正答の割合
    [Wang+, CVPR 2019]

    View Slide

  123. 出力がビジュアルデータの場合の客観的評価
    画像生成の評価指標と同様
    • Inception Score [Salimans+, NIPS 2016]
    – 条件付き画像生成に使用可能な指標
    – 以下のKLダイバージェンスの平均値
    • 生成した画像を何らかの画像認識器(もともとはGoogleのCNNである
    Inception)によって識別した事後確率
    • 条件となったラベル
    • Fréchet inception distance [Heusel+, NIPS 2017]
    – Inception scoreは上記の通り画像の内容を見ない
    – FIDでは画像認識の事後確率ではなく途中の特徴量ベクトルの分布間距離を用
    いる
    • 実画像の特徴量の確率分布
    • 生成された画像の特徴量の確率分布

    View Slide

  124. 出力がランゲージデータの場合の客観的評価
    言語生成の評価指標と同様
    CoSMoS [Ushiku et al., ICCV 2015]
    Group of people sitting at a table with a dinner.
    Corpus-Guided [Yang et al., EMNLP 2011]
    Three people are showing the bottle on the street
    Midge [Mitchel et al., EACL 2012]
    people with a bottle at the table

    View Slide

  125. 定量評価指標
    機械翻訳では…
    • テスト文に複数の参照訳が付随(通常5文)
    • これらの参照訳と近い訳文が「良い」
    • 既存の評価指標(BLEUやMETEOR、ROUGEなど)
    • キャプション生成の評価指標(CIDErやSPICEなど)
    One jet lands at an airport while another takes off next to it.
    Two airplanes parked in an airport.
    Two jets taxi past each other.
    Two parked jet airplanes facing opposite directions.
    two passenger planes on a grassy plain
    キャプション生成の評価でも同様の流れ
    PASCAL Sentenceの画像と参照キャプションの例

    View Slide

  126. 深層学習上の工夫

    View Slide

  127. 工夫① アテンション(注意)機構
    • 機械翻訳とほぼ同時期にアテンション機構が採用される
    – 画像キャプション生成へのアテンションモデルの利用 [Xu+, ICML 2015]
    – 画像+キャプションデータのみからの学習!
    – 動画キャプション生成:時間方向のアテンション[Laokulrat+, COLING 2016]

    View Slide

  128. 日本語を英語にGoogle翻訳してみる
    この結果を日本語にGoogle翻訳してみる

    View Slide

  129. 工夫② コンシステンシー損失
    • 「行って帰ってくる損失」
    – 出力キャプション→入力画像を再推定
    – cf. CycleGAN[Zhu+, ICCV 2017]
    変分自己符号化器
    [Pu+, NIPS 2016]
    出力キャプションで領域検索
    [Luo+Shakhnarovich, CVPR 2017]

    View Slide

  130. 工夫③ 強化学習の利用
    • 強化学習を利用したキャプション生成
    評価指標を報酬とする強化学習を導入
    • ビジュアル対話やビジョン&ランゲージナビゲーションでも
    強化学習が活躍
    state
    RNNの状態変数
    action
    単語系列の推定
    reward
    評価指標
    environment
    画像特徴と生成中のキャプション
    [Ranzato+, ICLR 2016][Rennie+, CVPR 2017]

    View Slide

  131. なぜ強化学習? → (i) 最適化したい目的関数と評価の乖離
    学習に用いるのは Cross-Entropy
    評価に用いるのは BLEUなどの評価指標
    →キャプションの評価指標を直接最適化するべきでは?
    • 評価指標の直接最適化
    – 機械翻訳では深層学習以前からある着想 [Och, ACL 2003]
    • 深層学習で評価指標を直接最適化…?
    – 勾配が求められないから学習できない!!
    →強化学習の報酬にすればok!
    短い文へのペナルティ
    N-gramのPrecision

    View Slide

  132. なぜ強化学習? → (ii) Exposure Bias
    通常のRNNによる系列生成モデル学習では…
    • 学習時:Teacher forcing
    – 入力は𝑡𝑡 − 1番目までの
    教師データ
    • テスト時:Free running
    – 入力は𝑡𝑡 − 1番目までで
    自身が推定したデータ
    テスト時の生成系列が訓練データから外れだすと不安定に
    →強化学習によって学習時からFree runningできる!

    View Slide

  133. 工夫④ 事前学習/表現学習
    • モダリティごとの事前学習/表現学習
    – 画像ならImageNetでの事前学習済みCNNモデル
    – テキストならBooksCorpusやWikipedia、Text-to-Text Transfer Transformer (T5) [Raffel+, JMLR
    2020]での事前学習済みTransformerモデル
    • ビジョン&ランゲージでも:
    Transformerの流行に合わせて膨大なさいきょうの表現学習が出現
    – Transformer以前のCNN+RNNによる表現学習もあるよ! [Kiros+, NIPS WS 2014]
    – 画像や文のパーツを1本ずつベクトルで表現
    VideoBERT [Sun+, ICCV’19], LXMERT [Tan+Bansal, EMNLP’19],
    ViLBERT [Lu+, NeurIPS’19], VL-BERT [Su+, ICLR’20], UNITER
    [Chen+, ECCV’20], OSCAR [Li+, ECCV’20], Voken [Tan+Bansal,
    EMNLP’20], COOT [Ging+, NeurIPS’20]
    – 画像/文全体をそれぞれ1つのベクトルで表現
    VSE++ [Faghri+, BMVC’18], CLIP [Radford+, ICML’21],
    ALIGN [Jia+, ICML’21]
    [Tan+Bansal, EMNLP’20]

    View Slide

  134. LocTex: Learning Data-Efficient Visual Representations
    from Localized Textual Supervision
    • 画像、キャプション、その対応を示す
    マウスカーソルの軌跡から表現学習
    – おなじみのContrastive Loss
    – Localized Narratives [Pont-Tuset+,
    ECCV’20]を利用して、アテンションがマウ
    ス軌跡に近づくように(c)を学習
    • 比較的少ないデータ量で優れた表現学
    習を実現
    – 物体のbboxや領域マスクよりも簡便
    – ImageNetの数分の一のデータ量で、
    ImageNetよりも物体検出や領域分割の精
    度が向上

    View Slide

  135. GLoRIA: A Multimodal Global-Local Representation Learning Framework
    for Label-efficient Medical Image Recognition
    • 医療画像認識のための表現学習
    – 画像/文全体の表現はContrastive Lossで学習
    – 領域/単語ごとの表現は注意機構によって対
    応付けてContrastive Lossで学習
    • 実験結果
    – CheXpert [Irvin, AAAI’19] データという
    65,240人の224,316枚の胸部X線画像と、そ
    の読影レポートからなるデータを利用
    – 3種類の実験結果で、教師データが少数でも
    良好な精度が達成されることを確認
    • 画像とレポートの検索
    • 識別(ファインチューニングとゼロ
    ショット)
    • 領域分割
    – 右図:アテンションの例 (a) 肺炎、(b) 気胸、
    (c) 浮腫, (d) 陰影

    View Slide

  136. ビジョン&ランゲージの難しさ

    View Slide

  137. 難しさ① データ集めるの大変
    • 典型例:ビジョン&ランゲージナビゲーション
    – Vision-Language Navigation
    最初に与えられた言語指示だけで目的地までたどり着くもの
    (右図)
    – Vision-Dialog Navigation
    移動中に言語で質問し、言語による回答を得ることが可能
    • 共通の課題してデータセットを潤沢に集めにくい
    – 一方で各エージェントの環境は分散が大きい
    – 主な方策は以下の2つ
    • 強化学習の活用
    • データをどうにかして増幅
    [Anderson+, ICCV 2017]
    (下はランダムに環境をMixup [Zhu+, ICCV’21])

    View Slide

  138. 機械学習ベースのデータセット増幅
    • 従来 [Anderson+, CVPR 2018]:
    – 道順を聞いて動くエージェント (Follower) のみモデル
    – Follower は正面の画像のみ見ている設定
    • 本研究:
    – 道順そのものを新たな経路から生成できるエージェント (Speaker) を用意→訓
    練データを拡張
    – Follower は360°画像を利用
    [Fried+, NeurIPS 2018]

    View Slide

  139. 別環境に対しても疑似的に学習データを作ってしまえ
    • 目標:データセットの規模小さい問題の解決
    • AirbnbからVLNっぽいデータセットを収集
    – BnBデータセット
    – 室内の画像とそれを記述したキャプション
    →画像列として道(Path)を生成
    →Pathに基づいたインストラクションを生成
    (テンプレートとキャプション生成モデル)
    • 3つの段階による学習で未知環境での精度向上
    1: 画像とキャプションのペアから表現学習、2: BnBデー
    タで事前学習、3: 少数の実データでファインチューン
    [Guhur+, ICCV 2021]

    View Slide

  140. ビジュアル対話でも…
    MMD:対話に基づく画像検索(商品推薦)
    • 従来:対話データで訓練
    • 本研究:2枚の画像を比較した
    キャプションを集めて事前学習
    [Guo+, NeurIPS 2018]

    View Slide

  141. 難しさ② 精度が上がるとは限らない
    VQAのデータセット[Antol+, ICCV 2015]
    では
    • 画像と関連しない質問が混在する
    [Ray+, EMNLP 2016]
    →画像と関連しない質問文の検知
    [Mahendru+, EMNLP 2017]
    • 画像を見ずとも、質問文とバイアス
    だけである程度正解出来てしまう
    →バランスをとり直した VQA v2.0 データセット[Goyal+, CVPR 2017]
    →敵対的な正則化による言語事前分布の影響の解消
    [Ramakrishnan+, NeurIPS 2018]
    [Mahendru+, EMNLP 2017]

    View Slide

  142. マルチモーダル機械翻訳の賛否
    • 機械翻訳の国際会議 (WMT) でコンペ開催
    初回の2016年から毎年開催・Multi30K を利用
    • しかし…
    – 運営公式「画像を用いても差が出ない」[Barrault+, 2018]
    – データセット作者「関係ない画像を与えても翻訳精度にそれほど影響が出な
    い」[Elliot+, EMNLP 2018]
    • 機械翻訳に画像を使う意味は? [Caglayan+, ACL 2019]
    – Multi30Kでは、入力文のみで充分翻訳出来てしまうだけ
    – 入力文を隠ぺいすると画像の寄与が観察できる

    View Slide

  143. View Slide

  144. The 1st CVPR 2019 Workshop on Computer Vision After 5 Years

    View Slide

  145. View Slide

  146. Cross-Modal Matching Criticも使っている
    Cycle consistencyといえばコレ!

    View Slide

  147. View Slide

  148. View Slide

  149. 牛久の独断と偏見
    • さすがに全タスクで最近傍探索や単一モダリティのベースラインに
    負けることはない
    • が、キャプション翻訳などはまさにこの指摘が該当する
    • 既に存在するタスクにモダリティを無邪気に追加するのは危険
    • 複数のモダリティを入力や出力とするのは危険
    天真爛漫に新タスクを考えてデータセットとマルチモーダル
    深層学習ベースラインを作ってないかは要注意

    View Slide

  150. まとめ
    • 視覚・言語融合課題であるビジョン&ランゲージを俯瞰
    1. ビジョン+ランゲージ→認識結果
    2. ビジョン→ランゲージ
    3. ランゲージ→ビジョン
    4. ビジョン+ランゲージ→ビジョン
    5. ビジョン+ランゲージ→ランゲージ
    • 共通の話題と今後の展望
    – 上記研究課題自体の多くは Deep Learning 以前も存在
    – データセットと評価指標
    – 深層学習上の工夫
    – ビジョン&ランゲージの難しさ
    視覚×言語の新たなステージへ

    View Slide

  151. View Slide

  152. 12/10発売!

    View Slide

  153. 12/10発売!

    View Slide

  154. 12/10発売!

    View Slide