実験:画像とテキストのデータセット • CUB – 200種類のカテゴリ – 11788の鳥画像 • Oxford-102 – 102のカテゴリ – 8189の花画像 各画像に対して5つの説明テキスト (著者らが付けた?) this bird has wings that are black and has a yellow crown 013.Bobolink 16
実験:学習テクニックの効果の比較 提案手法 マッチング判別器 補間データ使用 マッチング判別器 補間データ使用 入力テキスト: an all black bird with a dis&nct thick, rounded bill (真っ黒で太くて丸いくちばしを持つ鳥) 考察 • 上2つは色の情報は正しかったが 画像がリアルではない • 補間データを用いると テキストに合う もっともらしい画像が得られた 17
課題:文章に含まれない画像情報(スタイル) • 文章に含まれる画像情報 – 黒い羽で黄色い頭頂の鳥 • 文章に含まれない画像情報 – 背景が緑、左を向いている、など – 著者らはスタイルと呼んでいる • 入力ベクトルのうち、 – 文章情報はテキストembedding – スタイル情報はzが獲得する this bird has wings that are black and has a yellow crown 19
テキストエンコード this bird has wings that are black and has a yellow crown 013.Bobolink N : データセットの組数 y : ラベル v : 画像 t : テキスト Δ : 損失関数 f : 分類関数 φ : 画像エンコーダ : テキストエンコーダ T(y) : yのテキスト V(y) : yの画像 Reed, ScoT, et al. "Learning Deep Representa&ons of Fine-Grained Visual Descrip&ons. " (CVPR 2016). 31