Slide 1

Slide 1 text

ICLR 2019 読み会 in 京都 ICLRから読み取るFeature Disentangleの研究動向 [紹介論文] Emerging Disentanglement in Auto-Encoder Based Unsupervised Image Content Transfer 2019/06/02 Yamato OKAMOTO

Slide 2

Slide 2 text

自己紹介 岡本大和(おかもとやまと)  京都大学でパターン認識を研究して修士課程修了  オムロンで技術起点のBusiness Developmentを担当  夢は京都をポスト・シリコンバレーにすること ⇒ 京都の学生と変人が持つパワーを世界に知らしめたい @ICDM’18 Banquet Twitter : RoadRoller_DESU

Slide 3

Slide 3 text

本日の発表内容  Feature Disentangleってどんな技術?  なんで必要なの?  今までどんな手法が提案されたの?  ICLRでどんな論文が出たの? Disentangleという技術を 背景から正しく理解して頂くための スライド構成となっています

Slide 4

Slide 4 text

Paper about Disentangle is Increasing タイトルに『Disentangle』を含む論文数 CVPR’2018 1件 CVPR’2018 5件 CVPR’2019 8件 NIPS’2016 0件 NIPS’2017 4件 NIPS’2018 8件 ICLR’2016 1件 ICLR’2017 1件 ICLR’2018 2件

Slide 5

Slide 5 text

What is Feature Disentangle ?? 『entangle』と『disentangle』 引用元: https://ejje.weblio.jp/ 『Feature Disentangle』とは 機械学習における特徴量のもつれをほどく研究

Slide 6

Slide 6 text

機械学習で画像識別器を構築 Why need Disentangle ?? 機械学習は与えられたデータに対してタスクを解けるよう特徴量設計する 人間にとって意味の分かる形(Semantic)に設計されるとは限らない 学習データは識別できても 現場では識別できないことが多い 外形や部品有無に注目すれば『Telephone』と類似する しかし、色味や背景や部品配置に注目すると完全一致はしていない ⇒ 注目してほしくない部分まで特徴量に含めて学習することがある AI PC AI Cup AI Telephone AI ??? 引用元: Amazon-Dataset、DSLR-Dataset

Slide 7

Slide 7 text

Problem Example (1) (例)Classification (*Unsupervised Domain Adaptation) • 外形の特徴にだけ注目すれば数字識別は可能 • 背景、配色、シャープネスに注目するとどれも異なって見えてしまう 引用元: http://ufldl.stanford.edu/housenumbers/ USPS Dataset SVHN Dataset どんな特徴量に注目して数字識別しているか不明。 USPS Datasetを完璧に識別できるモデルを構築しても SVHN Datasetは識別できないかもしれない

Slide 8

Slide 8 text

Problem Example (2) (例)Image Translation • 顔画像を『笑顔に変換しなさい』というタスクを実行するとき 『表情』に関する特徴量を 操作することで、笑顔への 画像変換に成功 笑顔に変換できたものの、 顔の構造まで変わって別人 になっている 引用元: Exploring Disentangled Feature Representation Beyond Face Identification https://arxiv.org/pdf/1804.03487.pdf 『顔構造』と『表情』の特徴量が ごちゃまぜのentangle状態になっている 画像変換

Slide 9

Slide 9 text

Traditional Method ドメインを識別できる特徴量と、それ以外の特徴量へと分離抽出する ドメインを識別できない特徴量 (ドメイン共通で存在する特徴量) によって、ドメインの相違に惑わ されないロバストな識別を実現。 2つに分離した特徴量のうち、 一方を変換(or合成)することで、 スタイル変換(or合成)を実現。 特徴量 (ドメイン識別不可) データ 特徴量 (ドメイン識別可能) 敵対学習やReconstructionが 広く用いられる 損失なく、かつ、重複なく、 分離できるかどうかがカギ

Slide 10

Slide 10 text

A Unified Feature Disentangler for Multi-Domain Image Translation and Manipulation(NIPS'18) ドメイン特徴量と、数字の特徴量をDisentangleする手法 ①数字識別できる、かつ、ドメイン識別できないような特徴量を抽出 ・数字識別 : 0 or 1 or ... or 9 ? ・ドメイン識別: USPS or SVHN ? ②元データを『特徴量+ドメイン情報』から復元できるよう制約する ・ドメイン情報以外は全て特徴量に抜け漏れなく含まれるようになる 引用元: https://papers.nips.cc/paper/7525-a-unified-feature-disentangler- for-multi-domain-image-translation-and-manipulation.pdf 特徴量 (ドメイン識別不可) データ X 特徴量 抽出器 ドメイン 識別不可 数字 識別可 ドメイン情報 (USPS or SVHN) データ 復元 X’ 復元器 +

Slide 11

Slide 11 text

Exploring Disentangled Feature Representation Beyond Face Identification (CVPR’18) 特徴量の各成分を[male],[smile] など意味ある内容に対応させる手法 敵対学習により個人を識別できる特徴量とそうでない特徴量に分離 VAEで特徴量の各成分の独立性を大きくする 引用元: 関西CVPRML勉強会 CVPR2018読み会 - feature disentangling 橋本敦史 https://www.slideshare.net/atsushihasimoto/cvprml-cvpr2018-feature-disentangling ネットワーク構造 目的の成分だけを操作して 思い通りに画像を変換可能

Slide 12

Slide 12 text

Diverse Image-to-Image Translation via Disentangled Representations (ECCV'18) 分離抽出したドメイン特徴量を操作することでStyle変換する手法 猫と犬のStyle変換、冬と夏のStyle変換、画風のStyle変換、etc... 引用元: https://eccv2018.org/openaccess/content_ECCV_2018/papers/Hsin-Ying_Lee_Diverse_Image-to- Image_Translation_ECCV_2018_paper.pdf + = + = + = Photograph -> Portrait Winter -> Summer Moment -> van Gogh

Slide 13

Slide 13 text

Simple Question これってどんな関係性?? 『ドメインAのサンプルをaとする』 『ドメインBのサンプルをbとする』 『bはaに含まれる情報を全て含む』 『さらにbはaに含まれない情報も含む』

Slide 14

Slide 14 text

Simple Question これってどんな関係性?? ドメインA ドメインB 『ドメインAのサンプルをaとする』 『ドメインBのサンプルをbとする』 『bはaに含まれる情報を全て含む』 『さらにbはaに含まれない情報も含む』

Slide 15

Slide 15 text

Emerging Disentanglement in Auto-Encoder Based Unsupervised Image Content Transfer (ICLR’19) これから紹介する論文は、このような条件下で Content Additionする手法(※Style Transferではない) + = 『ドメインAのサンプルをaとする』 『ドメインBのサンプルをbとする』 『bはaに含まれる情報を全て含む』 『さらにbはaに含まれない情報も含む』 + = Style Transfer Content Addition

Slide 16

Slide 16 text

Their Contributions Q. 従来手法でContent Additionは実現できなかったのか? A. 難しいです 従来手法は『Content+Style』という構成を前提として、 低次元かつ独立性を高めることでStyleをうまく抽出した。 つまり『Content+Content』という構成は想定していない ※Content:高次元特徴量(顔の基本構造、風景) ※Style :低次元特徴量(表情、季節、配色) 提案手法 従来手法 B A 従来手法は、AとBがそれぞれ ドメイン特徴量を含む前提なので、 今回の条件は想定外。 ドメインを区別する特徴量として Bにだけ存在するメガネではなく、 色合いの情報を捉えてしまった。

Slide 17

Slide 17 text

Their Contributions Q. 従来手法でContent Additionは実現できなかったのか? A. 難しいです データ次第では『メガネ有り』というStyleを抽出できる場合もあるかもしれない。 しかし、従来のネットワーク構造では低次元のStyleとしての記述を前提とするため、 ある画像中の特定のメガネをAdditionすることは困難。 (一律で代表的なメガネをAdditionさせることなら可能かもしれない) 提案手法 従来手法 B A

Slide 18

Slide 18 text

Proposed Method E 2 特徴量 z 2 D E 1 特徴量 z 1 E 2 0 D E 1 特徴量 z 1 D (1)Domain Confusion Loss (1)Domain Confusion Loss (2)Reconstruction Loss (3)Reconstruction Loss ドメインB ドメインA

Slide 19

Slide 19 text

Proposed Method E 2 特徴量 z 2 D E 1 特徴量 z 1 E 2 0 D E 1 特徴量 z 1 (1)Domain Confusion Loss (1)Domain Confusion Loss (2)Reconstruction Loss (3)Reconstruction Loss (3)Reconstruction Lossによって、 E 1 が顔の特徴量を捉えられるよう学習される ドメインB ドメインA

Slide 20

Slide 20 text

Proposed Method E 2 特徴量 z 2 D E 1 特徴量 z 1 E 2 0 D E 1 特徴量 z 1 (1)Domain Confusion Loss (1)Domain Confusion Loss (2)Reconstruction Loss (3)Reconstruction Loss (2)Reconstruction Lossによって、 E 1 とE 2 あわせて顔とメガネの特徴量を捉えられるよう学習される ドメインB ドメインA

Slide 21

Slide 21 text

Proposed Method E 2 特徴量 z 2 D E 1 特徴量 z 1 E 2 0 D E 1 特徴量 z 1 (1)Domain Confusion Loss (1)Domain Confusion Loss (2)Reconstruction Loss (3)Reconstruction Loss ただし、これではz 1 とz 2 の役割分担が不明。 z 1 が全特徴量を捉えたり、特徴量がEntangleしている場合もある。 ??? ドメインB ドメインA

Slide 22

Slide 22 text

Proposed Method E 2 特徴量 z 2 D E 1 特徴量 z 1 E 2 0 D E 1 特徴量 z 1 (1)Domain Confusion Loss (1)Domain Confusion Loss (2)Reconstruction Loss (3)Reconstruction Loss そこで、(1)Domain Confusion Lossを導入。 Discriminatorを設けてz 1 からドメイン推測できないよう学習。 Which Domain ?? (推測不可にする) Which Domain ?? (推測不可にする) ドメインB ドメインA

Slide 23

Slide 23 text

Proposed Method E 2 特徴量 z 2 D E 1 特徴量 z 1 E 2 0 D E 1 特徴量 z 1 (1)Domain Confusion Loss (1)Domain Confusion Loss (2)Reconstruction Loss (3)Reconstruction Loss メガネの特徴量がz1に含まれてしまうと、 ドメインBにしか存在しない特徴量なので即ドメインがばれる。 ドメインB ドメインA メガネ特徴量を含むから ドメインBだ!! 顔の特徴量 メガネの特徴量

Slide 24

Slide 24 text

Proposed Method E 2 特徴量 z 2 D E 1 特徴量 z 1 E 2 0 D E 1 特徴量 z 1 (1)Domain Confusion Loss (1)Domain Confusion Loss (2)Reconstruction Loss (3)Reconstruction Loss 顔の特徴量がz 2 に流れてしまうと、 ドメインAで(3)Reconstructionが成立しない。 ドメインB ドメインA 一部の情報が欠損する 顔の特徴量 メガネの特徴量

Slide 25

Slide 25 text

Proposed Method E 2 特徴量 z 2 D E 1 特徴量 z 1 E 2 0 D E 1 特徴量 z 1 (1)Domain Confusion Loss (1)Domain Confusion Loss (2)Reconstruction Loss (3)Reconstruction Loss よって、顔の特徴量はz 1 に、メガネの特徴量はz 2 に 分離して流れるよう学習される。 ドメインB ドメインA 顔の特徴量 メガネの特徴量

Slide 26

Slide 26 text

Proposed Method E 2 特徴量 z 2 E 1 特徴量 z 1 E 2 0 E 1 特徴量 z 1 D 最後は2つのドメインで特徴量を合成すれば、 Content Additionが成立!! ドメインB ドメインA 顔の特徴量 メガネの特徴量

Slide 27

Slide 27 text

Proposed Method E 2 特徴量 z 2 D E 1 特徴量 z 1 E 2 0 D E 1 特徴量 z 1 D (1)Domain Confusion Loss (1)Domain Confusion Loss (2)Reconstruction Loss (3)Reconstruction Loss ドメインB ドメインA ※(再掲) 全体像※

Slide 28

Slide 28 text

Experiment 提案手法 従来手法 提案手法 従来手法 提案手法 従来手法 メガネだけでなく、髭、口など、 ドメイン定義と応用は様々

Slide 29

Slide 29 text

まとめ Feature Disentangleにより合成画像を生成する手法を紹介 従来のStyle Transferではなく、Content Additionした点が新しい 着眼点や問題設定がうまい論文だと感じた 単純な手法だけにドメイン定義の工夫次第で様々な応用が考えられる 例)Content Removalにも応用可能