ICLR 2019 読み会 in 京都 ICLRから読み取るFeature Disentangleの研究動向

Slide 1

Slide 1 text

ICLR 2019 読み会 in 京都 ICLRから読み取るFeature Disentangleの研究動向 [紹介論文] Emerging Disentanglement in Auto-Encoder Based Unsupervised Image Content Transfer 2019/06/02 Yamato OKAMOTO

Slide 2

Slide 2 text

自己紹介岡本大和（おかもとやまと）  京都大学でパターン認識を研究して修士課程修了  オムロンで技術起点のBusiness Developmentを担当  夢は京都をポスト・シリコンバレーにすること ⇒ 京都の学生と変人が持つパワーを世界に知らしめたい @ICDM’18 Banquet Twitter : RoadRoller_DESU

Slide 3

Slide 3 text

本日の発表内容  Feature Disentangleってどんな技術？  なんで必要なの？  今までどんな手法が提案されたの？  ICLRでどんな論文が出たの？ Disentangleという技術を背景から正しく理解して頂くためのスライド構成となっています

Slide 4

Slide 4 text

Paper about Disentangle is Increasing タイトルに『Disentangle』を含む論文数 CVPR’2018 １件 CVPR’2018 ５件 CVPR’2019 ８件 NIPS’2016 ０件 NIPS’2017 ４件 NIPS’2018 ８件 ICLR’2016 １件 ICLR’2017 １件 ICLR’2018 ２件

Slide 5

Slide 5 text

What is Feature Disentangle ?? 『entangle』と『disentangle』引用元: https://ejje.weblio.jp/ 『Feature Disentangle』とは機械学習における特徴量のもつれをほどく研究

Slide 6

Slide 6 text

機械学習で画像識別器を構築 Why need Disentangle ?? 機械学習は与えられたデータに対してタスクを解けるよう特徴量設計する人間にとって意味の分かる形(Semantic)に設計されるとは限らない学習データは識別できても現場では識別できないことが多い外形や部品有無に注目すれば『Telephone』と類似するしかし、色味や背景や部品配置に注目すると完全一致はしていない ⇒ 注目してほしくない部分まで特徴量に含めて学習することがある AI PC AI Cup AI Telephone AI ??? 引用元: Amazon-Dataset、DSLR-Dataset

Slide 7

Slide 7 text

Problem Example (1) （例）Classification (*Unsupervised Domain Adaptation) • 外形の特徴にだけ注目すれば数字識別は可能 • 背景、配色、シャープネスに注目するとどれも異なって見えてしまう引用元: http://ufldl.stanford.edu/housenumbers/ USPS Dataset SVHN Dataset どんな特徴量に注目して数字識別しているか不明。 USPS Datasetを完璧に識別できるモデルを構築しても SVHN Datasetは識別できないかもしれない

Slide 8

Slide 8 text

Problem Example (2) （例）Image Translation • 顔画像を『笑顔に変換しなさい』というタスクを実行するとき『表情』に関する特徴量を操作することで、笑顔への画像変換に成功笑顔に変換できたものの、顔の構造まで変わって別人になっている引用元: Exploring Disentangled Feature Representation Beyond Face Identification https://arxiv.org/pdf/1804.03487.pdf 『顔構造』と『表情』の特徴量がごちゃまぜのentangle状態になっている画像変換

Slide 9

Slide 9 text

Traditional Method ドメインを識別できる特徴量と、それ以外の特徴量へと分離抽出するドメインを識別できない特徴量 (ドメイン共通で存在する特徴量) によって、ドメインの相違に惑わされないロバストな識別を実現。２つに分離した特徴量のうち、一方を変換(or合成)することで、スタイル変換(or合成)を実現。特徴量 (ドメイン識別不可) データ特徴量 (ドメイン識別可能) 敵対学習やReconstructionが広く用いられる損失なく、かつ、重複なく、分離できるかどうかがカギ

Slide 10

Slide 10 text

A Unified Feature Disentangler for Multi-Domain Image Translation and Manipulation(NIPS'18) ドメイン特徴量と、数字の特徴量をDisentangleする手法 ①数字識別できる、かつ、ドメイン識別できないような特徴量を抽出・数字識別： 0 or 1 or ... or 9 ? ・ドメイン識別： USPS or SVHN ? ②元データを『特徴量＋ドメイン情報』から復元できるよう制約する・ドメイン情報以外は全て特徴量に抜け漏れなく含まれるようになる引用元: https://papers.nips.cc/paper/7525-a-unified-feature-disentangler- for-multi-domain-image-translation-and-manipulation.pdf 特徴量 (ドメイン識別不可) データ X 特徴量抽出器ドメイン識別不可数字識別可ドメイン情報 (USPS or SVHN) データ復元 X’ 復元器＋

Slide 11

Slide 11 text

Exploring Disentangled Feature Representation Beyond Face Identification (CVPR’18) 特徴量の各成分を[male],[smile] など意味ある内容に対応させる手法敵対学習により個人を識別できる特徴量とそうでない特徴量に分離 VAEで特徴量の各成分の独立性を大きくする引用元: 関西CVPRML勉強会 CVPR2018読み会 - feature disentangling 橋本敦史 https://www.slideshare.net/atsushihasimoto/cvprml-cvpr2018-feature-disentangling ネットワーク構造目的の成分だけを操作して思い通りに画像を変換可能

Slide 12

Slide 12 text

Diverse Image-to-Image Translation via Disentangled Representations (ECCV'18) 分離抽出したドメイン特徴量を操作することでStyle変換する手法猫と犬のStyle変換、冬と夏のStyle変換、画風のStyle変換、etc... 引用元: https://eccv2018.org/openaccess/content_ECCV_2018/papers/Hsin-Ying_Lee_Diverse_Image-to- Image_Translation_ECCV_2018_paper.pdf ＋＝＋＝＋＝ Photograph -> Portrait Winter -> Summer Moment -> van Gogh

Slide 13

Slide 13 text

Simple Question これってどんな関係性？？『ドメインAのサンプルをａとする』『ドメインBのサンプルをｂとする』『ｂはａに含まれる情報を全て含む』『さらにｂはａに含まれない情報も含む』

Slide 14

Slide 14 text

Simple Question これってどんな関係性？？ドメインＡドメインＢ『ドメインAのサンプルをａとする』『ドメインBのサンプルをｂとする』『ｂはａに含まれる情報を全て含む』『さらにｂはａに含まれない情報も含む』

Slide 15

Slide 15 text

Emerging Disentanglement in Auto-Encoder Based Unsupervised Image Content Transfer (ICLR’19) これから紹介する論文は、このような条件下で Content Additionする手法（※Style Transferではない）＋＝『ドメインAのサンプルをａとする』『ドメインBのサンプルをｂとする』『ｂはａに含まれる情報を全て含む』『さらにｂはａに含まれない情報も含む』＋＝ Style Transfer Content Addition

Slide 16

Slide 16 text

Their Contributions Q. 従来手法でContent Additionは実現できなかったのか？ A. 難しいです従来手法は『Content+Style』という構成を前提として、低次元かつ独立性を高めることでStyleをうまく抽出した。つまり『Content+Content』という構成は想定していない ※Content：高次元特徴量（顔の基本構造、風景） ※Style ：低次元特徴量（表情、季節、配色）提案手法従来手法ＢＡ従来手法は、AとBがそれぞれドメイン特徴量を含む前提なので、今回の条件は想定外。ドメインを区別する特徴量として Bにだけ存在するメガネではなく、色合いの情報を捉えてしまった。

Slide 17

Slide 17 text

Their Contributions Q. 従来手法でContent Additionは実現できなかったのか？ A. 難しいですデータ次第では『メガネ有り』というStyleを抽出できる場合もあるかもしれない。しかし、従来のネットワーク構造では低次元のStyleとしての記述を前提とするため、ある画像中の特定のメガネをAdditionすることは困難。（一律で代表的なメガネをAdditionさせることなら可能かもしれない）提案手法従来手法ＢＡ

Slide 18

Slide 18 text

Proposed Method E 2 特徴量ｚ 2 D E 1 特徴量ｚ 1 E 2 0 D E 1 特徴量ｚ 1 D (1)Domain Confusion Loss (1)Domain Confusion Loss (2)Reconstruction Loss (3)Reconstruction Loss ドメインＢドメインＡ

Slide 19

Slide 19 text

Proposed Method E 2 特徴量ｚ 2 D E 1 特徴量ｚ 1 E 2 0 D E 1 特徴量ｚ 1 (1)Domain Confusion Loss (1)Domain Confusion Loss (2)Reconstruction Loss (3)Reconstruction Loss (3)Reconstruction Lossによって、 E 1 が顔の特徴量を捉えられるよう学習されるドメインＢドメインＡ

Slide 20

Slide 20 text

Proposed Method E 2 特徴量ｚ 2 D E 1 特徴量ｚ 1 E 2 0 D E 1 特徴量ｚ 1 (1)Domain Confusion Loss (1)Domain Confusion Loss (2)Reconstruction Loss (3)Reconstruction Loss (2)Reconstruction Lossによって、 E 1 とE 2 あわせて顔とメガネの特徴量を捉えられるよう学習されるドメインＢドメインＡ

Slide 21

Slide 21 text

Proposed Method E 2 特徴量ｚ 2 D E 1 特徴量ｚ 1 E 2 0 D E 1 特徴量ｚ 1 (1)Domain Confusion Loss (1)Domain Confusion Loss (2)Reconstruction Loss (3)Reconstruction Loss ただし、これではz 1 とz 2 の役割分担が不明。 z 1 が全特徴量を捉えたり、特徴量がEntangleしている場合もある。？？？ドメインＢドメインＡ

Slide 22

Slide 22 text

Proposed Method E 2 特徴量ｚ 2 D E 1 特徴量ｚ 1 E 2 0 D E 1 特徴量ｚ 1 (1)Domain Confusion Loss (1)Domain Confusion Loss (2)Reconstruction Loss (3)Reconstruction Loss そこで、(1)Domain Confusion Lossを導入。 Discriminatorを設けてz 1 からドメイン推測できないよう学習。 Which Domain ?? (推測不可にする) Which Domain ?? (推測不可にする) ドメインＢドメインＡ

Slide 23

Slide 23 text

Proposed Method E 2 特徴量ｚ 2 D E 1 特徴量ｚ 1 E 2 0 D E 1 特徴量ｚ 1 (1)Domain Confusion Loss (1)Domain Confusion Loss (2)Reconstruction Loss (3)Reconstruction Loss メガネの特徴量がz1に含まれてしまうと、ドメインＢにしか存在しない特徴量なので即ドメインがばれる。ドメインＢドメインＡメガネ特徴量を含むからドメインＢだ！！顔の特徴量メガネの特徴量

Slide 24

Slide 24 text

Proposed Method E 2 特徴量ｚ 2 D E 1 特徴量ｚ 1 E 2 0 D E 1 特徴量ｚ 1 (1)Domain Confusion Loss (1)Domain Confusion Loss (2)Reconstruction Loss (3)Reconstruction Loss 顔の特徴量がz 2 に流れてしまうと、ドメインＡで(3)Reconstructionが成立しない。ドメインＢドメインＡ一部の情報が欠損する顔の特徴量メガネの特徴量

Slide 25

Slide 25 text

Proposed Method E 2 特徴量ｚ 2 D E 1 特徴量ｚ 1 E 2 0 D E 1 特徴量ｚ 1 (1)Domain Confusion Loss (1)Domain Confusion Loss (2)Reconstruction Loss (3)Reconstruction Loss よって、顔の特徴量はz 1 に、メガネの特徴量はz 2 に分離して流れるよう学習される。ドメインＢドメインＡ顔の特徴量メガネの特徴量

Slide 26

Slide 26 text

Proposed Method E 2 特徴量ｚ 2 E 1 特徴量ｚ 1 E 2 0 E 1 特徴量ｚ 1 D 最後は２つのドメインで特徴量を合成すれば、 Content Additionが成立！！ドメインＢドメインＡ顔の特徴量メガネの特徴量

Slide 27

Slide 27 text

Proposed Method E 2 特徴量ｚ 2 D E 1 特徴量ｚ 1 E 2 0 D E 1 特徴量ｚ 1 D (1)Domain Confusion Loss (1)Domain Confusion Loss (2)Reconstruction Loss (3)Reconstruction Loss ドメインＢドメインＡ ※(再掲) 全体像※

Slide 28

Slide 28 text

Experiment 提案手法従来手法提案手法従来手法提案手法従来手法メガネだけでなく、髭、口など、ドメイン定義と応用は様々

Slide 29

Slide 29 text

まとめ Feature Disentangleにより合成画像を生成する手法を紹介従来のStyle Transferではなく、Content Additionした点が新しい着眼点や問題設定がうまい論文だと感じた単純な手法だけにドメイン定義の工夫次第で様々な応用が考えられる例）Content Removalにも応用可能