Upgrade to Pro — share decks privately, control downloads, hide ads and more …

ICLR 2019 読み会 in 京都 ICLRから読み取るFeature Disentangleの研究動向

ICLR 2019 読み会 in 京都 ICLRから読み取るFeature Disentangleの研究動向

Yamato.OKAMOTO

June 02, 2019
Tweet

More Decks by Yamato.OKAMOTO

Other Decks in Technology

Transcript

  1. ICLR 2019 読み会 in 京都 ICLRから読み取るFeature Disentangleの研究動向 [紹介論文] Emerging Disentanglement

    in Auto-Encoder Based Unsupervised Image Content Transfer 2019/06/02 Yamato OKAMOTO
  2. Paper about Disentangle is Increasing タイトルに『Disentangle』を含む論文数 CVPR’2018 1件 CVPR’2018 5件

    CVPR’2019 8件 NIPS’2016 0件 NIPS’2017 4件 NIPS’2018 8件 ICLR’2016 1件 ICLR’2017 1件 ICLR’2018 2件
  3. Problem Example (1) (例)Classification (*Unsupervised Domain Adaptation) • 外形の特徴にだけ注目すれば数字識別は可能 •

    背景、配色、シャープネスに注目するとどれも異なって見えてしまう 引用元: http://ufldl.stanford.edu/housenumbers/ USPS Dataset SVHN Dataset どんな特徴量に注目して数字識別しているか不明。 USPS Datasetを完璧に識別できるモデルを構築しても SVHN Datasetは識別できないかもしれない
  4. Problem Example (2) (例)Image Translation • 顔画像を『笑顔に変換しなさい』というタスクを実行するとき 『表情』に関する特徴量を 操作することで、笑顔への 画像変換に成功

    笑顔に変換できたものの、 顔の構造まで変わって別人 になっている 引用元: Exploring Disentangled Feature Representation Beyond Face Identification https://arxiv.org/pdf/1804.03487.pdf 『顔構造』と『表情』の特徴量が ごちゃまぜのentangle状態になっている 画像変換
  5. A Unified Feature Disentangler for Multi-Domain Image Translation and Manipulation(NIPS'18)

    ドメイン特徴量と、数字の特徴量をDisentangleする手法 ①数字識別できる、かつ、ドメイン識別できないような特徴量を抽出 ・数字識別 : 0 or 1 or ... or 9 ? ・ドメイン識別: USPS or SVHN ? ②元データを『特徴量+ドメイン情報』から復元できるよう制約する ・ドメイン情報以外は全て特徴量に抜け漏れなく含まれるようになる 引用元: https://papers.nips.cc/paper/7525-a-unified-feature-disentangler- for-multi-domain-image-translation-and-manipulation.pdf 特徴量 (ドメイン識別不可) データ X 特徴量 抽出器 ドメイン 識別不可 数字 識別可 ドメイン情報 (USPS or SVHN) データ 復元 X’ 復元器 +
  6. Exploring Disentangled Feature Representation Beyond Face Identification (CVPR’18) 特徴量の各成分を[male],[smile] など意味ある内容に対応させる手法

    敵対学習により個人を識別できる特徴量とそうでない特徴量に分離 VAEで特徴量の各成分の独立性を大きくする 引用元: 関西CVPRML勉強会 CVPR2018読み会 - feature disentangling 橋本敦史 https://www.slideshare.net/atsushihasimoto/cvprml-cvpr2018-feature-disentangling ネットワーク構造 目的の成分だけを操作して 思い通りに画像を変換可能
  7. Diverse Image-to-Image Translation via Disentangled Representations (ECCV'18) 分離抽出したドメイン特徴量を操作することでStyle変換する手法 猫と犬のStyle変換、冬と夏のStyle変換、画風のStyle変換、etc... 引用元:

    https://eccv2018.org/openaccess/content_ECCV_2018/papers/Hsin-Ying_Lee_Diverse_Image-to- Image_Translation_ECCV_2018_paper.pdf + = + = + = Photograph -> Portrait Winter -> Summer Moment -> van Gogh
  8. Emerging Disentanglement in Auto-Encoder Based Unsupervised Image Content Transfer (ICLR’19)

    これから紹介する論文は、このような条件下で Content Additionする手法(※Style Transferではない) + = 『ドメインAのサンプルをaとする』 『ドメインBのサンプルをbとする』 『bはaに含まれる情報を全て含む』 『さらにbはaに含まれない情報も含む』 + = Style Transfer Content Addition
  9. Their Contributions Q. 従来手法でContent Additionは実現できなかったのか? A. 難しいです 従来手法は『Content+Style』という構成を前提として、 低次元かつ独立性を高めることでStyleをうまく抽出した。 つまり『Content+Content』という構成は想定していない

    ※Content:高次元特徴量(顔の基本構造、風景) ※Style :低次元特徴量(表情、季節、配色) 提案手法 従来手法 B A 従来手法は、AとBがそれぞれ ドメイン特徴量を含む前提なので、 今回の条件は想定外。 ドメインを区別する特徴量として Bにだけ存在するメガネではなく、 色合いの情報を捉えてしまった。
  10. Proposed Method E 2 特徴量 z 2 D E 1

    特徴量 z 1 E 2 0 D E 1 特徴量 z 1 D (1)Domain Confusion Loss (1)Domain Confusion Loss (2)Reconstruction Loss (3)Reconstruction Loss ドメインB ドメインA
  11. Proposed Method E 2 特徴量 z 2 D E 1

    特徴量 z 1 E 2 0 D E 1 特徴量 z 1 (1)Domain Confusion Loss (1)Domain Confusion Loss (2)Reconstruction Loss (3)Reconstruction Loss (3)Reconstruction Lossによって、 E 1 が顔の特徴量を捉えられるよう学習される ドメインB ドメインA
  12. Proposed Method E 2 特徴量 z 2 D E 1

    特徴量 z 1 E 2 0 D E 1 特徴量 z 1 (1)Domain Confusion Loss (1)Domain Confusion Loss (2)Reconstruction Loss (3)Reconstruction Loss (2)Reconstruction Lossによって、 E 1 とE 2 あわせて顔とメガネの特徴量を捉えられるよう学習される ドメインB ドメインA
  13. Proposed Method E 2 特徴量 z 2 D E 1

    特徴量 z 1 E 2 0 D E 1 特徴量 z 1 (1)Domain Confusion Loss (1)Domain Confusion Loss (2)Reconstruction Loss (3)Reconstruction Loss ただし、これではz 1 とz 2 の役割分担が不明。 z 1 が全特徴量を捉えたり、特徴量がEntangleしている場合もある。 ??? ドメインB ドメインA
  14. Proposed Method E 2 特徴量 z 2 D E 1

    特徴量 z 1 E 2 0 D E 1 特徴量 z 1 (1)Domain Confusion Loss (1)Domain Confusion Loss (2)Reconstruction Loss (3)Reconstruction Loss そこで、(1)Domain Confusion Lossを導入。 Discriminatorを設けてz 1 からドメイン推測できないよう学習。 Which Domain ?? (推測不可にする) Which Domain ?? (推測不可にする) ドメインB ドメインA
  15. Proposed Method E 2 特徴量 z 2 D E 1

    特徴量 z 1 E 2 0 D E 1 特徴量 z 1 (1)Domain Confusion Loss (1)Domain Confusion Loss (2)Reconstruction Loss (3)Reconstruction Loss メガネの特徴量がz1に含まれてしまうと、 ドメインBにしか存在しない特徴量なので即ドメインがばれる。 ドメインB ドメインA メガネ特徴量を含むから ドメインBだ!! 顔の特徴量 メガネの特徴量
  16. Proposed Method E 2 特徴量 z 2 D E 1

    特徴量 z 1 E 2 0 D E 1 特徴量 z 1 (1)Domain Confusion Loss (1)Domain Confusion Loss (2)Reconstruction Loss (3)Reconstruction Loss 顔の特徴量がz 2 に流れてしまうと、 ドメインAで(3)Reconstructionが成立しない。 ドメインB ドメインA 一部の情報が欠損する 顔の特徴量 メガネの特徴量
  17. Proposed Method E 2 特徴量 z 2 D E 1

    特徴量 z 1 E 2 0 D E 1 特徴量 z 1 (1)Domain Confusion Loss (1)Domain Confusion Loss (2)Reconstruction Loss (3)Reconstruction Loss よって、顔の特徴量はz 1 に、メガネの特徴量はz 2 に 分離して流れるよう学習される。 ドメインB ドメインA 顔の特徴量 メガネの特徴量
  18. Proposed Method E 2 特徴量 z 2 E 1 特徴量

    z 1 E 2 0 E 1 特徴量 z 1 D 最後は2つのドメインで特徴量を合成すれば、 Content Additionが成立!! ドメインB ドメインA 顔の特徴量 メガネの特徴量
  19. Proposed Method E 2 特徴量 z 2 D E 1

    特徴量 z 1 E 2 0 D E 1 特徴量 z 1 D (1)Domain Confusion Loss (1)Domain Confusion Loss (2)Reconstruction Loss (3)Reconstruction Loss ドメインB ドメインA ※(再掲) 全体像※