Upgrade to Pro — share decks privately, control downloads, hide ads and more …

ICLR 2019 読み会 in 京都 ICLRから読み取るFeature Disentangleの研究動向

ICLR 2019 読み会 in 京都 ICLRから読み取るFeature Disentangleの研究動向

Yamato.OKAMOTO

June 02, 2019
Tweet

More Decks by Yamato.OKAMOTO

Other Decks in Technology

Transcript

  1. ICLR 2019 読み会 in 京都
    ICLRから読み取るFeature Disentangleの研究動向
    [紹介論文]
    Emerging Disentanglement in Auto-Encoder
    Based Unsupervised Image Content Transfer
    2019/06/02 Yamato OKAMOTO

    View Slide

  2. 自己紹介 岡本大和(おかもとやまと)
     京都大学でパターン認識を研究して修士課程修了
     オムロンで技術起点のBusiness Developmentを担当
     夢は京都をポスト・シリコンバレーにすること
    ⇒ 京都の学生と変人が持つパワーを世界に知らしめたい
    @ICDM’18
    Banquet
    Twitter : RoadRoller_DESU

    View Slide

  3. 本日の発表内容
     Feature Disentangleってどんな技術?
     なんで必要なの?
     今までどんな手法が提案されたの?
     ICLRでどんな論文が出たの?
    Disentangleという技術を
    背景から正しく理解して頂くための
    スライド構成となっています

    View Slide

  4. Paper about Disentangle is Increasing
    タイトルに『Disentangle』を含む論文数
    CVPR’2018 1件
    CVPR’2018 5件
    CVPR’2019 8件
    NIPS’2016 0件
    NIPS’2017 4件
    NIPS’2018 8件
    ICLR’2016 1件
    ICLR’2017 1件
    ICLR’2018 2件

    View Slide

  5. What is Feature Disentangle ??
    『entangle』と『disentangle』
    引用元: https://ejje.weblio.jp/
    『Feature Disentangle』とは
    機械学習における特徴量のもつれをほどく研究

    View Slide

  6. 機械学習で画像識別器を構築
    Why need Disentangle ??
    機械学習は与えられたデータに対してタスクを解けるよう特徴量設計する
    人間にとって意味の分かる形(Semantic)に設計されるとは限らない
    学習データは識別できても
    現場では識別できないことが多い
    外形や部品有無に注目すれば『Telephone』と類似する
    しかし、色味や背景や部品配置に注目すると完全一致はしていない
    ⇒ 注目してほしくない部分まで特徴量に含めて学習することがある
    AI PC
    AI Cup AI
    Telephone
    AI
    ???
    引用元: Amazon-Dataset、DSLR-Dataset

    View Slide

  7. Problem Example (1)
    (例)Classification (*Unsupervised Domain Adaptation)
    • 外形の特徴にだけ注目すれば数字識別は可能
    • 背景、配色、シャープネスに注目するとどれも異なって見えてしまう
    引用元: http://ufldl.stanford.edu/housenumbers/
    USPS Dataset SVHN Dataset
    どんな特徴量に注目して数字識別しているか不明。
    USPS Datasetを完璧に識別できるモデルを構築しても
    SVHN Datasetは識別できないかもしれない

    View Slide

  8. Problem Example (2)
    (例)Image Translation
    • 顔画像を『笑顔に変換しなさい』というタスクを実行するとき
    『表情』に関する特徴量を
    操作することで、笑顔への
    画像変換に成功
    笑顔に変換できたものの、
    顔の構造まで変わって別人
    になっている
    引用元: Exploring Disentangled Feature Representation Beyond Face Identification
    https://arxiv.org/pdf/1804.03487.pdf
    『顔構造』と『表情』の特徴量が
    ごちゃまぜのentangle状態になっている
    画像変換

    View Slide

  9. Traditional Method
    ドメインを識別できる特徴量と、それ以外の特徴量へと分離抽出する
    ドメインを識別できない特徴量
    (ドメイン共通で存在する特徴量)
    によって、ドメインの相違に惑わ
    されないロバストな識別を実現。
    2つに分離した特徴量のうち、
    一方を変換(or合成)することで、
    スタイル変換(or合成)を実現。
    特徴量
    (ドメイン識別不可)
    データ
    特徴量
    (ドメイン識別可能)
    敵対学習やReconstructionが
    広く用いられる
    損失なく、かつ、重複なく、
    分離できるかどうかがカギ

    View Slide

  10. A Unified Feature Disentangler for Multi-Domain
    Image Translation and Manipulation(NIPS'18)
    ドメイン特徴量と、数字の特徴量をDisentangleする手法
    ①数字識別できる、かつ、ドメイン識別できないような特徴量を抽出
    ・数字識別 : 0 or 1 or ... or 9 ?
    ・ドメイン識別: USPS or SVHN ?
    ②元データを『特徴量+ドメイン情報』から復元できるよう制約する
    ・ドメイン情報以外は全て特徴量に抜け漏れなく含まれるようになる
    引用元: https://papers.nips.cc/paper/7525-a-unified-feature-disentangler-
    for-multi-domain-image-translation-and-manipulation.pdf
    特徴量
    (ドメイン識別不可)
    データ
    X
    特徴量
    抽出器
    ドメイン
    識別不可
    数字
    識別可
    ドメイン情報
    (USPS or SVHN)
    データ
    復元
    X’
    復元器

    View Slide

  11. Exploring Disentangled Feature Representation
    Beyond Face Identification (CVPR’18)
    特徴量の各成分を[male],[smile] など意味ある内容に対応させる手法
    敵対学習により個人を識別できる特徴量とそうでない特徴量に分離
    VAEで特徴量の各成分の独立性を大きくする
    引用元: 関西CVPRML勉強会 CVPR2018読み会 - feature disentangling 橋本敦史
    https://www.slideshare.net/atsushihasimoto/cvprml-cvpr2018-feature-disentangling
    ネットワーク構造
    目的の成分だけを操作して
    思い通りに画像を変換可能

    View Slide

  12. Diverse Image-to-Image Translation
    via Disentangled Representations (ECCV'18)
    分離抽出したドメイン特徴量を操作することでStyle変換する手法
    猫と犬のStyle変換、冬と夏のStyle変換、画風のStyle変換、etc...
    引用元: https://eccv2018.org/openaccess/content_ECCV_2018/papers/Hsin-Ying_Lee_Diverse_Image-to-
    Image_Translation_ECCV_2018_paper.pdf
    + =
    + =
    + =
    Photograph -> Portrait
    Winter -> Summer
    Moment -> van Gogh

    View Slide

  13. Simple Question
    これってどんな関係性??
    『ドメインAのサンプルをaとする』
    『ドメインBのサンプルをbとする』
    『bはaに含まれる情報を全て含む』
    『さらにbはaに含まれない情報も含む』

    View Slide

  14. Simple Question
    これってどんな関係性??
    ドメインA ドメインB
    『ドメインAのサンプルをaとする』
    『ドメインBのサンプルをbとする』
    『bはaに含まれる情報を全て含む』
    『さらにbはaに含まれない情報も含む』

    View Slide

  15. Emerging Disentanglement in Auto-Encoder Based
    Unsupervised Image Content Transfer (ICLR’19)
    これから紹介する論文は、このような条件下で
    Content Additionする手法(※Style Transferではない)
    + =
    『ドメインAのサンプルをaとする』
    『ドメインBのサンプルをbとする』
    『bはaに含まれる情報を全て含む』
    『さらにbはaに含まれない情報も含む』
    + =
    Style Transfer Content Addition

    View Slide

  16. Their Contributions
    Q. 従来手法でContent Additionは実現できなかったのか?
    A. 難しいです
    従来手法は『Content+Style』という構成を前提として、
    低次元かつ独立性を高めることでStyleをうまく抽出した。
    つまり『Content+Content』という構成は想定していない
    ※Content:高次元特徴量(顔の基本構造、風景)
    ※Style :低次元特徴量(表情、季節、配色)
    提案手法 従来手法


    従来手法は、AとBがそれぞれ
    ドメイン特徴量を含む前提なので、
    今回の条件は想定外。
    ドメインを区別する特徴量として
    Bにだけ存在するメガネではなく、
    色合いの情報を捉えてしまった。

    View Slide

  17. Their Contributions
    Q. 従来手法でContent Additionは実現できなかったのか?
    A. 難しいです
    データ次第では『メガネ有り』というStyleを抽出できる場合もあるかもしれない。
    しかし、従来のネットワーク構造では低次元のStyleとしての記述を前提とするため、
    ある画像中の特定のメガネをAdditionすることは困難。
    (一律で代表的なメガネをAdditionさせることなら可能かもしれない)
    提案手法 従来手法


    View Slide

  18. Proposed Method
    E
    2
    特徴量

    2
    D
    E
    1
    特徴量

    1
    E
    2
    0
    D
    E
    1
    特徴量

    1
    D
    (1)Domain Confusion Loss
    (1)Domain Confusion Loss
    (2)Reconstruction Loss
    (3)Reconstruction Loss
    ドメインB
    ドメインA

    View Slide

  19. Proposed Method
    E
    2
    特徴量

    2
    D
    E
    1
    特徴量

    1
    E
    2
    0
    D
    E
    1
    特徴量

    1
    (1)Domain Confusion Loss
    (1)Domain Confusion Loss
    (2)Reconstruction Loss
    (3)Reconstruction Loss
    (3)Reconstruction Lossによって、
    E
    1
    が顔の特徴量を捉えられるよう学習される
    ドメインB
    ドメインA

    View Slide

  20. Proposed Method
    E
    2
    特徴量

    2
    D
    E
    1
    特徴量

    1
    E
    2
    0
    D
    E
    1
    特徴量

    1
    (1)Domain Confusion Loss
    (1)Domain Confusion Loss
    (2)Reconstruction Loss
    (3)Reconstruction Loss
    (2)Reconstruction Lossによって、
    E
    1
    とE
    2
    あわせて顔とメガネの特徴量を捉えられるよう学習される
    ドメインB
    ドメインA

    View Slide

  21. Proposed Method
    E
    2
    特徴量

    2
    D
    E
    1
    特徴量

    1
    E
    2
    0
    D
    E
    1
    特徴量

    1
    (1)Domain Confusion Loss
    (1)Domain Confusion Loss
    (2)Reconstruction Loss
    (3)Reconstruction Loss
    ただし、これではz
    1
    とz
    2
    の役割分担が不明。
    z
    1
    が全特徴量を捉えたり、特徴量がEntangleしている場合もある。
    ???
    ドメインB
    ドメインA

    View Slide

  22. Proposed Method
    E
    2
    特徴量

    2
    D
    E
    1
    特徴量

    1
    E
    2
    0
    D
    E
    1
    特徴量

    1
    (1)Domain Confusion Loss
    (1)Domain Confusion Loss
    (2)Reconstruction Loss
    (3)Reconstruction Loss
    そこで、(1)Domain Confusion Lossを導入。
    Discriminatorを設けてz
    1
    からドメイン推測できないよう学習。
    Which Domain ??
    (推測不可にする)
    Which Domain ??
    (推測不可にする)
    ドメインB
    ドメインA

    View Slide

  23. Proposed Method
    E
    2
    特徴量

    2
    D
    E
    1
    特徴量

    1
    E
    2
    0
    D
    E
    1
    特徴量

    1
    (1)Domain Confusion Loss
    (1)Domain Confusion Loss
    (2)Reconstruction Loss
    (3)Reconstruction Loss
    メガネの特徴量がz1に含まれてしまうと、
    ドメインBにしか存在しない特徴量なので即ドメインがばれる。
    ドメインB
    ドメインA
    メガネ特徴量を含むから
    ドメインBだ!!
    顔の特徴量
    メガネの特徴量

    View Slide

  24. Proposed Method
    E
    2
    特徴量

    2
    D
    E
    1
    特徴量

    1
    E
    2
    0
    D
    E
    1
    特徴量

    1
    (1)Domain Confusion Loss
    (1)Domain Confusion Loss
    (2)Reconstruction Loss
    (3)Reconstruction Loss
    顔の特徴量がz
    2
    に流れてしまうと、
    ドメインAで(3)Reconstructionが成立しない。
    ドメインB
    ドメインA
    一部の情報が欠損する
    顔の特徴量
    メガネの特徴量

    View Slide

  25. Proposed Method
    E
    2
    特徴量

    2
    D
    E
    1
    特徴量

    1
    E
    2
    0
    D
    E
    1
    特徴量

    1
    (1)Domain Confusion Loss
    (1)Domain Confusion Loss
    (2)Reconstruction Loss
    (3)Reconstruction Loss
    よって、顔の特徴量はz
    1
    に、メガネの特徴量はz
    2

    分離して流れるよう学習される。
    ドメインB
    ドメインA
    顔の特徴量
    メガネの特徴量

    View Slide

  26. Proposed Method
    E
    2
    特徴量

    2
    E
    1
    特徴量

    1
    E
    2
    0
    E
    1
    特徴量

    1
    D
    最後は2つのドメインで特徴量を合成すれば、
    Content Additionが成立!!
    ドメインB
    ドメインA
    顔の特徴量
    メガネの特徴量

    View Slide

  27. Proposed Method
    E
    2
    特徴量

    2
    D
    E
    1
    特徴量

    1
    E
    2
    0
    D
    E
    1
    特徴量

    1
    D
    (1)Domain Confusion Loss
    (1)Domain Confusion Loss
    (2)Reconstruction Loss
    (3)Reconstruction Loss
    ドメインB
    ドメインA
    ※(再掲) 全体像※

    View Slide

  28. Experiment
    提案手法 従来手法
    提案手法 従来手法
    提案手法 従来手法
    メガネだけでなく、髭、口など、
    ドメイン定義と応用は様々

    View Slide

  29. まとめ
    Feature Disentangleにより合成画像を生成する手法を紹介
    従来のStyle Transferではなく、Content Additionした点が新しい
    着眼点や問題設定がうまい論文だと感じた
    単純な手法だけにドメイン定義の工夫次第で様々な応用が考えられる
    例)Content Removalにも応用可能

    View Slide