ICML2021論文読み会資料

On Disentangled Representations Learned from Correlated Data  2021/08/18 ICML2021論文読み会  荒居
秀尚@Recruit Co. Ltd.  1

自己紹介  2 • リクルートで機械学習エンジニア  ◦ 新卒一年目  • Kaggleが趣味  ◦ Competition
Grandmaster  • 学部/修士は航空宇宙だが、修士の研究でDisentangleを扱っていたため今回、紹介する論文としてDisentangle関連のものを選んだ  https://twitter.com/kaggle_araisan https://www.linkedin.com/in/hidehisa-arai-903b62161/ https://github.com/koukyo1994 https://www.kaggle.com/hidehisaarai1213

Disentangled Representationとは  3 各次元が真の生成因子と一対一対応するような表現   Encoder  ・・・  表現  (ベクトル)  解釈性の向上・汎化性能の向上・反実仮想的生成などさまざまな応用があるとされる
  このような表現を作る表現学習手法はまだ発展途上であり、使えるレベルにはない   性別  顔の向き  髪型  表情  ・・・  生成因子 

Disentangled Representation研究の流れ  4 1.教師あり手法の登場   データの生成因子のラベルを用いて学習を行う手法が提案される  Deep Convolutional Inverse
Graphics Network(DC-IGN)で教師ありで学習可能なことは示される   Kulkarni, Tejas D., et al. "Deep Convolutional Inverse Graphics Network." Advances in Neural Information Processing Systems 28 (2015): 2539-2547. 2.教師なし手法の発展   生成因子に関する情報を一切使わずに学習する手法が流行する  β-VAE, InfoGANによってToy DatasetにおいてDisentangleされる例が示され、評価指標の発展とともに多くのβ-VAE派生が生まれた  3.教師なしDisentangleの不可能性の証明   教師なしでDisentangleを行うことはできないことが理論・実験の両方で示される   Locatelloらの大規模な実験により、これまでの教師なし手法はランダム性の影響を大きく受けていたことが示される。また、教師なしでのDisentangleが不可能なことが他の分野で古くから知られていた証明の拡張により示された   4.弱教師あり手法の発展   弱教師ありでDisentangleを行う手法がいくつか提案される  少数の因子が変化していることがわかっているペアのデータを入力とする、弱教師ありの手法が提案され、ランダム性の影響を除いてもDisentangleができることが示される   Higgins, Irina, et al. "beta-vae: Learning basic visual concepts with a constrained variational framework." (2016). Locatello, Francesco, et al. "Challenging common assumptions in the unsupervised learning of disentangled representations." international conference on machine learning. PMLR, 2019. Locatello, Francesco, et al. "Weakly-supervised disentanglement without compromises." International Conference on Machine Learning. PMLR, 2020.

Disentangled Representation Learningの代表的手法  5 教師なし手法は生成因子が独立であるという仮定をおき、表現の次元の独立性を高めるように学習する   弱教師あり手法は、ペアの入力の間で少数の因子が変化しているという情報から学習する   教師なしの代表手法: β-VAE
  教師ありの代表手法: Ada-GVAE   Encoder  ・・・  Decoder  Latent  入力  再構成  上の損失関数を最小化する   Encoder  ・・・  Decoder  入力  再構成  ・・・  ・・・  ・・・  ペアの画像を入力し、それぞれの潜在表現を得た後集約関数を施して再構成する  

相関のある因子を含むDisentanglement  6 • 多くのDisentanglementの手法は、生成因子どうしが独立であると仮定している一方、現実のデータではしばしば生成因子は相関する    • 例えば、人間の足の大きさと背の高さを別の生成因子と考えた時、二つは相関する。これは背後に性別や年齢などの交絡因子
があることによる    • このような因子間の相関を無視して、因子間の独立を仮定する手法を適用するとDisentanglementが失敗することを指摘したのがこの論文    • 対策として少量の因子ラベルを用いた後処理、または弱教師あり学習が有効であると主張している  

相関ありのDisentanglementを行うモチベーション  「相関がある因子があるのならそれらを共通でまとめられる因子(足の大きさと身長の例で言えば、Sizeのような因子)を学習できればいいのでは？」という主張に対して著者らは次のような反論を用意している  1. Disentangled Representationの目的はさまざまなタスクに用いることができる表現を得ることであり、相関がある因子でも、異なる意味合いを持つ要素であれば解きほぐしておいた方が、データの分布の変化に頑健になる  2.
Out-of-distribution(OOD)なサンプルを生成したり、相関のある因子どうしを独立に操作できるようにしておきたい  3. Disentangled Representationの主要な適用先であるFairnessの設定においては、センシティブな因子に関して表現がフェアであるべき(例えば性別という因子によって与信モデルがバイアスを受けてはいけない)だが、これを実現するためには、望ましくない相関はむしろ解消しなければならない  7

実験: 相関ありデータ×教師なし手法  8 Shapes3D, dSprites, MPI3Dといった人工データセットに改変を加え、特定の因子ペアの間に相関が生まれるようにした。    このデータセットを使い、6種の教師なしの代表手法
(β-VAE, FactorVAE, Annealed β-VAE, DIP-VAE I, DIP-VAE II, β-TCVAE)を学習し、どのような潜在表現が得られるかを確かめた   (上)Shapes3Dの表現にLatent Traversalを行った結果。黒枠の部分がentangleしている。   (左)表現から真の因子を予測する問題をGBDTに解かせた時のFeature Importanceを表したもの。2 個の次元がentangleしている 

実験: 相関ありデータ×教師なし手法  9 因子ペアの相関の強さを変えながら、Unfairnessスコア(Demographic Parityの亜種)を計算した結果。そもそも相関がなくても、Disentangled Representationが Unfairnessを示す場合があることは以前の研究で示されていたが、センシティブな属性とその他の因子の間
で相関がある場合、その傾向が拡大されることがわかる  (上)Out-of-distributionな(学習時には含まれていない)データの生成はできる。(下)これは潜在表現をプロットしてみてもわかる  

実験: ラベルを用いた修正 & 弱教師あり学習  10 少数(100程度)の因子ラベルが手に入る時、簡単な後処理で相関を解消できる   1. どの次元がentangleしてるかを確認するため
に、ラベルを用いてGBDTを学習し重要度を見る   2. entangleしてる次元のペアを特徴とし、正解ラベルの組み合わせを予測する線形モデルを学習し、それを用いて潜在表現を置換する   このやり方は概ね効くが、相関がどの二変数にも現れていない場合や、順序がない変数がentangleしてる場合にはうまくいかない   (上)弱教師ありのモデルを用いると相関があるデータセットでもDisentangleができ、潜在表現も因子と整合が取れた状態になる

まとめと所感  • Disentanglementの研究で一般的な仮定である、「因子は独立している」という仮定より現実的な「因子に相関がある」状況における最初の大規模研究  • 因子の独立性を仮定する教師なし手法は、相関ありの状況ではDisentangleに失敗するが、OODな状況への対応などは可能であることがわかった。  • 少量のラベルが得られる場合には、後処理で修正が可能。また弱教師あり学習を用いれば相関がある状況にも対応できる。 
11 まとめ  所感  • 足の大きさと身長を別の因子として扱いたいかと言われるとわからないが、 Fairnessの設定においてはとても重要というのは納得感があった  • (Disentangleの研究一般に言えるが)画像データセット以外も気になる。弱教師ありの仮定は時系列と相性がいいので時系列への適用増えて欲しい 

参考文献  • Träuble, Frederik, et al. "On disentangled representations learned
from correlated data." International Conference on Machine Learning. PMLR, 2021. • Bengio, Yoshua, Aaron Courville, and Pascal Vincent. "Representation learning: A review and new perspectives." IEEE transactions on pattern analysis and machine intelligence 35.8 (2013): 1798-1828. • Kulkarni, Tejas D., et al. "Deep Convolutional Inverse Graphics Network." Advances in Neural Information Processing Systems 28 (2015): 2539-2547. • Higgins, Irina, et al. "beta-vae: Learning basic visual concepts with a constrained variational framework." (2016). • Locatello, Francesco, et al. "Challenging common assumptions in the unsupervised learning of disentangled representations." international conference on machine learning. PMLR, 2019. • Locatello, Francesco, et al. "Weakly-supervised disentanglement without compromises." International Conference on Machine Learning. PMLR, 2020. • Khemakhem, Ilyes, et al. "Variational autoencoders and nonlinear ica: A unifying framework." International Conference on Artificial Intelligence and Statistics. PMLR, 2020. 12

ICML2021論文読み会資料

ICML2021論文読み会資料

Hidehisa Arai

More Decks by Hidehisa Arai

Other Decks in Research

Featured

Transcript

On Disentangled Representations Learned from Correlated Data  2021/08/18 ICML2021論文読み会  荒居

自己紹介  2 • リクルートで機械学習エンジニア  ◦ 新卒一年目  • Kaggleが趣味  ◦ Competition

Disentangled Representationとは  3 各次元が真の生成因子と一対一対応するような表現   Encoder  ・・・  表現  (ベクトル)  解釈性の向上・汎化性能の向上・反実仮想的生成などさまざまな応用があるとされる

Disentangled Representation研究の流れ  4 1.教師あり手法の登場   データの生成因子のラベルを用いて学習を行う手法が提案される  Deep Convolutional Inverse

実験: 相関ありデータ×教師なし手法  8 Shapes3D, dSprites, MPI3Dといった人工データセットに改変を加え、特定の因子ペアの間に相関が生まれるようにした。    このデータセットを使い、6種の教師なしの代表手法

実験: ラベルを用いた修正 & 弱教師あり学習  10 少数(100程度)の因子ラベルが手に入る時、簡単な後処理で相関を解消できる   1. どの次元がentangleしてるかを確認するため

参考文献  • Träuble, Frederik, et al. "On disentangled representations learned