Slide 1

Slide 1 text

On Disentangled Representations Learned from Correlated Data
 2021/08/18 ICML2021論文読み会
 荒居 秀尚@Recruit Co. Ltd.
 1

Slide 2

Slide 2 text

自己紹介
 2 ● リクルートで機械学習エンジニア
 ○ 新卒一年目
 ● Kaggleが趣味
 ○ Competition Grandmaster
 ● 学部/修士は航空宇宙だが、修士の研究でDisentangleを扱っていたため 今回、紹介する論文としてDisentangle関連のものを選んだ
 https://twitter.com/kaggle_araisan https://www.linkedin.com/in/hidehisa-arai-903b62161/ https://github.com/koukyo1994 https://www.kaggle.com/hidehisaarai1213

Slide 3

Slide 3 text

Disentangled Representationとは
 3 各次元が真の生成因子と一対一対応するような表現 
 Encoder
 ・・・
 表現
 (ベクトル)
 解釈性の向上・汎化性能の向上・反実仮想的生成などさまざまな応用があるとされる 
 このような表現を作る表現学習手法はまだ発展途上であり、使えるレベルにはない 
 性別
 顔の向き
 髪型
 表情
 ・・・
 生成因子


Slide 4

Slide 4 text

Disentangled Representation研究の流れ
 4 1.教師あり手法の登場 
 データの生成因子のラベルを用いて学習を行う手 法が提案される
 Deep Convolutional Inverse Graphics Network(DC-IGN)で教師あ りで学習可能なことは示される 
 Kulkarni, Tejas D., et al. "Deep Convolutional Inverse Graphics Network." Advances in Neural Information Processing Systems 28 (2015): 2539-2547. 2.教師なし手法の発展 
 生成因子に関する情報を一切使わずに学習する手 法が流行する
 β-VAE, InfoGANによってToy DatasetにおいてDisentangleされる 例が示され、評価指標の発展とともに多くのβ-VAE派生が生まれ た
 3.教師なしDisentangleの不可能性の証明 
 教師なしでDisentangleを行うことはできないことが理 論・実験の両方で示される 
 Locatelloらの大規模な実験により、これまでの教師なし手法はラン ダム性の影響を大きく受けていたことが示される。また、教師なし でのDisentangleが不可能なことが他の分野で古くから知られてい た証明の拡張により示された 
 4.弱教師あり手法の発展 
 弱教師ありでDisentangleを行う手法がいくつか提案 される
 少数の因子が変化していることがわかっているペアのデータを入 力とする、弱教師ありの手法が提案され、ランダム性の影響を除 いてもDisentangleができることが示される 
 Higgins, Irina, et al. "beta-vae: Learning basic visual concepts with a constrained variational framework." (2016). Locatello, Francesco, et al. "Challenging common assumptions in the unsupervised learning of disentangled representations." international conference on machine learning. PMLR, 2019. Locatello, Francesco, et al. "Weakly-supervised disentanglement without compromises." International Conference on Machine Learning. PMLR, 2020.

Slide 5

Slide 5 text

Disentangled Representation Learningの代表的手法
 5 教師なし手法は生成因子が独立であるという仮定をおき、表現の次元の独立性を高めるように学習する 
 弱教師あり手法は、ペアの入力の間で少数の因子が変化しているという情報から学習する 
 教師なしの代表手法: β-VAE 
 教師ありの代表手法: Ada-GVAE 
 Encoder
 ・・・
 Decoder
 Latent
 入力
 再構成
 上の損失関数を最小化する 
 Encoder
 ・・・
 Decoder
 入力
 再構成
 ・・・
 ・・・
 ・・・
 ペアの画像を入力し、それぞれの潜在表現 を得た後集約関数を施して再構成する 


Slide 6

Slide 6 text

相関のある因子を含むDisentanglement
 6 ● 多くのDisentanglementの手法は、生成因子どうしが独立であると 仮定している一方、現実のデータではしばしば生成因子は相関 する
 
 ● 例えば、人間の足の大きさと背の高さを別の生成因子と考えた 時、二つは相関する。これは背後に性別や年齢などの交絡因子 があることによる
 
 ● このような因子間の相関を無視して、因子間の独立を仮定する 手法を適用するとDisentanglementが失敗することを指摘したの がこの論文
 
 ● 対策として少量の因子ラベルを用いた後処理、または弱教師あ り学習が有効であると主張している 


Slide 7

Slide 7 text

相関ありのDisentanglementを行うモチベーション
 「相関がある因子があるのならそれらを共通でまとめられる因子(足の大きさと身長の例 で言えば、Sizeのような因子)を学習できればいいのでは?」という主張に対して著者ら は次のような反論を用意している
 1. Disentangled Representationの目的はさまざまなタスクに用いることができる表現 を得ることであり、相関がある因子でも、異なる意味合いを持つ要素であれば解き ほぐしておいた方が、データの分布の変化に頑健になる
 2. Out-of-distribution(OOD)なサンプルを生成したり、相関のある因子どうしを独立に 操作できるようにしておきたい
 3. Disentangled Representationの主要な適用先であるFairnessの設定においては、セ ンシティブな因子に関して表現がフェアであるべき(例えば性別という因子によって 与信モデルがバイアスを受けてはいけない)だが、これを実現するためには、望まし くない相関はむしろ解消しなければならない
 7

Slide 8

Slide 8 text

実験: 相関ありデータ×教師なし手法
 8 Shapes3D, dSprites, MPI3Dといった人工データセット に改変を加え、特定の因子ペアの間に相関が生まれ るようにした。
 
 このデータセットを使い、6種の教師なしの代表手法 (β-VAE, FactorVAE, Annealed β-VAE, DIP-VAE I, DIP-VAE II, β-TCVAE)を学習し、どのような潜在表 現が得られるかを確かめた 
 (上)Shapes3Dの表現にLatent Traversalを行った結 果。黒枠の部分がentangleしている。 
 (左)表現から真の因子を予 測する問題をGBDTに解か せた時のFeature Importanceを表したもの。2 個の次元がentangleしてい る


Slide 9

Slide 9 text

実験: 相関ありデータ×教師なし手法
 9 因子ペアの相関の強さを変えながら、Unfairnessスコ ア(Demographic Parityの亜種)を計算した結果。そもそ も相関がなくても、Disentangled Representationが Unfairnessを示す場合があることは以前の研究で示さ れていたが、センシティブな属性とその他の因子の間 で相関がある場合、その傾向が拡大されることがわか る
 (上)Out-of-distributionな(学習時には含まれていな い)データの生成はできる。(下)これは潜在表現をプ ロットしてみてもわかる 


Slide 10

Slide 10 text

実験: ラベルを用いた修正 & 弱教師あり学習
 10 少数(100程度)の因子ラベルが手に入る時、簡単な後 処理で相関を解消できる 
 1. どの次元がentangleしてるかを確認するため に、ラベルを用いてGBDTを学習し重要度を見る 
 2. entangleしてる次元のペアを特徴とし、正解ラベ ルの組み合わせを予測する線形モデルを学習 し、それを用いて潜在表現を置換する 
 このやり方は概ね効くが、相関がどの二変数にも現れ ていない場合や、順序がない変数がentangleしてる場 合にはうまくいかない 
 (上)弱教師ありのモデルを用いると相関があるデータ セットでもDisentangleができ、潜在表現も因子と整合が 取れた状態になる

Slide 11

Slide 11 text

まとめと所感
 ● Disentanglementの研究で一般的な仮定である、「因子は独立している」という仮定 より現実的な「因子に相関がある」状況における最初の大規模研究
 ● 因子の独立性を仮定する教師なし手法は、相関ありの状況ではDisentangleに失敗 するが、OODな状況への対応などは可能であることがわかった。
 ● 少量のラベルが得られる場合には、後処理で修正が可能。また弱教師あり学習を 用いれば相関がある状況にも対応できる。
 11 まとめ
 所感
 ● 足の大きさと身長を別の因子として扱いたいかと言われるとわからないが、 Fairnessの設定においてはとても重要というのは納得感があった
 ● (Disentangleの研究一般に言えるが)画像データセット以外も気になる。弱教師あり の仮定は時系列と相性がいいので時系列への適用増えて欲しい


Slide 12

Slide 12 text

参考文献
 ● Träuble, Frederik, et al. "On disentangled representations learned from correlated data." International Conference on Machine Learning. PMLR, 2021. ● Bengio, Yoshua, Aaron Courville, and Pascal Vincent. "Representation learning: A review and new perspectives." IEEE transactions on pattern analysis and machine intelligence 35.8 (2013): 1798-1828. ● Kulkarni, Tejas D., et al. "Deep Convolutional Inverse Graphics Network." Advances in Neural Information Processing Systems 28 (2015): 2539-2547. ● Higgins, Irina, et al. "beta-vae: Learning basic visual concepts with a constrained variational framework." (2016). ● Locatello, Francesco, et al. "Challenging common assumptions in the unsupervised learning of disentangled representations." international conference on machine learning. PMLR, 2019. ● Locatello, Francesco, et al. "Weakly-supervised disentanglement without compromises." International Conference on Machine Learning. PMLR, 2020. ● Khemakhem, Ilyes, et al. "Variational autoencoders and nonlinear ica: A unifying framework." International Conference on Artificial Intelligence and Statistics. PMLR, 2020. 12