Domain Generalization via Model-Agnostic Learning of Semantic Features NeurIPS’19 読み会 in 京都

Slide 1

Slide 1 text

NeurIPS’19 読み会 in 京都 2020/2/11 Yamato OKAMOTO Domain Generalization via Model-Agnostic Learning of Semantic Features

Slide 2

Slide 2 text

自己紹介岡本大和（おかもとやまと）  ～’13 京都大学知能情報専攻映像メディア分野  ～’16 システムエンジニア  ～’18 機械学習＋IoT屋さん  ’18～ Business Developer 兼 Researcher 興味ある事  顧客現場でちゃんと役に立つ機械学習モデルを作りたい  夢は京都をポスト・シリコンバレーにすること ⇒ ところで、そろそろ京都に帰りたい（※東京へ転勤になって２年目） Twitter: RoadRoller_DESU Rugby World Cup In JAPAN

Slide 3

Slide 3 text

これまで私がやってきた研究だいぶ前  『Domain-Adaptation』に夢中けっこう前  『Feature-Disentangle』に夢中ちょっと前  『Federated-Learning』に夢中最近  『Domain-Generalization』と『Active-Learning』に夢中現場適応や！！脱・ブラックボックスや！！世の中、データや！！今日はこの話こっちはサーベイ資料公開中 https://www.slideshare.net/yamatookamoto5/survey-active-learning

Slide 4

Slide 4 text

今日お話しすること Domain-Generalizationとは？『Domain』に対して『Generalize(一般化)』すること

Slide 5

Slide 5 text

ドメインの課題このドメインで学習同じドメインで評価機械学習モデルは学習データと同じようなドメインでしか性能が出ないという課題を抱えているドメインとはデータセットにかかるバイアスのようなもので、バイアス込みで学習したモデルは、異なるバイアスのデータに転用が困難になるモデル構築異なるドメインで評価 ⇒ 高性能を達成 ⇒ 性能がでない

Slide 6

Slide 6 text

Domain-Generalizationは従来よりタフな問題設定 Source Domain （１つ以上） Target Domain （１つだけ） Supervised Learning （使用しない）データ：あり教師ラベル：あり理想的だけど手間が膨大 Unsupervised Domain Adaptation データ：あり教師ラベル：ありデータ：あり教師ラベル：なしラベル作成の手間を省略 Domain Generalization データ：あり教師ラベル：ありデータ：なし教師ラベル：なし最も手間がかからないこれらで学習ここで評価『Domain Generalization』はTarget-Domain-Dataをそもそも知らない状況で性能向上を目指す、最もタフな問題設定と言える

Slide 7

Slide 7 text

どんなところが難しいの？ドメイン相違に左右されない特徴量を捉えて学習ドメインへの過適合を防ぎたい Domain-Generalizationの難しさは “ドメイン相違に左右されないモデル”を“限られたデータ”で構築する点ドメインバイアスの定義が困難ドメインが異なるとデータがどう変わるのか抽象的で定義困難。そのため、従来の過学習対策手法では学習データへの過適合を防げても学習ドメインへの過適合を防げない可能性がある。必要データ量のキリがないがむしゃらに異なる複数ドメインからデータを集めて学習すれば、モデルが一般化される期待もあるが、データ量がどれだけ必要なのかわからないため現実的な策ではない。 DATA DATA what type of difference?

Slide 8

Slide 8 text

Domain-Generalizationの論文 CVPR’19（3本） • Domain Generalization by Solving Jigsaw Puzzles • DLOW: Domain Flow for Adaptation and Generalization • Multi-adversarial Discriminative Deep Domain Generalization for Face Presentation Attack Detection ICML’19（1本） • Feature-Critic Networks for Heterogeneous Domain Generalization NeurIPS’19（1本） • Domain Generalization via Model-Agnostic Learning of Semantic Features 今年度も大量の論文が発表された『Domain-Adaptation』に比べて『Domain-Generalization』はまだ出始めたばかり

Slide 9

Slide 9 text

研究でよく使われる学術データセット Office+Caltech、VLCSなど • 撮影環境や背景条件が異なる画像のデータセット • ただし、どれも写真 PACS • Photo, Art, Cartoon, Sketchの 4ドメインの画像データ • 犬やギターなどを含む7クラスの Object-Classifier問題 PACSのように4ドメインを含むデータでは、３つのドメインで学習して、（学習に使わなかった）残り１つのドメインで評価するのが基本

Slide 10

Slide 10 text

Deeper, Broader and Artier Domain Generalization (ICCV’17) VLCS PACS Domain Generalizeの研究にPACSデータはうってつけだと述べた論文 PACSデータセットではドメインごとに特徴量の分布が異なる（というか、難しすぎでは？？）学習済みモデルを異なるドメインに転用したときの性能劣化も激しい

Slide 11

Slide 11 text

Deeper, Broader and Artier Domain Generalization (ICCV’17) VLCS PACS Domain Generalizeの研究にPACSデータはうってつけだと述べた論文 PACSデータセットではドメインごとの特徴量分布が明らかに異なる（というか、難しすぎでは？？）学習済みモデルを異なるドメインに転用したときの性能劣化も激しいや、これは無理じゃね・・？ !?

Slide 12

Slide 12 text

Domain Generalization by Solving Jigsaw Puzzles (CVPR’19) Object-ClassifierとJigsaw(パズル復元)のマルチタスクで学習する Object-Classification-Loss 𝜃𝑓(share) 𝜃𝑐 𝜃𝑝 S：ドメイン数 N：クラス数 K：画像ごとに生成するJigsaw-sample数 Jigsaw-Loss シャッフルパターンが膨大なので（ n*nのGrid で区切るとn2!）、ハミング距離が大きくなるようにP個だけ選別する Jigsaw-Classifierはシャッフルパターンを予測してP次元のベクトルを出力 Object-Classifierはシャッフルされていないサンプルのみ学習 Unsupervised-Domain-Adaptationにも応用可

Slide 13

Slide 13 text

Feature-Critic Networks for Heterogeneous Domain Generalization (ICML’19) メタラーニングによってDomain-Generalizationを実現３つのネットワーク θ：特徴量抽出部 Φ：クラス識別部 ω：特徴量評価部３つのLoss L CE ：クラス識別が正しくできているかどうかのLoss L aux ：ネットワークωによる特徴量の評価スコア L meta：特徴抽出部をL aux 有りと無しで学習したとき差分学習ドメインをtrainとvalidに分割 train-domain 1.クラス識別できるよう学習 2.クラス識別できるよう学習＋ωによる評価が大きくなるよう学習 valid-domain 1.より2.の方がvalidで高性能となるようにωを学習

Slide 14

Slide 14 text

本日の紹介論文  Domain Generalization via Model-Agnostic Learning of Semantic Features Jigsaw (CVPR’19) Feature-Critic (ICML’19) Semantic Feature (NeurIPS’19) C,P,Sで学習 Artで評価 67.63 64.89 70.35 A,P,Sで学習 Cartoonで評価 71.71 71.72 72.46 A,C,Sで学習 Photoで評価 89.00 89.94 90.68 A,C,Pで学習 Sketchで評価 65.18 61.85 67.33 Average 73.38 72.10 75.21 PACSデータで SoTA達成

Slide 15

Slide 15 text

提案手法のネットワーク構造 Iteration毎に学習データを train-domain(D i )と valid-domain(D j )に分割 F ψ はデータから特徴量を抽出特徴量空間 M φ は特徴量をさらに低次元へ射影 T θ は特徴量からクラス識別をする

Slide 16

Slide 16 text

KEY: メタラーニングとメトリックラーニングの導入 Task Loss • trainでのみクラス識別の教師付き学習をする Local Loss • 特徴量を低次元に射影したとき、（ドメインに関係なく）同じクラスが近い＆異なるクラスが遠いほど Lossは小さくなる • trainとvalidの両方で学習 Global Loss • 『クラスAとクラスBは混同しやすい、クラスCは混同しにくい』といった Confusion-Matrixを算出 • これらがtrainとvalidのドメイン間で類似するように学習

Slide 17

Slide 17 text

Global-Lossによるクラス間の関係性の保存ドメインごとに各クラスの平均特徴量ベクトルを算出平均特徴ベクトルをTθに入力して識別結果を得る Train-domainとvalid-domainで識別結果が類似するように学習『クラスAとBは混同しやすい』,『クラスAとCは似ていない』などのクラス間の関係性を保ちながら異なるドメイン間で分布を近づける (敵対学習でdomain-confusionするよう分布を重ねるよりもsoftなalignmentと言える) c:クラス、D k :ドメイン、n:データ数、y:教師ラベル、x:データ τ:softmaxの温度param、特に調整の必要なし C:クラス数、Di:train-domain、Dj:valid-domain、KL:symmetrized Kullback–Leibler

Slide 18

Slide 18 text

Local-Lossによるクラス間の関係性の保存ネットワークM φ で特徴量を低次元空間へ落とし込む同じクラスは近く、異なるクラスは遠くなるよう学習（contrastive-loss または tripret-loss を使用） Global-Lossが比較的softなalignmentだったのでここでしっかり特徴量空間が整理できる（仮説） z:特徴量 y:教師ラベル、z n とz m のクラスが同一か異なるかで算出法を切り替える

Slide 19

Slide 19 text

提案手法により形成された特徴量空間ドメインに特化しすぎていない（=Domain-invariant）特徴量空間を形成できていると言えるクラスごとに色分け • クラスが混同することなく特徴量空間でクラスタ形成しているドメインごとに色分け • 同じドメインでも、クラスが異なれば異なるクラスタに属している

Slide 20

Slide 20 text

従来手法との比較従来手法ではドメインクラスタやクラスクラスタが混在する異なるクラス間で分布が近いため混同しやすい状態だったりする提案手法従来手法

Slide 21

Slide 21 text

まとめ  Domain-Generalizationは学習ドメインとは異なる未知ドメインへのロバストを向上させる研究  紹介論文では、クラス間の関係性を保存しつつ、メトリックラーニングすることでSoTAを達成した所感  Domain-Adaptationの従妹のような研究分野だと思っている  Domain-Generalization向けに既存手法を改造＆適応させた研究が今後たくさん出てくると予想  PACSデータセット以外にも何かないんかね、、、