Slide 1

Slide 1 text

NeurIPS’19 読み会 in 京都 2020/2/11 Yamato OKAMOTO Domain Generalization via Model-Agnostic Learning of Semantic Features

Slide 2

Slide 2 text

自己紹介 岡本大和(おかもとやまと)  ~’13 京都大学 知能情報専攻 映像メディア分野  ~’16 システムエンジニア  ~’18 機械学習+IoT屋さん  ’18~ Business Developer 兼 Researcher 興味ある事  顧客現場でちゃんと役に立つ機械学習モデルを作りたい  夢は京都をポスト・シリコンバレーにすること ⇒ ところで、そろそろ京都に帰りたい(※東京へ転勤になって2年目) Twitter: RoadRoller_DESU Rugby World Cup In JAPAN

Slide 3

Slide 3 text

これまで私がやってきた研究 だいぶ前  『Domain-Adaptation』に夢中 けっこう前  『Feature-Disentangle』に夢中 ちょっと前  『Federated-Learning』に夢中 最近  『Domain-Generalization』と『Active-Learning』に夢中 現場適応や!! 脱・ブラックボックスや!! 世の中、データや!! 今日はこの話 こっちはサーベイ資料公開中 https://www.slideshare.net/yamatookamoto5/survey-active-learning

Slide 4

Slide 4 text

今日お話しすること Domain-Generalizationとは? 『Domain』に対して 『Generalize(一般化)』すること

Slide 5

Slide 5 text

ドメインの課題 このドメインで学習 同じドメインで評価 機械学習モデルは学習データと同じようなドメインでしか 性能が出ないという課題を抱えている ドメインとはデータセットにかかるバイアスのようなもので、 バイアス込みで学習したモデルは、異なるバイアスのデータに転用が困難になる モデル構築 異なるドメインで評価 ⇒ 高性能を達成 ⇒ 性能がでない

Slide 6

Slide 6 text

Domain-Generalizationは従来よりタフな問題設定 Source Domain (1つ以上) Target Domain (1つだけ) Supervised Learning (使用しない) データ :あり 教師ラベル:あり 理想的だけど 手間が膨大 Unsupervised Domain Adaptation データ :あり 教師ラベル:あり データ :あり 教師ラベル:なし ラベル作成の 手間を省略 Domain Generalization データ :あり 教師ラベル:あり データ :なし 教師ラベル:なし 最も手間が かからない これらで学習 ここで評価 『Domain Generalization』はTarget-Domain-Dataを そもそも知らない状況で性能向上を目指す、最もタフな問題設定と言える

Slide 7

Slide 7 text

どんなところが難しいの? ドメイン相違に左右されない特徴量を捉えて学習ドメインへの過適合を防ぎたい Domain-Generalizationの難しさは “ドメイン相違に左右されないモデル”を“限られたデータ”で構築する点 ドメインバイアスの定義が困難 ドメインが異なるとデータがどう変わ るのか抽象的で定義困難。そのため、 従来の過学習対策手法では学習データ への過適合を防げても学習ドメインへ の過適合を防げない可能性がある。 必要データ量のキリがない がむしゃらに異なる複数ドメインから データを集めて学習すれば、モデルが 一般化される期待もあるが、データ量 がどれだけ必要なのかわからないため 現実的な策ではない。 DATA DATA what type of difference?

Slide 8

Slide 8 text

Domain-Generalizationの論文 CVPR’19(3本) • Domain Generalization by Solving Jigsaw Puzzles • DLOW: Domain Flow for Adaptation and Generalization • Multi-adversarial Discriminative Deep Domain Generalization for Face Presentation Attack Detection ICML’19(1本) • Feature-Critic Networks for Heterogeneous Domain Generalization NeurIPS’19(1本) • Domain Generalization via Model-Agnostic Learning of Semantic Features 今年度も大量の論文が発表された『Domain-Adaptation』に比べて 『Domain-Generalization』はまだ出始めたばかり

Slide 9

Slide 9 text

研究でよく使われる学術データセット Office+Caltech、VLCSなど • 撮影環境や背景条件が異なる画像の データセット • ただし、どれも写真 PACS • Photo, Art, Cartoon, Sketchの 4ドメインの画像データ • 犬やギターなどを含む7クラスの Object-Classifier問題 PACSのように4ドメインを含むデータでは、3つのドメインで学習して、 (学習に使わなかった)残り1つのドメインで評価するのが基本

Slide 10

Slide 10 text

Deeper, Broader and Artier Domain Generalization (ICCV’17) VLCS PACS Domain Generalizeの研究にPACSデータはうってつけだと述べた論文 PACSデータセットでは ドメインごとに特徴量の分布が異なる (というか、難しすぎでは??) 学習済みモデルを 異なるドメインに 転用したときの 性能劣化も激しい

Slide 11

Slide 11 text

Deeper, Broader and Artier Domain Generalization (ICCV’17) VLCS PACS Domain Generalizeの研究にPACSデータはうってつけだと述べた論文 PACSデータセットでは ドメインごとの特徴量分布が明らかに異なる (というか、難しすぎでは??) 学習済みモデルを 異なるドメインに 転用したときの 性能劣化も激しい や、これは無理じゃね・・? !?

Slide 12

Slide 12 text

Domain Generalization by Solving Jigsaw Puzzles (CVPR’19) Object-ClassifierとJigsaw(パズル復元)のマルチタスクで学習する Object-Classification-Loss 𝜃𝑓(share) 𝜃𝑐 𝜃𝑝 S:ドメイン数 N:クラス数 K:画像ごとに生成するJigsaw-sample数 Jigsaw-Loss シャッフルパターンが膨大なので( n*nのGrid で区切るとn2!)、ハミング距離が大きくなるよ うにP個だけ選別する Jigsaw-Classifierはシャッフルパターンを予測 してP次元のベクトルを出力 Object-Classifierはシャッフルされていないサ ンプルのみ学習 Unsupervised-Domain-Adaptationにも応用可

Slide 13

Slide 13 text

Feature-Critic Networks for Heterogeneous Domain Generalization (ICML’19) メタラーニングによってDomain-Generalizationを実現 3つのネットワーク θ:特徴量抽出部 Φ:クラス識別部 ω:特徴量評価部 3つのLoss L CE :クラス識別が正しくできているかどうかのLoss L aux : ネットワークωによる特徴量の評価スコア L meta: 特徴抽出部をL aux 有りと無しで学習したとき差分 学習ドメインをtrainとvalidに分割 train-domain 1.クラス識別できるよう学習 2.クラス識別できるよう学習 +ωによる評価が大きくなるよう学習 valid-domain 1.より2.の方がvalidで高性能となるよ うにωを学習

Slide 14

Slide 14 text

本日の紹介論文  Domain Generalization via Model-Agnostic Learning of Semantic Features Jigsaw (CVPR’19) Feature-Critic (ICML’19) Semantic Feature (NeurIPS’19) C,P,Sで学習 Artで評価 67.63 64.89 70.35 A,P,Sで学習 Cartoonで評価 71.71 71.72 72.46 A,C,Sで学習 Photoで評価 89.00 89.94 90.68 A,C,Pで学習 Sketchで評価 65.18 61.85 67.33 Average 73.38 72.10 75.21 PACSデータで SoTA達成

Slide 15

Slide 15 text

提案手法のネットワーク構造 Iteration毎に学習データを train-domain(D i )と valid-domain(D j )に分割 F ψ はデータから 特徴量を抽出 特徴量空間 M φ は特徴量を さらに低次元へ射影 T θ は特徴量から クラス識別をする

Slide 16

Slide 16 text

KEY: メタラーニングとメトリックラーニングの導入 Task Loss • trainでのみクラス識別の教師付き学 習をする Local Loss • 特徴量を低次元に射影したとき、 (ドメインに関係なく)同じクラス が近い&異なるクラスが遠いほど Lossは小さくなる • trainとvalidの両方で学習 Global Loss • 『クラスAとクラスBは混同しやすい、 クラスCは混同しにくい』といった Confusion-Matrixを算出 • これらがtrainとvalidのドメイン間で 類似するように学習

Slide 17

Slide 17 text

Global-Lossによるクラス間の関係性の保存 ドメインごとに各クラスの平均特徴量ベクトルを算出 平均特徴ベクトルをTθに入力して識別結果を得る Train-domainとvalid-domainで識別結果が類似するように学習 『クラスAとBは混同しやすい』,『クラスAとCは似ていない』などの クラス間の関係性を保ちながら異なるドメイン間で分布を近づける (敵対学習でdomain-confusionするよう分布を重ねるよりもsoftなalignmentと言える) c:クラス、D k :ドメイン、n:データ数、y:教師ラベル、x:データ τ:softmaxの温度param、特に調整の必要なし C:クラス数、Di:train-domain、Dj:valid-domain、KL:symmetrized Kullback–Leibler

Slide 18

Slide 18 text

Local-Lossによるクラス間の関係性の保存 ネットワークM φ で特徴量を低次元空間へ落とし込む 同じクラスは近く、異なるクラスは遠くなるよう学習 (contrastive-loss または tripret-loss を使用) Global-Lossが比較的softなalignmentだったので ここでしっかり特徴量空間が整理できる(仮説) z:特徴量 y:教師ラベル、z n とz m のクラスが同一か異なるかで算出法を切り替える

Slide 19

Slide 19 text

提案手法により形成された特徴量空間 ドメインに特化しすぎていない(=Domain-invariant) 特徴量空間を形成できていると言える クラスごとに色分け • クラスが混同することなく特徴量空 間でクラスタ形成している ドメインごとに色分け • 同じドメインでも、クラスが異なれ ば異なるクラスタに属している

Slide 20

Slide 20 text

従来手法との比較 従来手法ではドメインクラスタやクラスクラスタが混在する 異なるクラス間で分布が近いため混同しやすい状態だったりする 提案手法 従来手法

Slide 21

Slide 21 text

まとめ  Domain-Generalizationは学習ドメインとは異なる未知ドメインへの ロバストを向上させる研究  紹介論文では、クラス間の関係性を保存しつつ、メトリックラーニン グすることでSoTAを達成した 所感  Domain-Adaptationの従妹のような研究分野だと思っている  Domain-Generalization向けに既存手法を改造&適応させた研究が今 後たくさん出てくると予想  PACSデータセット以外にも何かないんかね、、、