Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Domain Generalization via Model-Agnostic Learning of Semantic Features NeurIPS’19 読み会 in 京都

Domain Generalization via Model-Agnostic Learning of Semantic Features NeurIPS’19 読み会 in 京都

Yamato.OKAMOTO

February 11, 2020
Tweet

More Decks by Yamato.OKAMOTO

Other Decks in Technology

Transcript

  1. NeurIPS’19 読み会 in 京都
    2020/2/11
    Yamato OKAMOTO
    Domain Generalization
    via Model-Agnostic Learning
    of Semantic Features

    View Slide

  2. 自己紹介 岡本大和(おかもとやまと)
     ~’13 京都大学 知能情報専攻 映像メディア分野
     ~’16 システムエンジニア
     ~’18 機械学習+IoT屋さん
     ’18~ Business Developer 兼 Researcher
    興味ある事
     顧客現場でちゃんと役に立つ機械学習モデルを作りたい
     夢は京都をポスト・シリコンバレーにすること
    ⇒ ところで、そろそろ京都に帰りたい(※東京へ転勤になって2年目)
    Twitter: RoadRoller_DESU
    Rugby World Cup
    In JAPAN

    View Slide

  3. これまで私がやってきた研究
    だいぶ前
     『Domain-Adaptation』に夢中
    けっこう前
     『Feature-Disentangle』に夢中
    ちょっと前
     『Federated-Learning』に夢中
    最近
     『Domain-Generalization』と『Active-Learning』に夢中
    現場適応や!!
    脱・ブラックボックスや!!
    世の中、データや!!
    今日はこの話
    こっちはサーベイ資料公開中
    https://www.slideshare.net/yamatookamoto5/survey-active-learning

    View Slide

  4. 今日お話しすること
    Domain-Generalizationとは?
    『Domain』に対して
    『Generalize(一般化)』すること

    View Slide

  5. ドメインの課題
    このドメインで学習 同じドメインで評価
    機械学習モデルは学習データと同じようなドメインでしか
    性能が出ないという課題を抱えている
    ドメインとはデータセットにかかるバイアスのようなもので、
    バイアス込みで学習したモデルは、異なるバイアスのデータに転用が困難になる
    モデル構築
    異なるドメインで評価
    ⇒ 高性能を達成
    ⇒ 性能がでない

    View Slide

  6. Domain-Generalizationは従来よりタフな問題設定
    Source Domain
    (1つ以上)
    Target Domain
    (1つだけ)
    Supervised
    Learning
    (使用しない)
    データ :あり
    教師ラベル:あり
    理想的だけど
    手間が膨大
    Unsupervised
    Domain Adaptation
    データ :あり
    教師ラベル:あり
    データ :あり
    教師ラベル:なし
    ラベル作成の
    手間を省略
    Domain
    Generalization
    データ :あり
    教師ラベル:あり
    データ :なし
    教師ラベル:なし
    最も手間が
    かからない
    これらで学習 ここで評価
    『Domain Generalization』はTarget-Domain-Dataを
    そもそも知らない状況で性能向上を目指す、最もタフな問題設定と言える

    View Slide

  7. どんなところが難しいの?
    ドメイン相違に左右されない特徴量を捉えて学習ドメインへの過適合を防ぎたい
    Domain-Generalizationの難しさは
    “ドメイン相違に左右されないモデル”を“限られたデータ”で構築する点
    ドメインバイアスの定義が困難
    ドメインが異なるとデータがどう変わ
    るのか抽象的で定義困難。そのため、
    従来の過学習対策手法では学習データ
    への過適合を防げても学習ドメインへ
    の過適合を防げない可能性がある。
    必要データ量のキリがない
    がむしゃらに異なる複数ドメインから
    データを集めて学習すれば、モデルが
    一般化される期待もあるが、データ量
    がどれだけ必要なのかわからないため
    現実的な策ではない。
    DATA DATA
    what type of difference?

    View Slide

  8. Domain-Generalizationの論文
    CVPR’19(3本)
    • Domain Generalization by Solving Jigsaw Puzzles
    • DLOW: Domain Flow for Adaptation and Generalization
    • Multi-adversarial Discriminative Deep Domain Generalization for Face
    Presentation Attack Detection
    ICML’19(1本)
    • Feature-Critic Networks for Heterogeneous Domain Generalization
    NeurIPS’19(1本)
    • Domain Generalization via Model-Agnostic Learning of Semantic Features
    今年度も大量の論文が発表された『Domain-Adaptation』に比べて
    『Domain-Generalization』はまだ出始めたばかり

    View Slide

  9. 研究でよく使われる学術データセット
    Office+Caltech、VLCSなど
    • 撮影環境や背景条件が異なる画像の
    データセット
    • ただし、どれも写真
    PACS
    • Photo, Art, Cartoon, Sketchの
    4ドメインの画像データ
    • 犬やギターなどを含む7クラスの
    Object-Classifier問題
    PACSのように4ドメインを含むデータでは、3つのドメインで学習して、
    (学習に使わなかった)残り1つのドメインで評価するのが基本

    View Slide

  10. Deeper, Broader and Artier Domain Generalization (ICCV’17)
    VLCS PACS
    Domain Generalizeの研究にPACSデータはうってつけだと述べた論文
    PACSデータセットでは
    ドメインごとに特徴量の分布が異なる
    (というか、難しすぎでは??)
    学習済みモデルを
    異なるドメインに
    転用したときの
    性能劣化も激しい

    View Slide

  11. Deeper, Broader and Artier Domain Generalization (ICCV’17)
    VLCS PACS
    Domain Generalizeの研究にPACSデータはうってつけだと述べた論文
    PACSデータセットでは
    ドメインごとの特徴量分布が明らかに異なる
    (というか、難しすぎでは??)
    学習済みモデルを
    異なるドメインに
    転用したときの
    性能劣化も激しい
    や、これは無理じゃね・・?
    !?

    View Slide

  12. Domain Generalization by Solving Jigsaw Puzzles (CVPR’19)
    Object-ClassifierとJigsaw(パズル復元)のマルチタスクで学習する
    Object-Classification-Loss
    𝜃𝑓(share)
    𝜃𝑐
    𝜃𝑝
    S:ドメイン数
    N:クラス数
    K:画像ごとに生成するJigsaw-sample数
    Jigsaw-Loss
    シャッフルパターンが膨大なので( n*nのGrid
    で区切るとn2!)、ハミング距離が大きくなるよ
    うにP個だけ選別する
    Jigsaw-Classifierはシャッフルパターンを予測
    してP次元のベクトルを出力
    Object-Classifierはシャッフルされていないサ
    ンプルのみ学習
    Unsupervised-Domain-Adaptationにも応用可

    View Slide

  13. Feature-Critic Networks
    for Heterogeneous Domain Generalization (ICML’19)
    メタラーニングによってDomain-Generalizationを実現
    3つのネットワーク
    θ:特徴量抽出部
    Φ:クラス識別部
    ω:特徴量評価部
    3つのLoss
    L
    CE
    :クラス識別が正しくできているかどうかのLoss
    L
    aux :
    ネットワークωによる特徴量の評価スコア
    L
    meta:
    特徴抽出部をL
    aux
    有りと無しで学習したとき差分
    学習ドメインをtrainとvalidに分割
    train-domain
    1.クラス識別できるよう学習
    2.クラス識別できるよう学習
    +ωによる評価が大きくなるよう学習
    valid-domain
    1.より2.の方がvalidで高性能となるよ
    うにωを学習

    View Slide

  14. 本日の紹介論文
     Domain Generalization via Model-Agnostic Learning
    of Semantic Features
    Jigsaw
    (CVPR’19)
    Feature-Critic
    (ICML’19)
    Semantic Feature
    (NeurIPS’19)
    C,P,Sで学習
    Artで評価
    67.63 64.89 70.35
    A,P,Sで学習
    Cartoonで評価
    71.71 71.72 72.46
    A,C,Sで学習
    Photoで評価
    89.00 89.94 90.68
    A,C,Pで学習
    Sketchで評価
    65.18 61.85 67.33
    Average 73.38 72.10 75.21
    PACSデータで
    SoTA達成

    View Slide

  15. 提案手法のネットワーク構造
    Iteration毎に学習データを
    train-domain(D
    i
    )と
    valid-domain(D
    j
    )に分割
    F
    ψ
    はデータから
    特徴量を抽出
    特徴量空間
    M
    φ
    は特徴量を
    さらに低次元へ射影
    T
    θ
    は特徴量から
    クラス識別をする

    View Slide

  16. KEY: メタラーニングとメトリックラーニングの導入
    Task Loss
    • trainでのみクラス識別の教師付き学
    習をする
    Local Loss
    • 特徴量を低次元に射影したとき、
    (ドメインに関係なく)同じクラス
    が近い&異なるクラスが遠いほど
    Lossは小さくなる
    • trainとvalidの両方で学習
    Global Loss
    • 『クラスAとクラスBは混同しやすい、
    クラスCは混同しにくい』といった
    Confusion-Matrixを算出
    • これらがtrainとvalidのドメイン間で
    類似するように学習

    View Slide

  17. Global-Lossによるクラス間の関係性の保存
    ドメインごとに各クラスの平均特徴量ベクトルを算出
    平均特徴ベクトルをTθに入力して識別結果を得る
    Train-domainとvalid-domainで識別結果が類似するように学習
    『クラスAとBは混同しやすい』,『クラスAとCは似ていない』などの
    クラス間の関係性を保ちながら異なるドメイン間で分布を近づける
    (敵対学習でdomain-confusionするよう分布を重ねるよりもsoftなalignmentと言える)
    c:クラス、D
    k
    :ドメイン、n:データ数、y:教師ラベル、x:データ
    τ:softmaxの温度param、特に調整の必要なし
    C:クラス数、Di:train-domain、Dj:valid-domain、KL:symmetrized Kullback–Leibler

    View Slide

  18. Local-Lossによるクラス間の関係性の保存
    ネットワークM
    φ
    で特徴量を低次元空間へ落とし込む
    同じクラスは近く、異なるクラスは遠くなるよう学習
    (contrastive-loss または tripret-loss を使用)
    Global-Lossが比較的softなalignmentだったので
    ここでしっかり特徴量空間が整理できる(仮説)
    z:特徴量
    y:教師ラベル、z
    n
    とz
    m
    のクラスが同一か異なるかで算出法を切り替える

    View Slide

  19. 提案手法により形成された特徴量空間
    ドメインに特化しすぎていない(=Domain-invariant)
    特徴量空間を形成できていると言える
    クラスごとに色分け
    • クラスが混同することなく特徴量空
    間でクラスタ形成している
    ドメインごとに色分け
    • 同じドメインでも、クラスが異なれ
    ば異なるクラスタに属している

    View Slide

  20. 従来手法との比較
    従来手法ではドメインクラスタやクラスクラスタが混在する
    異なるクラス間で分布が近いため混同しやすい状態だったりする
    提案手法
    従来手法

    View Slide

  21. まとめ
     Domain-Generalizationは学習ドメインとは異なる未知ドメインへの
    ロバストを向上させる研究
     紹介論文では、クラス間の関係性を保存しつつ、メトリックラーニン
    グすることでSoTAを達成した
    所感
     Domain-Adaptationの従妹のような研究分野だと思っている
     Domain-Generalization向けに既存手法を改造&適応させた研究が今
    後たくさん出てくると予想
     PACSデータセット以外にも何かないんかね、、、

    View Slide