Upgrade to Pro — share decks privately, control downloads, hide ads and more …

[Journal club] DIRL:Domain-Invariant Representation Learning for Sim-to-Real Transfer

[Journal club] DIRL:Domain-Invariant Representation Learning for Sim-to-Real Transfer

More Decks by Semantic Machine Intelligence Lab., Keio Univ.

Other Decks in Technology

Transcript

  1. Ajay Kumer Tanwai ( University of California, Berkeley ) DIRL

    : Domain-Invariant Representation Learning for Sim-to-Real Transfer Tanwani, Ajay Kumar. "DIRL: Domain-Invariant Representation Learning for Sim-to-Real Transfer." CoRL (2020). 慶應義塾大学 杉浦孔明研究室 畑中駿平
  2. 2 • ドメイン適応 ( Domain Adaptation )の新たなアルゴリズム DIRL (ドメイン不変表現学習, Domain-Invariant

    Representation Learning ) の提案 概要 ✓ 敵対的学習を含む4つの損失関数の導入 ✓ Sim-to-Real の把持タスクで高い精度を獲得
  3. 3 • 機械学習において、データに分布の偏り(ドメインバイアス) があることが多い − 大量のシミュレーションデータ vs 少量の実機環境データ − ドメインバイアスを無視すると精度が悪化

    ⇒ドメイン適応( Domain Adaptation ) によって解消 背景:機械学習データにはドメインバイアスが存在する Source Domain Target Domain イヌ ネコ ドメインシフト
  4. 4 既存研究:様々なアプローチからのドメイン適応 既存手法 特徴 DANN [Ganin+, 2016] • 敵対的学習によるドメイン適応 •

    Source Domain か Target Domainを識別させる [Saito+, CVPR2018] • ラベルおよび条件付きドメイン適応 • 2つのクラス識別器それぞれの推定結果の不一致(discrepancy)に注目 [Seita+, IROS2020] • Sim-to-Real Transfer の手法・ドメインランダム法 • ドメイン間の不一致をシミュレーションパラメータの変動として扱う [Saito+, CVPR18] DANN[Ganin+, 2016]
  5. 5 • 既存研究のドメイン適応の問題設定 − 入力分布 ( 周辺分布 ) を揃える −

    出力ラベル分布 ( 条件付き分布 ) は不変 • 出力ラベル分布も実際は異なる − cross-label match − label-shift 既存研究の問題点:入力分布のみでのドメイン適応 ✓ 周辺分布と条件付き分布の両方 をドメイン適応させる
  6. 6 • Simulator or Source Domain: 𝐷𝑠 , 𝜋𝑠 𝒙𝑖

    𝑆, 𝒚𝑖 𝑆 𝑖=1 𝑁𝑆 • Real or Target Domain: 𝐷𝑇 , 𝜋𝑇 𝒙𝑖 𝑇, 𝒚𝑖 𝑇 𝑖=1 𝑁𝑇 𝑁𝑇 ≪ 𝑁𝑆 • Policy 𝜋:𝒳 → ℝ 𝒴 0,1, … , 𝐾 or ℝ𝐾 − ここでの Policy は 𝑋 → 𝑔 𝑍 → 𝑓 𝑌 に対応 問題提起:ドメイン適応における問題設定・目的関数 Target Domainでの誤差が小さくなるような Policy 𝜋 を学習 ℒ𝐷𝑇 = 𝔼𝒙~𝐷𝑇 𝕀 𝜋 𝒙 ≠ 𝜋𝑇 𝒙 Target Domain の数は Source Domain よりも少ない
  7. 7 • 周辺確率分布・条件付き確率分布の条件 − Pr 𝑋𝑆, 𝑌𝑆 = Pr 𝑌𝑆|𝑋𝑆

    Pr 𝑋𝑆 , Pr 𝑌𝑇|𝑋𝑇 Pr 𝑋𝑇 • DIRL は S / T の2つの分布をそろえることが目的 提案手法の問題設定・目的の確認 周辺分布の 不一致さ 条件付き分布の 不一致さ 周辺分布と条件付き分布の 両方をドメイン適応させる
  8. 8 提案手法 ( 1/5 ):全体像と4つ損失関数を設定 ℒDIRL = policy loss +

    marginal alignment loss + conditional alignment loss + soft triplet loss S / T それぞれの Cross-Entropy 損失関数
  9. 9 • Source / Target Domain の周辺分布を敵対的学習によって揃える • Generator 𝑔(𝑋):データを

    S / T 共有の特徴空間に符号化 − Target Domain のデータのみに関する特徴抽出器を適応 ( ∵ 𝑁𝑇 ≪ 𝑁𝑆 ) − 特徴分布 ( 周辺分布 ) において、S / T を一致させる • Discriminator 𝐷(𝑋):データが S / T のどちらかを識別 − 特徴分布 ( 周辺分布 ) において、S / T を一致させないようにする 提案手法 ( 2/5 ):Marginal Alignment Loss min 𝐷 ℒ𝑚𝑎 𝑔 𝒙𝑠 , 𝒙𝑡 , 𝐷 𝒙𝑠 , 𝒙𝑡 = −𝔼𝒙𝑠~𝑋𝑠 log 𝐷 𝑔 𝒙𝑠 − 𝔼𝒙𝑡~𝑋𝑡 log 1 − 𝐷 𝑔 𝒙𝑡 min 𝑔 ℒ𝑚𝑎 𝑔 𝒙𝑡 , 𝐷 𝒙𝑠 , 𝒙𝑡 = −𝔼𝒙𝑡~𝑋𝑡 log 𝐷 𝑔 𝒙𝑡
  10. 10 • 条件付き分布におけるラベル間のマッチングや label shift の問題を解決 • Generator 𝑔(𝑋):周辺分布から各クラスの条件付き分布を生成 −

    各クラスで生じるドメインの重複を分離 • Discriminator 𝐷(𝑋):クラス識別器 − S / T データに関する条件付き分布の不一致さを推定・最小化 提案手法 ( 3/5 ):Conditional Alignment Loss min 𝐷 ℒ𝑐𝑎𝑘 𝑔 𝒙𝑠 (𝑘), 𝒙 𝑡 (𝑘) , 𝐷 𝒙𝑠 (𝑘), 𝒙 𝑡 (𝑘) = −𝔼 𝒙𝑠 (𝑘) ~𝑋𝑠 log 𝐷 𝑔 𝒙𝑠 (𝑘) − 𝔼 𝒙𝑡 (𝑘) ~𝑋𝑡 log 1 − 𝐷 𝒙 𝑡 (𝑘) min 𝑔 ℒ𝑐𝑎𝑘 𝑔 𝒙𝑠 (𝑘), 𝒙 𝑡 (𝑘) , 𝐷 𝒙𝑠 (𝑘), 𝒙 𝑡 (𝑘) = −𝔼 𝒙𝑡 (𝑘) ~𝑋𝑡 log 𝐷 𝑔 𝒙 𝑡 (𝑘)
  11. 11 • Triplet Loss [Schroff+, CoRR2015] の変形を導入 − クラス間の分散を大きく・クラス内の分散を小さくさせる −

    ミニバッチ内からアンカー・正例・負例それぞれの特徴量の KL 距離を計算 • 𝒩 ҧ 𝑔 𝒙𝑎 , 𝜎2 はガウシアン分布に従う 提案手法 ( 4/5 ):Soft Triplet Loss 𝒩 ҧ 𝑔 𝒙𝑖 ; ҧ 𝑔 𝒙𝑎 , 𝜎2 = exp( −1 𝜎2 ҧ 𝑔 𝒙𝑖 − ҧ 𝑔 𝒙𝑎 2 2) σ 𝑗=1 𝐾 exp( −1 𝜎2 ҧ 𝑔 𝒙𝑗 − ҧ 𝑔 𝒙𝑎 2 2 ) 𝑖=1 𝐾 ℒ𝑡𝑙 = ෍ 𝑎=1 𝑀 1 𝑀𝑝 − 1 ෍ 𝑝=1 𝑝≠𝑎 𝑀𝑝 KL 𝒩 ҧ 𝑔 𝒙𝑎 , 𝜎2 ||𝒩 ҧ 𝑔 𝒙𝑝 , 𝜎2 − 1 𝑀𝑛 ෍ 𝑛=1 𝑀𝑛 KL 𝒩 ҧ 𝑔 𝒙𝑎 , 𝜎2 ||𝒩 ҧ 𝑔 𝒙𝑛 , 𝜎2 + α𝑡𝑙 + anchors positives negatives
  12. 12 提案手法 ( 5/5 ):4つ損失関数のまとめ ℒDIRL = λ1 ℒ𝑐𝑎_𝑠𝑐 𝑓

    ∘ 𝑔 𝒙𝑠 , 𝒚𝑠 , 𝒙𝑡 , 𝒚𝑡 + λ2 ℒ𝑚𝑎 𝑔 𝒙𝑡 , 𝐷 𝒙𝑠 , 𝒙𝑡 + λ3 σ 𝑘=1 𝒴 ℒ𝑐𝑎𝑘 𝑔 𝒙𝑠 (𝑘), 𝒙 𝑡 (𝑘) , 𝐷 𝒙𝑠 (𝑘), 𝒙 𝑡 (𝑘) + λ4 ℒ𝑡𝑙 𝑔 𝒙𝑠 , 𝒚𝑠 , 𝒙𝑡 , 𝒚𝑡
  13. 13 • 2次元の2クラス分類問題 • Source・Target Domain はガウス分布で生成 − Source Domain:平均

    −2.5, −1.5 ・ −1.0, −1.0 − Target Domain :平均 1.0, 1.0 ・ 2.5, 1.5 − 個数はそれぞれ 1000個と100個 • 各モジュールは7個のニューロンからなる 3層の隠れ層で構成 ✓ DIRL は Target Domain に関しても正しく分類 実験結果①:条件付き分布でもクラス分類可能
  14. 16 実験結果② (3/3) :Sim-to-Real の有効性を確認 • 物体認識の精度で性能評価 ✓ 各評価指数で 最も高い精度を獲得

    ✓ 把持ネットワークを使用した場合 − 86.5 % の精度で拾い上げた − ネットワーク不使用で 76.2 %
  15. 17 • ドメイン適応 ( Domain Adaptation )の新たなアルゴリズム DIRL (ドメイン不変表現学習, Domain-Invariant

    Representation Learning ) の提案 まとめ ✓ 敵対的学習を含む4つの損失関数の導入 ✓ Sim-to-Real の把持タスクで高い精度を獲得