[Journal club] DIRL:Domain-Invariant Representation Learning for Sim-to-Real Transfer

Ajay Kumer Tanwai ( University of California, Berkeley ) DIRL
: Domain-Invariant Representation Learning for Sim-to-Real Transfer Tanwani, Ajay Kumar. "DIRL: Domain-Invariant Representation Learning for Sim-to-Real Transfer." CoRL (2020). 慶應義塾大学杉浦孔明研究室畑中駿平

2 • ドメイン適応 ( Domain Adaptation )の新たなアルゴリズム DIRL (ドメイン不変表現学習, Domain-Invariant
Representation Learning ) の提案概要 ✓ 敵対的学習を含む4つの損失関数の導入 ✓ Sim-to-Real の把持タスクで高い精度を獲得

3 • 機械学習において、データに分布の偏り(ドメインバイアス) があることが多い − 大量のシミュレーションデータ vs 少量の実機環境データ − ドメインバイアスを無視すると精度が悪化
⇒ドメイン適応( Domain Adaptation ) によって解消背景：機械学習データにはドメインバイアスが存在する Source Domain Target Domain イヌネコドメインシフト

4 既存研究：様々なアプローチからのドメイン適応既存手法特徴 DANN [Ganin+, 2016] • 敵対的学習によるドメイン適応 •
Source Domain か Target Domainを識別させる [Saito+, CVPR2018] • ラベルおよび条件付きドメイン適応 • 2つのクラス識別器それぞれの推定結果の不一致（discrepancy）に注目 [Seita+, IROS2020] • Sim-to-Real Transfer の手法・ドメインランダム法 • ドメイン間の不一致をシミュレーションパラメータの変動として扱う [Saito+, CVPR18] DANN[Ganin+, 2016]

5 • 既存研究のドメイン適応の問題設定 − 入力分布 ( 周辺分布 ) を揃える −
出力ラベル分布 ( 条件付き分布 ) は不変 • 出力ラベル分布も実際は異なる − cross-label match − label-shift 既存研究の問題点：入力分布のみでのドメイン適応 ✓ 周辺分布と条件付き分布の両方をドメイン適応させる

6 • Simulator or Source Domain： 𝐷𝑠 , 𝜋𝑠 𝒙𝑖
𝑆, 𝒚𝑖 𝑆 𝑖=1 𝑁𝑆 • Real or Target Domain： 𝐷𝑇 , 𝜋𝑇 𝒙𝑖 𝑇, 𝒚𝑖 𝑇 𝑖=1 𝑁𝑇 𝑁𝑇 ≪ 𝑁𝑆 • Policy 𝜋：𝒳 → ℝ 𝒴 0,1, … , 𝐾 or ℝ𝐾 − ここでの Policy は 𝑋 → 𝑔 𝑍 → 𝑓 𝑌 に対応問題提起：ドメイン適応における問題設定・目的関数 Target Domainでの誤差が小さくなるような Policy 𝜋 を学習 ℒ𝐷𝑇 = 𝔼𝒙~𝐷𝑇 𝕀 𝜋 𝒙 ≠ 𝜋𝑇 𝒙 Target Domain の数は Source Domain よりも少ない

7 • 周辺確率分布・条件付き確率分布の条件 − Pr 𝑋𝑆, 𝑌𝑆 = Pr 𝑌𝑆|𝑋𝑆
Pr 𝑋𝑆 , Pr 𝑌𝑇|𝑋𝑇 Pr 𝑋𝑇 • DIRL は S / T の2つの分布をそろえることが目的提案手法の問題設定・目的の確認周辺分布の不一致さ条件付き分布の不一致さ周辺分布と条件付き分布の両方をドメイン適応させる

8 提案手法 ( 1/5 )：全体像と4つ損失関数を設定 ℒDIRL = policy loss +
marginal alignment loss + conditional alignment loss + soft triplet loss S / T それぞれの Cross-Entropy 損失関数

9 • Source / Target Domain の周辺分布を敵対的学習によって揃える • Generator 𝑔(𝑋)：データを
S / T 共有の特徴空間に符号化 − Target Domain のデータのみに関する特徴抽出器を適応 ( ∵ 𝑁𝑇 ≪ 𝑁𝑆 ) − 特徴分布 ( 周辺分布 ) において、S / T を一致させる • Discriminator 𝐷(𝑋)：データが S / T のどちらかを識別 − 特徴分布 ( 周辺分布 ) において、S / T を一致させないようにする提案手法 ( 2/5 )：Marginal Alignment Loss min 𝐷 ℒ𝑚𝑎 𝑔 𝒙𝑠 , 𝒙𝑡 , 𝐷 𝒙𝑠 , 𝒙𝑡 = −𝔼𝒙𝑠~𝑋𝑠 log 𝐷 𝑔 𝒙𝑠 − 𝔼𝒙𝑡~𝑋𝑡 log 1 − 𝐷 𝑔 𝒙𝑡 min 𝑔 ℒ𝑚𝑎 𝑔 𝒙𝑡 , 𝐷 𝒙𝑠 , 𝒙𝑡 = −𝔼𝒙𝑡~𝑋𝑡 log 𝐷 𝑔 𝒙𝑡

10 • 条件付き分布におけるラベル間のマッチングや label shift の問題を解決 • Generator 𝑔(𝑋)：周辺分布から各クラスの条件付き分布を生成 −
各クラスで生じるドメインの重複を分離 • Discriminator 𝐷(𝑋)：クラス識別器 − S / T データに関する条件付き分布の不一致さを推定・最小化提案手法 ( 3/5 )：Conditional Alignment Loss min 𝐷 ℒ𝑐𝑎𝑘 𝑔 𝒙𝑠 (𝑘), 𝒙 𝑡 (𝑘) , 𝐷 𝒙𝑠 (𝑘), 𝒙 𝑡 (𝑘) = −𝔼 𝒙𝑠 (𝑘) ~𝑋𝑠 log 𝐷 𝑔 𝒙𝑠 (𝑘) − 𝔼 𝒙𝑡 (𝑘) ~𝑋𝑡 log 1 − 𝐷 𝒙 𝑡 (𝑘) min 𝑔 ℒ𝑐𝑎𝑘 𝑔 𝒙𝑠 (𝑘), 𝒙 𝑡 (𝑘) , 𝐷 𝒙𝑠 (𝑘), 𝒙 𝑡 (𝑘) = −𝔼 𝒙𝑡 (𝑘) ~𝑋𝑡 log 𝐷 𝑔 𝒙 𝑡 (𝑘)

11 • Triplet Loss [Schroff+, CoRR2015] の変形を導入 − クラス間の分散を大きく・クラス内の分散を小さくさせる −
ミニバッチ内からアンカー・正例・負例それぞれの特徴量の KL 距離を計算 • 𝒩 ҧ 𝑔 𝒙𝑎 , 𝜎2 はガウシアン分布に従う提案手法 ( 4/5 )：Soft Triplet Loss 𝒩 ҧ 𝑔 𝒙𝑖 ; ҧ 𝑔 𝒙𝑎 , 𝜎2 = exp( −1 𝜎2 ҧ 𝑔 𝒙𝑖 − ҧ 𝑔 𝒙𝑎 2 2) σ 𝑗=1 𝐾 exp( −1 𝜎2 ҧ 𝑔 𝒙𝑗 − ҧ 𝑔 𝒙𝑎 2 2 ) 𝑖=1 𝐾 ℒ𝑡𝑙 = ෍ 𝑎=1 𝑀 1 𝑀𝑝 − 1 ෍ 𝑝=1 𝑝≠𝑎 𝑀𝑝 KL 𝒩 ҧ 𝑔 𝒙𝑎 , 𝜎2 ||𝒩 ҧ 𝑔 𝒙𝑝 , 𝜎2 − 1 𝑀𝑛 ෍ 𝑛=1 𝑀𝑛 KL 𝒩 ҧ 𝑔 𝒙𝑎 , 𝜎2 ||𝒩 ҧ 𝑔 𝒙𝑛 , 𝜎2 + α𝑡𝑙 + anchors positives negatives

12 提案手法 ( 5/5 )：4つ損失関数のまとめ ℒDIRL = λ1 ℒ𝑐𝑎_𝑠𝑐 𝑓
∘ 𝑔 𝒙𝑠 , 𝒚𝑠 , 𝒙𝑡 , 𝒚𝑡 + λ2 ℒ𝑚𝑎 𝑔 𝒙𝑡 , 𝐷 𝒙𝑠 , 𝒙𝑡 + λ3 σ 𝑘=1 𝒴 ℒ𝑐𝑎𝑘 𝑔 𝒙𝑠 (𝑘), 𝒙 𝑡 (𝑘) , 𝐷 𝒙𝑠 (𝑘), 𝒙 𝑡 (𝑘) + λ4 ℒ𝑡𝑙 𝑔 𝒙𝑠 , 𝒚𝑠 , 𝒙𝑡 , 𝒚𝑡

13 • 2次元の2クラス分類問題 • Source・Target Domain はガウス分布で生成 − Source Domain：平均
−2.5, −1.5 ・ −1.0, −1.0 − Target Domain ：平均 1.0, 1.0 ・ 2.5, 1.5 − 個数はそれぞれ 1000個と100個 • 各モジュールは7個のニューロンからなる 3層の隠れ層で構成 ✓ DIRL は Target Domain に関しても正しく分類実験結果①：条件付き分布でもクラス分類可能

14 • 実機環境のデータセットが少ない状態で把持タスクができるかどうか実験結果② (1/3) ：把持タスクの Sim-to-Real の実験 𝒙𝑖 𝑆,
𝒚𝑖 𝑆 𝑖=1 𝑁𝑆 𝑁𝑆 = 20,000 ≫ 𝑁𝑅 = 212 𝒙𝑖 𝑅, 𝒚𝑖 𝑅 𝑖=1 𝑁𝑅

15 実験結果② (2/3) ：把持タスクの実際の流れ ②物体認識 ②対象物体の把持の位置を推定 ①カメラ撮影 ④ボックスに格納

16 実験結果② (3/3) ：Sim-to-Real の有効性を確認 • 物体認識の精度で性能評価 ✓ 各評価指数で最も高い精度を獲得
✓ 把持ネットワークを使用した場合 − 86.5 % の精度で拾い上げた − ネットワーク不使用で 76.2 %

17 • ドメイン適応 ( Domain Adaptation )の新たなアルゴリズム DIRL (ドメイン不変表現学習, Domain-Invariant
Representation Learning ) の提案まとめ ✓ 敵対的学習を含む4つの損失関数の導入 ✓ Sim-to-Real の把持タスクで高い精度を獲得

[Journal club] DIRL:Domain-Invariant Representa...

[Journal club] DIRL:Domain-Invariant Representation Learning for Sim-to-Real Transfer

Semantic Machine Intelligence Lab., Keio Univ. PRO

More Decks by Semantic Machine Intelligence Lab., Keio Univ.

Other Decks in Technology

Featured

Transcript

Ajay Kumer Tanwai ( University of California, Berkeley ) DIRL

2 • ドメイン適応 ( Domain Adaptation )の新たなアルゴリズム DIRL (ドメイン不変表現学習, Domain-Invariant

3 • 機械学習において、データに分布の偏り(ドメインバイアス) があることが多い − 大量のシミュレーションデータ vs 少量の実機環境データ − ドメインバイアスを無視すると精度が悪化

4 既存研究：様々なアプローチからのドメイン適応既存手法特徴 DANN [Ganin+, 2016] • 敵対的学習によるドメイン適応 •

5 • 既存研究のドメイン適応の問題設定 − 入力分布 ( 周辺分布 ) を揃える −

6 • Simulator or Source Domain： 𝐷𝑠 , 𝜋𝑠 𝒙𝑖

7 • 周辺確率分布・条件付き確率分布の条件 − Pr 𝑋𝑆, 𝑌𝑆 = Pr 𝑌𝑆|𝑋𝑆

8 提案手法 ( 1/5 )：全体像と4つ損失関数を設定 ℒDIRL = policy loss +

9 • Source / Target Domain の周辺分布を敵対的学習によって揃える • Generator 𝑔(𝑋)：データを

10 • 条件付き分布におけるラベル間のマッチングや label shift の問題を解決 • Generator 𝑔(𝑋)：周辺分布から各クラスの条件付き分布を生成 −

11 • Triplet Loss [Schroff+, CoRR2015] の変形を導入 − クラス間の分散を大きく・クラス内の分散を小さくさせる −

12 提案手法 ( 5/5 )：4つ損失関数のまとめ ℒDIRL = λ1 ℒ𝑐𝑎_𝑠𝑐 𝑓

13 • 2次元の2クラス分類問題 • Source・Target Domain はガウス分布で生成 − Source Domain：平均

14 • 実機環境のデータセットが少ない状態で把持タスクができるかどうか実験結果② (1/3) ：把持タスクの Sim-to-Real の実験 𝒙𝑖 𝑆,

15 実験結果② (2/3) ：把持タスクの実際の流れ ②物体認識 ②対象物体の把持の位置を推定 ①カメラ撮影 ④ボックスに格納

16 実験結果② (3/3) ：Sim-to-Real の有効性を確認 • 物体認識の精度で性能評価 ✓ 各評価指数で最も高い精度を獲得

17 • ドメイン適応 ( Domain Adaptation )の新たなアルゴリズム DIRL (ドメイン不変表現学習, Domain-Invariant