Upgrade to Pro — share decks privately, control downloads, hide ads and more …

[Journal club] DIRL:Domain-Invariant Representa...

Sponsored · SiteGround - Reliable hosting with speed, security, and support you can count on.

[Journal club] DIRL:Domain-Invariant Representation Learning for Sim-to-Realย Transfer

More Decks by Semantic Machine Intelligence Lab., Keio Univ.

Other Decks in Technology

Transcript

  1. Ajay Kumer Tanwai ( University of California, Berkeley ) DIRL

    : Domain-Invariant Representation Learning for Sim-to-Real Transfer Tanwani, Ajay Kumar. "DIRL: Domain-Invariant Representation Learning for Sim-to-Real Transfer." CoRL (2020). ๆ…ถๆ‡‰็พฉๅกพๅคงๅญฆ ๆ‰ๆตฆๅญ”ๆ˜Ž็ ”็ฉถๅฎค ็•‘ไธญ้งฟๅนณ
  2. 2 โ€ข ใƒ‰ใƒกใ‚คใƒณ้ฉๅฟœ ( Domain Adaptation )ใฎๆ–ฐใŸใชใ‚ขใƒซใ‚ดใƒชใ‚บใƒ  DIRL (ใƒ‰ใƒกใ‚คใƒณไธๅค‰่กจ็พๅญฆ็ฟ’, Domain-Invariant

    Representation Learning ) ใฎๆๆกˆ ๆฆ‚่ฆ โœ“ ๆ•ตๅฏพ็š„ๅญฆ็ฟ’ใ‚’ๅซใ‚€4ใคใฎๆๅคฑ้–ขๆ•ฐใฎๅฐŽๅ…ฅ โœ“ Sim-to-Real ใฎๆŠŠๆŒใ‚ฟใ‚นใ‚ฏใง้ซ˜ใ„็ฒพๅบฆใ‚’็ฒๅพ—
  3. 3 โ€ข ๆฉŸๆขฐๅญฆ็ฟ’ใซใŠใ„ใฆใ€ใƒ‡ใƒผใ‚ฟใซๅˆ†ๅธƒใฎๅใ‚Š(ใƒ‰ใƒกใ‚คใƒณใƒใ‚คใ‚ขใ‚น) ใŒใ‚ใ‚‹ใ“ใจใŒๅคšใ„ โˆ’ ๅคง้‡ใฎใ‚ทใƒŸใƒฅใƒฌใƒผใ‚ทใƒงใƒณใƒ‡ใƒผใ‚ฟ vs ๅฐ‘้‡ใฎๅฎŸๆฉŸ็’ฐๅขƒใƒ‡ใƒผใ‚ฟ โˆ’ ใƒ‰ใƒกใ‚คใƒณใƒใ‚คใ‚ขใ‚นใ‚’็„ก่ฆ–ใ™ใ‚‹ใจ็ฒพๅบฆใŒๆ‚ชๅŒ–

    โ‡’ใƒ‰ใƒกใ‚คใƒณ้ฉๅฟœ( Domain Adaptation ) ใซใ‚ˆใฃใฆ่งฃๆถˆ ่ƒŒๆ™ฏ๏ผšๆฉŸๆขฐๅญฆ็ฟ’ใƒ‡ใƒผใ‚ฟใซใฏใƒ‰ใƒกใ‚คใƒณใƒใ‚คใ‚ขใ‚นใŒๅญ˜ๅœจใ™ใ‚‹ Source Domain Target Domain ใ‚คใƒŒ ใƒใ‚ณ ใƒ‰ใƒกใ‚คใƒณใ‚ทใƒ•ใƒˆ
  4. 4 ๆ—ขๅญ˜็ ”็ฉถ๏ผšๆง˜ใ€…ใชใ‚ขใƒ—ใƒญใƒผใƒใ‹ใ‚‰ใฎใƒ‰ใƒกใ‚คใƒณ้ฉๅฟœ ๆ—ขๅญ˜ๆ‰‹ๆณ• ็‰นๅพด DANN [Ganin+, 2016] โ€ข ๆ•ตๅฏพ็š„ๅญฆ็ฟ’ใซใ‚ˆใ‚‹ใƒ‰ใƒกใ‚คใƒณ้ฉๅฟœ โ€ข

    Source Domain ใ‹ Target Domainใ‚’่ญ˜ๅˆฅใ•ใ›ใ‚‹ [Saito+, CVPR2018] โ€ข ใƒฉใƒ™ใƒซใŠใ‚ˆใณๆกไปถไป˜ใใƒ‰ใƒกใ‚คใƒณ้ฉๅฟœ โ€ข 2ใคใฎใ‚ฏใƒฉใ‚น่ญ˜ๅˆฅๅ™จใใ‚Œใžใ‚ŒใฎๆŽจๅฎš็ตๆžœใฎไธไธ€่‡ด๏ผˆdiscrepancy๏ผ‰ใซๆณจ็›ฎ [Seita+, IROS2020] โ€ข Sim-to-Real Transfer ใฎๆ‰‹ๆณ•ใƒปใƒ‰ใƒกใ‚คใƒณใƒฉใƒณใƒ€ใƒ ๆณ• โ€ข ใƒ‰ใƒกใ‚คใƒณ้–“ใฎไธไธ€่‡ดใ‚’ใ‚ทใƒŸใƒฅใƒฌใƒผใ‚ทใƒงใƒณใƒ‘ใƒฉใƒกใƒผใ‚ฟใฎๅค‰ๅ‹•ใจใ—ใฆๆ‰ฑใ† [Saito+, CVPR18] DANN[Ganin+, 2016]
  5. 5 โ€ข ๆ—ขๅญ˜็ ”็ฉถใฎใƒ‰ใƒกใ‚คใƒณ้ฉๅฟœใฎๅ•้กŒ่จญๅฎš โˆ’ ๅ…ฅๅŠ›ๅˆ†ๅธƒ ( ๅ‘จ่พบๅˆ†ๅธƒ ) ใ‚’ๆƒใˆใ‚‹ โˆ’

    ๅ‡บๅŠ›ใƒฉใƒ™ใƒซๅˆ†ๅธƒ ( ๆกไปถไป˜ใๅˆ†ๅธƒ ) ใฏไธๅค‰ โ€ข ๅ‡บๅŠ›ใƒฉใƒ™ใƒซๅˆ†ๅธƒใ‚‚ๅฎŸ้š›ใฏ็•ฐใชใ‚‹ โˆ’ cross-label match โˆ’ label-shift ๆ—ขๅญ˜็ ”็ฉถใฎๅ•้กŒ็‚น๏ผšๅ…ฅๅŠ›ๅˆ†ๅธƒใฎใฟใงใฎใƒ‰ใƒกใ‚คใƒณ้ฉๅฟœ โœ“ ๅ‘จ่พบๅˆ†ๅธƒใจๆกไปถไป˜ใๅˆ†ๅธƒใฎไธกๆ–น ใ‚’ใƒ‰ใƒกใ‚คใƒณ้ฉๅฟœใ•ใ›ใ‚‹
  6. 6 โ€ข Simulator or Source Domain๏ผš ๐ท๐‘  , ๐œ‹๐‘  ๐’™๐‘–

    ๐‘†, ๐’š๐‘– ๐‘† ๐‘–=1 ๐‘๐‘† โ€ข Real or Target Domain๏ผš ๐ท๐‘‡ , ๐œ‹๐‘‡ ๐’™๐‘– ๐‘‡, ๐’š๐‘– ๐‘‡ ๐‘–=1 ๐‘๐‘‡ ๐‘๐‘‡ โ‰ช ๐‘๐‘† โ€ข Policy ๐œ‹๏ผš๐’ณ โ†’ โ„ ๐’ด 0,1, โ€ฆ , ๐พ or โ„๐พ โˆ’ ใ“ใ“ใงใฎ Policy ใฏ ๐‘‹ โ†’ ๐‘” ๐‘ โ†’ ๐‘“ ๐‘Œ ใซๅฏพๅฟœ ๅ•้กŒๆ่ตท๏ผšใƒ‰ใƒกใ‚คใƒณ้ฉๅฟœใซใŠใ‘ใ‚‹ๅ•้กŒ่จญๅฎšใƒป็›ฎ็š„้–ขๆ•ฐ Target Domainใงใฎ่ชคๅทฎใŒๅฐใ•ใใชใ‚‹ใ‚ˆใ†ใช Policy ๐œ‹ ใ‚’ๅญฆ็ฟ’ โ„’๐ท๐‘‡ = ๐”ผ๐’™~๐ท๐‘‡ ๐•€ ๐œ‹ ๐’™ โ‰  ๐œ‹๐‘‡ ๐’™ Target Domain ใฎๆ•ฐใฏ Source Domain ใ‚ˆใ‚Šใ‚‚ๅฐ‘ใชใ„
  7. 7 โ€ข ๅ‘จ่พบ็ขบ็އๅˆ†ๅธƒใƒปๆกไปถไป˜ใ็ขบ็އๅˆ†ๅธƒใฎๆกไปถ โˆ’ Pr ๐‘‹๐‘†, ๐‘Œ๐‘† = Pr ๐‘Œ๐‘†|๐‘‹๐‘†

    Pr ๐‘‹๐‘† , Pr ๐‘Œ๐‘‡|๐‘‹๐‘‡ Pr ๐‘‹๐‘‡ โ€ข DIRL ใฏ S / T ใฎ2ใคใฎๅˆ†ๅธƒใ‚’ใใ‚ใˆใ‚‹ใ“ใจใŒ็›ฎ็š„ ๆๆกˆๆ‰‹ๆณ•ใฎๅ•้กŒ่จญๅฎšใƒป็›ฎ็š„ใฎ็ขบ่ช ๅ‘จ่พบๅˆ†ๅธƒใฎ ไธไธ€่‡ดใ• ๆกไปถไป˜ใๅˆ†ๅธƒใฎ ไธไธ€่‡ดใ• ๅ‘จ่พบๅˆ†ๅธƒใจๆกไปถไป˜ใๅˆ†ๅธƒใฎ ไธกๆ–นใ‚’ใƒ‰ใƒกใ‚คใƒณ้ฉๅฟœใ•ใ›ใ‚‹
  8. 8 ๆๆกˆๆ‰‹ๆณ• ( 1/5 )๏ผšๅ…จไฝ“ๅƒใจ4ใคๆๅคฑ้–ขๆ•ฐใ‚’่จญๅฎš โ„’DIRL = policy loss +

    marginal alignment loss + conditional alignment loss + soft triplet loss S / T ใใ‚Œใžใ‚Œใฎ Cross-Entropy ๆๅคฑ้–ขๆ•ฐ
  9. 9 โ€ข Source / Target Domain ใฎๅ‘จ่พบๅˆ†ๅธƒใ‚’ๆ•ตๅฏพ็š„ๅญฆ็ฟ’ใซใ‚ˆใฃใฆๆƒใˆใ‚‹ โ€ข Generator ๐‘”(๐‘‹)๏ผšใƒ‡ใƒผใ‚ฟใ‚’

    S / T ๅ…ฑๆœ‰ใฎ็‰นๅพด็ฉบ้–“ใซ็ฌฆๅทๅŒ– โˆ’ Target Domain ใฎใƒ‡ใƒผใ‚ฟใฎใฟใซ้–ขใ™ใ‚‹็‰นๅพดๆŠฝๅ‡บๅ™จใ‚’้ฉๅฟœ ( โˆต ๐‘๐‘‡ โ‰ช ๐‘๐‘† ) โˆ’ ็‰นๅพดๅˆ†ๅธƒ ( ๅ‘จ่พบๅˆ†ๅธƒ ) ใซใŠใ„ใฆใ€S / T ใ‚’ไธ€่‡ดใ•ใ›ใ‚‹ โ€ข Discriminator ๐ท(๐‘‹)๏ผšใƒ‡ใƒผใ‚ฟใŒ S / T ใฎใฉใกใ‚‰ใ‹ใ‚’่ญ˜ๅˆฅ โˆ’ ็‰นๅพดๅˆ†ๅธƒ ( ๅ‘จ่พบๅˆ†ๅธƒ ) ใซใŠใ„ใฆใ€S / T ใ‚’ไธ€่‡ดใ•ใ›ใชใ„ใ‚ˆใ†ใซใ™ใ‚‹ ๆๆกˆๆ‰‹ๆณ• ( 2/5 )๏ผšMarginal Alignment Loss min ๐ท โ„’๐‘š๐‘Ž ๐‘” ๐’™๐‘  , ๐’™๐‘ก , ๐ท ๐’™๐‘  , ๐’™๐‘ก = โˆ’๐”ผ๐’™๐‘ ~๐‘‹๐‘  log ๐ท ๐‘” ๐’™๐‘  โˆ’ ๐”ผ๐’™๐‘ก~๐‘‹๐‘ก log 1 โˆ’ ๐ท ๐‘” ๐’™๐‘ก min ๐‘” โ„’๐‘š๐‘Ž ๐‘” ๐’™๐‘ก , ๐ท ๐’™๐‘  , ๐’™๐‘ก = โˆ’๐”ผ๐’™๐‘ก~๐‘‹๐‘ก log ๐ท ๐‘” ๐’™๐‘ก
  10. 10 โ€ข ๆกไปถไป˜ใๅˆ†ๅธƒใซใŠใ‘ใ‚‹ใƒฉใƒ™ใƒซ้–“ใฎใƒžใƒƒใƒใƒณใ‚ฐใ‚„ label shift ใฎๅ•้กŒใ‚’่งฃๆฑบ โ€ข Generator ๐‘”(๐‘‹)๏ผšๅ‘จ่พบๅˆ†ๅธƒใ‹ใ‚‰ๅ„ใ‚ฏใƒฉใ‚นใฎๆกไปถไป˜ใๅˆ†ๅธƒใ‚’็”Ÿๆˆ โˆ’

    ๅ„ใ‚ฏใƒฉใ‚นใง็”Ÿใ˜ใ‚‹ใƒ‰ใƒกใ‚คใƒณใฎ้‡่ค‡ใ‚’ๅˆ†้›ข โ€ข Discriminator ๐ท(๐‘‹)๏ผšใ‚ฏใƒฉใ‚น่ญ˜ๅˆฅๅ™จ โˆ’ S / T ใƒ‡ใƒผใ‚ฟใซ้–ขใ™ใ‚‹ๆกไปถไป˜ใๅˆ†ๅธƒใฎไธไธ€่‡ดใ•ใ‚’ๆŽจๅฎšใƒปๆœ€ๅฐๅŒ– ๆๆกˆๆ‰‹ๆณ• ( 3/5 )๏ผšConditional Alignment Loss min ๐ท โ„’๐‘๐‘Ž๐‘˜ ๐‘” ๐’™๐‘  (๐‘˜), ๐’™ ๐‘ก (๐‘˜) , ๐ท ๐’™๐‘  (๐‘˜), ๐’™ ๐‘ก (๐‘˜) = โˆ’๐”ผ ๐’™๐‘  (๐‘˜) ~๐‘‹๐‘  log ๐ท ๐‘” ๐’™๐‘  (๐‘˜) โˆ’ ๐”ผ ๐’™๐‘ก (๐‘˜) ~๐‘‹๐‘ก log 1 โˆ’ ๐ท ๐’™ ๐‘ก (๐‘˜) min ๐‘” โ„’๐‘๐‘Ž๐‘˜ ๐‘” ๐’™๐‘  (๐‘˜), ๐’™ ๐‘ก (๐‘˜) , ๐ท ๐’™๐‘  (๐‘˜), ๐’™ ๐‘ก (๐‘˜) = โˆ’๐”ผ ๐’™๐‘ก (๐‘˜) ~๐‘‹๐‘ก log ๐ท ๐‘” ๐’™ ๐‘ก (๐‘˜)
  11. 11 โ€ข Triplet Loss [Schroff+, CoRR2015] ใฎๅค‰ๅฝขใ‚’ๅฐŽๅ…ฅ โˆ’ ใ‚ฏใƒฉใ‚น้–“ใฎๅˆ†ๆ•ฃใ‚’ๅคงใใใƒปใ‚ฏใƒฉใ‚นๅ†…ใฎๅˆ†ๆ•ฃใ‚’ๅฐใ•ใใ•ใ›ใ‚‹ โˆ’

    ใƒŸใƒ‹ใƒใƒƒใƒๅ†…ใ‹ใ‚‰ใ‚ขใƒณใ‚ซใƒผใƒปๆญฃไพ‹ใƒป่ฒ ไพ‹ใใ‚Œใžใ‚Œใฎ็‰นๅพด้‡ใฎ KL ่ท้›ขใ‚’่จˆ็ฎ— โ€ข ๐’ฉ าง ๐‘” ๐’™๐‘Ž , ๐œŽ2 ใฏใ‚ฌใ‚ฆใ‚ทใ‚ขใƒณๅˆ†ๅธƒใซๅพ“ใ† ๆๆกˆๆ‰‹ๆณ• ( 4/5 )๏ผšSoft Triplet Loss ๐’ฉ าง ๐‘” ๐’™๐‘– ; าง ๐‘” ๐’™๐‘Ž , ๐œŽ2 = exp( โˆ’1 ๐œŽ2 าง ๐‘” ๐’™๐‘– โˆ’ าง ๐‘” ๐’™๐‘Ž 2 2) ฯƒ ๐‘—=1 ๐พ exp( โˆ’1 ๐œŽ2 าง ๐‘” ๐’™๐‘— โˆ’ าง ๐‘” ๐’™๐‘Ž 2 2 ) ๐‘–=1 ๐พ โ„’๐‘ก๐‘™ = เท ๐‘Ž=1 ๐‘€ 1 ๐‘€๐‘ โˆ’ 1 เท ๐‘=1 ๐‘โ‰ ๐‘Ž ๐‘€๐‘ KL ๐’ฉ าง ๐‘” ๐’™๐‘Ž , ๐œŽ2 ||๐’ฉ าง ๐‘” ๐’™๐‘ , ๐œŽ2 โˆ’ 1 ๐‘€๐‘› เท ๐‘›=1 ๐‘€๐‘› KL ๐’ฉ าง ๐‘” ๐’™๐‘Ž , ๐œŽ2 ||๐’ฉ าง ๐‘” ๐’™๐‘› , ๐œŽ2 + ฮฑ๐‘ก๐‘™ + anchors positives negatives
  12. 12 ๆๆกˆๆ‰‹ๆณ• ( 5/5 )๏ผš4ใคๆๅคฑ้–ขๆ•ฐใฎใพใจใ‚ โ„’DIRL = ฮป1 โ„’๐‘๐‘Ž_๐‘ ๐‘ ๐‘“

    โˆ˜ ๐‘” ๐’™๐‘  , ๐’š๐‘  , ๐’™๐‘ก , ๐’š๐‘ก + ฮป2 โ„’๐‘š๐‘Ž ๐‘” ๐’™๐‘ก , ๐ท ๐’™๐‘  , ๐’™๐‘ก + ฮป3 ฯƒ ๐‘˜=1 ๐’ด โ„’๐‘๐‘Ž๐‘˜ ๐‘” ๐’™๐‘  (๐‘˜), ๐’™ ๐‘ก (๐‘˜) , ๐ท ๐’™๐‘  (๐‘˜), ๐’™ ๐‘ก (๐‘˜) + ฮป4 โ„’๐‘ก๐‘™ ๐‘” ๐’™๐‘  , ๐’š๐‘  , ๐’™๐‘ก , ๐’š๐‘ก
  13. 13 โ€ข 2ๆฌกๅ…ƒใฎ2ใ‚ฏใƒฉใ‚นๅˆ†้กžๅ•้กŒ โ€ข SourceใƒปTarget Domain ใฏใ‚ฌใ‚ฆใ‚นๅˆ†ๅธƒใง็”Ÿๆˆ โˆ’ Source Domain๏ผšๅนณๅ‡

    โˆ’2.5, โˆ’1.5 ใƒป โˆ’1.0, โˆ’1.0 โˆ’ Target Domain ๏ผšๅนณๅ‡ 1.0, 1.0 ใƒป 2.5, 1.5 โˆ’ ๅ€‹ๆ•ฐใฏใใ‚Œใžใ‚Œ 1000ๅ€‹ใจ100ๅ€‹ โ€ข ๅ„ใƒขใ‚ธใƒฅใƒผใƒซใฏ7ๅ€‹ใฎใƒ‹ใƒฅใƒผใƒญใƒณใ‹ใ‚‰ใชใ‚‹ 3ๅฑคใฎ้š ใ‚Œๅฑคใงๆง‹ๆˆ โœ“ DIRL ใฏ Target Domain ใซ้–ขใ—ใฆใ‚‚ๆญฃใ—ใๅˆ†้กž ๅฎŸ้จ“็ตๆžœโ‘ ๏ผšๆกไปถไป˜ใๅˆ†ๅธƒใงใ‚‚ใ‚ฏใƒฉใ‚นๅˆ†้กžๅฏ่ƒฝ
  14. 16 ๅฎŸ้จ“็ตๆžœโ‘ก (3/3) ๏ผšSim-to-Real ใฎๆœ‰ๅŠนๆ€งใ‚’็ขบ่ช โ€ข ็‰ฉไฝ“่ช่ญ˜ใฎ็ฒพๅบฆใงๆ€ง่ƒฝ่ฉ•ไพก โœ“ ๅ„่ฉ•ไพกๆŒ‡ๆ•ฐใง ๆœ€ใ‚‚้ซ˜ใ„็ฒพๅบฆใ‚’็ฒๅพ—

    โœ“ ๆŠŠๆŒใƒใƒƒใƒˆใƒฏใƒผใ‚ฏใ‚’ไฝฟ็”จใ—ใŸๅ ดๅˆ โˆ’ 86.5 % ใฎ็ฒพๅบฆใงๆ‹พใ„ไธŠใ’ใŸ โˆ’ ใƒใƒƒใƒˆใƒฏใƒผใ‚ฏไธไฝฟ็”จใง 76.2 %
  15. 17 โ€ข ใƒ‰ใƒกใ‚คใƒณ้ฉๅฟœ ( Domain Adaptation )ใฎๆ–ฐใŸใชใ‚ขใƒซใ‚ดใƒชใ‚บใƒ  DIRL (ใƒ‰ใƒกใ‚คใƒณไธๅค‰่กจ็พๅญฆ็ฟ’, Domain-Invariant

    Representation Learning ) ใฎๆๆกˆ ใพใจใ‚ โœ“ ๆ•ตๅฏพ็š„ๅญฆ็ฟ’ใ‚’ๅซใ‚€4ใคใฎๆๅคฑ้–ขๆ•ฐใฎๅฐŽๅ…ฅ โœ“ Sim-to-Real ใฎๆŠŠๆŒใ‚ฟใ‚นใ‚ฏใง้ซ˜ใ„็ฒพๅบฆใ‚’็ฒๅพ—