SSII2023 [OS3] 経験拡張:ロボット学習における仮想経験の⽣成と応⽤

経験拡張:ロボット学習における仮想経験の⽣成と応⽤ 2023.6.16 堂前幸康（産総研、阪⼤、NAIST）

基盤モデルの衝撃

曖昧な⾃然⾔語指⽰をこなすロボット RT-1: Robotics Transformer (robotics-transformer.github.io)

⾔語・視覚に基づく世界モデルの獲得 UniPi: Learning universal policies via text-guided video generation –
Google AI Blog (googleblog.com)

ピッキングの物理は割り切って考えている．吸着グリッパON→⼀番近くの物体をくっつける．タスクのAccuracyは46-60%程度． UniPi: Learning universal policies via text-guided video
generation – Google AI Blog (googleblog.com) 指⽰テキストと画像から，ロボットが指⽰タスクをおこなう動画を⽣成．⽣成した動画から逆運動学を解く試み．世界モデルが⽣成した仮想経験上でロボットが振る舞う． Pre-trainingにはテキスト・視覚情報約5億ペアを利⽤． Fine-tuningはロボットに特化した7200個のテキスト・動画ペア．拡散モデル（動画⽣成）を下流タスク（ロボ）に応⽤．

指⽰と環境に応じた⾏動を想起できる世界モデルが獲得されている UniPi: Learning universal policies via text-guided video generation –
Google AI Blog (googleblog.com)

基盤モデルx ロボティクスの現状 • WEBから得られる情報だけでロボットを制御する試みデータ収集コストの⾯で理にかなっている． • ⾝体性やダイナミクスが必ずしも⼗分には考慮されていない例えば⼒，物理的接触・衝突，摩擦，重⼒など（23年4⽉時点）． • しかしすごい
例えば多種センサ併⽤だけでも難しいタスクができるだろう． • ダイナミクスに関するデータ収集がさらなる鍵シミュレーションなどの簡易なデータ収集⽅法がますます重要．どのように経験を⽣成し，拡張し，学習に応⽤するか．

仮想経験による４⾜歩⾏の習得 J. Lee, J. Hwangbo, L. Wellhausen, V. Koltun, and
M. Hutter, “Learning Quadrupedal Locomotion over Challenging Terrain,” Science Robotics, vol. 5, no. 47, 2020.

Simとrealのドメインギャップをどう埋めるか Domain Randomization for Sim2Real Transfer | Lil'Log (lilianweng.github.io)

①システム同定 (System Identification) ②ドメイン適応 (Domain Adaptation) SimとRealを⽠⼆つに．・正確な物理システム，数学モデル・正確なシミュレーション（nVidiaの未来の⼀つ）・（現実環境を単純化しSimに近づける）
SimとRealのデータ分布を近づける．・マッピング（simデータ→realデータ変換）・正則化・ドメイン混合（中間ドメインの⽣成）・敵対的ドメイン適応・Real2Sim2Real ③ドメイン乱択化 (Domain Randomization) Simのデータ分布を広げてRealを包含する． Realのデータ分布知識不要(あるにこしたことはない)．・⼀様乱拓化・カリキュラム設計（ガイド付き．徐々に分布を絞る）

“⾒え”の乱拓化レンダリングを⼀様にランダム化．実世界の視覚的変動にロバストに対処．積み⽊のピッキングを実現[1]． [1] Domain randomization for transferring deep
neural networks from simulation to the world, J. Tobin, et, el., IROS2017 [2] SimNet: Enabling Robust Unkown Object Manipulation from Pure Synthetic Data via Stereo, M. Laskey, B. Thananjeyan, et. al., CoRL, 2021. レンダリングを⼀様にランダム化．あえてロークオリティーなレンダリングを⼤量に⽣成．品質でなくデータ量で汎化性を獲得．ロークオリティーであれば⼤量データ⽣成も低コスト[2]．家庭内物品のモバイルマニピュレーションを実現．座標，形状，対象・環境の⾊・テクスチャマテリアル，照明条件，画像ノイズ，カメラパラメタなどを乱拓化．

数式による物体形状の乱択化 : Initial point : Transformed point : Point movement
3D fractal model Variance check Ground truth generation N iteration Alignment 3D bounding box & Centroid 3D fractal scene generation 3D IFS parameter setting & Affine transform x y z Intra-category augmentation !! = $" %" &" '" (" )" *" ℎ" ," !!#$ + ." /" 0" !! = −0.40, (! = −0.61, +! = 0.72, /! = −0.19, 1! = −0.20, 2! = −0.22, 3! = 0.96, ℎ! = −0.84, 6! = −0.53, 9! = −0.48, :! = −0.79, ;! = 0.83 1 ( . = 1,2 … 1) After M categories defined Category 1 ••• Category M-2 Category M-1 Category M Category 2 Category 3 Fractal category definition Main: Category M Noise: Category 2 Instance augment フラクタルにより３D形状をランダム⽣成しシーンに配置．少数データをプリトレーニングに活⽤すると3D点群からの物体検出(by VoteNet)性能が向上． Ryosuke Yamada, et el., “Point Cloud Pre-training with Natural 3D Structure”, CVPR 2022

数式による物体形状の乱択化 Depth image Grasp-FractalDB Pre-training Dex-Net 2.0 Fine-tuning GQ-CNN Grasping
experiments Estimate grasp quality for parallel jaw gripper Before(far from CoM) After (more robust grasp) with Grasp-FractalDB Grasp-FractalDB Train to predict the centroid of the fractal Dex-Net 2.0 Grasp-FractalDB (Ours) ⼭⽥，他，物体把持の視覚能⼒を⾃動獲得するロボット，SSII2022 フラクタルで⽣成した物体DBで把持プリトレーニング

“動き”の乱択化物体やロボットの質量・⼨法摩擦、制御ゲイン（PID），観測ノイズ，関節の制約などの物理ダイナミクスに関するパラメタを乱択化しながらタスク学習． [1808.00177] Learning Dexterous In-Hand Manipulation
(arxiv.org)

乳幼児のランダム動作をもとにしたダイナミクス獲得事前学習と擬似リハーサルに利⽤するとタスク実⾏能⼒が向上． K. Kase, et el., “Robot Task Learning
With Motor Babbling Using Pseudo Rehearsal”, RA-L, 2022. ・⼈間の乳幼児⼿⾜をランダムに動かし⾝体性を獲得．・モーターバブリングロボットにランダムな制御指令を与える．タスク依存性のないダイナミクス獲得⼿段． Target Task !! "! # !!"# Dense "!"# Motor Command Record as Pseudo Babbling Dataset !! !!"# LSTM Random !! !!"# Update StepⅠ. Pre-Training StepⅡ. Rehearsal StepⅢ. Simultaneous Training Pseudo Babbling Pseudo Babbling Babbling ℎ′ ℎ′ ℎ′ LSTM LSTM

カリキュラム学習・問題の難易度を徐々に⾼めながら学習をすることで，（強化）学習の効率と，実⾏パフォーマンスを向上させる考え⽅図出典：J. Lee, J. Hwangbo, L. Wellhausen, V.
Koltun, and M. Hutter, “Learning Quadrupedal Locomotion over Challenging Terrain,” Science Robotics, vol. 5, no. 47, 2020. ・「現実とは似つかない理想的なデータ分布」で基礎を訓練した後に，「段階的に現実に近いデータ分布」に適応していくことになる -ドメイン乱択化とドメイン適応を両⽴させるイメージ -カリキュラム設計者のスキルに依存例１：全てのセンサ情報が完璧でノイズゼロ → 段階的にノイズを付加例２：環境を単純なものから複雑なものに徐々に変化（下図）

ペグインホールのゼロショット転移 “動き”の乱択化を加えながら 100,000 stepsの学習． Zero-shot World Robot SummitのAssembly taskで使われたペグインホールタスク．複数種類の対象物に対して，
ゼロショットでサブミリオーダのはめ合いを実現．初期位置誤差，物体形状種類，クリアランスなどを段階的に複雑化していくカリキュラムを設計．カリキュラム有無で累計報酬が⼤きく変化． C. Bertran, et el., “Accelerating Robot Learning of Contact-Rich Manipulations: A Curriculum Learning Study”, arXiv, 2022. C. Bertran, et el., “Learning force control for contact-rich manipulation tasks with rigid position-controlled robots”, RA-L, 2020.

経験拡張 18 • 機械学習のデータセットのサイズと多様性を増やす取り組みは，⼀般的にデータ拡張(Data augmentation)と⾔われる • これまで⾒てきたように，ロボット学習においては “データ”というより，いわば“経験”たる⾏為の獲得が重要
• つまりデータ拡張ではなく経験拡張（Experience augmentation） • ここまで紹介した各種⽅法もその⼀種と捉えることができる • また重要なことに，Simは単にデータ拡張をするだけでなく，現実で得難い経験を⽣成できる（ノイズゼロ，⾒えない⼒…etc） • Sim上での経験を現実に似せることに固執するのではなく，⾮現実の経験で現実を拡張する点に醍醐味があるのではないか

クロスモーダルな表現の学習 Depth image Stiffness map Segmentation image Target stiffness Hand
Model 4DoF grasp pose Stiffness estimation Grasp pose detection Train ⨂ ⨂ = = ∩ シミュレーション上で，現実では得難い⾒えと柔らかさの関係を学習． K. Makihara, et. al., “Grasp pose detection for deformable daily items by pix2stiffness estimation”, Advanced Robotics, 2022.

推論なし推論あり⾒えと柔らかさの関係から，ロボットが「周辺の柔らかい物体を潰して掴む」ピッキング⽅法を会得． K. Makihara, et. al., “Grasp
pose detection for deformable daily items by pix2stiffness estimation”, Advanced Robotics, 2022. Simからrealへのゼロショット転移

⾒えからの⼒分布の推定 simulation • Kernel Density Estimation • moving average on
time • Domain Randomization ResNet50 Encoder Decoder ResNet based Decoder Forcemap (contact force label) 現実では得難い，⾒えと物体間の⼒分布の関係を，ドメインランダマイゼーションで⽣成したデータセットをもとに，Enc-Dec モデルで学習． Force Map: Learning to Predict Contact Force Distribution from Vision (ryhanai.github.io)

unknown objects dynamic scene Simからrealへのゼロショット転移 Force Map: Learning to Predict
Contact Force Distribution from Vision (ryhanai.github.io) ⼈間が視覚からダイナミクスを推定するときのような，おおまかな⼒の分布が把握できている．

まとめ・⾔語と視覚に関しては基盤モデルの基礎が構築された・今後はそこに⾝体性やダイナミクスが加わっていく・シミュレーションはダイナミクスに関するデータ収集に有効・simとrealのドメインギャップを埋める⼿法の進化により，４⾜歩⾏，ピッキングやペグインホールなどの難しいタスクを，実世界のロボットがゼロショットでできるところまできている・シミュレーションなどで，現実では得難い経験を獲得できるクロスモーダルな表現の学習に適している．実世界ゼロショットで⾒えから⼒の分布を想起できるように．
たのしい時代になってきたのでは．

ご清聴ありがとうございました. Special thanks to Automaton Research Team | ART, AIST
Ryo Hanai Ixchel Ramirez Koshi Makihara Tetsuya Ogata Kensuke Harada Hirokatsu Kataoka Ryosuke Yamada Kei Kase

SSII2023 [OS3] 経験拡張:ロボット学習における仮想経験の⽣成と応⽤

SSII2023 [OS3] 経験拡張:ロボット学習における仮想経験の⽣成と応⽤

画像センシングシンポジウム PRO

More Decks by 画像センシングシンポジウム

Other Decks in Science

Featured

Transcript

経験拡張:ロボット学習における仮想経験の⽣成と応⽤ 2023.6.16 堂前幸康（産総研、阪⼤、NAIST）

基盤モデルの衝撃

曖昧な⾃然⾔語指⽰をこなすロボット RT-1: Robotics Transformer (robotics-transformer.github.io)

⾔語・視覚に基づく世界モデルの獲得 UniPi: Learning universal policies via text-guided video generation –

ピッキングの物理は割り切って考えている．吸着グリッパON→⼀番近くの物体をくっつける．タスクのAccuracyは46-60%程度． UniPi: Learning universal policies via text-guided video

指⽰と環境に応じた⾏動を想起できる世界モデルが獲得されている UniPi: Learning universal policies via text-guided video generation –

仮想経験による４⾜歩⾏の習得 J. Lee, J. Hwangbo, L. Wellhausen, V. Koltun, and

Simとrealのドメインギャップをどう埋めるか Domain Randomization for Sim2Real Transfer | Lil'Log (lilianweng.github.io)

①システム同定 (System Identification) ②ドメイン適応 (Domain Adaptation) SimとRealを⽠⼆つに．・正確な物理システム，数学モデル・正確なシミュレーション（nVidiaの未来の⼀つ）・（現実環境を単純化しSimに近づける）

“⾒え”の乱拓化レンダリングを⼀様にランダム化．実世界の視覚的変動にロバストに対処．積み⽊のピッキングを実現[1]． [1] Domain randomization for transferring deep

数式による物体形状の乱択化 : Initial point : Transformed point : Point movement

数式による物体形状の乱択化 Depth image Grasp-FractalDB Pre-training Dex-Net 2.0 Fine-tuning GQ-CNN Grasping

“動き”の乱択化物体やロボットの質量・⼨法摩擦、制御ゲイン（PID），観測ノイズ，関節の制約などの物理ダイナミクスに関するパラメタを乱択化しながらタスク学習． [1808.00177] Learning Dexterous In-Hand Manipulation

乳幼児のランダム動作をもとにしたダイナミクス獲得事前学習と擬似リハーサルに利⽤するとタスク実⾏能⼒が向上． K. Kase, et el., “Robot Task Learning

カリキュラム学習・問題の難易度を徐々に⾼めながら学習をすることで，（強化）学習の効率と，実⾏パフォーマンスを向上させる考え⽅図出典：J. Lee, J. Hwangbo, L. Wellhausen, V.

ペグインホールのゼロショット転移 “動き”の乱択化を加えながら 100,000 stepsの学習． Zero-shot World Robot SummitのAssembly taskで使われたペグインホールタスク．複数種類の対象物に対して，

クロスモーダルな表現の学習 Depth image Stiffness map Segmentation image Target stiffness Hand

推論なし推論あり⾒えと柔らかさの関係から，ロボットが「周辺の柔らかい物体を潰して掴む」ピッキング⽅法を会得． K. Makihara, et. al., “Grasp

⾒えからの⼒分布の推定 simulation • Kernel Density Estimation • moving average on

unknown objects dynamic scene Simからrealへのゼロショット転移 Force Map: Learning to Predict

ご清聴ありがとうございました. Special thanks to Automaton Research Team | ART, AIST