Slide 1

Slide 1 text

経験拡張:ロボット学習における 仮想経験の⽣成と応⽤ 2023.6.16 堂前 幸康(産総研、阪⼤、NAIST)

Slide 2

Slide 2 text

基盤モデルの衝撃

Slide 3

Slide 3 text

曖昧な⾃然⾔語指⽰をこなすロボット RT-1: Robotics Transformer (robotics-transformer.github.io)

Slide 4

Slide 4 text

⾔語・視覚に基づく世界モデルの獲得 UniPi: Learning universal policies via text-guided video generation – Google AI Blog (googleblog.com)

Slide 5

Slide 5 text

ピッキングの物理は割り切って考えている. 吸着グリッパON→⼀番近くの物体をくっつける. タスクのAccuracyは46-60%程度. UniPi: Learning universal policies via text-guided video generation – Google AI Blog (googleblog.com) 指⽰テキストと画像から,ロボットが指⽰タスクをおこなう動画を⽣成. ⽣成した動画から逆運動学を解く試み. 世界モデルが⽣成した仮想経験上でロボットが振る舞う. Pre-trainingにはテキスト・視覚情報約5億ペアを利⽤. Fine-tuningはロボットに特化した7200個のテキスト・動画ペア. 拡散モデル(動画⽣成)を下流タスク(ロボ)に応⽤.

Slide 6

Slide 6 text

指⽰と環境に応じた⾏動を想起できる世界モデルが獲得されている UniPi: Learning universal policies via text-guided video generation – Google AI Blog (googleblog.com)

Slide 7

Slide 7 text

基盤モデルx ロボティクスの現状 • WEBから得られる情報だけでロボットを制御する試み データ収集コストの⾯で理にかなっている. • ⾝体性やダイナミクスが必ずしも⼗分には考慮されていない 例えば⼒,物理的接触・衝突,摩擦,重⼒など(23年4⽉時点). • しかしすごい 例えば多種センサ併⽤だけでも難しいタスクができるだろう. • ダイナミクスに関するデータ収集がさらなる鍵 シミュレーションなどの簡易なデータ収集⽅法がますます重要. どのように経験を⽣成し,拡張し,学習に応⽤するか.

Slide 8

Slide 8 text

仮想経験による4⾜歩⾏の習得 J. Lee, J. Hwangbo, L. Wellhausen, V. Koltun, and M. Hutter, “Learning Quadrupedal Locomotion over Challenging Terrain,” Science Robotics, vol. 5, no. 47, 2020.

Slide 9

Slide 9 text

Simとrealのドメインギャップをどう埋めるか Domain Randomization for Sim2Real Transfer | Lil'Log (lilianweng.github.io)

Slide 10

Slide 10 text

①システム同定 (System Identification) ②ドメイン適応 (Domain Adaptation) SimとRealを⽠⼆つに. ・正確な物理システム,数学モデル ・正確なシミュレーション(nVidiaの未来の⼀つ) ・(現実環境を単純化しSimに近づける) SimとRealのデータ分布を近づける. ・マッピング(simデータ→realデータ変換) ・正則化 ・ドメイン混合(中間ドメインの⽣成) ・敵対的ドメイン適応 ・Real2Sim2Real ③ドメイン乱択化 (Domain Randomization) Simのデータ分布を広げてRealを包含する. Realのデータ分布知識不要(あるにこしたことはない). ・⼀様乱拓化 ・カリキュラム設計(ガイド付き.徐々に分布を絞る)

Slide 11

Slide 11 text

“⾒え”の乱拓化 レンダリングを⼀様にランダム化. 実世界の視覚的変動にロバストに対処. 積み⽊のピッキングを実現[1]. [1] Domain randomization for transferring deep neural networks from simulation to the world, J. Tobin, et, el., IROS2017 [2] SimNet: Enabling Robust Unkown Object Manipulation from Pure Synthetic Data via Stereo, M. Laskey, B. Thananjeyan, et. al., CoRL, 2021. レンダリングを⼀様にランダム化. あえてロークオリティーなレンダリングを⼤量に⽣成. 品質でなくデータ量で汎化性を獲得. ロークオリティーであれば⼤量データ⽣成も低コスト[2]. 家庭内物品のモバイルマニピュレーションを実現. 座標,形状,対象・環境の⾊・テクスチャ マテリアル,照明条件,画像ノイズ, カメラパラメタなどを乱拓化.

Slide 12

Slide 12 text

数式による物体形状の乱択化 : Initial point : Transformed point : Point movement 3D fractal model Variance check Ground truth generation N iteration Alignment 3D bounding box & Centroid 3D fractal scene generation 3D IFS parameter setting & Affine transform x y z Intra-category augmentation !! = $" %" &" '" (" )" *" ℎ" ," !!#$ + ." /" 0" !! = −0.40, (! = −0.61, +! = 0.72, /! = −0.19, 1! = −0.20, 2! = −0.22, 3! = 0.96, ℎ! = −0.84, 6! = −0.53, 9! = −0.48, :! = −0.79, ;! = 0.83 1 ( . = 1,2 … 1) After M categories defined Category 1 ••• Category M-2 Category M-1 Category M Category 2 Category 3 Fractal category definition Main: Category M Noise: Category 2 Instance augment フラクタルにより3D形状をランダム⽣成しシーンに配置. 少数データをプリトレーニングに活⽤すると3D点群からの 物体検出(by VoteNet)性能が向上. Ryosuke Yamada, et el., “Point Cloud Pre-training with Natural 3D Structure”, CVPR 2022

Slide 13

Slide 13 text

数式による物体形状の乱択化 Depth image Grasp-FractalDB Pre-training Dex-Net 2.0 Fine-tuning GQ-CNN Grasping experiments Estimate grasp quality for parallel jaw gripper Before(far from CoM) After (more robust grasp) with Grasp-FractalDB Grasp-FractalDB Train to predict the centroid of the fractal Dex-Net 2.0 Grasp-FractalDB (Ours) ⼭⽥,他,物体把持の視覚能⼒を⾃動獲得するロボット,SSII2022 フラクタルで⽣成した物体DBで把持プリトレーニング

Slide 14

Slide 14 text

“動き”の乱択化 物体やロボットの質量・⼨法 摩擦、制御ゲイン(PID),観測ノイズ, 関節の制約などの物理ダイナミクスに関する パラメタを乱択化しながらタスク学習. [1808.00177] Learning Dexterous In-Hand Manipulation (arxiv.org)

Slide 15

Slide 15 text

乳幼児のランダム動作をもとにしたダイナミクス獲得 事前学習と擬似リハーサルに利⽤すると タスク実⾏能⼒が向上. K. Kase, et el., “Robot Task Learning With Motor Babbling Using Pseudo Rehearsal”, RA-L, 2022. ・⼈間の乳幼児 ⼿⾜をランダムに動かし⾝体性を獲得. ・モーターバブリング ロボットにランダムな制御指令を与える. タスク依存性のないダイナミクス獲得⼿段. Target Task !! "! # !!"# Dense "!"# Motor Command Record as Pseudo Babbling Dataset !! !!"# LSTM Random !! !!"# Update StepⅠ. Pre-Training StepⅡ. Rehearsal StepⅢ. Simultaneous Training Pseudo Babbling Pseudo Babbling Babbling ℎ′ ℎ′ ℎ′ LSTM LSTM

Slide 16

Slide 16 text

カリキュラム学習 ・問題の難易度を徐々に⾼めながら学習をすることで, (強化)学習の効率と,実⾏パフォーマンスを向上させる考え⽅ 図出典:J. Lee, J. Hwangbo, L. Wellhausen, V. Koltun, and M. Hutter, “Learning Quadrupedal Locomotion over Challenging Terrain,” Science Robotics, vol. 5, no. 47, 2020. ・「現実とは似つかない理想的なデータ分布」で基礎を訓練した後に, 「段階的に現実に近いデータ分布」に適応していくことになる -ドメイン乱択化とドメイン適応を両⽴させるイメージ -カリキュラム設計者のスキルに依存 例1:全てのセンサ情報が完璧でノイズゼロ → 段階的にノイズを付加 例2:環境を単純なものから複雑なものに徐々に変化(下図)

Slide 17

Slide 17 text

ペグインホールのゼロショット転移 “動き”の乱択化を加えながら 100,000 stepsの学習. Zero-shot World Robot SummitのAssembly taskで使われた ペグインホールタスク.複数種類の対象物に対して, ゼロショットでサブミリオーダのはめ合いを実現. 初期位置誤差, 物体形状種類, クリアランスなどを 段階的に複雑化していく カリキュラムを設計. カリキュラム有無で累計報酬が⼤きく変化. C. Bertran, et el., “Accelerating Robot Learning of Contact-Rich Manipulations: A Curriculum Learning Study”, arXiv, 2022. C. Bertran, et el., “Learning force control for contact-rich manipulation tasks with rigid position-controlled robots”, RA-L, 2020.

Slide 18

Slide 18 text

経験拡張 18 • 機械学習のデータセットのサイズと多様性を増やす取り組みは, ⼀般的にデータ拡張(Data augmentation)と⾔われる • これまで⾒てきたように,ロボット学習においては “データ”というより, いわば“経験”たる⾏為の獲得が重要 • つまりデータ拡張ではなく経験拡張(Experience augmentation) • ここまで紹介した各種⽅法もその⼀種と捉えることができる • また重要なことに,Simは単にデータ拡張をするだけでなく, 現実で得難い経験を⽣成できる(ノイズゼロ,⾒えない⼒…etc) • Sim上での経験を現実に似せることに固執するのではなく, ⾮現実の経験で現実を拡張する点に醍醐味があるのではないか

Slide 19

Slide 19 text

クロスモーダルな表現の学習 Depth image Stiffness map Segmentation image Target stiffness Hand Model 4DoF grasp pose Stiffness estimation Grasp pose detection Train ⨂ ⨂ = = ∩ シミュレーション上で,現実では得難い⾒えと柔らかさの関係を学習. K. Makihara, et. al., “Grasp pose detection for deformable daily items by pix2stiffness estimation”, Advanced Robotics, 2022.

Slide 20

Slide 20 text

推論なし 推論あり ⾒えと柔らかさの関係から,ロボットが 「周辺の柔らかい物体を潰して掴む」 ピッキング⽅法を会得. K. Makihara, et. al., “Grasp pose detection for deformable daily items by pix2stiffness estimation”, Advanced Robotics, 2022. Simからrealへのゼロショット転移

Slide 21

Slide 21 text

⾒えからの⼒分布の推定 simulation • Kernel Density Estimation • moving average on time • Domain Randomization ResNet50 Encoder Decoder ResNet based Decoder Forcemap (contact force label) 現実では得難い,⾒えと物体間の⼒分布の 関係を,ドメインランダマイゼーションで ⽣成したデータセットをもとに,Enc-Dec モデルで学習. Force Map: Learning to Predict Contact Force Distribution from Vision (ryhanai.github.io)

Slide 22

Slide 22 text

unknown objects dynamic scene Simからrealへのゼロショット転移 Force Map: Learning to Predict Contact Force Distribution from Vision (ryhanai.github.io) ⼈間が視覚からダイナミクスを推定するときのような,おおまかな⼒の分布が把握できている.

Slide 23

Slide 23 text

まとめ ・⾔語と視覚に関しては基盤モデルの基礎が構築された ・今後はそこに⾝体性やダイナミクスが加わっていく ・シミュレーションはダイナミクスに関するデータ収集に有効 ・simとrealのドメインギャップを埋める⼿法の進化により, 4⾜歩⾏,ピッキングやペグインホールなどの難しいタスクを, 実世界のロボットがゼロショットでできるところまできている ・シミュレーションなどで,現実では得難い経験を獲得できる クロスモーダルな表現の学習に適している. 実世界ゼロショットで⾒えから⼒の分布を想起できるように. たのしい時代になってきたのでは.

Slide 24

Slide 24 text

ご清聴ありがとうございました. Special thanks to Automaton Research Team | ART, AIST Ryo Hanai Ixchel Ramirez Koshi Makihara Tetsuya Ogata Kensuke Harada Hirokatsu Kataoka Ryosuke Yamada Kei Kase