$30 off During Our Annual Pro Sale. View Details »

SSII2023 [OS3] 経験拡張:ロボット学習における仮想経験の⽣成と応⽤

SSII2023 [OS3] 経験拡張:ロボット学習における仮想経験の⽣成と応⽤

堂前幸康(産総研、阪⼤、NAIST)

More Decks by 画像センシングシンポジウム

Other Decks in Science

Transcript

  1. 経験拡張:ロボット学習における
    仮想経験の⽣成と応⽤
    2023.6.16
    堂前 幸康(産総研、阪⼤、NAIST)

    View Slide

  2. 基盤モデルの衝撃

    View Slide

  3. 曖昧な⾃然⾔語指⽰をこなすロボット
    RT-1: Robotics Transformer (robotics-transformer.github.io)

    View Slide

  4. ⾔語・視覚に基づく世界モデルの獲得
    UniPi: Learning universal policies via text-guided video generation – Google AI Blog (googleblog.com)

    View Slide

  5. ピッキングの物理は割り切って考えている.
    吸着グリッパON→⼀番近くの物体をくっつける.
    タスクのAccuracyは46-60%程度.
    UniPi: Learning universal policies via text-guided video generation – Google AI Blog (googleblog.com)
    指⽰テキストと画像から,ロボットが指⽰タスクをおこなう動画を⽣成.
    ⽣成した動画から逆運動学を解く試み.
    世界モデルが⽣成した仮想経験上でロボットが振る舞う.
    Pre-trainingにはテキスト・視覚情報約5億ペアを利⽤.
    Fine-tuningはロボットに特化した7200個のテキスト・動画ペア.
    拡散モデル(動画⽣成)を下流タスク(ロボ)に応⽤.

    View Slide

  6. 指⽰と環境に応じた⾏動を想起できる世界モデルが獲得されている
    UniPi: Learning universal policies via text-guided video generation – Google AI Blog (googleblog.com)

    View Slide

  7. 基盤モデルx ロボティクスの現状
    • WEBから得られる情報だけでロボットを制御する試み
    データ収集コストの⾯で理にかなっている.
    • ⾝体性やダイナミクスが必ずしも⼗分には考慮されていない
    例えば⼒,物理的接触・衝突,摩擦,重⼒など(23年4⽉時点).
    • しかしすごい
    例えば多種センサ併⽤だけでも難しいタスクができるだろう.
    • ダイナミクスに関するデータ収集がさらなる鍵
    シミュレーションなどの簡易なデータ収集⽅法がますます重要.
    どのように経験を⽣成し,拡張し,学習に応⽤するか.

    View Slide

  8. 仮想経験による4⾜歩⾏の習得
    J. Lee, J. Hwangbo, L. Wellhausen, V. Koltun, and M. Hutter,
    “Learning Quadrupedal Locomotion over Challenging Terrain,” Science Robotics, vol. 5, no. 47, 2020.

    View Slide

  9. Simとrealのドメインギャップをどう埋めるか
    Domain Randomization for Sim2Real Transfer | Lil'Log (lilianweng.github.io)

    View Slide

  10. ①システム同定 (System Identification)
    ②ドメイン適応 (Domain Adaptation)
    SimとRealを⽠⼆つに.
    ・正確な物理システム,数学モデル
    ・正確なシミュレーション(nVidiaの未来の⼀つ)
    ・(現実環境を単純化しSimに近づける)
    SimとRealのデータ分布を近づける.
    ・マッピング(simデータ→realデータ変換)
    ・正則化
    ・ドメイン混合(中間ドメインの⽣成)
    ・敵対的ドメイン適応
    ・Real2Sim2Real
    ③ドメイン乱択化 (Domain Randomization)
    Simのデータ分布を広げてRealを包含する.
    Realのデータ分布知識不要(あるにこしたことはない).
    ・⼀様乱拓化
    ・カリキュラム設計(ガイド付き.徐々に分布を絞る)

    View Slide

  11. “⾒え”の乱拓化
    レンダリングを⼀様にランダム化.
    実世界の視覚的変動にロバストに対処.
    積み⽊のピッキングを実現[1].
    [1] Domain randomization for transferring deep neural networks from simulation to the world, J. Tobin, et, el., IROS2017
    [2] SimNet: Enabling Robust Unkown Object Manipulation from Pure Synthetic Data via Stereo, M. Laskey, B. Thananjeyan, et. al., CoRL, 2021.
    レンダリングを⼀様にランダム化.
    あえてロークオリティーなレンダリングを⼤量に⽣成.
    品質でなくデータ量で汎化性を獲得.
    ロークオリティーであれば⼤量データ⽣成も低コスト[2].
    家庭内物品のモバイルマニピュレーションを実現.
    座標,形状,対象・環境の⾊・テクスチャ
    マテリアル,照明条件,画像ノイズ,
    カメラパラメタなどを乱拓化.

    View Slide

  12. 数式による物体形状の乱択化
    : Initial point
    : Transformed point
    : Point movement
    3D fractal model
    Variance
    check
    Ground truth
    generation
    N
    iteration
    Alignment
    3D bounding box & Centroid
    3D fractal scene generation
    3D IFS parameter setting & Affine transform
    x
    y
    z
    Intra-category augmentation
    !!
    =
    $"
    %"
    &"
    '"
    ("
    )"
    *"
    ℎ"
    ,"
    !!#$
    +
    ."
    /"
    0"
    !!
    = −0.40, (!
    = −0.61, +!
    = 0.72,
    /!
    = −0.19, 1!
    = −0.20, 2!
    = −0.22,
    3!
    = 0.96, ℎ!
    = −0.84, 6!
    = −0.53,
    9!
    = −0.48, :!
    = −0.79, ;!
    = 0.83
    1
    ( . = 1,2 … 1)
    After M categories defined
    Category 1
    •••
    Category M-2 Category M-1 Category M
    Category 2 Category 3
    Fractal category definition
    Main: Category M
    Noise: Category 2
    Instance
    augment
    フラクタルにより3D形状をランダム⽣成しシーンに配置.
    少数データをプリトレーニングに活⽤すると3D点群からの
    物体検出(by VoteNet)性能が向上.
    Ryosuke Yamada, et el., “Point Cloud Pre-training with Natural 3D Structure”, CVPR 2022

    View Slide

  13. 数式による物体形状の乱択化
    Depth image
    Grasp-FractalDB
    Pre-training
    Dex-Net 2.0
    Fine-tuning
    GQ-CNN
    Grasping
    experiments
    Estimate grasp quality
    for parallel jaw gripper
    Before(far from CoM) After (more robust grasp)
    with
    Grasp-FractalDB
    Grasp-FractalDB
    Train to predict
    the centroid of the fractal
    Dex-Net 2.0 Grasp-FractalDB (Ours)
    ⼭⽥,他,物体把持の視覚能⼒を⾃動獲得するロボット,SSII2022
    フラクタルで⽣成した物体DBで把持プリトレーニング

    View Slide

  14. “動き”の乱択化
    物体やロボットの質量・⼨法
    摩擦、制御ゲイン(PID),観測ノイズ,
    関節の制約などの物理ダイナミクスに関する
    パラメタを乱択化しながらタスク学習.
    [1808.00177] Learning Dexterous In-Hand Manipulation (arxiv.org)

    View Slide

  15. 乳幼児のランダム動作をもとにしたダイナミクス獲得
    事前学習と擬似リハーサルに利⽤すると
    タスク実⾏能⼒が向上.
    K. Kase, et el., “Robot Task Learning With Motor Babbling Using Pseudo Rehearsal”, RA-L, 2022.
    ・⼈間の乳幼児
    ⼿⾜をランダムに動かし⾝体性を獲得.
    ・モーターバブリング
    ロボットにランダムな制御指令を与える.
    タスク依存性のないダイナミクス獲得⼿段.
    Target Task
    !!
    "!
    #
    !!"#
    Dense
    "!"#
    Motor Command
    Record as Pseudo Babbling Dataset
    !!
    !!"#
    LSTM
    Random
    !!
    !!"#
    Update StepⅠ. Pre-Training
    StepⅡ. Rehearsal
    StepⅢ. Simultaneous Training
    Pseudo
    Babbling
    Pseudo
    Babbling
    Babbling
    ℎ′
    ℎ′
    ℎ′
    LSTM LSTM

    View Slide

  16. カリキュラム学習
    ・問題の難易度を徐々に⾼めながら学習をすることで,
    (強化)学習の効率と,実⾏パフォーマンスを向上させる考え⽅
    図出典:J. Lee, J. Hwangbo, L. Wellhausen, V. Koltun, and M. Hutter,
    “Learning Quadrupedal Locomotion over Challenging Terrain,” Science Robotics, vol. 5, no. 47, 2020.
    ・「現実とは似つかない理想的なデータ分布」で基礎を訓練した後に,
    「段階的に現実に近いデータ分布」に適応していくことになる
    -ドメイン乱択化とドメイン適応を両⽴させるイメージ
    -カリキュラム設計者のスキルに依存
    例1:全てのセンサ情報が完璧でノイズゼロ → 段階的にノイズを付加
    例2:環境を単純なものから複雑なものに徐々に変化(下図)

    View Slide

  17. ペグインホールのゼロショット転移
    “動き”の乱択化を加えながら
    100,000 stepsの学習.
    Zero-shot
    World Robot SummitのAssembly taskで使われた
    ペグインホールタスク.複数種類の対象物に対して,
    ゼロショットでサブミリオーダのはめ合いを実現.
    初期位置誤差,
    物体形状種類,
    クリアランスなどを
    段階的に複雑化していく
    カリキュラムを設計.
    カリキュラム有無で累計報酬が⼤きく変化.
    C. Bertran, et el., “Accelerating Robot Learning of Contact-Rich Manipulations: A Curriculum Learning Study”, arXiv, 2022.
    C. Bertran, et el., “Learning force control for contact-rich manipulation tasks with rigid position-controlled robots”, RA-L, 2020.

    View Slide

  18. 経験拡張
    18
    • 機械学習のデータセットのサイズと多様性を増やす取り組みは,
    ⼀般的にデータ拡張(Data augmentation)と⾔われる
    • これまで⾒てきたように,ロボット学習においては “データ”というより,
    いわば“経験”たる⾏為の獲得が重要
    • つまりデータ拡張ではなく経験拡張(Experience augmentation)
    • ここまで紹介した各種⽅法もその⼀種と捉えることができる
    • また重要なことに,Simは単にデータ拡張をするだけでなく,
    現実で得難い経験を⽣成できる(ノイズゼロ,⾒えない⼒…etc)
    • Sim上での経験を現実に似せることに固執するのではなく,
    ⾮現実の経験で現実を拡張する点に醍醐味があるのではないか

    View Slide

  19. クロスモーダルな表現の学習
    Depth image Stiffness map
    Segmentation image
    Target stiffness
    Hand Model
    4DoF grasp pose
    Stiffness estimation
    Grasp pose detection
    Train

    ⨂ =
    =

    シミュレーション上で,現実では得難い⾒えと柔らかさの関係を学習.
    K. Makihara, et. al., “Grasp pose detection for deformable daily items by pix2stiffness estimation”, Advanced Robotics, 2022.

    View Slide

  20. 推論なし 推論あり
    ⾒えと柔らかさの関係から,ロボットが
    「周辺の柔らかい物体を潰して掴む」
    ピッキング⽅法を会得.
    K. Makihara, et. al., “Grasp pose detection for deformable daily items by pix2stiffness estimation”, Advanced Robotics, 2022.
    Simからrealへのゼロショット転移

    View Slide

  21. ⾒えからの⼒分布の推定
    simulation
    • Kernel Density Estimation
    • moving average on time
    • Domain Randomization
    ResNet50
    Encoder Decoder
    ResNet
    based
    Decoder
    Forcemap
    (contact force label)
    現実では得難い,⾒えと物体間の⼒分布の
    関係を,ドメインランダマイゼーションで
    ⽣成したデータセットをもとに,Enc-Dec
    モデルで学習.
    Force Map: Learning to Predict Contact Force Distribution from Vision (ryhanai.github.io)

    View Slide

  22. unknown objects
    dynamic scene
    Simからrealへのゼロショット転移
    Force Map: Learning to Predict Contact Force Distribution from Vision (ryhanai.github.io)
    ⼈間が視覚からダイナミクスを推定するときのような,おおまかな⼒の分布が把握できている.

    View Slide

  23. まとめ
    ・⾔語と視覚に関しては基盤モデルの基礎が構築された
    ・今後はそこに⾝体性やダイナミクスが加わっていく
    ・シミュレーションはダイナミクスに関するデータ収集に有効
    ・simとrealのドメインギャップを埋める⼿法の進化により,
    4⾜歩⾏,ピッキングやペグインホールなどの難しいタスクを,
    実世界のロボットがゼロショットでできるところまできている
    ・シミュレーションなどで,現実では得難い経験を獲得できる
    クロスモーダルな表現の学習に適している.
    実世界ゼロショットで⾒えから⼒の分布を想起できるように.
    たのしい時代になってきたのでは.

    View Slide

  24. ご清聴ありがとうございました. Special thanks to
    Automaton Research Team | ART, AIST
    Ryo Hanai Ixchel Ramirez Koshi Makihara
    Tetsuya Ogata
    Kensuke Harada
    Hirokatsu Kataoka Ryosuke Yamada
    Kei Kase

    View Slide