SSII2024 [OS1] 現場の課題を解決するロボットラーニング

Slide 1

Slide 1 text

現場の課題を解決するロボットラーニング 2024.6.12 濵屋政志（オムロンサイニックエックス株式会社）

Slide 2

Slide 2 text

概要実応用に向けたロボット運動学習に関する研究を紹介１. 部品組立 2. 科学実験 3.調理 4. ロボット制御を支える機械学習・強化学習 2/32

Slide 3

Slide 3 text

部品組立目標：人と同じ環境で部品組立を行う従来技術：繰り返し動作で作業を行えるように環境を整備挑戦：整備されていない環境での部品組立アプローチ：柔軟なロボットによる運動学習一般的なロボットによる部品組立 (固定具や入念な動作の設計が必要) 人による部品組立 (部品の位置のばらつきに適応可能) 3/32

Slide 4

Slide 4 text

1. 柔軟手首機構 • ケーブル駆動の柔剛切り替え可能な手首 • 3個のバネでグリッパとアームを接続、6自由度の変位が可能 A compact, cable-driven, activatable soft robot wrist for assembly [Tanaka and Drigalski et al., IROS 2020] Soft Hard 柔剛切り替え設計概要図ペグイン課題における比較 4/32

Slide 5

Slide 5 text

2. 柔軟ロボ強化学習 • サブタスク区分化とモデルベース強化学習による効率化 • 各サブタスクを2-3回の試行回数で学習 Learning robotic assembly tasks with lower dimensional systems by leveraging physical softness and environmental constraints [Hamaya et al., ICRA 2020] サブタスク区分化による低次元空間表現学習後の部品挿入 5/32

Slide 6

Slide 6 text

3. 教示を使用した柔軟ロボ強化学習 • ロボットの指先の形状に似た教示デバイスを設計 • モデルベース深層強化学習で効率的に学習 Learning soft robotic assembly strategies from successful and failed demonstrations [Hamaya et al., IROS 2020] 教示デバイスによる教示学習過程 6/32

Slide 7

Slide 7 text

4. 人の物理的相互作用による柔軟ロボット強化学習 • 誘導・敵対インタラクションにより学習を効率・頑健化 Robotic learning from advisory and adversarial interactions using a soft wrist [Hamaya et al., RA-L 2021] 誘導・敵対インタラクション異なる材質のペグの挿入 7/32

Slide 8

Slide 8 text

5. 柔軟ロボ転移強化学習 • 複数のダイナミクスモデルを集約し、未知環境に迅速に適応 TRANS-AM: Transfer learning by aggregating dynamics models for soft robotic assembly [Tanaka et al., ICRA 2021] ダイナミクスモデル集約異なる角度の穴を持つ環境への転移 8/32

Slide 9

Slide 9 text

6. 触覚を利用した学習 • 触覚を活用し、部品の把持姿勢と穴の位置の不確実性に対処 Learning robotic assembly by leveraging physical softness and tactile sensing [Miquel et al., IROS 2023] 様々な把持姿勢と異なる直径のペグ挿入触覚による穴検知 9/32

Slide 10

Slide 10 text

7. 力覚と幾何的対称性を活用した強化学習 • 力覚によるモーションキャプチャを使用しない強化学習 • 部品の幾何的な対称性を利用した効率的な学習 Symmetry-aware reinforcement learning for robotic assembly under partial observability with a soft wrist [Nguyen et al., ICRA 2024] 従来研究(モーキャプ利用) 対象性を利用し、3時間で部品挿入を学習 10/32

Slide 11

Slide 11 text

8. 柔軟ロボのSim-to-real転移強化学習 • Sim-to-realによるゼロショット転移強化学習 • 柔軟ロボの制御方策と状態推定をteacher-studentで学習 Robotic object insertion with a soft wrist through sim-to-real Privileged Training [Fuchioka et al., under review] teacher-student 様々な把持位置での挿入 11/32

Slide 12

Slide 12 text

9. 接触や画像を使用した把持姿勢推定 • サブmmの姿勢推定誤差を実現 Precise multi-modal in-hand pose estimation using low-precision sensors for robotic assembly [Drigalski et al., ICRA 2021] Uncertain pose after grasping High confidence Touch tip Touch side Actions to reduce uncertainty Look 地面や角に触れる動作、部品を見る動作 12/32

Slide 13

Slide 13 text

10. ロボット行動による物体姿勢推定 • 把持や押す動作によって物体姿勢の不確実性を減少させる Uncertainty-aware manipulation planning using gravity and environment geometry [Drigalski et al., RA-L 2022] 13/32

Slide 14

Slide 14 text

11. 触覚による把持トルク推定 • 電磁気学に着想を得た画像型触覚センサのトルク推定方法 An electromagnetism-inspired method for estimating in-grasp torque from visuotactile sensors [Fuchioka and Hamaya, ICRA 2024] 画像型触覚センサのトルク推定 FTセンサによるトルクの真値真値との高い相関 USB挿入への応用電磁気学の双極子モーメントと触覚の分布 14/32

Slide 15

Slide 15 text

12. 腱駆動ロボット • 駆動部を根元に集約し、軽量なアームを設計 Twist Snake: Plastic table-top cable-driven robotic arm with all motors located at the base link [Tanaka and Hamaya, ICRA 2023] 7個のモーターを根元に集約柔らかさと俊敏さを同時に持つ 15/32

Slide 16

Slide 16 text

科学実験目標：人と同じ環境で実験できるロボット挑戦：整備されていない環境、細かい実験条件への適応アプローチ：柔軟なロボットや運動学習を使用 16/32

Slide 17

Slide 17 text

13. 粉体粉砕ロボット • 柔軟治具と画像フィードバックを使用した粉体粉砕 Robotic powder grinding with a soft jig for laboratory automation in material science [Nakajima et al., IROS 2022] 17/32

Slide 18

Slide 18 text

14. 音を使用した粉体粉砕ロボット • 音を使用し、粉体の状態を推定 • 画像フィードバックと組み合わせることで、より効率的に粉砕 Robotic powder grinding with audio-visual feedback for laboratory automation in materials science [Nakajima et al., IROS 2023] 18/32

Slide 19

Slide 19 text

15. Sim-to-real 粉砕秤量学習 • シミュレータで秤量を強化学習し、ゼロショットで転移 • 4種類の粉体を5mgの目標質量で誤差0.2mgを実現 Learning robotic powder weighing from simulation for laboratory automation [Kadokawa et al., IROS 2023] Isaac Gymによるシミュレータ小麦粉・米粉・塩・活性炭の秤量 19/32

Slide 20

Slide 20 text

16. 触覚を使用した塑性物体秤量 • 触覚から硬さなどの物性違いを計測 • 触覚と手先軌道から掬い上げる量を予測するモデルを学習 Learning scooping deformable plastic objects using tactile sensors [Kageyama et al., CASE 2024] キネティックサンド(粘塑性のある砂)の掬い上げ 20/32

Slide 21

Slide 21 text

調理目標：言語指示で一連の調理ができるロボット挑戦：食材のバリエーションの対処、長期的な作業計画アプローチ：食材を扱う運動学習、LLMによる作業計画 21/32

Slide 22

Slide 22 text

17. 触覚を使用した脆弱物体把持学習 • 食材の破壊経験から破壊のタイミングを予測するモデルを学習 • 破壊する寸前で食材を把持 Learning by breaking: food fracture anticipation for robotic food manipulation [Ishikawa et al., ACCESS 2022] 豆腐・バナナ・ポテトチップスの把持食材を破壊しながら学習 22/32

Slide 23

Slide 23 text

18. 再生可能脆弱物体による把持学習 • ゼラチンやブロックなどの破壊経験とメタ学習を活用 Learning food picking without food: fracture anticipation by breaking reusable fragile objects [Yagawa et al., ICRA 2023] 23/32

Slide 24

Slide 24 text

19. 野菜カット学習 • Real-to-sim-to-realによる野菜カット学習 SliceIt!--A dual simulator framework for learning robot food slicing [Beltran-Hernandez and Erbetti et al., ICRA 2024] 24/32

Slide 25

Slide 25 text

20. 自然言語によるロボット言語生成 • 自然言語と画像からLLMでプランニング言語(PDDL)を生成 Vision-language interpreter for robot task planning [Shirai et al., ICRA 2024] 25/32

Slide 26

Slide 26 text

21. 長期的なロボット調理作業計画 • プランニング言語(PDDL)から一連の調理動作を実行 Integrated task and motion planning for real-world cooking tasks [Siburian and Beltran-Hernandez et al., ICRA2024 Workshop on Cooking Robotics] 26/32

Slide 27

Slide 27 text

ロボット制御を支える機械学習・強化学習 • ロボット制御全般に使用できる機械学習や強化学習手法を研究 • 社内外の機械学習系の研究者とコラボレーション 27/32

Slide 28

Slide 28 text

22. Sim-to-real転移学習 • 明示的(質量や摩擦)・暗示的(物体の形状など)パラメータで条件付け • トレーニング時には明示的パラメータを与えてネットワークを学習 • 未知環境テスト時には、明示的・暗示的パラメータをオンラインで推定 EXI-Net: EXplicitly/implicitly conditioned network for multiple environment sim-to-real transfer [Murooka et al., CoRL 2020] 28/32

Slide 29

Slide 29 text

23. 外乱オブザーバー学習 • 順ダイナミクスモデルを学習し、外乱を推定 Iterative backpropagation disturbance observer with forward dynamics model [Murooka et al., CASE 2021] 29/32

Slide 30

Slide 30 text

24. 未知環境に適応する転移強化学習 • 学習済み方策を重み付け和で集約し、迅速に未知環境に適応 MULTIPOLAR: Multi-source policy aggregation for transfer reinforcement learning between diverse environmental dynamics [Barekatain et al., IJCAI 2020] State 𝑠𝑠𝑡𝑡 Auxiliary network for predicting residuals: 𝐹𝐹aux 𝑠𝑠𝑡𝑡 ; 𝜃𝜃aux 𝜃𝜃aux Continuous action space: 𝜋𝜋target ≡ 𝒩𝒩 𝐹𝐹 𝑠𝑠𝑡𝑡 ; 𝐿𝐿, 𝜃𝜃agg , 𝜃𝜃aux , Σ 𝜇𝜇1 𝜇𝜇2 𝜇𝜇𝐾𝐾 … Source policies 𝐿𝐿 = 𝜇𝜇1 , … , 𝜇𝜇𝐾𝐾 … ⊙ 𝐴𝐴𝑡𝑡 … 𝜃𝜃agg Adaptive aggregation of source policies: 𝐹𝐹agg 𝑠𝑠𝑡𝑡 ; 𝐿𝐿, 𝜃𝜃agg 𝐹𝐹 𝑠𝑠𝑡𝑡 ; 𝐿𝐿, 𝜃𝜃agg , 𝜃𝜃aux + 30/32

Slide 31

Slide 31 text

25. 準最適な教示データからのオフライン強化学習 • 短期的・長期的な収益を計算し、準最適なデータを繋ぎ合わせて高い性能を出す(stitching) Elastic decision transformer [Wu et al., Neurips 2023] 31/32

Slide 32

Slide 32 text

まとめ柔軟ロボ・マルチモーダル情報・運動学習により実用作業を実現１. 部品組立 2. 科学実験 3.調理 4. ロボット制御を支える機械学習・強化学習 32/32