SSII2024 [OS1] 現場の課題を解決するロボットラーニング

現場の課題を解決するロボットラーニング 2024.6.12 濵屋政志（オムロンサイニックエックス株式会社）

概要実応用に向けたロボット運動学習に関する研究を紹介１. 部品組立 2. 科学実験 3.調理 4. ロボット制御を支える機械学習・強化学習 2/32

部品組立目標：人と同じ環境で部品組立を行う従来技術：繰り返し動作で作業を行えるように環境を整備挑戦：整備されていない環境での部品組立アプローチ：柔軟なロボットによる運動学習一般的なロボットによる部品組立 (固定具や入念な動作の設計が必要) 人による部品組立 (部品の位置のばらつきに適応可能) 3/32

1. 柔軟手首機構 • ケーブル駆動の柔剛切り替え可能な手首 • 3個のバネでグリッパとアームを接続、6自由度の変位が可能 A compact, cable-driven, activatable
soft robot wrist for assembly [Tanaka and Drigalski et al., IROS 2020] Soft Hard 柔剛切り替え設計概要図ペグイン課題における比較 4/32

2. 柔軟ロボ強化学習 • サブタスク区分化とモデルベース強化学習による効率化 • 各サブタスクを2-3回の試行回数で学習 Learning robotic assembly tasks
with lower dimensional systems by leveraging physical softness and environmental constraints [Hamaya et al., ICRA 2020] サブタスク区分化による低次元空間表現学習後の部品挿入 5/32

3. 教示を使用した柔軟ロボ強化学習 • ロボットの指先の形状に似た教示デバイスを設計 • モデルベース深層強化学習で効率的に学習 Learning soft robotic assembly
strategies from successful and failed demonstrations [Hamaya et al., IROS 2020] 教示デバイスによる教示学習過程 6/32

4. 人の物理的相互作用による柔軟ロボット強化学習 • 誘導・敵対インタラクションにより学習を効率・頑健化 Robotic learning from advisory and adversarial
interactions using a soft wrist [Hamaya et al., RA-L 2021] 誘導・敵対インタラクション異なる材質のペグの挿入 7/32

5. 柔軟ロボ転移強化学習 • 複数のダイナミクスモデルを集約し、未知環境に迅速に適応 TRANS-AM: Transfer learning by aggregating dynamics
models for soft robotic assembly [Tanaka et al., ICRA 2021] ダイナミクスモデル集約異なる角度の穴を持つ環境への転移 8/32

6. 触覚を利用した学習 • 触覚を活用し、部品の把持姿勢と穴の位置の不確実性に対処 Learning robotic assembly by leveraging physical
softness and tactile sensing [Miquel et al., IROS 2023] 様々な把持姿勢と異なる直径のペグ挿入触覚による穴検知 9/32

7. 力覚と幾何的対称性を活用した強化学習 • 力覚によるモーションキャプチャを使用しない強化学習 • 部品の幾何的な対称性を利用した効率的な学習 Symmetry-aware reinforcement learning for
robotic assembly under partial observability with a soft wrist [Nguyen et al., ICRA 2024] 従来研究(モーキャプ利用) 対象性を利用し、3時間で部品挿入を学習 10/32

8. 柔軟ロボのSim-to-real転移強化学習 • Sim-to-realによるゼロショット転移強化学習 • 柔軟ロボの制御方策と状態推定をteacher-studentで学習 Robotic object insertion with
a soft wrist through sim-to-real Privileged Training [Fuchioka et al., under review] teacher-student 様々な把持位置での挿入 11/32

9. 接触や画像を使用した把持姿勢推定 • サブmmの姿勢推定誤差を実現 Precise multi-modal in-hand pose estimation using
low-precision sensors for robotic assembly [Drigalski et al., ICRA 2021] Uncertain pose after grasping High confidence Touch tip Touch side Actions to reduce uncertainty Look 地面や角に触れる動作、部品を見る動作 12/32

10. ロボット行動による物体姿勢推定 • 把持や押す動作によって物体姿勢の不確実性を減少させる Uncertainty-aware manipulation planning using gravity and
environment geometry [Drigalski et al., RA-L 2022] 13/32

11. 触覚による把持トルク推定 • 電磁気学に着想を得た画像型触覚センサのトルク推定方法 An electromagnetism-inspired method for estimating in-grasp
torque from visuotactile sensors [Fuchioka and Hamaya, ICRA 2024] 画像型触覚センサのトルク推定 FTセンサによるトルクの真値真値との高い相関 USB挿入への応用電磁気学の双極子モーメントと触覚の分布 14/32

12. 腱駆動ロボット • 駆動部を根元に集約し、軽量なアームを設計 Twist Snake: Plastic table-top cable-driven robotic
arm with all motors located at the base link [Tanaka and Hamaya, ICRA 2023] 7個のモーターを根元に集約柔らかさと俊敏さを同時に持つ 15/32

科学実験目標：人と同じ環境で実験できるロボット挑戦：整備されていない環境、細かい実験条件への適応アプローチ：柔軟なロボットや運動学習を使用 16/32

13. 粉体粉砕ロボット • 柔軟治具と画像フィードバックを使用した粉体粉砕 Robotic powder grinding with a soft
jig for laboratory automation in material science [Nakajima et al., IROS 2022] 17/32

14. 音を使用した粉体粉砕ロボット • 音を使用し、粉体の状態を推定 • 画像フィードバックと組み合わせることで、より効率的に粉砕 Robotic powder grinding with
audio-visual feedback for laboratory automation in materials science [Nakajima et al., IROS 2023] 18/32

15. Sim-to-real 粉砕秤量学習 • シミュレータで秤量を強化学習し、ゼロショットで転移 • 4種類の粉体を5mgの目標質量で誤差0.2mgを実現 Learning robotic powder
weighing from simulation for laboratory automation [Kadokawa et al., IROS 2023] Isaac Gymによるシミュレータ小麦粉・米粉・塩・活性炭の秤量 19/32

16. 触覚を使用した塑性物体秤量 • 触覚から硬さなどの物性違いを計測 • 触覚と手先軌道から掬い上げる量を予測するモデルを学習 Learning scooping deformable plastic
objects using tactile sensors [Kageyama et al., CASE 2024] キネティックサンド(粘塑性のある砂)の掬い上げ 20/32

調理目標：言語指示で一連の調理ができるロボット挑戦：食材のバリエーションの対処、長期的な作業計画アプローチ：食材を扱う運動学習、LLMによる作業計画 21/32

17. 触覚を使用した脆弱物体把持学習 • 食材の破壊経験から破壊のタイミングを予測するモデルを学習 • 破壊する寸前で食材を把持 Learning by breaking: food
fracture anticipation for robotic food manipulation [Ishikawa et al., ACCESS 2022] 豆腐・バナナ・ポテトチップスの把持食材を破壊しながら学習 22/32

18. 再生可能脆弱物体による把持学習 • ゼラチンやブロックなどの破壊経験とメタ学習を活用 Learning food picking without food: fracture
anticipation by breaking reusable fragile objects [Yagawa et al., ICRA 2023] 23/32

19. 野菜カット学習 • Real-to-sim-to-realによる野菜カット学習 SliceIt!--A dual simulator framework for learning
robot food slicing [Beltran-Hernandez and Erbetti et al., ICRA 2024] 24/32

20. 自然言語によるロボット言語生成 • 自然言語と画像からLLMでプランニング言語(PDDL)を生成 Vision-language interpreter for robot task planning
[Shirai et al., ICRA 2024] 25/32

21. 長期的なロボット調理作業計画 • プランニング言語(PDDL)から一連の調理動作を実行 Integrated task and motion planning for
real-world cooking tasks [Siburian and Beltran-Hernandez et al., ICRA2024 Workshop on Cooking Robotics] 26/32

ロボット制御を支える機械学習・強化学習 • ロボット制御全般に使用できる機械学習や強化学習手法を研究 • 社内外の機械学習系の研究者とコラボレーション 27/32

22. Sim-to-real転移学習 • 明示的(質量や摩擦)・暗示的(物体の形状など)パラメータで条件付け • トレーニング時には明示的パラメータを与えてネットワークを学習 • 未知環境テスト時には、明示的・暗示的パラメータをオンラインで推定 EXI-Net: EXplicitly/implicitly
conditioned network for multiple environment sim-to-real transfer [Murooka et al., CoRL 2020] 28/32

23. 外乱オブザーバー学習 • 順ダイナミクスモデルを学習し、外乱を推定 Iterative backpropagation disturbance observer with forward
dynamics model [Murooka et al., CASE 2021] 29/32

24. 未知環境に適応する転移強化学習 • 学習済み方策を重み付け和で集約し、迅速に未知環境に適応 MULTIPOLAR: Multi-source policy aggregation for transfer
reinforcement learning between diverse environmental dynamics [Barekatain et al., IJCAI 2020] State 𝑠𝑠𝑡𝑡 Auxiliary network for predicting residuals: 𝐹𝐹aux 𝑠𝑠𝑡𝑡 ; 𝜃𝜃aux 𝜃𝜃aux Continuous action space: 𝜋𝜋target ≡ 𝒩𝒩 𝐹𝐹 𝑠𝑠𝑡𝑡 ; 𝐿𝐿, 𝜃𝜃agg , 𝜃𝜃aux , Σ 𝜇𝜇1 𝜇𝜇2 𝜇𝜇𝐾𝐾 … Source policies 𝐿𝐿 = 𝜇𝜇1 , … , 𝜇𝜇𝐾𝐾 … ⊙ 𝐴𝐴𝑡𝑡 … 𝜃𝜃agg Adaptive aggregation of source policies: 𝐹𝐹agg 𝑠𝑠𝑡𝑡 ; 𝐿𝐿, 𝜃𝜃agg 𝐹𝐹 𝑠𝑠𝑡𝑡 ; 𝐿𝐿, 𝜃𝜃agg , 𝜃𝜃aux + 30/32

25. 準最適な教示データからのオフライン強化学習 • 短期的・長期的な収益を計算し、準最適なデータを繋ぎ合わせて高い性能を出す(stitching) Elastic decision transformer [Wu et
al., Neurips 2023] 31/32

まとめ柔軟ロボ・マルチモーダル情報・運動学習により実用作業を実現１. 部品組立 2. 科学実験 3.調理 4. ロボット制御を支える機械学習・強化学習 32/32

SSII2024 [OS1] 現場の課題を解決するロボットラーニング

SSII2024 [OS1] 現場の課題を解決するロボットラーニング

画像センシングシンポジウム PRO

More Decks by 画像センシングシンポジウム

Other Decks in Research

Featured

Transcript

現場の課題を解決するロボットラーニング 2024.6.12 濵屋政志（オムロンサイニックエックス株式会社）

概要実応用に向けたロボット運動学習に関する研究を紹介１. 部品組立 2. 科学実験 3.調理 4. ロボット制御を支える機械学習・強化学習 2/32

1. 柔軟手首機構 • ケーブル駆動の柔剛切り替え可能な手首 • 3個のバネでグリッパとアームを接続、6自由度の変位が可能 A compact, cable-driven, activatable

2. 柔軟ロボ強化学習 • サブタスク区分化とモデルベース強化学習による効率化 • 各サブタスクを2-3回の試行回数で学習 Learning robotic assembly tasks

3. 教示を使用した柔軟ロボ強化学習 • ロボットの指先の形状に似た教示デバイスを設計 • モデルベース深層強化学習で効率的に学習 Learning soft robotic assembly

4. 人の物理的相互作用による柔軟ロボット強化学習 • 誘導・敵対インタラクションにより学習を効率・頑健化 Robotic learning from advisory and adversarial

5. 柔軟ロボ転移強化学習 • 複数のダイナミクスモデルを集約し、未知環境に迅速に適応 TRANS-AM: Transfer learning by aggregating dynamics

6. 触覚を利用した学習 • 触覚を活用し、部品の把持姿勢と穴の位置の不確実性に対処 Learning robotic assembly by leveraging physical

7. 力覚と幾何的対称性を活用した強化学習 • 力覚によるモーションキャプチャを使用しない強化学習 • 部品の幾何的な対称性を利用した効率的な学習 Symmetry-aware reinforcement learning for

8. 柔軟ロボのSim-to-real転移強化学習 • Sim-to-realによるゼロショット転移強化学習 • 柔軟ロボの制御方策と状態推定をteacher-studentで学習 Robotic object insertion with

9. 接触や画像を使用した把持姿勢推定 • サブmmの姿勢推定誤差を実現 Precise multi-modal in-hand pose estimation using

10. ロボット行動による物体姿勢推定 • 把持や押す動作によって物体姿勢の不確実性を減少させる Uncertainty-aware manipulation planning using gravity and

11. 触覚による把持トルク推定 • 電磁気学に着想を得た画像型触覚センサのトルク推定方法 An electromagnetism-inspired method for estimating in-grasp

12. 腱駆動ロボット • 駆動部を根元に集約し、軽量なアームを設計 Twist Snake: Plastic table-top cable-driven robotic

科学実験目標：人と同じ環境で実験できるロボット挑戦：整備されていない環境、細かい実験条件への適応アプローチ：柔軟なロボットや運動学習を使用 16/32

13. 粉体粉砕ロボット • 柔軟治具と画像フィードバックを使用した粉体粉砕 Robotic powder grinding with a soft

14. 音を使用した粉体粉砕ロボット • 音を使用し、粉体の状態を推定 • 画像フィードバックと組み合わせることで、より効率的に粉砕 Robotic powder grinding with

15. Sim-to-real 粉砕秤量学習 • シミュレータで秤量を強化学習し、ゼロショットで転移 • 4種類の粉体を5mgの目標質量で誤差0.2mgを実現 Learning robotic powder

16. 触覚を使用した塑性物体秤量 • 触覚から硬さなどの物性違いを計測 • 触覚と手先軌道から掬い上げる量を予測するモデルを学習 Learning scooping deformable plastic

調理目標：言語指示で一連の調理ができるロボット挑戦：食材のバリエーションの対処、長期的な作業計画アプローチ：食材を扱う運動学習、LLMによる作業計画 21/32

17. 触覚を使用した脆弱物体把持学習 • 食材の破壊経験から破壊のタイミングを予測するモデルを学習 • 破壊する寸前で食材を把持 Learning by breaking: food

18. 再生可能脆弱物体による把持学習 • ゼラチンやブロックなどの破壊経験とメタ学習を活用 Learning food picking without food: fracture

19. 野菜カット学習 • Real-to-sim-to-realによる野菜カット学習 SliceIt!--A dual simulator framework for learning

20. 自然言語によるロボット言語生成 • 自然言語と画像からLLMでプランニング言語(PDDL)を生成 Vision-language interpreter for robot task planning

21. 長期的なロボット調理作業計画 • プランニング言語(PDDL)から一連の調理動作を実行 Integrated task and motion planning for

ロボット制御を支える機械学習・強化学習 • ロボット制御全般に使用できる機械学習や強化学習手法を研究 • 社内外の機械学習系の研究者とコラボレーション 27/32

23. 外乱オブザーバー学習 • 順ダイナミクスモデルを学習し、外乱を推定 Iterative backpropagation disturbance observer with forward

24. 未知環境に適応する転移強化学習 • 学習済み方策を重み付け和で集約し、迅速に未知環境に適応 MULTIPOLAR: Multi-source policy aggregation for transfer

25. 準最適な教示データからのオフライン強化学習 • 短期的・長期的な収益を計算し、準最適なデータを繋ぎ合わせて高い性能を出す(stitching) Elastic decision transformer [Wu et

まとめ柔軟ロボ・マルチモーダル情報・運動学習により実用作業を実現１. 部品組立 2. 科学実験 3.調理 4. ロボット制御を支える機械学習・強化学習 32/32

SSII2024 [OS1] 現場の課題を解決する ロボットラーニング

SSII2024 [OS1] 現場の課題を解決する ロボットラーニング

More Decks by 画像センシングシンポジウム

Other Decks in Research

Featured

Transcript

SSII2024 [OS1] 現場の課題を解決するロボットラーニング

SSII2024 [OS1] 現場の課題を解決するロボットラーニング