RSJ2024「基盤モデルの実ロボット応用」チュートリアルA（河原塚）

1 2022.09.06 RSJ2024 基盤モデルの実ロボット応用チュートリアルA 河原塚健人1, 松嶋達也1, 宮澤和貴2 (1東京大学, 2大阪大学)

本オーガナイズドセッションの目的 • ロボットのシステム構築が圧倒的に簡単に. 波に乗るしかない. • 海外の研究に置いて行かれないように最新情報をキャッチアップ • 国内で最新情報を共有して立ち向かう・追い越す 2

オーガナイザー 3 河原塚健人東京大学松嶋達也東京大学宮澤和貴
大阪大学

これまでの活動(1) • 特集号「Real-World Robot Applications of Foundation Models」 @Advanced Robotics
4 • Survey Paper • NLP2024併設ワークショップ: 大規模言語モデルの実世界応用

これまでの活動(2) 5 • Cooking Robotics Workshop @ICRA2024

基盤モデルの実ロボット応用OS 6 RSJ2023 • 3セッション / 21件の発表 • 7機関: 東大,
慶應, 早稲田, 名工大, 立命館, 金沢大, 中部大 RSJ2024 • 4セッション / 27件の発表 • 20機関: 東大, 慶應, 早稲田, 阪大, 京大, Sony, RIKEN AIP, ATR, NII, TCRDL, 産総研, 名工大, 立命館, 創価大, トヨタ自動車, 富士通, 都立大, 金沢工業, 中部大, ドワンゴ様々な機関が基盤モデルを使うようになってきた

本チュートリアルの構成チュートリアルA (河原塚) • 既存の基盤モデルの実ロボット活用例チュートリアルB (松嶋) • ロボット基盤モデルを作る取り組みチュートリアルC
(宮澤) • 基盤モデルの対話活用について 7 大きな進展はないかなり進展がある去年の資料「基盤モデルの実ロボット応用」チュートリアル去年の資料「基盤モデルの実ロボット応用」チュートリアル新規

活用可能な基盤モデルの種類@RSJ2023 8 Visual Prompting 全体的な性能アップ

活用可能な基盤モデルの種類(1) 9 GPT-4o Imagen3 全体的な性能アップ SAM 2

活用可能な基盤モデルの種類(2) 10 PIVOT [S. Nasiriany+, 2024] MOKA [F. Liu+, 2024]
Visual Prompting

活用可能な基盤モデルの種類(3) 11 Depth Anything [L. Yang+, 2024] FoundationPose [B. Wen+,
2024] MeshAnything [Y. Chen+, 2024] 4M [D. Mizrahi+, 2024] URDFormer [Z. Chen+, 2024] 多様なモダリティ

基盤モデルのロボット活用方法@RSJ2023 12

基盤モデルのロボット活用方法@RSJ2023 13 1. CLIPやDeticで認識/LLMで動作計画 2. Affordance/Rewardを構築して強化学習/MPC 3. マップやシーングラフを構築して動作計画 4. センサと制御入力の関係をデータ拡張/学習
チュートリアルBに譲る

基盤モデルのロボット活用方法(1) 14 Eureka [J. Ma+, 2023]

基盤モデルのロボット活用方法(1) 15 Eureka [J. Ma+, 2023]

基盤モデルのロボット活用方法(2) 16 DrEureka [J. Ma+, 2024]

我々の事例@2024 18

我々の事例 – VLMによる食材状態認識 19 [K. Kawaharazuka+, RA-L2024]

我々の事例 – LLM/VLMによる料理ロボット 20 [N. Kanazawa+, Advanced Robotics]

我々の事例 – LLMとPDDLの融合 • LLMとVLMでPDDL(Planning Domain Definition Language)を記述 21 [K.
Shirai+, ICRA2024]

我々の事例 – VLMと動作指令の統合 22 [K. Kawaharazuka+, Humanoids2023]

我々の事例 – 事前知識無しのナビゲーション 23 [K. Kawaharazuka+, Advanced Robotics]

まとめ • チュートリアルA • 既存の基盤モデルの実ロボット活用例 • 一方でRSJ2023からそこまで大きな進展はない • 活用可能な基盤モデルの種類 •
各基盤モデルの性能向上 / よりマルチモーダルへ • 基盤モデルの活用方法 • 基盤モデル×強化学習 / ロボット基盤モデル • 我々の研究事例 • 連続状態認識 / レシピ解釈 / PDDL / 運動指令との融合/ ナビゲーション 25

RSJ2024「基盤モデルの実ロボット応用」チュートリアルA（河原塚）

RSJ2024「基盤モデルの実ロボット応用」チュートリアルA（河原塚）

Kento Kawaharazuka

More Decks by Kento Kawaharazuka

Other Decks in Research

Featured

Transcript

1 2022.09.06 RSJ2024 基盤モデルの実ロボット応用チュートリアルA 河原塚健人1, 松嶋達也1, 宮澤和貴2 (1東京大学, 2大阪大学)

オーガナイザー 3 河原塚健人東京大学松嶋達也東京大学宮澤和貴

これまでの活動(1) • 特集号「Real-World Robot Applications of Foundation Models」 @Advanced Robotics

これまでの活動(2) 5 • Cooking Robotics Workshop @ICRA2024

基盤モデルの実ロボット応用OS 6 RSJ2023 • 3セッション / 21件の発表 • 7機関: 東大,

本チュートリアルの構成チュートリアルA (河原塚) • 既存の基盤モデルの実ロボット活用例チュートリアルB (松嶋) • ロボット基盤モデルを作る取り組みチュートリアルC

活用可能な基盤モデルの種類@RSJ2023 8 Visual Prompting 全体的な性能アップ

活用可能な基盤モデルの種類(1) 9 GPT-4o Imagen3 全体的な性能アップ SAM 2

活用可能な基盤モデルの種類(2) 10 PIVOT [S. Nasiriany+, 2024] MOKA [F. Liu+, 2024]

活用可能な基盤モデルの種類(3) 11 Depth Anything [L. Yang+, 2024] FoundationPose [B. Wen+,

基盤モデルのロボット活用方法@RSJ2023 12

基盤モデルのロボット活用方法@RSJ2023 13 1. CLIPやDeticで認識/LLMで動作計画 2. Affordance/Rewardを構築して強化学習/MPC 3. マップやシーングラフを構築して動作計画 4. センサと制御入力の関係をデータ拡張/学習

基盤モデルのロボット活用方法(1) 14 Eureka [J. Ma+, 2023]

基盤モデルのロボット活用方法(1) 15 Eureka [J. Ma+, 2023]

基盤モデルのロボット活用方法(2) 16 DrEureka [J. Ma+, 2024]

我々の事例@2024 18

我々の事例 – VLMによる食材状態認識 19 [K. Kawaharazuka+, RA-L2024]

我々の事例 – LLM/VLMによる料理ロボット 20 [N. Kanazawa+, Advanced Robotics]

我々の事例 – LLMとPDDLの融合 • LLMとVLMでPDDL(Planning Domain Definition Language)を記述 21 [K.

我々の事例 – VLMと動作指令の統合 22 [K. Kawaharazuka+, Humanoids2023]

我々の事例 – 事前知識無しのナビゲーション 23 [K. Kawaharazuka+, Advanced Robotics]

まとめ • チュートリアルA • 既存の基盤モデルの実ロボット活用例 • 一方でRSJ2023からそこまで大きな進展はない • 活用可能な基盤モデルの種類 •