Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
RSJ2024「基盤モデルの実ロボット応用」チュートリアルB(ロボット基盤モデル)
Search
Tatsuya Matsushima
September 06, 2024
Technology
0
100
RSJ2024「基盤モデルの実ロボット応用」チュートリアルB(ロボット基盤モデル)
Tatsuya Matsushima
September 06, 2024
Tweet
Share
More Decks by Tatsuya Matsushima
See All by Tatsuya Matsushima
RSJ2023「基盤モデルの実ロボット応用」チュートリアル2(実ロボット用の基盤モデルを作って活用する方法)
tmats
2
1.3k
20201102RLArch.pdf
tmats
0
160
第32回 強化学習アーキテクチャ勉強会 状態表現学習と世界モデルの最近の研究,および深層生成モデルライブラリPixyzの紹介 #rlarch
tmats
6
2.9k
Other Decks in Technology
See All in Technology
Amazon FSx for NetApp ONTAPを利用するにあたっての要件整理と設計のポイント
non97
1
160
pandasはPolarsに性能面で追いつき追い越せるのか
vaaaaanquish
4
4.5k
なんで、私がAWS Heroに!? 〜社外の広い世界に一歩踏み出そう〜
minorun365
PRO
6
1.1k
君は隠しイベントを見つけれるか?
mujyun
0
290
プロダクト成長に対応するプラットフォーム戦略:Authleteによる共通認証基盤の移行事例 / Building an authentication platform using Authlete and AWS
kakehashi
1
150
フルカイテン株式会社 採用資料
fullkaiten
0
36k
CyberAgent 生成AI Deep Dive with Amazon Web Services / genai-aws
cyberagentdevelopers
PRO
1
480
最速最小からはじめるデータプロダクト / Data Product MVP
amaotone
5
730
CAMERA-Suite: 広告文生成のための評価スイート / ai-camera-suite
cyberagentdevelopers
PRO
3
270
AIを駆使したゲーム開発戦略: 新設AI組織の取り組み / sge-ai-strategy
cyberagentdevelopers
PRO
1
130
Java x Spring Boot Warm up
kazu_kichi_67
2
490
わたしとトラックポイント / TrackPoint tips
masahirokawahara
1
240
Featured
See All Featured
StorybookのUI Testing Handbookを読んだ
zakiyama
26
5.2k
RailsConf & Balkan Ruby 2019: The Past, Present, and Future of Rails at GitHub
eileencodes
131
33k
Rails Girls Zürich Keynote
gr2m
93
13k
Code Reviewing Like a Champion
maltzj
519
39k
Designing the Hi-DPI Web
ddemaree
280
34k
Ruby is Unlike a Banana
tanoku
96
11k
Typedesign – Prime Four
hannesfritz
39
2.4k
Visualization
eitanlees
144
15k
The Art of Delivering Value - GDevCon NA Keynote
reverentgeek
7
150
GitHub's CSS Performance
jonrohan
1030
460k
Into the Great Unknown - MozCon
thekraken
31
1.5k
Done Done
chrislema
181
16k
Transcript
基盤モデルの実ロボット応用 チュートリアルB 第42回 日本ロボット学会学術講演会 OS3 基盤モデルの実ロボット応用(1) 松嶋 達也1 宮澤 和貴2
河原塚 健人1 1東京大学 2大阪大学 2024/09/06 09:12-09:24 @大阪工業大学梅田キャンパス
前回(RSJ2023)までのあらすじ 2 RSJ2023「基盤モデルの実ロボット応用」チュートリアル2 (実ロボット用の基盤モデルを作って活用する方法)
前回(RSJ2023)までのあらすじ 3 RSJ2023「基盤モデルの実ロボット応用」チュートリアル2 (実ロボット用の基盤モデルを作って活用する方法)
前回(RSJ2023)までのあらすじ 4 RSJ2023「基盤モデルの実ロボット応用」チュートリアル2 (実ロボット用の基盤モデルを作って活用する方法)
前回(RSJ2023)までのあらすじ 5 RSJ2023「基盤モデルの実ロボット応用」チュートリアル2 (実ロボット用の基盤モデルを作って活用する方法)
前回(RSJ2023)までのあらすじ 6 RSJ2023「基盤モデルの実ロボット応用」チュートリアル2 (実ロボット用の基盤モデルを作って活用する方法)
RSJ2023以降のロボット基盤モデル関連の話題 7 ① クロスドメインデータセット・モデル開発の進展 • データ:OpenX-Embodiment(OXE),DROID • モデル:公開ロボット基盤モデルの登場(Octo,OpenVLM) • ロボット基盤モデルは文脈内学習(in-context
learning)が可能か? ② 比較的簡単・安価にデータを収集するシステムの提案 • リーダフォロワシステム(ALOHA,GELLO) • ハンド型データ収集装置(UMI) ③ モデルアーキテクチャ・学習法に関する進展 • Transformerベース • 拡散モデルベース
RSJ2023以降のロボット基盤モデル関連の話題 8 ① クロスドメインデータセット・モデル開発の進展 • データ:OpenX-Embodiment(OXE),DROID • モデル:公開ロボット基盤モデルの登場(Octo,OpenVLM) • ロボット基盤モデルは文脈内学習(in-context
learning)が可能か? ② 比較的簡単・安価にデータを収集するシステムの提案 • リーダフォロワシステム(ALOHA,GELLO) • ハンド型データ収集装置(UMI) ③ モデルアーキテクチャ・学習法に関する進展 • Transformerベース • 拡散モデルベース
Open X-Embodiment(データセット)とRT-X(モデル) 9 Googleと世界21研究機関がオフラインのロボットデータセットを公開(OXE) • 22種類のロボット,527 skills (160,266 tasks),1M+エピソード •
日本からも1機関3研究室が参加 OXEでRT-1/RT-2のモデルを学習(RT-X) • ロボットのハードウェアに(ある程度)汎化するモデルが得られる • 個別のデータで学習したRT-1/2よりも良い性能 ロボット制御でも事前学習モデルとそのチューニングの有効性を示唆 • ICRA2024 Best Conference Paper https://robotics-transformer-x.github.io/ データ一覧のスプレッドシートが便利 https://docs.google.com/spreadsheets/d/1rPBD7 7tk60AEIGZrGSODwyyzs5FgCU9Uz3h- 3_t2A9g/edit?gid=0#gid=0
DROID:特定のロボットでの大規模追加データセット 10 ロボットやカメラの条件を合わせて収録したOXE形式でのデータセット • 7.6kエピソード,350時間,564シーン 86タスクの遠隔操作データ • OXEより多種類の動作・多様な物体 • OXEと混ぜて学習に利用可能
• 混ぜて学習した場合,外乱へのロバスト性が向上 https://droid-dataset.github.io/
Octo:OXEを用いたオープンソースなモデル 11 OXEの800kエピソードのデータで学習したtransformerベースの方策モデル • 複数の入力形式に対応し,事前学習時とは異なる入出力形式のデータで finetuning可能 • Transformerが出力するaction tokenをdiffusion policyで行動空間に変換
• Small:27Mパラメータ,base:93Mパラメータ • 学習済みの重みも公開(finetuning可能) DL輪読会: https://www.docswell.com/s/DeepLearning2023/54Q16Q-2024-02-02-134227 https://octo-models.github.io/
OpenVLA:VLMをfine-tuningして学習した方策モデル 12 7Bパラメータの視覚言語モデル(VLM)をfine-tuning(RT-2に近い方法) • OXEから970kエピソードのデータを利用 • 画像はDinoV2とSigLIPを使いtokenに • LLMとしてLlama2(7B)を利用 •
Actionはbinに区切ってtokenize • 注:新しい入出力形式への対応は未報告 https://openvla.github.io/
HSRT-X:コミュニティを利用したロボット基盤モデル構築 13 モバイルマニピュレータHSRを用いたロボット制御のend-to-endモデルを ユーザコミュニティと連携して構築 • HSRはiHR研究専門委員会のもと国内30拠点以上で利用 • 共通PFとしてHSRを活用して,大規模データを収集し 大規模E2E制御方策を学習,コミュニティ資産として活用 •
これまでに6拠点・100時間程度の データセットを収集(14,255エピソード) RSJ2024 OS「インテリジェントホームロボティクス」で発表済(水曜日)
ロボット基盤モデルは文脈内学習可能か? 14 基盤モデル(とくにLLM)の特徴の一つは文脈内学習(in-context learning) LLM 大規模言語モデル講座 2023コンテンツ 公開ページ https://weblab.t.u-tokyo.ac.jp/llm_contents/
ロボット基盤モデルは文脈内学習可能か? 15 LLM 大規模言語モデル講座 2023コンテンツ 公開ページ https://weblab.t.u-tokyo.ac.jp/llm_contents/
ICRT:文脈内学習可能なロボット基盤モデル 16 ロボット基盤モデルも文脈内学習可能という報告がある(8/28公開) • タスクのデモをプロンプトとして与え設定の違う同じタスクを解く • 状態・行動のトークン列の次トークン予測問題として学習 • Llama2(7B)のモデルアーキテクチャを採用 •
DROIDから2kエピソードのデータを利用 注:これまでも問題設定上はFew-shot模倣学習や メタ模倣学習として研究されていた https://icrt.dev/
RSJ2023以降のロボット基盤モデル関連の話題 17 ① クロスドメインデータセット・モデル開発の進展 • データ:OpenX-Embodiment(OXE),DROID • モデル:公開ロボット基盤モデルの登場(Octo,OpenVLM) • ロボット基盤モデルは文脈内学習(in-context
learning)が可能か? ② 比較的簡単・安価にデータを収集するシステムの提案 • リーダフォロワシステム(ALOHA,GELLO) • ハンド型データ収集装置(UMI) ③ モデルアーキテクチャ・学習法に関する進展 • Transformerベース • 拡散モデルベース
比較的簡単・安価にデータを収集するシステムの提案 18 ALOHA・Mobile ALOHA • Stanfordが開発した双腕遠隔操作環境 • リーダ・フォロワ2台ずつのロボットを利用し姿勢を同期 • (まだ見にいけてないのですが)RSJでも8Fの機器展示ブースに実機があるそうです
• モバイルマニピュレータ版のMobile ALOHAもある • OXEにALOHA・Mobile ALOHAのデータ有 https://tonyzhaozh.github.io/aloha/ https://mobile-aloha.github.io/
比較的簡単・安価にデータを収集するシステムの提案 19 GELLO • フォロワをダウンスケールしたリーダで姿勢を制御して遠隔操作 • リーダ側を3Dプリントした部材と市販のモータ(dynamixel)で作成 • ALOHAよりも安価にリーダフォロワの遠隔操作システムを作れる •
複数種類のフォロワに対応 • 2024/9/6時点でUR,Panda,xArmのモデルが公開されている https://wuphilipp.github.io/gello_site/ 松尾研でも学生が作っていました(xArm版)
比較的簡単・安価にデータを収集するシステムの提案 20 UMI • ハンド型のデータ収集装置 • ハンドは3Dプリント可能,カメラはGoProを利用 • 画像ベースの自己位置推定モデル (ORB-SLAM3)でハンドの姿勢を算出
https://umi-gripper.github.io/
比較的簡単・安価にデータを収集するシステムの提案 21 日本でもいろいろ出現 例)日立の装置@ICRA2024 • 双腕+台車 • 冗長自由度で学習仕様 • ぬるぬる遠隔操作できとても良い
(個人の感想) 例)松尾研でも市販品を組み合わせ作成 • アールティのCraneXを利用 • 4台使って双腕遠隔操作可能 • ツイートに海外からのお問合せ有 https://x.com/micoolcho/status/1790211170248560741
RSJ2023以降のロボット基盤モデル関連の話題 22 ① クロスドメインデータセット・モデル開発の進展 • データ:OpenX-Embodiment(OXE),DROID • モデル:公開ロボット基盤モデルの登場(Octo,OpenVLM) • ロボット基盤モデルは文脈内学習(in-context
learning)が可能か? ② 比較的簡単・安価にデータを収集するシステムの提案 • リーダフォロワシステム(ALOHA,GELLO) • ハンド型データ収集装置(UMI) ③ モデルアーキテクチャ・学習法に関する進展 • Transformerベース • 拡散モデルベース
Transformerベースのモデル 23 ACT(Action Chunking Transformer)ベースの実装が多い • Encoder-Decoder型の Transformerを用いた方策 • 将来複数ステップの行動を出力し
過去の出力と時間方向に アンサンブルして行動を決定 • ACTではTransformerが直接行動空間を出力 • 連続値ベクトルを出力 https://tonyzhaozh.github.io/aloha/
Transformerベースのモデル 24 Transformerベースのモデルでは行動空間を離散化するものも多い • うまくトークン化すれば多峰性を表現できる(と期待) 例)RT-2:行動空間をbinに区切ってトークン化 例)BeT:行動空間をk-meansでクラスタリングしてトークン化 例)VQ-BeT:階層VQ-VAEの利用(ICML2024) • 行動空間を階層VQ-VAEで離散化しておき,
方策はどのコードかとそのコードからの 差分を出力するように模倣学習
拡散モデルベースのモデル 25 Diffusion Policy(RSS2023) • 行動空間の多峰性を表現するために拡散モデルを用いた方策学習 • Denoisingの過程でDNNの推論を何度も繰り返すため推論速度が遅い https://diffusion-policy.cs.columbia.edu/
拡散モデルベースのモデル 26 Diffusion Policyの推論の高速化に関する研究も出ている 例)Consitency Policy(RSS2024) • 拡散モデルの高速化手法Consistency Trajectory Model(CTM)を用いた方策
• サンプリング手法の工夫 https://consistency-policy.github.io/
まとめ・議論 27 ここ1年でクロスドメインのデータセットが整備され, ロボット・タスク・環境間での汎化性・転移可能性が検証されてきた • ロボット間のゼロショット性能はそこまで高くないのでfine-tuning前提 • 言語指示や画像に関する表現などの事前知識を獲得した事前学習モデルとして利用 • タスク間では文脈内学習も可能という報告も
事前学習モデルと行動空間や入力が異なっていても適応する方法が提案 • Octoではヘッドを取り替えてfine-tuningする データとモデルをスケールさせて良い事前学習モデルを作っておき, 使いたい設定(ロボット・環境・タスク)で少数のデータを集め適応する という使い方になるのでは • 現在のLLM・VLMの使われ方とほぼ同じ 多様な事前学習用のデータを安価に大量に集めて事前学習モデルを作り, デプロイしながら性能を高めていくというシステム設計自体が大事になるはず • ロボットの業界自体が垂直統合から水平統合的に変わる可能性(?)
宣伝:「ロボットx基盤モデル」のサーベイ論文が出ました 28 Real-World Robot Applications of Foundation Models: A Review
• Kento Kawaharazuka, Tatsuya Matsushima, Andrew Gambardella, Jiaxian Guo, Chris Paxton1, Andy Zeng2 • 1Ex-Meta(現:Hello Robotics),2Ex-Google Brain • Advanced Robotics特集号へ掲載予定(採録決定済) • https://arxiv.org/abs/2402.05741