RSJ2023「基盤モデルの実ロボット応用」チュートリアル2（実ロボット用の基盤モデルを作って活用する方法）

基盤モデルの実ロボット応⽤チュートリアル2 第41回⽇本ロボット学会学術講演会 OS4 基盤モデルの実ロボット応⽤（1）松嶋達也河原塚健⼈（東京⼤学）
2023/09/12 13:15-13:30 @仙台国際センター

OS4「基盤モデルの実ロボット応⽤」チュートリアル 2 前半（河原塚）︓基盤モデルを実ロボットシステムで活⽤する⽅法 • 基盤モデルの種類の整理 • 実ロボットシステムでの活⽤⽅法の整理後半（松嶋）︓実ロボット⽤の基盤モデルを作って活⽤する⽅法 •
基盤モデルの特徴を整理 • ロボット領域の基盤モデルを学習し活⽤する⽅法を整理

4 本資料は東京⼤学松尾研究室岩澤有祐先⽣の「基盤モデルの技術と展望」（⼈⼯知能学会全国⼤会2023チュートリアル）の講演資料をもとにして作成しています． https://speakerdeck.com/yusuke0519/jsai2023-tutorial-ji-pan- moderunoji-shu-tozhan-wang

Foundation Model（基盤モデル） “On the Opportunities and Risks of Foundation Models”,
2021 5 • 2021/8/16初出のホワイトペーパーで登場した⾔葉 • Stanfordの研究機関の名称にもなっている（⻘枠）（Abstractより抜粋） “AI is undergoing a paradigm shift with the rise of models (e.g., BERT, DALL-E, GPT- 3) that are trained on broad data at scale and are adaptable to a wide range of downstream tasks. We call these models foundation models to underscore their critically central yet incomplete character”

2020年のGPT-3登場後，2022年後半から加速度的に増加． “A Survey of Large Language Models”, 2023年5⽉にアクセス（3⽉投稿からすでに10回Revision） 6

基盤モデルの特徴は︖ 7 “On the Opportunities and Risks of Foundation Models”より抜粋
1. ⾮常に幅広いタスクを（追加学習なしに）単⼀のモデルで解ける 2. モデル・計算量・データのスケーリングにより実現されること 3. ⾔語に限らない（のではという期待

モデル・計算量・データのスケーリングにより実現されること基盤モデルの特徴1 8 モデルサイズが巨⼤なときのみ解けるタスクが存在 Scaling Law Emergent Ability 3つの変数に関するべき乗に従って上がる. 計算資源
C, データセットサイズ D, パラメータ数 N

幅広いタスクを（追加学習なしに）単⼀のモデルで解けること 9 タスクごとにモデルを学習（NN以外）タスクごとにモデルを学習（NN）モデルを共有して学習（Fine-Tuning）モデルを固定して指⽰を変更（Prompting）
従来現代 “Pre-train, Prompt, and Predict: A Systematic Survey of Prompting Methods in Natural Language Processing”より抜粋基盤モデルの特徴2

対象は⾔語に限らない（のではという期待）基盤モデルの特徴３ 10 ⼤規模モデル（Transformer）例︓Gato, RT-1, X-Former 例︓Dreamer v3 +
⼤規模なデータ例: SAMでの1Bのマスクデータ例︓Gato, RT-1 + ⼤規模計算例︓スケール則は別ドメインでも成⽴ 1. ⽅法論の共通化 (別ドメインでの基盤モデル構築） 2. ドメインを超えたモデル共有⾔語モデルの活⽤例︓Say-Can, Voyager, などマルチモーダル化 ”One model to Learn Them All”, 2017 的な世界観（右下の図）例︓ GPT4

⾃⼰教師あり学習 + ⼤規模Transformer (High-Capacity Networks) 11 1) Causal Language Model
2) Masked Language Model ⼤規模Transformer ⼤規模Transformer Input: Language models determine Output: word probability by analyzing text data Input: Language models determine [mask] [mask] by [mask] text data Input: Language models determine word probability by analyzing text data Original: Language models determine word probability by analyzing text data 最近の成功している⾔語モデルはほぼ上記のような構造を利⽤

Robotic Foundation Models 12 ロボットに特化した基盤モデルを構築する取り組みが出てきている • “Robotic Foundation Models”と呼ぶことにする Robotic
Foundation Modelを作る⽬的 • 特徴量抽出のための⼤規模モデル • 制御まで出⼒するEnd-to-endの⼤規模モデル • （参考）ロボットのための⾔語モデル • これはあまり多くない Robotic Foundation Modelを作るためのレシピ • データセット • アーキテクチャ • ⽬的関数

Robotic Foundation Modelsを作る⽬的 13 ① 特徴量抽出のための⼤規模モデル • 主に（チュートリアル1の）「low-level perception」で利⽤する想定 ②
制御まで出⼒するEnd-to-endの⼤規模モデル • すべてのモジュールを⼀つのモデルでEnd-to-Endすることに学習（参考）ロボットのための⾔語モデル • 主に「high-level planner」に利⽤する想定 • これはあまり多くない印象

R3M: ⼈間の⽇常動作の動画から物体操作のための視覚モデルを学習特徴量抽出のための⼤規模モデル 14 https://sites.google.com/view/robot-r3m/ 画像特徴量を抽出するための事前学習モデル • ⼈間の1⼈称の⽇常動作の動画データセットEgo4Dで
ResNetを学習 • ⽇常動作には物体操作が多く含まれるため，ロボットの物体操作タスクへの転移に効果的（と期待）

Atari, Image Captioning, Chat, Robot Manipulationなどを同⼀ネットワークで解ける⽅法も登場（Gato）制御まで出⼒するEnd-to-endの⼤規模モデル 15 •
⾏動を含む⼤規模なデータで1.28Bの⽅策を学習．実時間で推論できるようにほかモデルより少し⼩さい．（とは⾔え強化学習で使われるモデルとしては相当巨⼤） • Few-Shotでの性能が特にモデルが⼤きい場合⼤幅に向上（Promptingではなく普通に学習） • 同様にスケールさせた研究として，Robot Transformer (RT-1), BC-Z, Dreamer v3など https://www.deepmind.com/publications/a-generalist-agent

Robot Transformer (RT-1) 制御まで出⼒するEnd-to-endの⼤規模モデル 16 モデル • Efficient NetとTransformer の組み合わせ
• インストラクションに従い動作⽣成データ • EDR13台，17ヶ⽉，744タスク，13万デモ • 訓練︓97%で動作 • 汎化︓種々の意味で⼤幅向上（未知タスク，未知ソース等 • Long Horizonなタスクも可 ※ 類似研究にGato，BC-Zなど

マルチモーダル⼊⼒のロボット⽤⾔語モデル | PaLM-E （参考）ロボットのための⾔語モデル 17 • 画像とテキストのマルチモーダル⼊⼒を受け付ける（Decoder-only）⼤規模⾔語モデル • 22BパラメータのViTと540BパラメータのPaLM（LLM） •
⾔語タスクのほか，ロボットのプランニングタスクやVQA・キャプショニングタスクで学習 ※ロボット⽤⾔語モデル（⾔語出⼒）はあまり多くない印象 https://palm-e.github.io/

Robotic Foundation Modelsを作るためのレシピ 18 ① データセット • いかに効率よくロボットのデータを集めるか ② アーキテクチャ
• マルチモーダルへの対応 ③ 学習の⽬的関数 • 何を予測するか

データセットの⼯夫 19 基盤モデル（LLM/VLM）の多くはインターネット上のデータをクロールして（⽐較的安価に）⼤規模なデータセットを作成しかし，ロボットの場合そうはいかない • ロボットの⼤規模データセットは多くない • ロボットやセンサによるデータの違いが⼤きい •
データの形式も多様であまり統⼀されていない

Googleはエキスパートデータを独⾃に収集⼤規模データの収集 20 • オフィス環境下の13台のモバイルマニピュレータ（EDR・Google独⾃のロボット）で 17ヶ⽉かけて130k個のデモンストレーションを遠隔操作で収集 • 744個の⾔語指⽰タスクを実⾏ • データセットは（こっそり5⽉に）公開されている
• https://console.cloud.google.com/storage/browser/gresearch/rt-1-data-release https://robotics-transformer1.github.io/

クロスドメインの公開データセットを整備する動きも存在⼤規模データの収集 • 13タスク24環境60,096個の物体操作の軌道データセット（2023/9/12現在） • 50,365個は遠隔操作・9,731個はスクリプトで⽣成 • 市販のロボット（WidowX250）を利⽤ 21
https://rail-berkeley.github.io/bridgedata/

Transformerにより機械学習コミュニティが融合（Lucas Beyer) アーキテクチャの⼯夫 22 https://docs.google.com/presentation/d/1ZXFIhYczos679r70Yu8vV9uO6B1J0ztzeDxbnBxD1S0

アーキテクチャの⼯夫 23 TransformerがUniversalなアーキテクチャとしてさまざまなモダリティのデータに利⽤されている • ⾔語︓TransformerベースのLLM • 事前学習済みのものもよく利⽤される • 画像︓Vision
Transformer (ViT) • ResNet（CNN）を⽤いているものもある • 点群︓Point Transformer ネットワーク内で複数のモダリティの特徴量を組み合わせる際の⼯夫も議論されている • 単純には特徴を連結すれば良い • FiLM conditioning（よく利⽤される） • https://arxiv.org/abs/1709.07871

Tokenizatonの⽅法⾔語以外のドメインでの基盤モデル 24 ▪ 画像の場合 ▪ 時系列（動画）の場合 • ⼊⼒をパッチ化して，各パッチを埋め込みに変換
• 原理的にサイズが⼤きくなると⾟い • ⼀度VQ-VAEでトークンに離散変換 • よいVQ-VAE⾃体はどう作るのか︖ ⾔語と⽐べて系列⻑が膨⼤になりがちで切れ⽬も不透明．無理⽮理塊を作って扱っているため，誤差が蓄積しうる．

（補⾜） Perciever, Perciever IO, Unified IO ⾔語以外のドメインでの基盤モデル 25 ⼊⼒をByte列のままそのまま扱うようなTransformer．そのままだとバイト⻑ Mの⼆乗オーダーで計算がかかるため，Cross
Attentionで圧縮する．点群等も扱える．

学習の⽬的関数 26 学習の⽬的関数（何を予測対象にするか︖）も多岐にわたる • ⾏動の予測 • 価値（Q値）の予測 • 未来の状態/観測の予測（Forward dynamics）
• 上記に限らないマルチモーダルな予測

RT-1/RT-2では⾏動を直接予測⾏動の予測 27 RT-1では離散化（bin分割）した⾏動（姿勢変化）を出⼒ • 連続値出⼒よりも性能が良いことを確認 ※ おそらく出⼒空間の
多峰性の影響 RT-2は⾏動のtokenを出⼒ • 対応する⾏動をデコード • ⾔語モデルと同様に扱えるため，⾔語データと同時に fine-tuning

とりうる⾏動の候補に対してQ値を出⼒ | Q-Transformer 価値（Q値）の予測 28 https://q-transformer.github.io/ オフラインデータから離散化した⾏動空間に対応する Q値の更新⽅法を提案（オフライン強化学習）
• ネットワークは離散化された⾏動それぞれに対するQ値を出⼒ • Q値が最⼤となる⾏動を実⾏

転移可能な順モデルの学習 | Generalist Dynamics Model 未来の状態/観測の予測（Forward dynamics） 29 さまざまな制御タスクに利⽤（転移）可能なforward
model を学習 • データ全てを時系列とみなして時系列予測 • LLMにおけるnext token prediction ロボットの制御をする際はMPC で⾏動選択 • 当論⽂ではシミュレータ上での検証のみ

さまざまなモダリティのデータを統⼀的に扱って⽅策を学習 | Gato マルチモーダルな予測 30 • さまざまな制御（ゲーム・ロボット）タスクや⾔語タスクで巨⼤な⽅策（1.28B）を学習 • タスクに合わせて連続値の⾏動・離散地の⾏動・テキストを出⼒ •
異なるモダリティを⼀つのモデルで扱うためにモダリティごとにtokenize/embedding • ロボットの応⽤を発展させた研究としてRoboCatがある（主にデータ取得⽅法で改善） • https://www.deepmind.com/blog/robocat-a-self-improving-robotic-agent

Universal APIの重要性 | UniMask “UniMASK: Unified Inference in Sequential Decision
Problems”, NeurIPS2022 31 • ⾔語の成功の⼀因は多様なタスクを⾔語In⾔語Outの同じ形式でかけること (Universal API) • 他のドメインにおけるUniversal APIの設計は重要な研究

議論 32 データ・計算リソースの制約からRobotic Foundation Modelを作っているのは（他の基盤モデルの例に漏れず）ごく⼀部の研究機関 • 限られた機関のみがマルチモーダルな基盤モデルを構築する知⾒を持つロボットを実世界で動かすという観点では，ずっとロボティクスで議論されていながらも実現されてない側⾯も多い
• モデルの⼤きさ故リアルタイムの制御が難しい • 例︓RT-2は「推論時に」複数のTPUを使って1-3Hzしか出ない • 視野外の情報をきちんと扱えているのかは不明 • そもそも基盤モデルがどれだけ記憶できるかは未知な部分が多い • 予測モデルの学習・利⽤の話はまだあまり出てきていない • リアルタイムな制御や視野外の情報の処理（統合）に関する問題を解決する⽅向の⼀つ End-to-Endのモデルがどこまで制御に実利⽤できるかは未知な部分も⼤きい • 学習の研究としてモデルを統⼀する⽅向なのは（おそらく）既定路線 • 推論や学習の効率化（スキルの学習との組み合わせなど）が必須では︖

本チュートリアルのまとめ 33 基盤モデルを実ロボット応⽤するための技術動向について，活⽤⽅法とロボット特化のモデルの構築⽅法を中⼼に紹介しました（後半︓松嶋） 3. 基盤モデルで何が実現されたか︖ • 1) ⾼い適応能⼒
(Few-Shot）, 2) スケール則, 3) 他モダリティへの転⽤ 4. ロボット特有の基盤モデルの構築にはデータ・モデル・⽬的関数の⼯夫が必要 • ⼤規模データセット / Transformerとモダリティの統合 / さまざまな予測対象（前半︓河原塚） 1．基盤モデルは⾔語や視覚（＋α）での汎化性能の⾼いモデル • LLM / VLM / ALM …etc 2．基盤モデルを組み合わせてさまざまなロボットシステムを構築可能 • Low/High-level Perception, Low/High-level Planning

OS4「基盤モデルの実ロボット応⽤」について 34 本OSでのご発表・ご参加⼤変ありがとうございます︕ 本OSは開催1年⽬ですが… • 3セッション・ 21本の発表 • 7研究機関から68名の著者（重複なしでカウント） •
多岐にわたる応⽤先 • ⽣活⽀援ロボット，料理ロボット，HRI，脚ロボット…etc • 多岐にわたる技術・活⽤法 • ⾏動計画，対話，世界モデルの学習，説明⽂⽣成，物体操作…etc 本OSを通じて（議論の多い）先端的なテーマを楽しんでいただければ＆新しく活発な研究コミュニティが⽣まれればと思います

宣伝 35 英⽂誌Advanced Roboticsの特集号 • ⽇本ロボット学会の英⽂誌 • Google・Metaなど海外で基盤モデルのロボット応⽤を研究する第⼀⼈者たちも本特集号のエディタ陣を務める •
サーベイ論⽂も歓迎 • 原稿〆切︓2024/1/31 ※ 採録が決定次第，順次web上で公開予定論⽂投稿をぜひご検討ください︕︕

RSJ2023「基盤モデルの実ロボット応用」チュートリアル2（実ロボット用の基盤モデルを作って...

RSJ2023「基盤モデルの実ロボット応用」チュートリアル2（実ロボット用の基盤モデルを作って活用する方法）

Tatsuya Matsushima

More Decks by Tatsuya Matsushima

Other Decks in Research

Featured

Transcript

基盤モデルの実ロボット応⽤チュートリアル2 第41回⽇本ロボット学会学術講演会 OS4 基盤モデルの実ロボット応⽤（1）松嶋達也河原塚健⼈（東京⼤学）

3

Foundation Model（基盤モデル） “On the Opportunities and Risks of Foundation Models”,

2020年のGPT-3登場後，2022年後半から加速度的に増加． “A Survey of Large Language Models”, 2023年5⽉にアクセス（3⽉投稿からすでに10回Revision） 6

基盤モデルの特徴は︖ 7 “On the Opportunities and Risks of Foundation Models”より抜粋

モデル・計算量・データのスケーリングにより実現されること基盤モデルの特徴1 8 モデルサイズが巨⼤なときのみ解けるタスクが存在 Scaling Law Emergent Ability 3つの変数に関するべき乗に従って上がる. 計算資源

幅広いタスクを（追加学習なしに）単⼀のモデルで解けること 9 タスクごとにモデルを学習（NN以外）タスクごとにモデルを学習（NN）モデルを共有して学習（Fine-Tuning）モデルを固定して指⽰を変更（Prompting）

対象は⾔語に限らない（のではという期待）基盤モデルの特徴３ 10 ⼤規模モデル（Transformer）例︓Gato, RT-1, X-Former 例︓Dreamer v3 +

⾃⼰教師あり学習 + ⼤規模Transformer (High-Capacity Networks) 11 1) Causal Language Model

Robotic Foundation Models 12 ロボットに特化した基盤モデルを構築する取り組みが出てきている • “Robotic Foundation Models”と呼ぶことにする Robotic

Robotic Foundation Modelsを作る⽬的 13 ① 特徴量抽出のための⼤規模モデル • 主に（チュートリアル1の）「low-level perception」で利⽤する想定 ②

Atari, Image Captioning, Chat, Robot Manipulationなどを同⼀ネットワークで解ける⽅法も登場（Gato）制御まで出⼒するEnd-to-endの⼤規模モデル 15 •

Robot Transformer (RT-1) 制御まで出⼒するEnd-to-endの⼤規模モデル 16 モデル • Efficient NetとTransformer の組み合わせ

Robotic Foundation Modelsを作るためのレシピ 18 ① データセット • いかに効率よくロボットのデータを集めるか ② アーキテクチャ

Transformerにより機械学習コミュニティが融合（Lucas Beyer) アーキテクチャの⼯夫 22 https://docs.google.com/presentation/d/1ZXFIhYczos679r70Yu8vV9uO6B1J0ztzeDxbnBxD1S0

アーキテクチャの⼯夫 23 TransformerがUniversalなアーキテクチャとしてさまざまなモダリティのデータに利⽤されている • ⾔語︓TransformerベースのLLM • 事前学習済みのものもよく利⽤される • 画像︓Vision

Tokenizatonの⽅法⾔語以外のドメインでの基盤モデル 24 ▪ 画像の場合 ▪ 時系列（動画）の場合 • ⼊⼒をパッチ化して，各パッチを埋め込みに変換

（補⾜） Perciever, Perciever IO, Unified IO ⾔語以外のドメインでの基盤モデル 25 ⼊⼒をByte列のままそのまま扱うようなTransformer．そのままだとバイト⻑ Mの⼆乗オーダーで計算がかかるため，Cross

学習の⽬的関数 26 学習の⽬的関数（何を予測対象にするか︖）も多岐にわたる • ⾏動の予測 • 価値（Q値）の予測 • 未来の状態/観測の予測（Forward dynamics）

RT-1/RT-2では⾏動を直接予測⾏動の予測 27 RT-1では離散化（bin分割）した⾏動（姿勢変化）を出⼒ • 連続値出⼒よりも性能が良いことを確認 ※ おそらく出⼒空間の

とりうる⾏動の候補に対してQ値を出⼒ | Q-Transformer 価値（Q値）の予測 28 https://q-transformer.github.io/ オフラインデータから離散化した⾏動空間に対応する Q値の更新⽅法を提案（オフライン強化学習）

転移可能な順モデルの学習 | Generalist Dynamics Model 未来の状態/観測の予測（Forward dynamics） 29 さまざまな制御タスクに利⽤（転移）可能なforward

Universal APIの重要性 | UniMask “UniMASK: Unified Inference in Sequential Decision

OS4「基盤モデルの実ロボット応⽤」について 34 本OSでのご発表・ご参加⼤変ありがとうございます︕ 本OSは開催1年⽬ですが… • 3セッション・ 21本の発表 • 7研究機関から68名の著者（重複なしでカウント） •

宣伝 35 英⽂誌Advanced Roboticsの特集号 • ⽇本ロボット学会の英⽂誌 • Google・Metaなど海外で基盤モデルのロボット応⽤を研究する第⼀⼈者たちも本特集号のエディタ陣を務める •