$30 off During Our Annual Pro Sale. View Details »

RSJ2023「基盤モデルの実ロボット応用」チュートリアル2(実ロボット用の基盤モデルを作って活用する方法)

 RSJ2023「基盤モデルの実ロボット応用」チュートリアル2(実ロボット用の基盤モデルを作って活用する方法)

RSJ2023「基盤モデルの実ロボット応用」チュートリアル2(実ロボット用の基盤モデルを作って活用する方法)

Tatsuya Matsushima

September 20, 2023
Tweet

More Decks by Tatsuya Matsushima

Other Decks in Research

Transcript

  1. 基盤モデルの実ロボット応⽤
    チュートリアル2
    第41回 ⽇本ロボット学会学術講演会
    OS4 基盤モデルの実ロボット応⽤(1)
    松嶋 達也 河原塚 健⼈(東京⼤学)
    2023/09/12 13:15-13:30 @仙台国際センター

    View Slide

  2. OS4「基盤モデルの実ロボット応⽤」チュートリアル
    2
    前半(河原塚)︓基盤モデルを実ロボットシステムで活⽤する⽅法
    • 基盤モデルの種類の整理
    • 実ロボットシステムでの活⽤⽅法の整理
    後半 (松嶋)︓実ロボット⽤の基盤モデルを作って活⽤する⽅法
    • 基盤モデルの特徴を整理
    • ロボット領域の基盤モデルを学習し活⽤する⽅法を整理

    View Slide

  3. 3

    View Slide

  4. 4
    本資料は 東京⼤学 松尾研究室 岩澤有祐先⽣の
    「基盤モデルの技術と展望」(⼈⼯知能学会全国⼤会2023チュートリアル)
    の講演資料をもとにして作成しています.
    https://speakerdeck.com/yusuke0519/jsai2023-tutorial-ji-pan-
    moderunoji-shu-tozhan-wang

    View Slide

  5. Foundation Model(基盤モデル)
    “On the Opportunities and Risks of Foundation Models”, 2021
    5
    • 2021/8/16初出のホワイト
    ペーパーで登場した⾔葉
    • Stanfordの研究機関の名称にも
    なっている(⻘枠)
    (Abstractより抜粋)
    “AI is undergoing a paradigm shift with the
    rise of models (e.g., BERT, DALL-E, GPT-
    3) that are trained on broad data at scale
    and are adaptable to a wide range of
    downstream tasks. We call these models
    foundation models to underscore their
    critically central yet incomplete character”

    View Slide

  6. 2020年のGPT-3登場後,2022年後半から加速度的に増加.
    “A Survey of Large Language Models”, 2023年5⽉にアクセス(3⽉投稿からすでに10回Revision)
    6

    View Slide

  7. 基盤モデルの特徴は︖
    7
    “On the Opportunities and Risks of Foundation Models”より抜粋
    1. ⾮常に幅広いタスク
    を(追加学習なしに)
    単⼀のモデルで解ける
    2. モデル・計算量・
    データのスケーリング
    により実現されること
    3. ⾔語に限らない
    (のではという期待

    View Slide

  8. モデル・計算量・データのスケーリングにより実現されること
    基盤モデルの特徴1
    8
    モデルサイズが巨⼤なときのみ解けるタスクが存在
    Scaling Law Emergent Ability
    3つの変数に関するべき乗に従って上がる.
    計算資源 C, データセットサイズ D, パラメータ数 N

    View Slide

  9. 幅広いタスクを(追加学習なしに)単⼀のモデルで解けること
    9
    タスクごとにモデルを学習
    (NN以外)
    タスクごとにモデルを学習
    (NN)
    モデルを共有して学習
    (Fine-Tuning)
    モデルを固定して指⽰を変更
    (Prompting)
    従来
    現代
    “Pre-train, Prompt, and Predict: A Systematic Survey of Prompting Methods in
    Natural Language Processing”より抜粋
    基盤モデルの特徴2

    View Slide

  10. 対象は⾔語に限らない(のではという期待)
    基盤モデルの特徴3
    10
    ⼤規模モデル(Transformer)
    例︓Gato, RT-1, X-Former
    例︓Dreamer v3
    + ⼤規模なデータ
    例: SAMでの1Bのマスクデータ
    例︓Gato, RT-1
    + ⼤規模計算
    例︓スケール則は別ドメインでも成⽴
    1.
    ⽅法論の共通化
    (別ドメインでの基盤モデル構築)
    2. ドメインを超えたモデル共有
    ⾔語モデルの活⽤
    例︓Say-Can, Voyager, など
    マルチモーダル化
    ”One model to Learn Them All”,
    2017 的な世界観(右下の図)
    例︓ GPT4

    View Slide

  11. ⾃⼰教師あり学習 + ⼤規模Transformer (High-Capacity Networks)
    11
    1) Causal Language Model 2) Masked Language Model
    ⼤規模Transformer ⼤規模Transformer
    Input: Language models determine
    Output: word probability
    by analyzing text data
    Input: Language models determine
    [mask] [mask] by [mask] text data
    Input: Language models determine
    word probability by analyzing text data
    Original: Language models determine word probability by analyzing text data
    最近の成功している⾔語モデルはほぼ上記のような構造を利⽤

    View Slide

  12. Robotic Foundation Models
    12
    ロボットに特化した基盤モデルを構築する取り組みが出てきている
    • “Robotic Foundation Models”と呼ぶことにする
    Robotic Foundation Modelを作る⽬的
    • 特徴量抽出のための⼤規模モデル
    • 制御まで出⼒するEnd-to-endの⼤規模モデル
    • (参考)ロボットのための⾔語モデル
    • これはあまり多くない
    Robotic Foundation Modelを作るためのレシピ
    • データセット
    • アーキテクチャ
    • ⽬的関数

    View Slide

  13. Robotic Foundation Modelsを作る⽬的
    13
    ① 特徴量抽出のための⼤規模モデル
    • 主に(チュートリアル1の)「low-level perception」で利⽤する想定
    ② 制御まで出⼒するEnd-to-endの⼤規模モデル
    • すべてのモジュールを⼀つのモデルでEnd-to-Endすることに学習
    (参考)ロボットのための⾔語モデル
    • 主に「high-level planner」に利⽤する想定
    • これはあまり多くない印象

    View Slide

  14. R3M: ⼈間の⽇常動作の動画から物体操作のための視覚モデルを学習
    特徴量抽出のための⼤規模モデル
    14
    https://sites.google.com/view/robot-r3m/
    画像特徴量を抽出するための
    事前学習モデル
    • ⼈間の1⼈称の⽇常動作の動
    画データセットEgo4Dで
    ResNetを学習
    • ⽇常動作には物体操作が多く
    含まれるため,ロボットの
    物体操作タスクへの転移に
    効果的(と期待)

    View Slide

  15. Atari, Image Captioning, Chat, Robot Manipulationなどを同⼀
    ネットワークで解ける⽅法も登場(Gato)
    制御まで出⼒するEnd-to-endの⼤規模モデル
    15
    • ⾏動を含む⼤規模なデータで1.28Bの⽅策を学習.実時間で推論できるようにほかモデルより少
    し⼩さい.(とは⾔え強化学習で使われるモデルとしては相当巨⼤)
    • Few-Shotでの性能が特にモデルが⼤きい場合⼤幅に向上(Promptingではなく普通に学習)
    • 同様にスケールさせた研究として,Robot Transformer (RT-1), BC-Z, Dreamer v3など
    https://www.deepmind.com/publications/a-generalist-agent

    View Slide

  16. Robot Transformer (RT-1)
    制御まで出⼒するEnd-to-endの⼤規模モデル
    16
    モデル
    • Efficient NetとTransformer
    の組み合わせ
    • インストラクションに従い
    動作⽣成
    データ
    • EDR13台,17ヶ⽉,744タ
    スク,13万デモ
    • 訓練︓97%で動作
    • 汎化︓種々の意味で⼤幅向上
    (未知タスク,未知ソース等
    • Long Horizonなタスクも可
    ※ 類似研究にGato,BC-Zなど

    View Slide

  17. マルチモーダル⼊⼒のロボット⽤⾔語モデル | PaLM-E
    (参考)ロボットのための⾔語モデル
    17
    • 画像とテキストのマルチモーダル⼊⼒を受け付ける(Decoder-only)⼤規模⾔語モデル
    • 22BパラメータのViTと540BパラメータのPaLM(LLM)
    • ⾔語タスクのほか,ロボットのプランニングタスクやVQA・キャプショニングタスクで学習
    ※ロボット⽤⾔語モデル(⾔語出⼒)はあまり多くない印象
    https://palm-e.github.io/

    View Slide

  18. Robotic Foundation Modelsを作るためのレシピ
    18
    ① データセット
    • いかに効率よくロボットのデータを集めるか
    ② アーキテクチャ
    • マルチモーダルへの対応
    ③ 学習の⽬的関数
    • 何を予測するか

    View Slide

  19. データセットの⼯夫
    19
    基盤モデル(LLM/VLM)の多くはインターネット上のデータをクロールして
    (⽐較的安価に)⼤規模なデータセットを作成
    しかし,ロボットの場合そうはいかない
    • ロボットの⼤規模データセットは多くない
    • ロボットやセンサによるデータの違いが⼤きい
    • データの形式も多様であまり統⼀されていない

    View Slide

  20. Googleはエキスパートデータを独⾃に収集
    ⼤規模データの収集
    20
    • オフィス環境下の13台のモバイルマニピュレータ(EDR・Google独⾃のロボット)で
    17ヶ⽉かけて130k個のデモンストレーションを遠隔操作で収集
    • 744個の⾔語指⽰タスクを実⾏
    • データセットは(こっそり5⽉に)公開されている
    • https://console.cloud.google.com/storage/browser/gresearch/rt-1-data-release
    https://robotics-transformer1.github.io/

    View Slide

  21. クロスドメインの公開データセットを整備する動きも存在
    ⼤規模データの収集
    • 13タスク24環境60,096個の物体操作の軌道データセット
    (2023/9/12現在)
    • 50,365個は遠隔操作・9,731個はスクリプトで⽣成
    • 市販のロボット(WidowX250)を利⽤
    21
    https://rail-berkeley.github.io/bridgedata/

    View Slide

  22. Transformerにより機械学習コミュニティが融合(Lucas Beyer)
    アーキテクチャの⼯夫
    22
    https://docs.google.com/presentation/d/1ZXFIhYczos679r70Yu8vV9uO6B1J0ztzeDxbnBxD1S0

    View Slide

  23. アーキテクチャの⼯夫
    23
    TransformerがUniversalなアーキテクチャとしてさまざまなモダリティの
    データに利⽤されている
    • ⾔語︓TransformerベースのLLM
    • 事前学習済みのものもよく利⽤される
    • 画像︓Vision Transformer (ViT)
    • ResNet(CNN)を⽤いているものもある
    • 点群︓Point Transformer
    ネットワーク内で複数のモダリティの特徴量を
    組み合わせる際の⼯夫も議論されている
    • 単純には特徴を連結すれば良い
    • FiLM conditioning(よく利⽤される)
    • https://arxiv.org/abs/1709.07871

    View Slide

  24. Tokenizatonの⽅法
    ⾔語以外のドメインでの基盤モデル
    24
    ■ 画像の場合 ■ 時系列(動画)の場合
    • ⼊⼒をパッチ化して,各パッチを
    埋め込みに変換
    • 原理的にサイズが⼤きくなると⾟い
    • ⼀度VQ-VAEでトークンに離散変換
    • よいVQ-VAE⾃体はどう作るのか︖
    ⾔語と⽐べて系列⻑が膨⼤になりがちで切れ⽬も不透明.
    無理⽮理塊を作って扱っているため,誤差が蓄積しうる.

    View Slide

  25. (補⾜) Perciever, Perciever IO, Unified IO
    ⾔語以外のドメインでの基盤モデル
    25
    ⼊⼒をByte列のままそのまま扱うようなTransformer.そのままだとバイト⻑
    Mの⼆乗オーダーで計算がかかるため,Cross Attentionで圧縮する.
    点群等も扱える.

    View Slide

  26. 学習の⽬的関数
    26
    学習の⽬的関数(何を予測対象にするか︖)も多岐にわたる
    • ⾏動の予測
    • 価値(Q値)の予測
    • 未来の状態/観測の予測(Forward dynamics)
    • 上記に限らないマルチモーダルな予測

    View Slide

  27. RT-1/RT-2では⾏動を直接予測
    ⾏動の予測
    27
    RT-1では離散化(bin分割)
    した⾏動(姿勢変化)を出⼒
    • 連続値出⼒よりも性能が
    良いことを確認
    ※ おそらく出⼒空間の
    多峰性の影響
    RT-2は⾏動のtokenを出⼒
    • 対応する⾏動をデコード
    • ⾔語モデルと同様に扱えるた
    め,⾔語データと同時に
    fine-tuning

    View Slide

  28. とりうる⾏動の候補に対してQ値を出⼒ | Q-Transformer
    価値(Q値)の予測
    28
    https://q-transformer.github.io/
    オフラインデータから
    離散化した⾏動空間に対応する
    Q値の更新⽅法を提案
    (オフライン強化学習)
    • ネットワークは離散化された
    ⾏動それぞれに対するQ値を
    出⼒
    • Q値が最⼤となる⾏動を実⾏

    View Slide

  29. 転移可能な順モデルの学習 | Generalist Dynamics Model
    未来の状態/観測の予測(Forward dynamics)
    29
    さまざまな制御タスクに利⽤
    (転移)可能なforward model
    を学習
    • データ全てを時系列とみなし
    て時系列予測
    • LLMにおけるnext token
    prediction
    ロボットの制御をする際はMPC
    で⾏動選択
    • 当論⽂ではシミュレータ上で
    の検証のみ

    View Slide

  30. さまざまなモダリティのデータを統⼀的に扱って⽅策を学習 | Gato
    マルチモーダルな予測
    30
    • さまざまな制御(ゲーム・ロボット)タスクや⾔語タスクで巨⼤な⽅策(1.28B)を学習
    • タスクに合わせて連続値の⾏動・離散地の⾏動・テキストを出⼒
    • 異なるモダリティを⼀つのモデルで扱うためにモダリティごとにtokenize/embedding
    • ロボットの応⽤を発展させた研究としてRoboCatがある(主にデータ取得⽅法で改善)
    • https://www.deepmind.com/blog/robocat-a-self-improving-robotic-agent

    View Slide

  31. Universal APIの重要性 | UniMask
    “UniMASK: Unified Inference in Sequential Decision Problems”, NeurIPS2022
    31
    • ⾔語の成功の⼀因は多様なタスクを⾔語In⾔語Outの同じ形式でかけること
    (Universal API)
    • 他のドメインにおけるUniversal APIの設計は重要な研究

    View Slide

  32. 議論
    32
    データ・計算リソースの制約からRobotic Foundation Modelを作っている
    のは(他の基盤モデルの例に漏れず)ごく⼀部の研究機関
    • 限られた機関のみがマルチモーダルな基盤モデルを構築する知⾒を持つ
    ロボットを実世界で動かすという観点では,
    ずっとロボティクスで議論されていながらも実現されてない側⾯も多い
    • モデルの⼤きさ故リアルタイムの制御が難しい
    • 例︓RT-2は「推論時に」複数のTPUを使って1-3Hzしか出ない
    • 視野外の情報をきちんと扱えているのかは不明
    • そもそも基盤モデルがどれだけ記憶できるかは未知な部分が多い
    • 予測モデルの学習・利⽤の話はまだあまり出てきていない
    • リアルタイムな制御や視野外の情報の処理(統合)に関する問題を解決する⽅向の⼀つ
    End-to-Endのモデルがどこまで制御に実利⽤できるかは未知な部分も⼤きい
    • 学習の研究としてモデルを統⼀する⽅向なのは(おそらく)既定路線
    • 推論や学習の効率化(スキルの学習との組み合わせなど)が必須では︖

    View Slide

  33. 本チュートリアルのまとめ
    33
    基盤モデルを実ロボット応⽤するための技術動向について,
    活⽤⽅法とロボット特化のモデルの構築⽅法を中⼼に紹介しました
    (後半︓松嶋)
    3. 基盤モデルで何が実現されたか︖
    • 1) ⾼い適応能⼒ (Few-Shot), 2) スケール則, 3) 他モダリティへの転⽤
    4. ロボット特有の基盤モデルの構築にはデータ・モデル・⽬的関数の⼯夫が必要
    • ⼤規模データセット / Transformerとモダリティの統合 / さまざまな予測対象
    (前半︓河原塚)
    1.基盤モデルは⾔語や視覚(+α)での汎化性能の⾼いモデル
    • LLM / VLM / ALM …etc
    2.基盤モデルを組み合わせてさまざまなロボットシステムを構築可能
    • Low/High-level Perception, Low/High-level Planning

    View Slide

  34. OS4「基盤モデルの実ロボット応⽤」について
    34
    本OSでのご発表・ご参加⼤変ありがとうございます︕
    本OSは開催1年⽬ですが…
    • 3セッション・ 21本の発表
    • 7研究機関から68名の著者(重複なしでカウント)
    • 多岐にわたる応⽤先
    • ⽣活⽀援ロボット,料理ロボット,HRI,脚ロボット…etc
    • 多岐にわたる技術・活⽤法
    • ⾏動計画,対話,世界モデルの学習,説明⽂⽣成,物体操作…etc
    本OSを通じて(議論の多い)先端的なテーマを楽しんでいただければ

    新しく活発な研究コミュニティが⽣まれれば と思います

    View Slide

  35. 宣伝
    35
    英⽂誌Advanced Roboticsの特集号
    • ⽇本ロボット学会の英⽂誌
    • Google・Metaなど海外で基盤モデルのロボット応⽤を研究する
    第⼀⼈者たちも本特集号のエディタ陣を務める
    • サーベイ論⽂も歓迎
    • 原稿〆切︓2024/1/31 ※ 採録が決定次第,順次web上で公開予定
    論⽂投稿をぜひご検討ください︕︕

    View Slide