$30 off During Our Annual Pro Sale. View Details »

RSJ2023「基盤モデルの実ロボット応用」チュートリアル1(既存の基盤モデルを実ロボットに応用する方法)

 RSJ2023「基盤モデルの実ロボット応用」チュートリアル1(既存の基盤モデルを実ロボットに応用する方法)

RSJ2023「基盤モデルの実ロボット応用」チュートリアル1(既存の基盤モデルを実ロボットに応用する方法)

Kento Kawaharazuka

September 24, 2023
Tweet

Other Decks in Research

Transcript

  1. 基盤モデルの実ロボット応用
    チュートリアル1
    河原塚 健人1, 松嶋 達也2
    1 情報システム工学研究室(JSK), 東京大学
    2 松尾研究室, 東京大学
    1
    第41回 日本ロボット学会学術講演会
    OS4 – 基盤モデルの実ロボット応用

    View Slide

  2. 基盤モデルの実ロボット応用
    • 本オーガナイズドセッションの狙い
    • 現在の流行りをキャッチアップしよう!
    • 海外勢(主にアメリカ)に負けないよう頑張ろう!
    • 後追いを頑張る必要はない. 自身の特異な技術と現在の基盤モ
    デルをうまく組み合わせれば面白いことができるかも!?
    • 一緒に面白いことやりましょう!
    • 本チュートリアルは2部制です
    • 前半は既存の基盤モデルの応用について
    • 後半はロボットのための基盤モデル作りについて
    2

    View Slide

  3. 簡単に自己紹介
    • 知らない人もいるかと思いますので…
    • 名前 – 河原塚 健人 (かわはらづか けんと)
    • 研究室 – 稲葉研 (情報システム工学研究室, JSK)
    • 経歴 – 2022.3 博士取得 / 特任助教 / JSPS DC1 / JST ACT-X
    • Twitter – @KKawaharazuka
    • Website – https://haraduka.github.io
    • 研究内容↓
    3
    筋骨格身体設計 生物模倣制御/学習 予測モデル学習 基盤モデル応用

    View Slide

  4. 基盤モデルとは?
    4
    [1] R. Bommasani+, On the Opportunities and Risks of Foundation Models, arXiv preprint arXiv:2308.03357, 2023
    • A foundation model is any model that is trained on broad data (generally
    using self-supervision at scale) that can be adapted (e.g., fine-tuned) to a
    wide range of downstream tasks [1]

    View Slide

  5. 基盤モデルが可能なタスク
    5
    言語
    • 言語言語
    ChatGPT, LLaMA
    • 言語潜在空間
    Sentence BERT
    視覚
    • 視覚潜在空間
    R3M, VC-1
    • 視覚認識
    Segment Anything
    聴覚 点群・深度
    LLM

    View Slide

  6. 基盤モデルが可能なタスク
    6
    言語
    • 言語言語
    ChatGPT, LLaMA
    • 言語潜在空間
    Sentence BERT
    視覚
    • 視覚/言語潜在空間
    CLIP, GLIP
    • 視覚/言語言語
    BLIP2, OFA, Flamingo
    • 言語視覚
    Stable Diffusion, DALL-E
    • 視覚/言語  認識
    Detic, OWL-ViT, LSeg
    聴覚 点群・深度
    • 視覚潜在空間
    R3M, VC-1
    • 視覚認識
    Segment Anything
    VLM
    LLM

    View Slide

  7. 基盤モデルが可能なタスク
    7
    言語
    • 言語言語
    ChatGPT, LLaMA
    • 言語潜在空間
    Sentence BERT
    視覚
    • 視覚/言語潜在空間
    CLIP, GLIP
    • 視覚/言語言語
    BLIP2, OFA, Flamingo
    • 言語視覚
    Stable Diffusion, DALL-E
    • 視覚/言語  認識
    Detic, OWL-ViT, LSeg
    聴覚 点群・深度
    • 音声/視覚/言語潜在空間
    CLAP, AudioCLIP
    • 音声言語
    Whisper
    • 視覚/言語/音声音声
    MusicLM, AudioLDM, VALL-E
    • 視覚潜在空間
    R3M, VC-1
    • 視覚認識
    Segment Anything
    VLM
    ALM
    LLM

    View Slide

  8. 基盤モデルが可能なタスク
    8
    言語
    • 言語言語
    ChatGPT, LLaMA
    • 言語潜在空間
    Sentence BERT
    視覚
    • 視覚/言語潜在空間
    CLIP, GLIP
    • 視覚/言語言語
    BLIP2, OFA, Flamingo
    • 言語視覚
    Stable Diffusion, DALL-E
    • 視覚/言語  認識
    Detic, OWL-ViT, LSeg
    聴覚 点群・深度
    • 音声/視覚/言語潜在空間
    CLAP, AudioCLIP
    • 音声言語
    Whisper
    • 視覚/言語/音声音声
    MusicLM, AudioLDM, VALL-E
    • 点群/視覚/言語潜在空間
    ULIP, CLIP-goes-3D
    • 視覚/言語点群・深度
    OmniObject3D, Point-E
    • 点群/視覚/言語言語/認識
    3D-LLM, OpenScene
    • 視覚潜在空間
    R3M, VC-1
    • 視覚認識
    Segment Anything
    VLM
    LLM
    ALM

    View Slide

  9. 基盤モデルが可能なタスク
    9
    言語
    • 言語言語
    ChatGPT, LLaMA
    • 言語潜在空間
    Sentence BERT
    視覚
    • 視覚/言語潜在空間
    CLIP, GLIP
    • 視覚/言語言語
    BLIP2, OFA, Flamingo
    • 言語視覚
    Stable Diffusion, DALL-E
    • 視覚/言語  認識
    Detic, OWL-ViT, LSeg
    聴覚 点群・深度
    その他のモダリティ
    • 音声/視覚/言語潜在空間
    CLAP, AudioCLIP
    • 音声言語
    Whisper
    • 視覚/言語/音声音声
    MusicLM, AudioLDM, VALL-E
    • 点群/視覚/言語潜在空間
    ULIP, CLIP-goes-3D
    • 視覚/言語点群・深度
    OmniObject3D, Point-E
    • 点群/視覚/言語言語/認識
    3D-LLM, OpenScene
    • ヒートマップ
    • IMU
    • 動作/骨格情報
    • ジェスチャー
    など
    ImageBind, MetaTransformer
    • 視覚潜在空間
    R3M, VC-1
    • 視覚認識
    Segment Anything
    VLM
    LLM
    ALM

    View Slide

  10. 基盤モデルの活用方法
    • ロボットは環境を認識し動作を計画, 身体を制御する
    10

    View Slide

  11. 基盤モデルの活用方法
    • ロボットは環境を認識し動作を計画, 身体を制御する
    • Low-level Perception – 環境や物体等, 現在状態の低レイヤ認識
    11

    View Slide

  12. 基盤モデルの活用方法
    • ロボットは環境を認識し動作を計画, 身体を制御する
    • Low-level Perception – 環境や物体等, 現在状態の低レイヤ認識
    • High-level Perception – マップ生成や報酬生成等の高レイヤ認識
    12

    View Slide

  13. 基盤モデルの活用方法
    • ロボットは環境を認識し動作を計画, 身体を制御する
    • Low-level Perception – 環境や物体等, 現在状態の低レイヤ認識
    • High-level Perception – マップ生成や報酬生成等の高レイヤ認識
    • High-level Planning – 抽象的なレイヤでの動作計画
    13

    View Slide

  14. 基盤モデルの活用方法
    • ロボットは環境を認識し動作を計画, 身体を制御する
    • Low-level Perception – 環境や物体等, 現在状態の低レイヤ認識
    • High-level Perception – マップ生成や報酬生成等の高レイヤ認識
    • High-level Planning – 抽象的なレイヤでの動作計画
    • Low-level Planning – 直接手先位置や関節を扱う低レイヤ制御
    14

    View Slide

  15. 基盤モデルの活用方法
    • ロボットは環境を認識し動作を計画, 身体を制御する
    • Low-level Perception – 環境や物体等, 現在状態の低レイヤ認識
    • High-level Perception – マップ生成や報酬生成等の高レイヤ認識
    • High-level Planning – 抽象的なレイヤでの動作計画
    • Low-level Planning – 直接手先位置や関節を扱う低レイヤ制御
    • Data Augmentation – 認識と制御を接続する学習の際に活用
    15

    View Slide

  16. 活用方法(i) – Low-level Perception
    16
    CLIPort [M. Shridhar+, CoRL2021] @特徴量抽出
    • CLIPの画像・言語エンコーダにより意味的情報を抽出, TransporterNetsにより空
    間的情報を抽出して, pick&placeの位置を出力する
    REFLECT [Z. Liu+, arXiv, 2023] @物体認識・音認識
    • MDETRで物体検出, CLIPで物体状態認識, 深度画像からの3D シーングラフ記述,
    audioCLIPで音認識し,ロボットになぜ動作が失敗したかをLLMでまとめさせ, そ
    れを修正するような動作計画を生成していく

    View Slide

  17. 活用方法(ii) – High-level Perception
    17
    VoxPoser [M. Shridhar+, CoRL2023] @目的関数・拘束設計
    • LLMとVLMを使いAffordance MapとConstraint Mapをプログラムとして生成, それ
    らをもとにモデル予測制御で動作計画
    CLIP-Fields [M. Shafiullah+, RSS2023] @マップ生成
    • Detic, CLIP, Sentence-BERTを使用して, 空間の各点に対して物体ラベルや物体画
    像の特徴量を埋め込み, これを用いてナビゲーション
    似た事例: 強化学習の報酬生成

    View Slide

  18. 活用方法(iii) – High-level Planning
    18
    Tidy-Bot [J. Wu+, IROS2023] @動作計画
    • ViLDによる物体認識やCLIPによるクラス分類をしたうえで, その物体をどこにし
    まうか, どのようにしまうかを, 人間の好みを考慮しつつLLMで推論
    Code as Policies [J. Liang+, ICRA2023] @コード生成
    • 認識APIや制御APIを事前に用意したうえで, LLMを使いロボットの制御のための
    pythonコードを自動生成.コメントと対応するコードからなる事例も入力.

    View Slide

  19. 活用方法(iv) – Low-level Planning
    19
    SayTap [Y. Tang+, CoRL2023] @歩容生成
    • LLMからIn-context LearningでFootstep Planと速度vを出力. 得られたFootstep Plan
    と速度vから各関節指令を計算する部分はシミュレーションで強化学習
    General Pattern Machines [S. Mirchandani+, RSS2023] @制御入力生成
    • LLMをシーケンス生成器としてCartpoleやMainpulationを行う. シーケンスの
    transformation/completion/improvementが可能で, 動作の補完や強化学習も可能に

    View Slide

  20. 活用方法(v) – Data Augmentation
    20
    GenAug [Z. Chen+, RSS2023] @画像データ拡張
    • 画像を拡散モデルで大量に拡張して模倣学習. 背景の変化, distractorの追加, 現
    在物体のテクスチャ変化, 別物体の配置によりロバスト性を向上
    DIAL [T. Xiao+, RSS2023] @言語データ拡張
    • LLMやクラウドソーシングで大量の言語指示例を得る. 大量の軌道データについ
    てfine-tuningしたCLIPで適切な言語指示を複数得て模倣学習に利用

    View Slide

  21. 基盤モデルの活用方法
    21
    1. CLIPやDeticで認識してLLMで動作計
    画してロボットを動かす
    2. AffordanceやRewardを構築して強化
    学習やMPCでロボットを動かす
    3. マップやシーングラフを構築して
    動作計画してロボットを動かす
    4. CLIPやR3Mの特徴量と制御入力の関
    係をデータ拡張しつつ学習し動かす

    View Slide

  22. 我々の応用事例 – 生活支援
    22
    [1] Y. Obinata+, Semantic Scene Difference Detection in Daily Life Patroling by Mobile Robots using Pre-Trained Large-Scale Vision-
    Language Model, IROS, 2023
    [2] Y. Obinata+, Foundation Model based Open Vocabulary Task Planning and Executive System for General Purpose Service Robots,
    arXiv preprint arXiv:2308.03357, 2023
    • LLMによるサブゴール生成とステートマシンの自動構築
    • 多数の基盤モデルを用いた汎用タスク実行

    View Slide

  23. 我々の応用事例 – 調理行動
    23
    [1] N. Kanazawa+, Recognition of Heat-Induced Food State Changes by Time-Series Use of Vision-Language Model for Cooking Robot, IAS, 2023
    [2] 金沢 直晃+, 料理レシピ記述解析と視覚-言語モデルの時系列利用による食材状態変化認識に基づくロボットの調理作業実行
    (in press), 日本ロボット学会誌, 2023
    • レシピ記述を解釈して調理実行するロボットシステム開発
    • 言語記述に基づいた食材状態変化の認識手法開発

    View Slide

  24. 我々の応用事例 – 認識行動
    24
    [1] K. Kawaharazuka+, VQA-based Robotic State Recognition Optimized with Genetic Algorithm, ICRA, 2023
    [2] K. Kawaharazuka+, Robotic Applications of Pre-Trained Vision-Language Models to Various Recognition Behaviors, preprint arXiv:2303.05674
    • VLMのVQAやITRタスクによる環境状態認識と行動実現
    • テキスト集合の重みを最適化で調整して性能を向上

    View Slide

  25. 我々の応用事例 – 日記生成
    25
    [1] A. Ichikura+, A Method for Selecting Scenes and Emotion-Based Descriptions for a Robot's Diary, ROMAN, 2023
    [2] A. Ichikura+, Automatic Diary Generation System Including Information on Joint Experiences between Humans and Robots, IAS, 2023
    • 人とロボットの関係性を深める思い出共有システムの開発
    • 適切な場面を抜き出し状況や感情を記述, 日記を生成

    View Slide

  26. 宣伝
    • Advanced Robotics特集号
    • Real-World Robot Applications of Foundation Models
    • 〆切 2024年1月31日
    • MetaやDeepMindの研究者を含む豪華なエディター陣!
    26

    View Slide