Upgrade to Pro — share decks privately, control downloads, hide ads and more …

RSJ2023「基盤モデルの実ロボット応用」チュートリアル1(既存の基盤モデルを実ロボットに応用する方法)

Kento Kawaharazuka
September 24, 2023

 RSJ2023「基盤モデルの実ロボット応用」チュートリアル1(既存の基盤モデルを実ロボットに応用する方法)

RSJ2023「基盤モデルの実ロボット応用」チュートリアル1(既存の基盤モデルを実ロボットに応用する方法)

Kento Kawaharazuka

September 24, 2023
Tweet

Other Decks in Research

Transcript

  1. 基盤モデルの実ロボット応用 チュートリアル1 河原塚 健人1, 松嶋 達也2 1 情報システム工学研究室(JSK), 東京大学 2

    松尾研究室, 東京大学 1 第41回 日本ロボット学会学術講演会 OS4 – 基盤モデルの実ロボット応用
  2. 基盤モデルの実ロボット応用 • 本オーガナイズドセッションの狙い • 現在の流行りをキャッチアップしよう! • 海外勢(主にアメリカ)に負けないよう頑張ろう! • 後追いを頑張る必要はない. 自身の特異な技術と現在の基盤モ

    デルをうまく組み合わせれば面白いことができるかも!? • 一緒に面白いことやりましょう! • 本チュートリアルは2部制です • 前半は既存の基盤モデルの応用について • 後半はロボットのための基盤モデル作りについて 2
  3. 簡単に自己紹介 • 知らない人もいるかと思いますので… • 名前 – 河原塚 健人 (かわはらづか けんと)

    • 研究室 – 稲葉研 (情報システム工学研究室, JSK) • 経歴 – 2022.3 博士取得 / 特任助教 / JSPS DC1 / JST ACT-X • Twitter – @KKawaharazuka • Website – https://haraduka.github.io • 研究内容↓ 3 筋骨格身体設計 生物模倣制御/学習 予測モデル学習 基盤モデル応用
  4. 基盤モデルとは? 4 [1] R. Bommasani+, On the Opportunities and Risks

    of Foundation Models, arXiv preprint arXiv:2308.03357, 2023 • A foundation model is any model that is trained on broad data (generally using self-supervision at scale) that can be adapted (e.g., fine-tuned) to a wide range of downstream tasks [1]
  5. 基盤モデルが可能なタスク 5 言語 • 言語言語 ChatGPT, LLaMA • 言語潜在空間 Sentence

    BERT 視覚 • 視覚潜在空間 R3M, VC-1 • 視覚認識 Segment Anything 聴覚 点群・深度 LLM
  6. 基盤モデルが可能なタスク 6 言語 • 言語言語 ChatGPT, LLaMA • 言語潜在空間 Sentence

    BERT 視覚 • 視覚/言語潜在空間 CLIP, GLIP • 視覚/言語言語 BLIP2, OFA, Flamingo • 言語視覚 Stable Diffusion, DALL-E • 視覚/言語  認識 Detic, OWL-ViT, LSeg 聴覚 点群・深度 • 視覚潜在空間 R3M, VC-1 • 視覚認識 Segment Anything VLM LLM
  7. 基盤モデルが可能なタスク 7 言語 • 言語言語 ChatGPT, LLaMA • 言語潜在空間 Sentence

    BERT 視覚 • 視覚/言語潜在空間 CLIP, GLIP • 視覚/言語言語 BLIP2, OFA, Flamingo • 言語視覚 Stable Diffusion, DALL-E • 視覚/言語  認識 Detic, OWL-ViT, LSeg 聴覚 点群・深度 • 音声/視覚/言語潜在空間 CLAP, AudioCLIP • 音声言語 Whisper • 視覚/言語/音声音声 MusicLM, AudioLDM, VALL-E • 視覚潜在空間 R3M, VC-1 • 視覚認識 Segment Anything VLM ALM LLM
  8. 基盤モデルが可能なタスク 8 言語 • 言語言語 ChatGPT, LLaMA • 言語潜在空間 Sentence

    BERT 視覚 • 視覚/言語潜在空間 CLIP, GLIP • 視覚/言語言語 BLIP2, OFA, Flamingo • 言語視覚 Stable Diffusion, DALL-E • 視覚/言語  認識 Detic, OWL-ViT, LSeg 聴覚 点群・深度 • 音声/視覚/言語潜在空間 CLAP, AudioCLIP • 音声言語 Whisper • 視覚/言語/音声音声 MusicLM, AudioLDM, VALL-E • 点群/視覚/言語潜在空間 ULIP, CLIP-goes-3D • 視覚/言語点群・深度 OmniObject3D, Point-E • 点群/視覚/言語言語/認識 3D-LLM, OpenScene • 視覚潜在空間 R3M, VC-1 • 視覚認識 Segment Anything VLM LLM ALM
  9. 基盤モデルが可能なタスク 9 言語 • 言語言語 ChatGPT, LLaMA • 言語潜在空間 Sentence

    BERT 視覚 • 視覚/言語潜在空間 CLIP, GLIP • 視覚/言語言語 BLIP2, OFA, Flamingo • 言語視覚 Stable Diffusion, DALL-E • 視覚/言語  認識 Detic, OWL-ViT, LSeg 聴覚 点群・深度 その他のモダリティ • 音声/視覚/言語潜在空間 CLAP, AudioCLIP • 音声言語 Whisper • 視覚/言語/音声音声 MusicLM, AudioLDM, VALL-E • 点群/視覚/言語潜在空間 ULIP, CLIP-goes-3D • 視覚/言語点群・深度 OmniObject3D, Point-E • 点群/視覚/言語言語/認識 3D-LLM, OpenScene • ヒートマップ • IMU • 動作/骨格情報 • ジェスチャー など ImageBind, MetaTransformer • 視覚潜在空間 R3M, VC-1 • 視覚認識 Segment Anything VLM LLM ALM
  10. 基盤モデルの活用方法 • ロボットは環境を認識し動作を計画, 身体を制御する • Low-level Perception – 環境や物体等, 現在状態の低レイヤ認識

    • High-level Perception – マップ生成や報酬生成等の高レイヤ認識 • High-level Planning – 抽象的なレイヤでの動作計画 13
  11. 基盤モデルの活用方法 • ロボットは環境を認識し動作を計画, 身体を制御する • Low-level Perception – 環境や物体等, 現在状態の低レイヤ認識

    • High-level Perception – マップ生成や報酬生成等の高レイヤ認識 • High-level Planning – 抽象的なレイヤでの動作計画 • Low-level Planning – 直接手先位置や関節を扱う低レイヤ制御 14
  12. 基盤モデルの活用方法 • ロボットは環境を認識し動作を計画, 身体を制御する • Low-level Perception – 環境や物体等, 現在状態の低レイヤ認識

    • High-level Perception – マップ生成や報酬生成等の高レイヤ認識 • High-level Planning – 抽象的なレイヤでの動作計画 • Low-level Planning – 直接手先位置や関節を扱う低レイヤ制御 • Data Augmentation – 認識と制御を接続する学習の際に活用 15
  13. 活用方法(i) – Low-level Perception 16 CLIPort [M. Shridhar+, CoRL2021] @特徴量抽出

    • CLIPの画像・言語エンコーダにより意味的情報を抽出, TransporterNetsにより空 間的情報を抽出して, pick&placeの位置を出力する REFLECT [Z. Liu+, arXiv, 2023] @物体認識・音認識 • MDETRで物体検出, CLIPで物体状態認識, 深度画像からの3D シーングラフ記述, audioCLIPで音認識し,ロボットになぜ動作が失敗したかをLLMでまとめさせ, そ れを修正するような動作計画を生成していく
  14. 活用方法(ii) – High-level Perception 17 VoxPoser [M. Shridhar+, CoRL2023] @目的関数・拘束設計

    • LLMとVLMを使いAffordance MapとConstraint Mapをプログラムとして生成, それ らをもとにモデル予測制御で動作計画 CLIP-Fields [M. Shafiullah+, RSS2023] @マップ生成 • Detic, CLIP, Sentence-BERTを使用して, 空間の各点に対して物体ラベルや物体画 像の特徴量を埋め込み, これを用いてナビゲーション 似た事例: 強化学習の報酬生成
  15. 活用方法(iii) – High-level Planning 18 Tidy-Bot [J. Wu+, IROS2023] @動作計画

    • ViLDによる物体認識やCLIPによるクラス分類をしたうえで, その物体をどこにし まうか, どのようにしまうかを, 人間の好みを考慮しつつLLMで推論 Code as Policies [J. Liang+, ICRA2023] @コード生成 • 認識APIや制御APIを事前に用意したうえで, LLMを使いロボットの制御のための pythonコードを自動生成.コメントと対応するコードからなる事例も入力.
  16. 活用方法(iv) – Low-level Planning 19 SayTap [Y. Tang+, CoRL2023] @歩容生成

    • LLMからIn-context LearningでFootstep Planと速度vを出力. 得られたFootstep Plan と速度vから各関節指令を計算する部分はシミュレーションで強化学習 General Pattern Machines [S. Mirchandani+, RSS2023] @制御入力生成 • LLMをシーケンス生成器としてCartpoleやMainpulationを行う. シーケンスの transformation/completion/improvementが可能で, 動作の補完や強化学習も可能に
  17. 活用方法(v) – Data Augmentation 20 GenAug [Z. Chen+, RSS2023] @画像データ拡張

    • 画像を拡散モデルで大量に拡張して模倣学習. 背景の変化, distractorの追加, 現 在物体のテクスチャ変化, 別物体の配置によりロバスト性を向上 DIAL [T. Xiao+, RSS2023] @言語データ拡張 • LLMやクラウドソーシングで大量の言語指示例を得る. 大量の軌道データについ てfine-tuningしたCLIPで適切な言語指示を複数得て模倣学習に利用
  18. 我々の応用事例 – 生活支援 22 [1] Y. Obinata+, Semantic Scene Difference

    Detection in Daily Life Patroling by Mobile Robots using Pre-Trained Large-Scale Vision- Language Model, IROS, 2023 [2] Y. Obinata+, Foundation Model based Open Vocabulary Task Planning and Executive System for General Purpose Service Robots, arXiv preprint arXiv:2308.03357, 2023 • LLMによるサブゴール生成とステートマシンの自動構築 • 多数の基盤モデルを用いた汎用タスク実行
  19. 我々の応用事例 – 調理行動 23 [1] N. Kanazawa+, Recognition of Heat-Induced

    Food State Changes by Time-Series Use of Vision-Language Model for Cooking Robot, IAS, 2023 [2] 金沢 直晃+, 料理レシピ記述解析と視覚-言語モデルの時系列利用による食材状態変化認識に基づくロボットの調理作業実行 (in press), 日本ロボット学会誌, 2023 • レシピ記述を解釈して調理実行するロボットシステム開発 • 言語記述に基づいた食材状態変化の認識手法開発
  20. 我々の応用事例 – 認識行動 24 [1] K. Kawaharazuka+, VQA-based Robotic State

    Recognition Optimized with Genetic Algorithm, ICRA, 2023 [2] K. Kawaharazuka+, Robotic Applications of Pre-Trained Vision-Language Models to Various Recognition Behaviors, preprint arXiv:2303.05674 • VLMのVQAやITRタスクによる環境状態認識と行動実現 • テキスト集合の重みを最適化で調整して性能を向上
  21. 我々の応用事例 – 日記生成 25 [1] A. Ichikura+, A Method for

    Selecting Scenes and Emotion-Based Descriptions for a Robot's Diary, ROMAN, 2023 [2] A. Ichikura+, Automatic Diary Generation System Including Information on Joint Experiences between Humans and Robots, IAS, 2023 • 人とロボットの関係性を深める思い出共有システムの開発 • 適切な場面を抜き出し状況や感情を記述, 日記を生成
  22. 宣伝 • Advanced Robotics特集号 • Real-World Robot Applications of Foundation

    Models • 〆切 2024年1月31日 • MetaやDeepMindの研究者を含む豪華なエディター陣! 26