RSJ2023「基盤モデルの実ロボット応用」チュートリアル1（既存の基盤モデルを実ロボットに応用する方法）

基盤モデルの実ロボット応用チュートリアル１河原塚健人1, 松嶋達也2 1 情報システム工学研究室(JSK), 東京大学 2
松尾研究室, 東京大学 1 第41回日本ロボット学会学術講演会 OS4 – 基盤モデルの実ロボット応用

基盤モデルの実ロボット応用 • 本オーガナイズドセッションの狙い • 現在の流行りをキャッチアップしよう！ • 海外勢(主にアメリカ)に負けないよう頑張ろう！ • 後追いを頑張る必要はない. 自身の特異な技術と現在の基盤モ
デルをうまく組み合わせれば面白いことができるかも！？ • 一緒に面白いことやりましょう！ • 本チュートリアルは２部制です • 前半は既存の基盤モデルの応用について • 後半はロボットのための基盤モデル作りについて 2

簡単に自己紹介 • 知らない人もいるかと思いますので… • 名前 – 河原塚健人 (かわはらづかけんと)
• 研究室 – 稲葉研 (情報システム工学研究室, JSK) • 経歴 – 2022.3 博士取得 / 特任助教 / JSPS DC1 / JST ACT-X • Twitter – @KKawaharazuka • Website – https://haraduka.github.io • 研究内容↓ 3 筋骨格身体設計生物模倣制御/学習予測モデル学習基盤モデル応用

基盤モデルとは？ 4 [1] R. Bommasani+, On the Opportunities and Risks
of Foundation Models, arXiv preprint arXiv:2308.03357, 2023 • A foundation model is any model that is trained on broad data (generally using self-supervision at scale) that can be adapted (e.g., fine-tuned) to a wide range of downstream tasks [1]

基盤モデルが可能なタスク 5 言語 • 言語言語 ChatGPT, LLaMA • 言語潜在空間 Sentence
BERT 視覚 • 視覚潜在空間 R3M, VC-1 • 視覚認識 Segment Anything 聴覚点群・深度 LLM

BERT 視覚 • 視覚/言語潜在空間 CLIP, GLIP • 視覚/言語言語 BLIP2, OFA, Flamingo • 言語視覚 Stable Diffusion, DALL-E • 視覚/言語  認識 Detic, OWL-ViT, LSeg 聴覚点群・深度 • 視覚潜在空間 R3M, VC-1 • 視覚認識 Segment Anything VLM LLM

BERT 視覚 • 視覚/言語潜在空間 CLIP, GLIP • 視覚/言語言語 BLIP2, OFA, Flamingo • 言語視覚 Stable Diffusion, DALL-E • 視覚/言語  認識 Detic, OWL-ViT, LSeg 聴覚点群・深度 • 音声/視覚/言語潜在空間 CLAP, AudioCLIP • 音声言語 Whisper • 視覚/言語/音声音声 MusicLM, AudioLDM, VALL-E • 視覚潜在空間 R3M, VC-1 • 視覚認識 Segment Anything VLM ALM LLM

BERT 視覚 • 視覚/言語潜在空間 CLIP, GLIP • 視覚/言語言語 BLIP2, OFA, Flamingo • 言語視覚 Stable Diffusion, DALL-E • 視覚/言語  認識 Detic, OWL-ViT, LSeg 聴覚点群・深度 • 音声/視覚/言語潜在空間 CLAP, AudioCLIP • 音声言語 Whisper • 視覚/言語/音声音声 MusicLM, AudioLDM, VALL-E • 点群/視覚/言語潜在空間 ULIP, CLIP-goes-3D • 視覚/言語点群・深度 OmniObject3D, Point-E • 点群/視覚/言語言語/認識 3D-LLM, OpenScene • 視覚潜在空間 R3M, VC-1 • 視覚認識 Segment Anything VLM LLM ALM

BERT 視覚 • 視覚/言語潜在空間 CLIP, GLIP • 視覚/言語言語 BLIP2, OFA, Flamingo • 言語視覚 Stable Diffusion, DALL-E • 視覚/言語  認識 Detic, OWL-ViT, LSeg 聴覚点群・深度その他のモダリティ • 音声/視覚/言語潜在空間 CLAP, AudioCLIP • 音声言語 Whisper • 視覚/言語/音声音声 MusicLM, AudioLDM, VALL-E • 点群/視覚/言語潜在空間 ULIP, CLIP-goes-3D • 視覚/言語点群・深度 OmniObject3D, Point-E • 点群/視覚/言語言語/認識 3D-LLM, OpenScene • ヒートマップ • IMU • 動作/骨格情報 • ジェスチャーなど ImageBind, MetaTransformer • 視覚潜在空間 R3M, VC-1 • 視覚認識 Segment Anything VLM LLM ALM

基盤モデルの活用方法 • ロボットは環境を認識し動作を計画, 身体を制御する 10

基盤モデルの活用方法 • ロボットは環境を認識し動作を計画, 身体を制御する • Low-level Perception – 環境や物体等, 現在状態の低レイヤ認識
11

• High-level Perception – マップ生成や報酬生成等の高レイヤ認識 12

• High-level Perception – マップ生成や報酬生成等の高レイヤ認識 • High-level Planning – 抽象的なレイヤでの動作計画 13

• High-level Perception – マップ生成や報酬生成等の高レイヤ認識 • High-level Planning – 抽象的なレイヤでの動作計画 • Low-level Planning – 直接手先位置や関節を扱う低レイヤ制御 14

• High-level Perception – マップ生成や報酬生成等の高レイヤ認識 • High-level Planning – 抽象的なレイヤでの動作計画 • Low-level Planning – 直接手先位置や関節を扱う低レイヤ制御 • Data Augmentation – 認識と制御を接続する学習の際に活用 15

活用方法(i) – Low-level Perception 16 CLIPort [M. Shridhar+, CoRL2021] @特徴量抽出
• CLIPの画像・言語エンコーダにより意味的情報を抽出, TransporterNetsにより空間的情報を抽出して, pick&placeの位置を出力する REFLECT [Z. Liu+, arXiv, 2023] @物体認識・音認識 • MDETRで物体検出, CLIPで物体状態認識, 深度画像からの3D シーングラフ記述, audioCLIPで音認識し,ロボットになぜ動作が失敗したかをLLMでまとめさせ, それを修正するような動作計画を生成していく

活用方法(ii) – High-level Perception 17 VoxPoser [M. Shridhar+, CoRL2023] @目的関数・拘束設計
• LLMとVLMを使いAffordance MapとConstraint Mapをプログラムとして生成, それらをもとにモデル予測制御で動作計画 CLIP-Fields [M. Shafiullah+, RSS2023] @マップ生成 • Detic, CLIP, Sentence-BERTを使用して, 空間の各点に対して物体ラベルや物体画像の特徴量を埋め込み, これを用いてナビゲーション似た事例: 強化学習の報酬生成

活用方法(iii) – High-level Planning 18 Tidy-Bot [J. Wu+, IROS2023] @動作計画
• ViLDによる物体認識やCLIPによるクラス分類をしたうえで, その物体をどこにしまうか, どのようにしまうかを, 人間の好みを考慮しつつLLMで推論 Code as Policies [J. Liang+, ICRA2023] @コード生成 • 認識APIや制御APIを事前に用意したうえで, LLMを使いロボットの制御のための pythonコードを自動生成．コメントと対応するコードからなる事例も入力.

活用方法(iv) – Low-level Planning 19 SayTap [Y. Tang+, CoRL2023] @歩容生成
• LLMからIn-context LearningでFootstep Planと速度vを出力. 得られたFootstep Plan と速度vから各関節指令を計算する部分はシミュレーションで強化学習 General Pattern Machines [S. Mirchandani+, RSS2023] @制御入力生成 • LLMをシーケンス生成器としてCartpoleやMainpulationを行う. シーケンスの transformation/completion/improvementが可能で, 動作の補完や強化学習も可能に

活用方法(v) – Data Augmentation 20 GenAug [Z. Chen+, RSS2023] @画像データ拡張
• 画像を拡散モデルで大量に拡張して模倣学習. 背景の変化, distractorの追加, 現在物体のテクスチャ変化, 別物体の配置によりロバスト性を向上 DIAL [T. Xiao+, RSS2023] @言語データ拡張 • LLMやクラウドソーシングで大量の言語指示例を得る. 大量の軌道データについてfine-tuningしたCLIPで適切な言語指示を複数得て模倣学習に利用

基盤モデルの活用方法 21 1. CLIPやDeticで認識してLLMで動作計画してロボットを動かす 2. AffordanceやRewardを構築して強化学習やMPCでロボットを動かす 3. マップやシーングラフを構築して
動作計画してロボットを動かす 4. CLIPやR3Mの特徴量と制御入力の関係をデータ拡張しつつ学習し動かす

我々の応用事例 – 生活支援 22 [1] Y. Obinata+, Semantic Scene Difference
Detection in Daily Life Patroling by Mobile Robots using Pre-Trained Large-Scale Vision- Language Model, IROS, 2023 [2] Y. Obinata+, Foundation Model based Open Vocabulary Task Planning and Executive System for General Purpose Service Robots, arXiv preprint arXiv:2308.03357, 2023 • LLMによるサブゴール生成とステートマシンの自動構築 • 多数の基盤モデルを用いた汎用タスク実行

我々の応用事例 – 調理行動 23 [1] N. Kanazawa+, Recognition of Heat-Induced
Food State Changes by Time-Series Use of Vision-Language Model for Cooking Robot, IAS, 2023 [2] 金沢直晃+, 料理レシピ記述解析と視覚-言語モデルの時系列利用による食材状態変化認識に基づくロボットの調理作業実行 (in press), 日本ロボット学会誌, 2023 • レシピ記述を解釈して調理実行するロボットシステム開発 • 言語記述に基づいた食材状態変化の認識手法開発

我々の応用事例 – 認識行動 24 [1] K. Kawaharazuka+, VQA-based Robotic State
Recognition Optimized with Genetic Algorithm, ICRA, 2023 [2] K. Kawaharazuka+, Robotic Applications of Pre-Trained Vision-Language Models to Various Recognition Behaviors, preprint arXiv:2303.05674 • VLMのVQAやITRタスクによる環境状態認識と行動実現 • テキスト集合の重みを最適化で調整して性能を向上

我々の応用事例 – 日記生成 25 [1] A. Ichikura+, A Method for
Selecting Scenes and Emotion-Based Descriptions for a Robot's Diary, ROMAN, 2023 [2] A. Ichikura+, Automatic Diary Generation System Including Information on Joint Experiences between Humans and Robots, IAS, 2023 • 人とロボットの関係性を深める思い出共有システムの開発 • 適切な場面を抜き出し状況や感情を記述, 日記を生成

宣伝 • Advanced Robotics特集号 • Real-World Robot Applications of Foundation
Models • 〆切 2024年1月31日 • MetaやDeepMindの研究者を含む豪華なエディター陣！ 26

RSJ2023「基盤モデルの実ロボット応用」チュートリアル1（既存の基盤モデルを実ロボットに応...

RSJ2023「基盤モデルの実ロボット応用」チュートリアル1（既存の基盤モデルを実ロボットに応用する方法）

Kento Kawaharazuka

More Decks by Kento Kawaharazuka

Other Decks in Research

Featured

Transcript

基盤モデルの実ロボット応用チュートリアル１河原塚健人1, 松嶋達也2 1 情報システム工学研究室(JSK), 東京大学 2

簡単に自己紹介 • 知らない人もいるかと思いますので… • 名前 – 河原塚健人 (かわはらづかけんと)

基盤モデルとは？ 4 [1] R. Bommasani+, On the Opportunities and Risks

基盤モデルが可能なタスク 5 言語 • 言語言語 ChatGPT, LLaMA • 言語潜在空間 Sentence

基盤モデルが可能なタスク 6 言語 • 言語言語 ChatGPT, LLaMA • 言語潜在空間 Sentence

基盤モデルが可能なタスク 7 言語 • 言語言語 ChatGPT, LLaMA • 言語潜在空間 Sentence

基盤モデルが可能なタスク 8 言語 • 言語言語 ChatGPT, LLaMA • 言語潜在空間 Sentence

基盤モデルが可能なタスク 9 言語 • 言語言語 ChatGPT, LLaMA • 言語潜在空間 Sentence

基盤モデルの活用方法 • ロボットは環境を認識し動作を計画, 身体を制御する 10

基盤モデルの活用方法 • ロボットは環境を認識し動作を計画, 身体を制御する • Low-level Perception – 環境や物体等, 現在状態の低レイヤ認識

基盤モデルの活用方法 • ロボットは環境を認識し動作を計画, 身体を制御する • Low-level Perception – 環境や物体等, 現在状態の低レイヤ認識

基盤モデルの活用方法 • ロボットは環境を認識し動作を計画, 身体を制御する • Low-level Perception – 環境や物体等, 現在状態の低レイヤ認識

基盤モデルの活用方法 • ロボットは環境を認識し動作を計画, 身体を制御する • Low-level Perception – 環境や物体等, 現在状態の低レイヤ認識

基盤モデルの活用方法 • ロボットは環境を認識し動作を計画, 身体を制御する • Low-level Perception – 環境や物体等, 現在状態の低レイヤ認識

活用方法(i) – Low-level Perception 16 CLIPort [M. Shridhar+, CoRL2021] @特徴量抽出

活用方法(ii) – High-level Perception 17 VoxPoser [M. Shridhar+, CoRL2023] @目的関数・拘束設計

活用方法(iii) – High-level Planning 18 Tidy-Bot [J. Wu+, IROS2023] @動作計画

活用方法(iv) – Low-level Planning 19 SayTap [Y. Tang+, CoRL2023] @歩容生成

活用方法(v) – Data Augmentation 20 GenAug [Z. Chen+, RSS2023] @画像データ拡張

基盤モデルの活用方法 21 1. CLIPやDeticで認識してLLMで動作計画してロボットを動かす 2. AffordanceやRewardを構築して強化学習やMPCでロボットを動かす 3. マップやシーングラフを構築して

我々の応用事例 – 生活支援 22 [1] Y. Obinata+, Semantic Scene Difference

我々の応用事例 – 調理行動 23 [1] N. Kanazawa+, Recognition of Heat-Induced

我々の応用事例 – 認識行動 24 [1] K. Kawaharazuka+, VQA-based Robotic State

我々の応用事例 – 日記生成 25 [1] A. Ichikura+, A Method for

宣伝 • Advanced Robotics特集号 • Real-World Robot Applications of Foundation