Slide 1

Slide 1 text

スプリングセミナー2023 深層強化学習 第6回 資料改変版 | 小林聖人 Masato Kobayashi   基盤モデルとロボティクス Foundation Model and Robotics *スプリングセミナー 2023 深層強化学習 第6回 前半の講義資料を改変 講義日: 2023年3月3日 担当講師:小林 聖人 博士(工学) Twitter: @robotmkb , @MeRTcooking 1 スプリングセミナー2023 深層強化学習 https://twitter.com/Matsuo_Lab/status/1617723687331069952

Slide 2

Slide 2 text

スプリングセミナー2023 深層強化学習 第6回 資料改変版 | 小林聖人 Masato Kobayashi   はじめに 2 本講義資料は、 深層強化学習 スプリングセミナー2023の第6回目の前半60分の講義資料がベースになっています。 所々、事前知識が必要な箇所は、次回開催する深層強化学習のセミナーを受講してみてください。 講師の口頭講義前提の資料のため、わかりにくい箇所もありますが、ご了承ください。 https://twitter.com/Matsuo_Lab/status/1617723687331069952

Slide 3

Slide 3 text

スプリングセミナー2023 深層強化学習 第6回 資料改変版 | 小林聖人 Masato Kobayashi   0. 自己紹介 小林 聖人 (Twitter: @robotmkb , @MeRTcooking)   □ 2022/10 ~ 2023/3:神戸大学 大学院海事科学研究科 学術研究員 - 東京大学松尾豊研究室との業務がメイン(基礎研究やロボットデモ) - TRAIL (Tokyo Robotics and AI Lab): 学部1年生中心! @trail_ut - OUXT Polaris (国際自律航行船ロボコン学生主体チーム ) @OUXT_Polaris □ 2021/11~2022/3:オムロンサイニックエックス株式会社 リサーチインターン - ロボティクス×AIの研究 メンター様 2名, オックスフォード大学 博士課程1名 □ 2021/11~2022/9:国立研究開発法人科学技術振興機構 (JST) 次世代研究者挑戦的研究プログラム □ 2019/10 ~ 2022/9:神戸大学 博士(工学)  - 自律・遠隔ロボット関係の研究(主に移動やマニピュレーション) - 私費での社会人博士課程 □ 2019/4~2021/9:セイコーエプソン株式会社 技術開発本部 知能ロボットや製造装置に関する業務 □ 2019/3: 神戸大学 海事科学研究科 修士課程修了  - 制御、モーションコントロール、ロボティクス 3 フォローお待ちしてます ! Motion-Copying System 自律移動手法 : DWV 練習船

Slide 4

Slide 4 text

スプリングセミナー2023 深層強化学習 第6回 資料改変版 | 小林聖人 Masato Kobayashi   今回の講義の位置付け 応用を見据えた近年の発展的話題 基盤モデルとロボティクス レーシングシミュレーションゲーム グランツーリスモ 4 前半 後半 https://youtu.be/zdMz-lDh-QE

Slide 5

Slide 5 text

スプリングセミナー2023 深層強化学習 第6回 資料改変版 | 小林聖人 Masato Kobayashi   目次: 応用を見据えた近年の発展的話題 概要:基盤モデルの概略やロボティクスへの応用事例を学ぶ 1. 基盤モデル、Transformer 2. 基盤モデルとロボティクス 目標: ▷基盤モデルやTransformerの概要を理解する ▷基盤モデルとロボティクスの研究事例を把握し、基盤モデルの応用方法につい  て理解する  (強化学習との関わりについても適宜述べていきます) 5

Slide 6

Slide 6 text

スプリングセミナー2023 深層強化学習 第6回 資料改変版 | 小林聖人 Masato Kobayashi   参考資料 【基盤モデルやTransformer関係】 □TRAIL ブログ「基盤モデルとは」 - 基盤モデルの概要について説明。本記事は 東京大学松尾豊研究室 のサブグループである TRAILのテックブログでご紹介。 □基盤モデル×ロボティクス アドベントカレンダー - 東京大学 松尾研究室が主催する「基盤モデル ×Robotics」に関するAdvent Calendar 2022 □【メタサーベイ】基盤モデル / Foundation Models - cvpaper.challenge の メタサーベイ発表スライド □コンピュータビジョン最前線 Summer 2022 - 「イマドキノ基盤モデル」では、 Bommasaniらによって提案された基盤モデル( foundation model)の概念ついて解説。 □Vision Transformer入門 □機械学習エンジニアのための Transformers 【ロボティクス】 □ROS2とPythonで作って学ぶAIロボット入門 □実践ロボット制御 6 ◎深層学習教科書 ディープラーニング G検定(ジェネラリスト)公式テキスト 第2版

Slide 7

Slide 7 text

スプリングセミナー2023 深層強化学習 第6回 資料改変版 | 小林聖人 Masato Kobayashi   目次: 応用を見据えた近年の発展的話題 1. 基盤モデル 40分 1.1 基盤モデルとは 1.2 基盤モデルの紹介や活用事例 1.3 Transformerとは 1.4 基盤モデルの今後? 2. 基盤モデルとロボティクス 20分 2.1 Robotics領域への活用事例 2.2 Robotics版基盤モデルをつくるには? 2.3 松尾研での活用事例(TRAILの内容): 7

Slide 8

Slide 8 text

スプリングセミナー2023 深層強化学習 第6回 資料改変版 | 小林聖人 Masato Kobayashi   演習資料へ 講義中に使用する演習資料を Google Colabで事前に立ち上げておいてください 8 演習資料はこちら https://github.com/mertcookimg/FoundationModel/blob/main/DRL2023_Ch6/chap06.ipynb スターお待ちしています m(- -)m

Slide 9

Slide 9 text

スプリングセミナー2023 深層強化学習 第6回 資料改変版 | 小林聖人 Masato Kobayashi   第1部 基盤モデル 1.1 基盤モデルとは 9

Slide 10

Slide 10 text

スプリングセミナー2023 深層強化学習 第6回 資料改変版 | 小林聖人 Masato Kobayashi   みなさん、「基盤モデル」を 知っていますか? 10 本セミナーでもちらほらワードがでてきていますね

Slide 11

Slide 11 text

スプリングセミナー2023 深層強化学習 第6回 資料改変版 | 小林聖人 Masato Kobayashi   1.1 基盤モデルとは ▷はじめに 基盤モデルは身近な存在に ... 以下は基盤モデルの一例 11 ・Gato      ・Transformer ・CLIP   ・Detic   ・BERT  

Slide 12

Slide 12 text

スプリングセミナー2023 深層強化学習 第6回 資料改変版 | 小林聖人 Masato Kobayashi   1.1 基盤モデルとは ▷はじめに 基盤モデルは身近な存在に ... 12 ☆話題のChatGPT(基盤モデルのGPTや強化学習が活用されている) https://twitter.com/shanegJP 参考資料 ■松尾研究室資料  AIの進化と日本の戦略 ■Twitter シェインさん ChatGPT強化学習技術リード兼 日本担当 GPT:Generative Pretrained Transformer

Slide 13

Slide 13 text

スプリングセミナー2023 深層強化学習 第6回 資料改変版 | 小林聖人 Masato Kobayashi   1.1 基盤モデルとは • 2021/8/16初出のホワイトペー パーで登場した言葉 • Stanfordの研究機関の名称に もなっている(青枠) (Abstractより抜粋) “AI is undergoing a paradigm shift with the rise of models (e.g., BERT, DALL-E, GPT-3) that are trained on broad data at scale and are adaptable to a wide range of downstream tasks. We call these models foundation models to underscore their critically central yet incomplete character” ▷基盤モデルの提唱論文 13 https://arxiv.org/abs/2108.07258 ざっくりと概要は・・・?

Slide 14

Slide 14 text

スプリングセミナー2023 深層強化学習 第6回 資料改変版 | 小林聖人 Masato Kobayashi   1.1 基盤モデルとは https://trail.t.u-tokyo.ac.jp/ja/blog/22-12-01-foundation-model/ 基盤モデルとは... 大量で多様なデータ を用いて訓練され, 様々なタスクに適応(ファインチューニングなど)できる大規模モデル 第一部が終わる頃にこの図を振り返ってみましょう! 少し理解が深まったはずです! なんだか わかったような? わからんような? ▷はじめに 14 ①Multi Modal ②Emergence at Scale ③Few-Shot/Zero-Shot ability

Slide 15

Slide 15 text

スプリングセミナー2023 深層強化学習 第6回 資料改変版 | 小林聖人 Masato Kobayashi   1.1 基盤モデルとは 基盤モデルとは... 大量で多様なデータを用いて訓練され , 様々なタスクに適応(ファインチューニングなど)できる大規模モデル ▷はじめに 15 ☆これまでのdeep learning (☆Pre-training & Fine-Tuning誕生以前) 学習 ・大量の教師データ ・大量の計算資源 労力&計算資源がないと無理! 事前学習 pre-training fine-tuning ☆Pre-training & Fine-Tuning誕生以降 ・大量の教師データ ・大量の計算資源 →各組織に任せる! ・少量の教師データ ・少量の計算資源 →個人で学習が可能に! 個別に適応 label: ねこ

Slide 16

Slide 16 text

スプリングセミナー2023 深層強化学習 第6回 資料改変版 | 小林聖人 Masato Kobayashi   1.1 基盤モデルとは ▷はじめに 16 タスクごとに必要な データの量 タスクごとの モデリング 分布外データへの 頑丈性 従来モデル 大 個別 弱 基盤モデル(学習済) 小 適応 強 https://blog.recruit.co.jp/data/articles/foundation_models/#fnref:1 従来モデル:「単一タスク, 単一モデル」 基盤モデル:「多様なタスク, 汎化モデル」と活用することが可能 ☆基盤モデルを使うとタスク毎にモデルを設計する必要がなくなる。

Slide 17

Slide 17 text

スプリングセミナー2023 深層強化学習 第6回 資料改変版 | 小林聖人 Masato Kobayashi   1.1 基盤モデルとは • 2021/8/16初出のホワイトペー パーで登場した言葉 • Stanfordの研究機関の名称に もなっている(青枠) (Abstractより抜粋) “AI is undergoing a paradigm shift with the rise of models (e.g., BERT, DALL-E, GPT-3) that are trained on broad data at scale and are adaptable to a wide range of downstream tasks. We call these models foundation models to underscore their critically central yet incomplete character” ▷基盤モデルの提唱論文 17 https://arxiv.org/abs/2108.07258 何故そもそも基盤モデルが注目されていったのか・・・

Slide 18

Slide 18 text

スプリングセミナー2023 深層強化学習 第6回 資料改変版 | 小林聖人 Masato Kobayashi   1.1 基盤モデルとは ▷基盤モデルが台頭した訳 18 ● ハードウェア性能・能力とソフトウェアの最適化 ● Transformerモデルの発明 (1.3で解説) ● 大規模データの利活用 (こちらについて次のスライドから解説) ・Transformer ・GPUの処理性能  2016年〜2020年  10倍に向上 ・表現力 ・拡張性 ・マルチモダリティ ・記憶容量 ・多要素合成性

Slide 19

Slide 19 text

スプリングセミナー2023 深層強化学習 第6回 資料改変版 | 小林聖人 Masato Kobayashi   1.1 基盤モデルとは ▷大規模データ : Scaling Law 19 引用 https://arxiv.org/abs/2001.08361 3つの変数(計算資源 C, データセットサイズ D, パラメータ数 N)に関するべき乗に従って性能が上がる .   3変数を大きくすればするほど基盤モデルの性能が向上する。 *GPT-3は、web上のデータ(4兆単語)で事前学習。1750億パラメータ。学習に数億〜数十億円のコスト。 https://arxiv.org/abs/2001.08361

Slide 20

Slide 20 text

スプリングセミナー2023 深層強化学習 第6回 資料改変版 | 小林聖人 Masato Kobayashi   1.1 基盤モデルとは ▷大規模データ : Emergent Ability ある閾値(モデルサイズ)から突然性能が向上 →モデルのサイズが巨大なときのみ突如解ける 
 言語モデル モデルサイズ データやモデルを巨大にする流れに・・・ https://arxiv.org/abs/2001.08361 20

Slide 21

Slide 21 text

スプリングセミナー2023 深層強化学習 第6回 資料改変版 | 小林聖人 Masato Kobayashi   1.1 基盤モデルとは ▷Transformer 時系列  Transformer models: an introduction and catalog 21 Transformer: Attentionというモデルを用いたエンコーダとデコーダモデル 2017年〜2023年にかけて様々なTransformerベースのモデルが誕生 ! https://arxiv.org/abs/2302.07730

Slide 22

Slide 22 text

スプリングセミナー2023 深層強化学習 第6回 資料改変版 | 小林聖人 Masato Kobayashi   第1部 基盤モデル 1.2 基盤モデルの紹介や活用事例 22

Slide 23

Slide 23 text

スプリングセミナー2023 深層強化学習 第6回 資料改変版 | 小林聖人 Masato Kobayashi   1.2 基盤モデルの紹介 ▷はじめに:1部の演習ではHuggingFaceを活用します 23 https://huggingface.co/ HuggingFace 学習済みの機械学習モデルやデータセットなどを公開 https://huggingface.co/openai/clip-vit-base-patch32 CLIP:Vision and Language Model

Slide 24

Slide 24 text

スプリングセミナー2023 深層強化学習 第6回 資料改変版 | 小林聖人 Masato Kobayashi   1.2 基盤モデルの紹介 ▷Language:GPT (Generative Pretrained Transformer) 24 ・Transformerのデコーダをベース ・質問や推論が可能に ・GPT→GPT2→GPT3とほとんどモデルを変更せずにパラメータやデータを増加 ・パラメータ数 GPT:1億17百万個→GPT-2:15億個→GPT-3:1,750億個 ・InstrusctGPT : GPT3は人間にとって好ましくない文章生成もあり、人間の評価を反映                                       (後ほど紹介) GPT (Generative Pretrained Transformer)

Slide 25

Slide 25 text

スプリングセミナー2023 深層強化学習 第6回 資料改変版 | 小林聖人 Masato Kobayashi   演習資料へ GPT2を体験してみよう! 25 https://github.com/mertcookimg/FoundationModel/blob/main/DRL2023_Ch6/chap06.ipynb

Slide 26

Slide 26 text

スプリングセミナー2023 深層強化学習 第6回 資料改変版 | 小林聖人 Masato Kobayashi   1.2 基盤モデルの紹介 ▷Language:GPT2を演習で体感  26 1. GPT2を体感 GPT2を活用して文章生成をしてみましょう! 目的:GPT2を活用して文章の続きを生成してくれる様子を体感する。

Slide 27

Slide 27 text

スプリングセミナー2023 深層強化学習 第6回 資料改変版 | 小林聖人 Masato Kobayashi   1.2 基盤モデルの紹介 ▷Vision and Language:CLIPを演習で体感 27 ・CLIP   インターネットから集めた画像とテキストの 40億ペアからなるデータセットからモデルを学習することで、多くの下流 タスクに対するゼロショット性能を高めることが可能になった。 https://trail.t.u-tokyo.ac.jp/ja/blog/22-12-02-clip/

Slide 28

Slide 28 text

スプリングセミナー2023 深層強化学習 第6回 資料改変版 | 小林聖人 Masato Kobayashi   演習資料へ CLIPを体験してみよう! 28 https://github.com/mertcookimg/FoundationModel/blob/main/DRL2023_Ch6/chap06.ipynb

Slide 29

Slide 29 text

スプリングセミナー2023 深層強化学習 第6回 資料改変版 | 小林聖人 Masato Kobayashi   1.2 基盤モデルの紹介 ▷Vision and Language:CLIPを演習で体感 29 2. CLIPを体感 CLIPを活用して画像分類器を体感してみよう! 目的:CLIPを活用して、画像分類やプロンプトエンジニアリングを体感する。

Slide 30

Slide 30 text

スプリングセミナー2023 深層強化学習 第6回 資料改変版 | 小林聖人 Masato Kobayashi   1.2 基盤モデルの紹介 ▷音声 Whisper 30 Whisper ・ウェブから収集した68万時間に及ぶ多言語・マルチタスク教師付きデータで学習させた自動音声認識システム。 ・大規模で多様なデータセットを使用したことで、アクセント、背景雑音、専門用語に対する耐性が向上し、多言語での書 き起こしや、 多言語から英語への翻訳も可能となった。 https://openai.com/blog/whisper/

Slide 31

Slide 31 text

スプリングセミナー2023 深層強化学習 第6回 資料改変版 | 小林聖人 Masato Kobayashi   演習資料へ Whisperを体験してみよう! 31 https://github.com/mertcookimg/FoundationModel/blob/main/DRL2023_Ch6/chap06.ipynb

Slide 32

Slide 32 text

スプリングセミナー2023 深層強化学習 第6回 資料改変版 | 小林聖人 Masato Kobayashi   1.2 基盤モデルの紹介 ▷音声 Whisper 32 3. Whisperを体感! 目的:Whisperを活用して、音声からテキスト変換を体感する。 音声ファイルは各自準備してください。 .ma4やmp3等、スマートフォンの録音ファイルでも試せると思います。

Slide 33

Slide 33 text

スプリングセミナー2023 深層強化学習 第6回 資料改変版 | 小林聖人 Masato Kobayashi   1.2 基盤モデルの紹介 ▷MarioGPT: Open-Ended Text2Level Generation through Large Language Models 33 https://arxiv.org/abs/2302.05981 In this work, we introduce MarioGPT, a fine-tuned GPT2 model trained to generate tile-based game levels, in our case Super Mario Bros levels. https://github.com/shyamsn97/mario-gpt

Slide 34

Slide 34 text

スプリングセミナー2023 深層強化学習 第6回 資料改変版 | 小林聖人 Masato Kobayashi   1.2 基盤モデルとは ▷ChatGPT 34 ChatGPTも基盤モデルやRLを活用 RLHF (Reinforcement Learning from Human Feedback)

Slide 35

Slide 35 text

スプリングセミナー2023 深層強化学習 第6回 資料改変版 | 小林聖人 Masato Kobayashi   1.2 基盤モデルとは ▷ChatGPT 35 https://openai.com/blog/chatgpt/ Step1:教師あり学習 Step2: 報酬モデルの学習 Step3: 強化学習 https://arxiv.org/abs/1706.03741 RLHF(Reinforcement Learning from Human Feedback) RLHFでは報酬の計算は人間の フィードバックに基づいて獲得され た報酬予測モデル ・データセット作成(人) ・Fine-tune ・人が回答順位付け ・順位付きデータで学習 ・Step1/2モデル(GPT&報酬) を 用いて強化学習

Slide 36

Slide 36 text

スプリングセミナー2023 深層強化学習 第6回 資料改変版 | 小林聖人 Masato Kobayashi   第1部 基盤モデル 1.3 Transformerとは? 36

Slide 37

Slide 37 text

スプリングセミナー2023 深層強化学習 第6回 資料改変版 | 小林聖人 Masato Kobayashi   1.3 Transformerとは? ▷Transformer 時系列  Transformer models: an introduction and catalog 37 Transformer: Attentionというモデルを用いたエンコーダとデコーダモデル https://arxiv.org/abs/2302.07730

Slide 38

Slide 38 text

スプリングセミナー2023 深層強化学習 第6回 資料改変版 | 小林聖人 Masato Kobayashi   1.3 Transformerとは? ▷Transformerの誕生 "Attention Is All You Need" 2017 38 https://arxiv.org/abs/1706.03762 Transformer: Attentionを用いたエンコーダとデコーダモデル Encorder Decorder

Slide 39

Slide 39 text

スプリングセミナー2023 深層強化学習 第6回 資料改変版 | 小林聖人 Masato Kobayashi   1.3 Transformerとは? ▷Transformer 時系列 39 Attention Timeline. Figure adapted from Transformer United Course by Stanford. Transformer: Attentionというモデルを用いたエンコーダとデコーダモデル https://arxiv.org/abs/1706.03762 ・RNN, LSTM:時系列データでは定番の手法 Encorder Decorder エンコーダ・デコーダモデルとは?

Slide 40

Slide 40 text

スプリングセミナー2023 深層強化学習 第6回 資料改変版 | 小林聖人 Masato Kobayashi   1.3 Transformerとは? ▷エンコーダとデコーダモデル 40 エンコーダとデコーダモデル Encorder Decorder これ エンコーダ (例)入力(言語)を符号化(ベクトル)へ 言語→数値へ デコーダ (例)符号化(ベクトル)された情報を出力(言語)へ 数値→言語へ は ペン です This is a pen 符号化 された情報

Slide 41

Slide 41 text

スプリングセミナー2023 深層強化学習 第6回 資料改変版 | 小林聖人 Masato Kobayashi   1.3 Transformerとは? ▷RNNからAttention 41 □問題点 ・並列計算が難しい。 ・長期の依存関係を取り込めない RNN LSTM Encorder Decorder RNN RNN RNN RNN RNN RNN RNN RNN 状態 最後の状態を渡す 入力 出力 Encorder Decorder RNN RNN RNN RNN RNN RNN RNN RNN 状態1 入力 出力 RNN, LSTM:時系列データでは定番の手法 Attention(注目!) 2014年 状態2 状態3 状態4 エンコーダの各状態をデコーダに渡す (どの状態を使用(注目)するかの優先順位) Attention □問題点 ・入力系列全体で並列化できない

Slide 42

Slide 42 text

スプリングセミナー2023 深層強化学習 第6回 資料改変版 | 小林聖人 Masato Kobayashi   1.3 Transformerとは? ▷AttentionからTransformer 42 Encorder Decorder RNN RNN RNN RNN RNN RNN RNN RNN 状態1 入力 出力 Attention 2014年 状態2 状態3 状態4 エンコーダの各状態をデコーダに渡す (どの状態を使用(注目)するかの優先順位) Attention □問題点 ・入力系列全体で並列化できない Encorder Decorder FF NN FF NN FF NN FF NN 状態1 出力 状態2 状態3 状態4 ・再帰性を排除し、セルフアテンションを両者に採用 ・アテンションを活用したネットワーク Transformer FF NN FF NN FF NN FF NN 入力 2017年から、まだまだ衰えを見せていない ... Transformer 2017年

Slide 43

Slide 43 text

スプリングセミナー2023 深層強化学習 第6回 資料改変版 | 小林聖人 Masato Kobayashi   1.3 Transformerとは? ▷Transformerの誕生 "Attention Is All You Need" 2017 43 https://arxiv.org/abs/1706.03762 Transformer: Attentionを用いたエンコーダとデコーダモデル Encorder Decorder

Slide 44

Slide 44 text

スプリングセミナー2023 深層強化学習 第6回 資料改変版 | 小林聖人 Masato Kobayashi   1.3 Transformerとは? ▷Transformer 概要 44 Encoder Embedding:各言葉を固有の特徴ベクトルに変換する。「私」⇒[0.5,0.1,0.4] Positional Encoding:各言葉が何番目の値であるかを表す値を足す。 *Transformer自体はデータの順序を学習することが出来ない。 Multi-Head Attention:入力データの各言葉同士の関連性を抽出。 Add(残差接続) & Norm(Layer normalization):残差接続+ミニバッチ毎の標準化Layer normalizationで、勾配消失を軽減しつつ層数を増やす。 Feed Forward:全結合層+活性化関数(ReLU)+全結合層の構造 Add(残差接続) & Norm(Layer normalization):残差接続+ミニバッチ毎の標準化Layer normalizationで、勾配消失を軽減しつつ層数を増やす。

Slide 45

Slide 45 text

スプリングセミナー2023 深層強化学習 第6回 資料改変版 | 小林聖人 Masato Kobayashi   1.3 Transformerとは? ▷Transformer 概要 45 Decoder Embedding:各言葉を固有の特徴ベクトルに変換する。 Positional Encoding:各言葉が何番目の値であるかを表す値を足す。 *Transformer自体はデータの順序を学習することが出来ない。 Masked Multi-Head Attention: 入力データの一部をマスクして各言葉同士の関連性を抽出します。 Add(残差接続) & Norm(Layer normalization):残差接続+ミニバッチ毎の標準化Layer normalizationで、勾配消失を軽減しつつ層数を増やす。 Multi-Head Attention:入力データの各言葉同士の関連性を抽出。 Add(残差接続) & Norm(Layer normalization) Feed Forward:全結合層+活性化関数(ReLU)+全結合層の構造 Add(残差接続) & Norm(Layer normalization) 全結合層で特徴ベクトルを各言葉に変換し、Softmaxで確率を計算

Slide 46

Slide 46 text

スプリングセミナー2023 深層強化学習 第6回 資料改変版 | 小林聖人 Masato Kobayashi   1.3 Transformerとは? ▷Transformer 概要 Multi-Head Attentionを重点的に解説! 46 Encoder Decoder □Transformer  ・Attentionを用いたエンコーダとデコーダモデル □重要な箇所(ここを重点的に説明)  ・Multi-Head Attention  ・Scaled Dot-Product Attention   https://arxiv.org/abs/1706.03762

Slide 47

Slide 47 text

スプリングセミナー2023 深層強化学習 第6回 資料改変版 | 小林聖人 Masato Kobayashi   1.3 Transformerとは? ▷Scaled Dot-Product Attention 47 ・Q: query,  K:key,  V: value ・Queryは入力 ・KeyとValueは対になるベクトル Scaled Dot-Product Attention

Slide 48

Slide 48 text

スプリングセミナー2023 深層強化学習 第6回 資料改変版 | 小林聖人 Masato Kobayashi   1.3 Transformerとは? ▷Scaled Dot-Product Attention :お買い物を例にQ K Vを解説 48 Q:お買い物リスト K:商品ラベル V:商品 KとVはペア ここの類似度を見ている Q: query, K:key, V: value

Slide 49

Slide 49 text

スプリングセミナー2023 深層強化学習 第6回 資料改変版 | 小林聖人 Masato Kobayashi   1.3 Transformerとは? ▷Scaled Dot-Product Attention 49 https://arxiv.org/abs/1706.03762 ・Q: query, K:key, V: value ・Queryは入力 ・KeyとValueは対になるベクトル QueryとKeyの類似度(内積)が並んだベクトル スケーリング係数で内積が大きくならないように □内積:ベクトルの類似度を把握できる。 ・同じ向きを向いていると値は大きい。 ・逆向いていると値は小さい。 □ソフトマックス関数 ・ソフトマックス関数の出力は 0から1の間で、  合計は1になる 入力QとVの類似度はKにより決まる。QとKの内積が大きいとQとVは類似している。 つまりKとVの学習が大事!→Multi-Head Attentionにより学習する! Scaled Dot-Product Attention:内積で類似度をみている。重みつき和。

Slide 50

Slide 50 text

スプリングセミナー2023 深層強化学習 第6回 資料改変版 | 小林聖人 Masato Kobayashi   1.3 Transformerとは? ▷Multi-Head Attention 50 Multi-Head Attention:入力Wで操作し、 head(Attentionの出力)を繋げているだけ。 Wはパラメータの行列 Multi-Head Attentionの簡易フロー 1. 行列計算(QKVとパラメータW) 2. Attention 3. Concat (横ベクトルをつなげる ) 4. 行列計算(headとパラメータW) Q, K, Vの正体って何? Qは入力では...K,Vは?

Slide 51

Slide 51 text

スプリングセミナー2023 深層強化学習 第6回 資料改変版 | 小林聖人 Masato Kobayashi   1.3 Transformerとは? ▷Multi-Head Attention 51 Multi-Head Attention Q K V X Q=K=VにXを代入? →入力ベクトルXにそれぞれ異なるWをかけている。 X Q K V 線形変換 Self Attention

Slide 52

Slide 52 text

スプリングセミナー2023 深層強化学習 第6回 資料改変版 | 小林聖人 Masato Kobayashi   1.3 Transformerとは? ▷Transformer 概要 52 Encoders Decoders □Transformer  ・Attentionを用いたエンコーダとデコーダモデル □重要な箇所  ・Multi-Head Attention  ・Scaled Dot-Product Attention   https://arxiv.org/abs/1706.03762

Slide 53

Slide 53 text

スプリングセミナー2023 深層強化学習 第6回 資料改変版 | 小林聖人 Masato Kobayashi   1.3 Transformerとは? ▷Multi-Head Attention Multi-Head Attention Q K V X Cross Attention Y 53

Slide 54

Slide 54 text

スプリングセミナー2023 深層強化学習 第6回 資料改変版 | 小林聖人 Masato Kobayashi   1.3 Transformerとは? ▷Transformerの誕生 "Attention Is All You Need" 2017 54 https://arxiv.org/abs/1706.03762 Transformer: Attentionを用いたエンコーダとデコーダモデル

Slide 55

Slide 55 text

スプリングセミナー2023 深層強化学習 第6回 資料改変版 | 小林聖人 Masato Kobayashi   第1部 基盤モデル 1.4 基盤モデルの今後 55

Slide 56

Slide 56 text

スプリングセミナー2023 深層強化学習 第6回 資料改変版 | 小林聖人 Masato Kobayashi   1.4 基盤モデルの今後 ▷今後 モデル容量や性能 LLaMA 56 https://twitter.com/MetaAI/status/1629156720483405824 LLaMA: A foundational, 65-billion-parameter large language model -ChatGPT (GPT 3.5): 175B Parameters -Bard (Google LaMDA): 137B Parameters -Baidu Ernie: 260B Parameters -LG Exaone: 300B Parameters -Nvidia Megatron: 530B Parameters -Google PaLM: 540B Parameters https://research.facebook.com/publications/llama-open-and-efficient-foundation-language-models/ ChatLLaMAの流れも・・・? https://github.com/nebuly-ai/nebullvm/tree/main/apps/accelerate/chatllama Large Language Model Meta AI □サイズを抑えながらも精度向上 □ChatLLaMA!?

Slide 57

Slide 57 text

スプリングセミナー2023 深層強化学習 第6回 資料改変版 | 小林聖人 Masato Kobayashi   1.4 基盤モデルの今後 ▷Transformer や RL 57 Transformerがまだまだ活躍している時代。 RLHF等、あらゆる分野で強化学習の活用も。 https://arxiv.org/abs/2302.07730 □Tuning computer vision models with task rewards  RLをCV分野にも活用。(2023/2/16) Vision meets RL!!! https://arxiv.org/abs/2302.08242

Slide 58

Slide 58 text

スプリングセミナー2023 深層強化学習 第6回 資料改変版 | 小林聖人 Masato Kobayashi   1.4 基盤モデルの今後 ▷Transformer や RL 58 Transformerと強化学習のサーベイ論文(気になる方は必見です!) https://arxiv.org/abs/2301.03044 Transformer x RL はまだ不安定と述べられている。 気になる方はこちらを見てみてください ! [DL輪読会]深層強化学習はなぜ難しいのか? Why Deep RL fails? A brief A Survey on Transformers in Reinforcement Learning 松尾研関係者も引用されている

Slide 59

Slide 59 text

スプリングセミナー2023 深層強化学習 第6回 資料改変版 | 小林聖人 Masato Kobayashi   第2部 基盤モデルとロボティクス 59

Slide 60

Slide 60 text

スプリングセミナー2023 深層強化学習 第6回 資料改変版 | 小林聖人 Masato Kobayashi   目次: 応用を見据えた近年の発展的話題 1. 基盤モデル 1.1 基盤モデルとは 1.2 基盤モデルの紹介 1.3 Transformerとは 1.4 基盤モデルの今後? 2. 基盤モデルとロボティクス 2.1 Robotics領域への活用事例 2.2 Robotics版基盤モデルをつくるには? 2.3 松尾研での活用事例(TRAILの内容): 60

Slide 61

Slide 61 text

スプリングセミナー2023 深層強化学習 第6回 資料改変版 | 小林聖人 Masato Kobayashi   2. 基盤モデルとロボティクス ▷講義の大筋 61 □基盤モデルをロボティクスへ活用  既存の基盤モデルをシステムに組み込む □ロボティクス版基盤モデル  基盤モデルそのものを作る ・CLIP   ・BERT   ? ロボット ロボット

Slide 62

Slide 62 text

スプリングセミナー2023 深層強化学習 第6回 資料改変版 | 小林聖人 Masato Kobayashi   第2部 基盤モデルとロボティクス 2.1 ロボティクス領域への活用事例 62

Slide 63

Slide 63 text

スプリングセミナー2023 深層強化学習 第6回 資料改変版 | 小林聖人 Masato Kobayashi   2.1 ロボティクス領域への活用事例 ▷基盤モデルとロボティクスの俯瞰図 63 Vision Plannning NLP Manipulation Navigation Control ・ロボットはマルチモーダルな処理 ・基盤モデルと相性が良い https://www.youtube.com/watch?v=FFhiQ7z3zfc

Slide 64

Slide 64 text

スプリングセミナー2023 深層強化学習 第6回 資料改変版 | 小林聖人 Masato Kobayashi   2.1 ロボティクス領域への活用事例 ▷基盤モデルとロボティクスの活用事例 (ほんのひとにぎりを紹介) 64 Vision Plannning NLP Manipulation Navigation Control Language Models as Zero-Shot Planners SayCan MDM LATTE ATLA GPT BERT CLIP Palm Whisper Detic CLIP-Fields LM-Nav VIMA Transformer 基盤モデルをロボティクスに活用した研究が急激に増加! セマンティクスな点群マップ 言語で動作修正 自律移動 実空間でのプランニング 言語空間でのプランニング 新しい道具の使い方を効率的に学習 マニピュレーション テキストから動作生成 ChatGPTの活用! ChatGPT for Robotics

Slide 65

Slide 65 text

スプリングセミナー2023 深層強化学習 第6回 資料改変版 | 小林聖人 Masato Kobayashi   2.1 ロボティクス領域への活用事例 ▷言語空間でのタスクプランニング 65 Language Models as Zero-Shot Planners https://www.youtube.com/watch?v=CkyugWI3_fc https://arxiv.org/abs/2201.07207 GPT-3 BERT ・基盤モデルであるGPT-3等を活用し、言語空間で の タスクプランニング

Slide 66

Slide 66 text

スプリングセミナー2023 深層強化学習 第6回 資料改変版 | 小林聖人 Masato Kobayashi   2.1 ロボティクス領域への活用事例 ▷実空間でのタスクプランニング  SayCan 66 SayCan https://arxiv.org/abs/2204.01691 LLM:GPT3等 ・会話としては妥当な回  答が帰ってくる ・ロボットに自然言語で 指 示できないのか? https://say-can.github.io/ Palm https://www.youtube.com/watch?v=E2g1APtSuUM

Slide 67

Slide 67 text

スプリングセミナー2023 深層強化学習 第6回 資料改変版 | 小林聖人 Masato Kobayashi   2.1 ロボティクス領域への活用事例 ▷実空間でのタスクプランニング  SayCan 67 SayCan https://say-can.github.io/ SayCanの目的 ・言語指示  “I spilled my drink, can you help?” ・行動列  行動列を答える/実行すること →強化学習の問題 1 Xを取る 2 Xを置く 3 Xを並べる 4 引き出しを開ける 5 引き出しを閉める 6 指定した場所に行く 7 特定の操作 ・7 種類のスキル ・17 種類の対象 ・計 551 個 の行動 動作は事前にBC-Zなどで用意 BC-Z: Zero-Shot Task Generalization with Robotic Imitation Learning RetinaGAN https://sites.google.com/view/bc-z/home Palm

Slide 68

Slide 68 text

スプリングセミナー2023 深層強化学習 第6回 資料改変版 | 小林聖人 Masato Kobayashi   2.1 ロボティクス領域への活用事例 ▷言語指示動作生成 Motion Diffusion Model :MDM 68 CLIP MDM "A person punches in a manner consistent with martial arts" https://qiita.com/binomiya/items/42e9a0bc4fd924af8fe0 https://guytevet.github.io/mdm-page/ https://www.youtube.com/watch?v=rVkIDj5wgjs

Slide 69

Slide 69 text

スプリングセミナー2023 深層強化学習 第6回 資料改変版 | 小林聖人 Masato Kobayashi   2.1 ロボティクス領域への活用事例 ▷言語補助動作生成: LATTE: LAnguage Trajectory TransformEr 69 https://arxiv.org/abs/2208.02918 CLIP BERT 自然言語指示でロボットの動作修正に試みた研究 (マニピュレータ、ドローン、多足ロボットで実証) https://www.youtube.com/watch?v=Kutc_peSrpw

Slide 70

Slide 70 text

スプリングセミナー2023 深層強化学習 第6回 資料改変版 | 小林聖人 Masato Kobayashi   2.1 ロボティクス領域への活用事例 ▷言語補助動作生成: ATLA: "Leveraging Language for Accelerated Learning of Tool Manipulation" 70 https://arxiv.org/abs/2206.13074 tool manupilationタスクにおいて,言語で条件づけたメタ学 習を行うことで,新しい toolに対して効率的に適応できるポリ シーを獲得する. (pushing / lifting / sweeping / hammering) task GPT-3 BERT https://www.youtube.com/watch?v=PFiN3T1Vh4M

Slide 71

Slide 71 text

スプリングセミナー2023 深層強化学習 第6回 資料改変版 | 小林聖人 Masato Kobayashi   2.1 ロボティクス領域への活用事例 ▷ChatGPT for Robotics 71 ChatGPT https://www.microsoft.com/en-us/research/group/autonomous-systems-group-robotics/articles/chatgpt-for-robotics/ ・人間が頑張って  コーディングする ・Prompt, APIs+Objectiveを  LLM(ChatGPT)に与えコード生成 https://www.youtube.com/watch?v=wLOChUtdqoA

Slide 72

Slide 72 text

スプリングセミナー2023 深層強化学習 第6回 資料改変版 | 小林聖人 Masato Kobayashi   2.1 ロボティクス領域への活用事例 ▷CLIP-Feilds 72 CLIP https://trail.t.u-tokyo.ac.jp/ja/blog/22-12-05-clip-fields/ CLIP-Fields ・マップ上の空間的位置に対応するセマンティックな表現ベクトルを得ることができる。 ・セグメンテーション、ナビゲーションなどのタスクを実行できる。 ◎人手によるラベル付けを必要としない点 Detic Sentence BERT https://mahis.life/clip-fields/ https://www.youtube.com/watch?v=bKu7GvRiSQU

Slide 73

Slide 73 text

スプリングセミナー2023 深層強化学習 第6回 資料改変版 | 小林聖人 Masato Kobayashi   2.1 ロボティクス領域への活用事例 ▷基盤モデルとロボティクスの活用事例 (ほんのひとにぎりを紹介) 73 Vision Plannning NLP Manipulation Navigation Control Language Models as Zero-Shot Planners SayCan MDM LATTE ATLA GPT BERT CLIP Palm Whisper Detic CLIP-Fields LM-Nav VIMA Transformer 基盤モデルをロボティクスに活用した研究が急激に増加! セマンティクスな点群マップ 言語で動作修正 自律移動 実空間でのプランニング 言語空間でのプランニング 新しい道具の使い方を効率的に学習 マニピュレーション テキストから動作生成 ChatGPTの活用! ChatGPT for Robotics

Slide 74

Slide 74 text

スプリングセミナー2023 深層強化学習 第6回 資料改変版 | 小林聖人 Masato Kobayashi   第2部 基盤モデルとロボティクス 2.2 ロボティクス版 基盤モデルを作るには? (*2.2では私の考えを大きく含みます) 74

Slide 75

Slide 75 text

スプリングセミナー2023 深層強化学習 第6回 資料改変版 | 小林聖人 Masato Kobayashi   2. 基盤モデルとロボティクス ▷講義の大筋 75 □基盤モデルをロボティクスへ活用  既存の基盤モデルをシステムに組み込む □ロボティクス版基盤モデル  基盤モデルそのものを作る ・CLIP   ・BERT   ? ロボット ロボット Robotics Transformer 1

Slide 76

Slide 76 text

スプリングセミナー2023 深層強化学習 第6回 資料改変版 | 小林聖人 Masato Kobayashi   2.2 ロボティクス版基盤モデルを作るには? ▷ロボティクスと基盤モデル 76 https://arxiv.org/abs/2208.02918 CLIP BERT ・これまでの説明では、  基盤モデルをロボットに応用する研究を紹介  CLIPを活用して...  BERTを活用して...  GPTを活用して... ・ロボティクス版基盤モデルはあるのか?  RT-1では?MineDojo?  (Mine Craftの実況動画から学習 )   ・それだけなのか?もっと沢山ないの? →ロボティクス版基盤モデルを作ること自体が難しい  何故か... GPT Detic

Slide 77

Slide 77 text

スプリングセミナー2023 深層強化学習 第6回 資料改変版 | 小林聖人 Masato Kobayashi   2.2 ロボティクス版基盤モデルを作るには? □ロボティクス版基盤モデルの研究背景 ・基盤モデルの様な大規模モデルが高い性能を示している。 ChatGPTもその一例。 ・大規模なデータ、大容量モデルにより高い性能 ・基盤モデルは新規タスクにも汎化 □ロボット版基盤モデル作成の難しさ ・「ロボット」での大規模、大容量モデルの構築 - 実機のロボットで動作 ・大規模なデータセットの構築 - データ量とタスクの多様性 ▷ロボティクス版基盤モデルの課題 77 ・モデルは言語/画像のようにTransformer? ・ロボットの行動決定 /動作周期はそれなりに求 め られる。モデル出力の処理が重要になる。 ・そもそもロボットのデータ取得が難しい  →web上にロボットデータがない等  →模倣学習や深層強化学習を活用

Slide 78

Slide 78 text

スプリングセミナー2023 深層強化学習 第6回 資料改変版 | 小林聖人 Masato Kobayashi   78 https://trail.t.u-tokyo.ac.jp/ja/blog/22-12-15-rt-1/ ・長期間、大量のデータ収集 - デモ数:130k - 使用ロボット(EDR):13台 - Task数:744 - 収集期間:17ヶ月 - 成功率:97% success rate 言語やビジョン領域では既に大規模データや モデルを用いることで性能が向上している。 ロボットでもGoogleがやってみせた。 RT-1:Robotics Transformer 1 2.2 ロボティクス版基盤モデルを作るには? ▷ロボティクス版基盤モデルへ Robotics Transformer 1 : RT-1 https://www.youtube.com/watch?v=UuKAp9a6wMs

Slide 79

Slide 79 text

スプリングセミナー2023 深層強化学習 第6回 資料改変版 | 小林聖人 Masato Kobayashi   79 2.2 ロボティクス版基盤モデルを作るには? ▷ロボティクス版基盤モデルへ Robotics Transformer 1 : RT-1 RT-1の著者陣 https://arxiv.org/abs/2212.06817 ・RT-1  Github:google-research/robotics_transformer 引用:RT-1

Slide 80

Slide 80 text

スプリングセミナー2023 深層強化学習 第6回 資料改変版 | 小林聖人 Masato Kobayashi   80 2.2 ロボティクス版基盤モデルを作るには? ▷ロボティクス版基盤モデルへ Robotics Transformer 1 : RT-1 Robotic Skill Acquisition via Instruction Augmentation with Vision-Language Modelsより引用 ・Mobile Manipulator(移動と作業ができるロボット ) ・7DoF(7自由度)のロボットアーム搭載 ・グリッパ搭載 ■EDR(Mobile Manipulator:Everyday Robots) RT-1で使用したロボット https://www.youtube.com/watch?v=cZT57pkD62w&t=17s

Slide 81

Slide 81 text

スプリングセミナー2023 深層強化学習 第6回 資料改変版 | 小林聖人 Masato Kobayashi   81 2.2 ロボティクス版基盤モデルを作るには? ▷ロボティクス版基盤モデルへ Robotics Transformer 1 : RT-1 ■データ収集 ・長期間、大量のデータ収集 - デモ数:130k - 使用ロボット(EDR):13台 - Task数:744 - 収集期間:17ヶ月 - 成功率:97% success rate RT-1: Robotics Transformer for Real-World Control at Scaleより引用 https://www.youtube.com/watch?v=f-9Jw3KvPJo ・VRコントローラでロボットを操作

Slide 82

Slide 82 text

スプリングセミナー2023 深層強化学習 第6回 資料改変版 | 小林聖人 Masato Kobayashi   2.2 ロボティクス版基盤モデルを作るには? ▷ロボティクス版基盤モデル RT-1 モデル概要 82 入力:画像とテキスト RT-1 出力:Action Mode, Arm, Base RT-1: Robotics Transformer for Real-World Control at Scaleより引用

Slide 83

Slide 83 text

スプリングセミナー2023 深層強化学習 第6回 資料改変版 | 小林聖人 Masato Kobayashi   2.2 ロボティクス版基盤モデルを作るには? ▷RT-1のモデルカード 83 RT-1: Robotics Transformer for Real-World Control at Scaleより引用

Slide 84

Slide 84 text

スプリングセミナー2023 深層強化学習 第6回 資料改変版 | 小林聖人 Masato Kobayashi   2.2 ロボティクス版基盤モデルを作るには? ▷ロボティクス版基盤モデル RT-1 別のロボットデータを使用した性能向上 84 ・今まではロボット(EDR)のデータを使用 ・学習データにはない、 Bin-pickingという新タスク を ロボット(Kuka IIWA)のデータを使用して学習 ・他のロボットから取得したデータで新タスクを 獲得 できるのかを検証。 ・EDRで検証しBin-pickingのタスク成功率が向上 *EDRとKuka IIWAは構造が異なる RT-1: Robotics Transformer for Real-World Control at Scaleより引用

Slide 85

Slide 85 text

スプリングセミナー2023 深層強化学習 第6回 資料改変版 | 小林聖人 Masato Kobayashi   2.2 ロボティクス版基盤モデルを作るには? QT-Opt:Scalable Deep Reinforcement Learning for Vision-Based Robotic Manipulation 前回の古田さんの講義でも (p8) ▷ロボティクス版基盤モデル 強化学習の活用 QT-Opt 85 ・過去の探索時の経験データ(オフライン経験データ)を活 用す る学習
 ・状態:画像、グリッパー開閉のバイナリ値、トレイからの 高さ
 ・行動:制御コマンド グリッパーの移動方向と移動量、回 転量、 グリッパー開閉、把持動作を終了命令
 https://www.youtube.com/watch?v=W4joe3zzglU

Slide 86

Slide 86 text

スプリングセミナー2023 深層強化学習 第6回 資料改変版 | 小林聖人 Masato Kobayashi   2.2 ロボティクス版基盤モデルを作るには? ▷ロボティクス版基盤モデル RT-1 別のロボットデータを使用した性能向上 86 RT-1: Robotics Transformer for Real-World Control at Scaleより引用

Slide 87

Slide 87 text

スプリングセミナー2023 深層強化学習 第6回 資料改変版 | 小林聖人 Masato Kobayashi   2.2 ロボティクス版基盤モデルを作るには? 大規模なデータセットの構築 データ量とタスクの多様性 ▷Scaling Robot Learning with Semantically Imagined Experience (ROSIE) 87 https://twitter.com/xf1280/status/1628483168306364416 https://diffusion-rosie.github.io/ https://www.youtube.com/watch?v=TRYgNHDS7II&t=1s

Slide 88

Slide 88 text

スプリングセミナー2023 深層強化学習 第6回 資料改変版 | 小林聖人 Masato Kobayashi   2.2 ロボティクス版基盤モデルを作るには? ▷MOO:Open-World Object Manipulation using Pre-Trained Vision-Language Models 88 https://robot-moo.github.io/ MOO: Manipulation of Open-World Objects https://twitter.com/xiao_ted/status/1631061177663987713 https://twitter.com/hausman_k/status/1631073653982138368?s=20 https://www.youtube.com/watch?v=KyvHTbLRovI

Slide 89

Slide 89 text

スプリングセミナー2023 深層強化学習 第6回 資料改変版 | 小林聖人 Masato Kobayashi   2.2 ロボティクス版基盤モデルを作るには? □ロボティクス版基盤モデルの研究背景 ・基盤モデルの様な大規模モデルが高い性能を示している。 ChatGPTもその一例。 ・大規模なデータ、大容量モデルにより高い性能 ・基盤モデルは新規タスクにも汎化 □ロボット版基盤モデル作成の難しさ ・「ロボット」での大規模、大容量モデルの構築 - 実機のロボットで動作 ・大規模なデータセットの構築 - データ量とタスクの多様性 ▷ロボティクス版基盤モデルの課題 89 ・モデルは言語/画像のようにTransformer? ・ロボットの行動決定 /動作周期はそれなりに求 め られる。モデル出力の処理が重要になる。 ・そもそもロボットのデータ取得が難しい  →web上にロボットデータがない等  →模倣学習や深層強化学習を活用

Slide 90

Slide 90 text

スプリングセミナー2023 深層強化学習 第6回 資料改変版 | 小林聖人 Masato Kobayashi   2.2 ロボティクス版基盤モデルを作るには? ▷Pre-Training for Robots: Offline RL Enables Learning New Tasks from a Handful of Trials 90 https://www.youtube.com/watch?v=van6wejvUDQ ・概要 1. 事前学習として多様なマルチタスクに対するオフライン強化学 習 2. Fine-tuneをすることで、新しいタスクに対応 事前学習にはBridge Dataを使用 https://arxiv.org/abs/2210.05178

Slide 91

Slide 91 text

スプリングセミナー2023 深層強化学習 第6回 資料改変版 | 小林聖人 Masato Kobayashi   2.2 ロボティクス版基盤モデルを作るには? ▷GNM: A General Navigation Model to Drive Any Robot 91 https://www.youtube.com/watch?v=ICeD6iOglKc ・概要 - 多種ロボットのナビゲーションができるプランナーを学習している - 8種類のロボットからなる計60時間のデータセットを学習にしよう - input - 観測画像、ゴール画像、Embodiment Context(過去k step観測画像) - 距離とwaypointを予測 -これをロボット別のlow-levelコントローラーで追っている https://arxiv.org/abs/2210.03370

Slide 92

Slide 92 text

スプリングセミナー2023 深層強化学習 第6回 資料改変版 | 小林聖人 Masato Kobayashi   第2部 基盤モデルとロボティクス 2.3 松尾研での活用事例 92

Slide 93

Slide 93 text

スプリングセミナー2023 深層強化学習 第6回 資料改変版 | 小林聖人 Masato Kobayashi   2.3 松尾研での活用事例 ▷TRAIL 93 ・CLIPを活用 最近ではSayCanやGPT等も試しています。 https://www.youtube.com/watch?v=FFhiQ7z3zfc

Slide 94

Slide 94 text

スプリングセミナー2023 深層強化学習 第6回 資料改変版 | 小林聖人 Masato Kobayashi   応用を見据えた近年の発展的話題  基盤モデルとロボティクス おわりに...本講義では以下を目標に講義しました。 本講義の概要:基盤モデルの概略やロボティクスへの応用事例を学ぶ 1. 基盤モデル、Transformer 2. 基盤モデルとロボティクス 目標: ▷基盤モデルや Transformerの概要を理解する ▷基盤モデルとロボティクスの研究事例を把握し、基盤モデルの応用方法につい  て理解する(強化学習との関わりについても適宜述べていきます) 少しでも皆様の理解の助けになれれば幸いです! 94 担当講師:小林 聖人 博士 (工学) Twitter: @robotmkb , @MeRTcooking フォローもwelcomeです!