$30 off During Our Annual Pro Sale. View Details »

Foundation Model and Robotics | 基盤モデルとロボティクス

Foundation Model and Robotics | 基盤モデルとロボティクス

東京大学松尾豊研究室のメンバー中心に、講義を行っている深層強化学習 スプリングセミナー2023の第6回目の前半の講義である「基盤モデルとロボティクス」の講義資料を改変した資料です。(講義は2023/3/3に実施)

本講義では、最近話題の『ChatGPT』等にも使用されている『基盤モデルやTransformer』についてお話し、基盤モデルをロボティクスへの活用事例や今後の展開についてもお話ししました。
演習(ハンズオン)ではGPT2,CLIP,Whisperを取り扱っています。

本講義資料は、深層強化学習 スプリングセミナー2023の第6回目の前半60分の講義資料がベースになっています.
https://deeplearning.jp/drl-course-2023sp/

本講義の到達目標:
・基盤モデルやTransformerの概要を理解する
・基盤モデルとロボティクスの研究事例を把握し、基盤モデルの応用方法について理解する

基盤モデルについてはTRAILのブログもご覧ください。
https://trail.t.u-tokyo.ac.jp/ja/blog/22-12-01-foundation-model/

Masato Kobayashi

March 13, 2023
Tweet

Other Decks in Research

Transcript

  1. スプリングセミナー2023 深層強化学習 第6回 資料改変版 | 小林聖人 Masato Kobayashi  
    基盤モデルとロボティクス
    Foundation Model and Robotics
    *スプリングセミナー
    2023 深層強化学習 第6回 前半の講義資料を改変
    講義日: 2023年3月3日
    担当講師:小林 聖人 博士(工学)
    Twitter: @robotmkb , @MeRTcooking
    1
    スプリングセミナー2023 深層強化学習
    https://twitter.com/Matsuo_Lab/status/1617723687331069952

    View Slide

  2. スプリングセミナー2023 深層強化学習 第6回 資料改変版 | 小林聖人 Masato Kobayashi  
    はじめに
    2
    本講義資料は、
    深層強化学習 スプリングセミナー2023の第6回目の前半60分の講義資料がベースになっています。
    所々、事前知識が必要な箇所は、次回開催する深層強化学習のセミナーを受講してみてください。
    講師の口頭講義前提の資料のため、わかりにくい箇所もありますが、ご了承ください。
    https://twitter.com/Matsuo_Lab/status/1617723687331069952

    View Slide

  3. スプリングセミナー2023 深層強化学習 第6回 資料改変版 | 小林聖人 Masato Kobayashi  
    0. 自己紹介 小林 聖人 (Twitter: @robotmkb , @MeRTcooking)
     
    □ 2022/10 ~ 2023/3:神戸大学 大学院海事科学研究科 学術研究員
    - 東京大学松尾豊研究室との業務がメイン(基礎研究やロボットデモ)
    - TRAIL (Tokyo Robotics and AI Lab): 学部1年生中心! @trail_ut
    - OUXT Polaris (国際自律航行船ロボコン学生主体チーム
    ) @OUXT_Polaris
    □ 2021/11~2022/3:オムロンサイニックエックス株式会社 リサーチインターン
    - ロボティクス×AIの研究 メンター様 2名, オックスフォード大学 博士課程1名
    □ 2021/11~2022/9:国立研究開発法人科学技術振興機構 (JST) 次世代研究者挑戦的研究プログラム
    □ 2019/10 ~ 2022/9:神戸大学 博士(工学) 
    - 自律・遠隔ロボット関係の研究(主に移動やマニピュレーション)
    - 私費での社会人博士課程
    □ 2019/4~2021/9:セイコーエプソン株式会社 技術開発本部 知能ロボットや製造装置に関する業務
    □ 2019/3: 神戸大学 海事科学研究科 修士課程修了 
    - 制御、モーションコントロール、ロボティクス
    3
    フォローお待ちしてます !
    Motion-Copying System
    自律移動手法
    : DWV
    練習船

    View Slide

  4. スプリングセミナー2023 深層強化学習 第6回 資料改変版 | 小林聖人 Masato Kobayashi  
    今回の講義の位置付け
    応用を見据えた近年の発展的話題
    基盤モデルとロボティクス
    レーシングシミュレーションゲーム
    グランツーリスモ
    4
    前半
    後半
    https://youtu.be/zdMz-lDh-QE

    View Slide

  5. スプリングセミナー2023 深層強化学習 第6回 資料改変版 | 小林聖人 Masato Kobayashi  
    目次: 応用を見据えた近年の発展的話題
    概要:基盤モデルの概略やロボティクスへの応用事例を学ぶ
    1. 基盤モデル、Transformer
    2. 基盤モデルとロボティクス
    目標:
    ▷基盤モデルやTransformerの概要を理解する
    ▷基盤モデルとロボティクスの研究事例を把握し、基盤モデルの応用方法につい
     て理解する
     (強化学習との関わりについても適宜述べていきます)
    5

    View Slide

  6. スプリングセミナー2023 深層強化学習 第6回 資料改変版 | 小林聖人 Masato Kobayashi  
    参考資料
    【基盤モデルやTransformer関係】
    □TRAIL ブログ「基盤モデルとは」
    - 基盤モデルの概要について説明。本記事は
    東京大学松尾豊研究室
    のサブグループである
    TRAILのテックブログでご紹介。
    □基盤モデル×ロボティクス アドベントカレンダー
    - 東京大学 松尾研究室が主催する「基盤モデル
    ×Robotics」に関するAdvent Calendar 2022
    □【メタサーベイ】基盤モデル / Foundation Models
    - cvpaper.challenge の メタサーベイ発表スライド
    □コンピュータビジョン最前線 Summer 2022
    - 「イマドキノ基盤モデル」では、
    Bommasaniらによって提案された基盤モデル(
    foundation model)の概念ついて解説。
    □Vision Transformer入門
    □機械学習エンジニアのための
    Transformers
    【ロボティクス】
    □ROS2とPythonで作って学ぶAIロボット入門
    □実践ロボット制御
    6
    ◎深層学習教科書 ディープラーニング
    G検定(ジェネラリスト)公式テキスト 第2版

    View Slide

  7. スプリングセミナー2023 深層強化学習 第6回 資料改変版 | 小林聖人 Masato Kobayashi  
    目次: 応用を見据えた近年の発展的話題
    1. 基盤モデル 40分
    1.1 基盤モデルとは
    1.2 基盤モデルの紹介や活用事例
    1.3 Transformerとは
    1.4 基盤モデルの今後?
    2. 基盤モデルとロボティクス 20分
    2.1 Robotics領域への活用事例
    2.2 Robotics版基盤モデルをつくるには?
    2.3 松尾研での活用事例(TRAILの内容):
    7

    View Slide

  8. スプリングセミナー2023 深層強化学習 第6回 資料改変版 | 小林聖人 Masato Kobayashi  
    演習資料へ
    講義中に使用する演習資料を
    Google Colabで事前に立ち上げておいてください
    8
    演習資料はこちら
    https://github.com/mertcookimg/FoundationModel/blob/main/DRL2023_Ch6/chap06.ipynb
    スターお待ちしています m(- -)m

    View Slide

  9. スプリングセミナー2023 深層強化学習 第6回 資料改変版 | 小林聖人 Masato Kobayashi  
    第1部
    基盤モデル
    1.1 基盤モデルとは
    9

    View Slide

  10. スプリングセミナー2023 深層強化学習 第6回 資料改変版 | 小林聖人 Masato Kobayashi  
    みなさん、「基盤モデル」を
    知っていますか?
    10
    本セミナーでもちらほらワードがでてきていますね

    View Slide

  11. スプリングセミナー2023 深層強化学習 第6回 資料改変版 | 小林聖人 Masato Kobayashi  
    1.1 基盤モデルとは
    ▷はじめに 基盤モデルは身近な存在に ... 以下は基盤モデルの一例
    11
    ・Gato   
     
    ・Transformer ・CLIP
     
    ・Detic
     
    ・BERT
     

    View Slide

  12. スプリングセミナー2023 深層強化学習 第6回 資料改変版 | 小林聖人 Masato Kobayashi  
    1.1 基盤モデルとは
    ▷はじめに 基盤モデルは身近な存在に ...
    12
    ☆話題のChatGPT(基盤モデルのGPTや強化学習が活用されている)
    https://twitter.com/shanegJP
    参考資料
    ■松尾研究室資料
     AIの進化と日本の戦略
    ■Twitter シェインさん
    ChatGPT強化学習技術リード兼 日本担当
    GPT:Generative Pretrained Transformer

    View Slide

  13. スプリングセミナー2023 深層強化学習 第6回 資料改変版 | 小林聖人 Masato Kobayashi  
    1.1 基盤モデルとは
    • 2021/8/16初出のホワイトペー
    パーで登場した言葉
    • Stanfordの研究機関の名称に
    もなっている(青枠)
    (Abstractより抜粋)
    “AI is undergoing a paradigm shift with the
    rise of models (e.g., BERT, DALL-E,
    GPT-3) that are trained on broad data at
    scale and are adaptable to a wide range
    of downstream tasks. We call these
    models foundation models to underscore
    their critically central yet incomplete
    character”
    ▷基盤モデルの提唱論文
    13
    https://arxiv.org/abs/2108.07258
    ざっくりと概要は・・・?

    View Slide

  14. スプリングセミナー2023 深層強化学習 第6回 資料改変版 | 小林聖人 Masato Kobayashi  
    1.1 基盤モデルとは
    https://trail.t.u-tokyo.ac.jp/ja/blog/22-12-01-foundation-model/
    基盤モデルとは...
    大量で多様なデータ を用いて訓練され, 様々なタスクに適応(ファインチューニングなど)できる大規模モデル
    第一部が終わる頃にこの図を振り返ってみましょう! 少し理解が深まったはずです!
    なんだか
    わかったような?
    わからんような?
    ▷はじめに
    14
    ①Multi Modal ②Emergence at Scale ③Few-Shot/Zero-Shot
    ability

    View Slide

  15. スプリングセミナー2023 深層強化学習 第6回 資料改変版 | 小林聖人 Masato Kobayashi  
    1.1 基盤モデルとは
    基盤モデルとは...
    大量で多様なデータを用いて訓練され , 様々なタスクに適応(ファインチューニングなど)できる大規模モデル
    ▷はじめに
    15
    ☆これまでのdeep learning
    (☆Pre-training & Fine-Tuning誕生以前)
    学習
    ・大量の教師データ
    ・大量の計算資源
    労力&計算資源がないと無理!
    事前学習
    pre-training
    fine-tuning
    ☆Pre-training & Fine-Tuning誕生以降
    ・大量の教師データ
    ・大量の計算資源
    →各組織に任せる!
    ・少量の教師データ
    ・少量の計算資源
    →個人で学習が可能に!
    個別に適応
    label: ねこ

    View Slide

  16. スプリングセミナー2023 深層強化学習 第6回 資料改変版 | 小林聖人 Masato Kobayashi  
    1.1 基盤モデルとは
    ▷はじめに
    16
    タスクごとに必要な
    データの量
    タスクごとの
    モデリング
    分布外データへの
    頑丈性
    従来モデル 大 個別 弱
    基盤モデル(学習済) 小 適応 強
    https://blog.recruit.co.jp/data/articles/foundation_models/#fnref:1
    従来モデル:「単一タスク, 単一モデル」
    基盤モデル:「多様なタスク, 汎化モデル」と活用することが可能
    ☆基盤モデルを使うとタスク毎にモデルを設計する必要がなくなる。

    View Slide

  17. スプリングセミナー2023 深層強化学習 第6回 資料改変版 | 小林聖人 Masato Kobayashi  
    1.1 基盤モデルとは
    • 2021/8/16初出のホワイトペー
    パーで登場した言葉
    • Stanfordの研究機関の名称に
    もなっている(青枠)
    (Abstractより抜粋)
    “AI is undergoing a paradigm shift with the
    rise of models (e.g., BERT, DALL-E,
    GPT-3) that are trained on broad data at
    scale and are adaptable to a wide range
    of downstream tasks. We call these
    models foundation models to underscore
    their critically central yet incomplete
    character”
    ▷基盤モデルの提唱論文
    17
    https://arxiv.org/abs/2108.07258
    何故そもそも基盤モデルが注目されていったのか・・・

    View Slide

  18. スプリングセミナー2023 深層強化学習 第6回 資料改変版 | 小林聖人 Masato Kobayashi  
    1.1 基盤モデルとは
    ▷基盤モデルが台頭した訳
    18
    ● ハードウェア性能・能力とソフトウェアの最適化
    ● Transformerモデルの発明 (1.3で解説)
    ● 大規模データの利活用 (こちらについて次のスライドから解説)
    ・Transformer
    ・GPUの処理性能
     2016年〜2020年
     10倍に向上
    ・表現力
    ・拡張性
    ・マルチモダリティ
    ・記憶容量
    ・多要素合成性

    View Slide

  19. スプリングセミナー2023 深層強化学習 第6回 資料改変版 | 小林聖人 Masato Kobayashi  
    1.1 基盤モデルとは
    ▷大規模データ : Scaling Law
    19
    引用 https://arxiv.org/abs/2001.08361
    3つの変数(計算資源 C, データセットサイズ D, パラメータ数 N)に関するべき乗に従って性能が上がる .  
    3変数を大きくすればするほど基盤モデルの性能が向上する。
    *GPT-3は、web上のデータ(4兆単語)で事前学習。1750億パラメータ。学習に数億〜数十億円のコスト。
    https://arxiv.org/abs/2001.08361

    View Slide

  20. スプリングセミナー2023 深層強化学習 第6回 資料改変版 | 小林聖人 Masato Kobayashi  
    1.1 基盤モデルとは
    ▷大規模データ : Emergent Ability
    ある閾値(モデルサイズ)から突然性能が向上
    →モデルのサイズが巨大なときのみ突如解ける 

    言語モデル
    モデルサイズ
    データやモデルを巨大にする流れに・・・
    https://arxiv.org/abs/2001.08361
    20

    View Slide

  21. スプリングセミナー2023 深層強化学習 第6回 資料改変版 | 小林聖人 Masato Kobayashi  
    1.1 基盤モデルとは
    ▷Transformer 時系列  Transformer models: an introduction and catalog
    21
    Transformer: Attentionというモデルを用いたエンコーダとデコーダモデル
    2017年〜2023年にかけて様々なTransformerベースのモデルが誕生 !
    https://arxiv.org/abs/2302.07730

    View Slide

  22. スプリングセミナー2023 深層強化学習 第6回 資料改変版 | 小林聖人 Masato Kobayashi  
    第1部
    基盤モデル
    1.2 基盤モデルの紹介や活用事例
    22

    View Slide

  23. スプリングセミナー2023 深層強化学習 第6回 資料改変版 | 小林聖人 Masato Kobayashi  
    1.2 基盤モデルの紹介
    ▷はじめに:1部の演習ではHuggingFaceを活用します
    23
    https://huggingface.co/
    HuggingFace
    学習済みの機械学習モデルやデータセットなどを公開
    https://huggingface.co/openai/clip-vit-base-patch32
    CLIP:Vision and Language Model

    View Slide

  24. スプリングセミナー2023 深層強化学習 第6回 資料改変版 | 小林聖人 Masato Kobayashi  
    1.2 基盤モデルの紹介
    ▷Language:GPT (Generative Pretrained Transformer)
    24
    ・Transformerのデコーダをベース
    ・質問や推論が可能に
    ・GPT→GPT2→GPT3とほとんどモデルを変更せずにパラメータやデータを増加
    ・パラメータ数 GPT:1億17百万個→GPT-2:15億個→GPT-3:1,750億個
    ・InstrusctGPT : GPT3は人間にとって好ましくない文章生成もあり、人間の評価を反映
                                          (後ほど紹介)
    GPT (Generative Pretrained Transformer)

    View Slide

  25. スプリングセミナー2023 深層強化学習 第6回 資料改変版 | 小林聖人 Masato Kobayashi  
    演習資料へ
    GPT2を体験してみよう!
    25
    https://github.com/mertcookimg/FoundationModel/blob/main/DRL2023_Ch6/chap06.ipynb

    View Slide

  26. スプリングセミナー2023 深層強化学習 第6回 資料改変版 | 小林聖人 Masato Kobayashi  
    1.2 基盤モデルの紹介
    ▷Language:GPT2を演習で体感 
    26
    1. GPT2を体感
    GPT2を活用して文章生成をしてみましょう!
    目的:GPT2を活用して文章の続きを生成してくれる様子を体感する。

    View Slide

  27. スプリングセミナー2023 深層強化学習 第6回 資料改変版 | 小林聖人 Masato Kobayashi  
    1.2 基盤モデルの紹介
    ▷Vision and Language:CLIPを演習で体感
    27
    ・CLIP
     
    インターネットから集めた画像とテキストの 40億ペアからなるデータセットからモデルを学習することで、多くの下流
    タスクに対するゼロショット性能を高めることが可能になった。
    https://trail.t.u-tokyo.ac.jp/ja/blog/22-12-02-clip/

    View Slide

  28. スプリングセミナー2023 深層強化学習 第6回 資料改変版 | 小林聖人 Masato Kobayashi  
    演習資料へ
    CLIPを体験してみよう!
    28
    https://github.com/mertcookimg/FoundationModel/blob/main/DRL2023_Ch6/chap06.ipynb

    View Slide

  29. スプリングセミナー2023 深層強化学習 第6回 資料改変版 | 小林聖人 Masato Kobayashi  
    1.2 基盤モデルの紹介
    ▷Vision and Language:CLIPを演習で体感
    29
    2. CLIPを体感
    CLIPを活用して画像分類器を体感してみよう!
    目的:CLIPを活用して、画像分類やプロンプトエンジニアリングを体感する。

    View Slide

  30. スプリングセミナー2023 深層強化学習 第6回 資料改変版 | 小林聖人 Masato Kobayashi  
    1.2 基盤モデルの紹介
    ▷音声 Whisper
    30
    Whisper
    ・ウェブから収集した68万時間に及ぶ多言語・マルチタスク教師付きデータで学習させた自動音声認識システム。
    ・大規模で多様なデータセットを使用したことで、アクセント、背景雑音、専門用語に対する耐性が向上し、多言語での書 き起こしや、
    多言語から英語への翻訳も可能となった。
    https://openai.com/blog/whisper/

    View Slide

  31. スプリングセミナー2023 深層強化学習 第6回 資料改変版 | 小林聖人 Masato Kobayashi  
    演習資料へ
    Whisperを体験してみよう!
    31
    https://github.com/mertcookimg/FoundationModel/blob/main/DRL2023_Ch6/chap06.ipynb

    View Slide

  32. スプリングセミナー2023 深層強化学習 第6回 資料改変版 | 小林聖人 Masato Kobayashi  
    1.2 基盤モデルの紹介
    ▷音声 Whisper
    32
    3. Whisperを体感!
    目的:Whisperを活用して、音声からテキスト変換を体感する。
    音声ファイルは各自準備してください。
    .ma4やmp3等、スマートフォンの録音ファイルでも試せると思います。

    View Slide

  33. スプリングセミナー2023 深層強化学習 第6回 資料改変版 | 小林聖人 Masato Kobayashi  
    1.2 基盤モデルの紹介
    ▷MarioGPT: Open-Ended Text2Level Generation through Large Language Models
    33
    https://arxiv.org/abs/2302.05981
    In this work, we introduce MarioGPT, a fine-tuned GPT2
    model trained to generate tile-based game levels, in our case
    Super Mario Bros levels.
    https://github.com/shyamsn97/mario-gpt

    View Slide

  34. スプリングセミナー2023 深層強化学習 第6回 資料改変版 | 小林聖人 Masato Kobayashi  
    1.2 基盤モデルとは
    ▷ChatGPT
    34
    ChatGPTも基盤モデルやRLを活用 RLHF (Reinforcement Learning from Human Feedback)

    View Slide

  35. スプリングセミナー2023 深層強化学習 第6回 資料改変版 | 小林聖人 Masato Kobayashi  
    1.2 基盤モデルとは
    ▷ChatGPT
    35
    https://openai.com/blog/chatgpt/
    Step1:教師あり学習 Step2: 報酬モデルの学習 Step3: 強化学習
    https://arxiv.org/abs/1706.03741
    RLHF(Reinforcement Learning
    from Human Feedback)
    RLHFでは報酬の計算は人間の
    フィードバックに基づいて獲得され
    た報酬予測モデル
    ・データセット作成(人)
    ・Fine-tune
    ・人が回答順位付け
    ・順位付きデータで学習
    ・Step1/2モデル(GPT&報酬) を
    用いて強化学習

    View Slide

  36. スプリングセミナー2023 深層強化学習 第6回 資料改変版 | 小林聖人 Masato Kobayashi  
    第1部
    基盤モデル
    1.3 Transformerとは?
    36

    View Slide

  37. スプリングセミナー2023 深層強化学習 第6回 資料改変版 | 小林聖人 Masato Kobayashi  
    1.3 Transformerとは?
    ▷Transformer 時系列  Transformer models: an introduction and catalog
    37
    Transformer: Attentionというモデルを用いたエンコーダとデコーダモデル
    https://arxiv.org/abs/2302.07730

    View Slide

  38. スプリングセミナー2023 深層強化学習 第6回 資料改変版 | 小林聖人 Masato Kobayashi  
    1.3 Transformerとは?
    ▷Transformerの誕生 "Attention Is All You Need" 2017
    38
    https://arxiv.org/abs/1706.03762
    Transformer: Attentionを用いたエンコーダとデコーダモデル
    Encorder
    Decorder

    View Slide

  39. スプリングセミナー2023 深層強化学習 第6回 資料改変版 | 小林聖人 Masato Kobayashi  
    1.3 Transformerとは?
    ▷Transformer 時系列
    39
    Attention Timeline. Figure adapted from Transformer United Course by Stanford.
    Transformer: Attentionというモデルを用いたエンコーダとデコーダモデル
    https://arxiv.org/abs/1706.03762
    ・RNN, LSTM:時系列データでは定番の手法
    Encorder
    Decorder
    エンコーダ・デコーダモデルとは?

    View Slide

  40. スプリングセミナー2023 深層強化学習 第6回 資料改変版 | 小林聖人 Masato Kobayashi  
    1.3 Transformerとは?
    ▷エンコーダとデコーダモデル
    40
    エンコーダとデコーダモデル
    Encorder Decorder
    これ
    エンコーダ
    (例)入力(言語)を符号化(ベクトル)へ
    言語→数値へ
    デコーダ
    (例)符号化(ベクトル)された情報を出力(言語)へ
    数値→言語へ

    ペン
    です
    This
    is
    a
    pen
    符号化
    された情報

    View Slide

  41. スプリングセミナー2023 深層強化学習 第6回 資料改変版 | 小林聖人 Masato Kobayashi  
    1.3 Transformerとは?
    ▷RNNからAttention
    41
    □問題点
    ・並列計算が難しい。
    ・長期の依存関係を取り込めない
    RNN LSTM
    Encorder Decorder
    RNN
    RNN
    RNN
    RNN
    RNN
    RNN
    RNN
    RNN
    状態
    最後の状態を渡す
    入力 出力
    Encorder Decorder
    RNN
    RNN
    RNN
    RNN
    RNN
    RNN
    RNN
    RNN
    状態1
    入力 出力
    RNN, LSTM:時系列データでは定番の手法 Attention(注目!) 2014年
    状態2
    状態3
    状態4
    エンコーダの各状態をデコーダに渡す
    (どの状態を使用(注目)するかの優先順位)
    Attention
    □問題点
    ・入力系列全体で並列化できない

    View Slide

  42. スプリングセミナー2023 深層強化学習 第6回 資料改変版 | 小林聖人 Masato Kobayashi  
    1.3 Transformerとは?
    ▷AttentionからTransformer
    42
    Encorder Decorder
    RNN
    RNN
    RNN
    RNN
    RNN
    RNN
    RNN
    RNN
    状態1
    入力 出力
    Attention 2014年
    状態2
    状態3
    状態4
    エンコーダの各状態をデコーダに渡す
    (どの状態を使用(注目)するかの優先順位)
    Attention
    □問題点
    ・入力系列全体で並列化できない
    Encorder Decorder
    FF NN
    FF NN
    FF NN
    FF NN
    状態1
    出力
    状態2
    状態3
    状態4
    ・再帰性を排除し、セルフアテンションを両者に採用
    ・アテンションを活用したネットワーク
    Transformer
    FF NN
    FF NN
    FF NN
    FF NN
    入力
    2017年から、まだまだ衰えを見せていない ...
    Transformer 2017年

    View Slide

  43. スプリングセミナー2023 深層強化学習 第6回 資料改変版 | 小林聖人 Masato Kobayashi  
    1.3 Transformerとは?
    ▷Transformerの誕生 "Attention Is All You Need" 2017
    43
    https://arxiv.org/abs/1706.03762
    Transformer: Attentionを用いたエンコーダとデコーダモデル
    Encorder
    Decorder

    View Slide

  44. スプリングセミナー2023 深層強化学習 第6回 資料改変版 | 小林聖人 Masato Kobayashi  
    1.3 Transformerとは?
    ▷Transformer 概要
    44
    Encoder
    Embedding:各言葉を固有の特徴ベクトルに変換する。「私」⇒[0.5,0.1,0.4]
    Positional Encoding:各言葉が何番目の値であるかを表す値を足す。
    *Transformer自体はデータの順序を学習することが出来ない。
    Multi-Head Attention:入力データの各言葉同士の関連性を抽出。
    Add(残差接続) & Norm(Layer normalization):残差接続+ミニバッチ毎の標準化Layer
    normalizationで、勾配消失を軽減しつつ層数を増やす。
    Feed Forward:全結合層+活性化関数(ReLU)+全結合層の構造
    Add(残差接続) & Norm(Layer normalization):残差接続+ミニバッチ毎の標準化Layer
    normalizationで、勾配消失を軽減しつつ層数を増やす。

    View Slide

  45. スプリングセミナー2023 深層強化学習 第6回 資料改変版 | 小林聖人 Masato Kobayashi  
    1.3 Transformerとは?
    ▷Transformer 概要
    45
    Decoder
    Embedding:各言葉を固有の特徴ベクトルに変換する。
    Positional Encoding:各言葉が何番目の値であるかを表す値を足す。
    *Transformer自体はデータの順序を学習することが出来ない。
    Masked Multi-Head Attention:
    入力データの一部をマスクして各言葉同士の関連性を抽出します。
    Add(残差接続) & Norm(Layer normalization):残差接続+ミニバッチ毎の標準化Layer
    normalizationで、勾配消失を軽減しつつ層数を増やす。
    Multi-Head Attention:入力データの各言葉同士の関連性を抽出。
    Add(残差接続) & Norm(Layer normalization)
    Feed Forward:全結合層+活性化関数(ReLU)+全結合層の構造
    Add(残差接続) & Norm(Layer normalization)
    全結合層で特徴ベクトルを各言葉に変換し、Softmaxで確率を計算

    View Slide

  46. スプリングセミナー2023 深層強化学習 第6回 資料改変版 | 小林聖人 Masato Kobayashi  
    1.3 Transformerとは?
    ▷Transformer 概要 Multi-Head Attentionを重点的に解説!
    46
    Encoder Decoder
    □Transformer
     ・Attentionを用いたエンコーダとデコーダモデル
    □重要な箇所(ここを重点的に説明)
     ・Multi-Head Attention
     ・Scaled Dot-Product Attention
     
    https://arxiv.org/abs/1706.03762

    View Slide

  47. スプリングセミナー2023 深層強化学習 第6回 資料改変版 | 小林聖人 Masato Kobayashi  
    1.3 Transformerとは?
    ▷Scaled Dot-Product Attention
    47
    ・Q: query,  K:key,  V: value
    ・Queryは入力
    ・KeyとValueは対になるベクトル
    Scaled Dot-Product Attention

    View Slide

  48. スプリングセミナー2023 深層強化学習 第6回 資料改変版 | 小林聖人 Masato Kobayashi  
    1.3 Transformerとは?
    ▷Scaled Dot-Product Attention :お買い物を例にQ K Vを解説
    48
    Q:お買い物リスト K:商品ラベル V:商品
    KとVはペア
    ここの類似度を見ている
    Q: query, K:key, V: value

    View Slide

  49. スプリングセミナー2023 深層強化学習 第6回 資料改変版 | 小林聖人 Masato Kobayashi  
    1.3 Transformerとは?
    ▷Scaled Dot-Product Attention
    49
    https://arxiv.org/abs/1706.03762
    ・Q: query, K:key, V: value
    ・Queryは入力
    ・KeyとValueは対になるベクトル
    QueryとKeyの類似度(内積)が並んだベクトル
    スケーリング係数で内積が大きくならないように
    □内積:ベクトルの類似度を把握できる。
    ・同じ向きを向いていると値は大きい。
    ・逆向いていると値は小さい。
    □ソフトマックス関数
    ・ソフトマックス関数の出力は 0から1の間で、
     合計は1になる
    入力QとVの類似度はKにより決まる。QとKの内積が大きいとQとVは類似している。
    つまりKとVの学習が大事!→Multi-Head Attentionにより学習する!
    Scaled Dot-Product Attention:内積で類似度をみている。重みつき和。

    View Slide

  50. スプリングセミナー2023 深層強化学習 第6回 資料改変版 | 小林聖人 Masato Kobayashi  
    1.3 Transformerとは?
    ▷Multi-Head Attention
    50
    Multi-Head Attention:入力Wで操作し、
    head(Attentionの出力)を繋げているだけ。 Wはパラメータの行列
    Multi-Head Attentionの簡易フロー
    1. 行列計算(QKVとパラメータW)
    2. Attention
    3. Concat (横ベクトルをつなげる )
    4. 行列計算(headとパラメータW)
    Q, K, Vの正体って何?
    Qは入力では...K,Vは?

    View Slide

  51. スプリングセミナー2023 深層強化学習 第6回 資料改変版 | 小林聖人 Masato Kobayashi  
    1.3 Transformerとは?
    ▷Multi-Head Attention
    51
    Multi-Head Attention
    Q
    K
    V
    X
    Q=K=VにXを代入?
    →入力ベクトルXにそれぞれ異なるWをかけている。
    X
    Q
    K
    V
    線形変換
    Self Attention

    View Slide

  52. スプリングセミナー2023 深層強化学習 第6回 資料改変版 | 小林聖人 Masato Kobayashi  
    1.3 Transformerとは?
    ▷Transformer 概要
    52
    Encoders Decoders
    □Transformer
     ・Attentionを用いたエンコーダとデコーダモデル
    □重要な箇所
     ・Multi-Head Attention
     ・Scaled Dot-Product Attention
     
    https://arxiv.org/abs/1706.03762

    View Slide

  53. スプリングセミナー2023 深層強化学習 第6回 資料改変版 | 小林聖人 Masato Kobayashi  
    1.3 Transformerとは?
    ▷Multi-Head Attention
    Multi-Head Attention
    Q
    K
    V
    X
    Cross Attention
    Y
    53

    View Slide

  54. スプリングセミナー2023 深層強化学習 第6回 資料改変版 | 小林聖人 Masato Kobayashi  
    1.3 Transformerとは?
    ▷Transformerの誕生 "Attention Is All You Need" 2017
    54
    https://arxiv.org/abs/1706.03762
    Transformer: Attentionを用いたエンコーダとデコーダモデル

    View Slide

  55. スプリングセミナー2023 深層強化学習 第6回 資料改変版 | 小林聖人 Masato Kobayashi  
    第1部
    基盤モデル
    1.4 基盤モデルの今後
    55

    View Slide

  56. スプリングセミナー2023 深層強化学習 第6回 資料改変版 | 小林聖人 Masato Kobayashi  
    1.4 基盤モデルの今後
    ▷今後 モデル容量や性能 LLaMA
    56
    https://twitter.com/MetaAI/status/1629156720483405824
    LLaMA: A foundational,
    65-billion-parameter large language model
    -ChatGPT (GPT 3.5): 175B Parameters
    -Bard (Google LaMDA): 137B Parameters
    -Baidu Ernie: 260B Parameters
    -LG Exaone: 300B Parameters
    -Nvidia Megatron: 530B Parameters
    -Google PaLM: 540B Parameters
    https://research.facebook.com/publications/llama-open-and-efficient-foundation-language-models/
    ChatLLaMAの流れも・・・?
    https://github.com/nebuly-ai/nebullvm/tree/main/apps/accelerate/chatllama
    Large Language Model Meta AI
    □サイズを抑えながらも精度向上
    □ChatLLaMA!?

    View Slide

  57. スプリングセミナー2023 深層強化学習 第6回 資料改変版 | 小林聖人 Masato Kobayashi  
    1.4 基盤モデルの今後
    ▷Transformer や RL
    57
    Transformerがまだまだ活躍している時代。 RLHF等、あらゆる分野で強化学習の活用も。
    https://arxiv.org/abs/2302.07730
    □Tuning computer vision models with task rewards
     RLをCV分野にも活用。(2023/2/16)
    Vision meets RL!!!
    https://arxiv.org/abs/2302.08242

    View Slide

  58. スプリングセミナー2023 深層強化学習 第6回 資料改変版 | 小林聖人 Masato Kobayashi  
    1.4 基盤モデルの今後
    ▷Transformer や RL
    58
    Transformerと強化学習のサーベイ論文(気になる方は必見です!)
    https://arxiv.org/abs/2301.03044
    Transformer x RL はまだ不安定と述べられている。
    気になる方はこちらを見てみてください !
    [DL輪読会]深層強化学習はなぜ難しいのか? Why Deep RL
    fails? A brief
    A Survey on Transformers in Reinforcement Learning
    松尾研関係者も引用されている

    View Slide

  59. スプリングセミナー2023 深層強化学習 第6回 資料改変版 | 小林聖人 Masato Kobayashi  
    第2部
    基盤モデルとロボティクス
    59

    View Slide

  60. スプリングセミナー2023 深層強化学習 第6回 資料改変版 | 小林聖人 Masato Kobayashi  
    目次: 応用を見据えた近年の発展的話題
    1. 基盤モデル
    1.1 基盤モデルとは
    1.2 基盤モデルの紹介
    1.3 Transformerとは
    1.4 基盤モデルの今後?
    2. 基盤モデルとロボティクス
    2.1 Robotics領域への活用事例
    2.2 Robotics版基盤モデルをつくるには?
    2.3 松尾研での活用事例(TRAILの内容):
    60

    View Slide

  61. スプリングセミナー2023 深層強化学習 第6回 資料改変版 | 小林聖人 Masato Kobayashi  
    2. 基盤モデルとロボティクス
    ▷講義の大筋
    61
    □基盤モデルをロボティクスへ活用
     既存の基盤モデルをシステムに組み込む
    □ロボティクス版基盤モデル
     基盤モデルそのものを作る
    ・CLIP
     
    ・BERT
     

    ロボット
    ロボット

    View Slide

  62. スプリングセミナー2023 深層強化学習 第6回 資料改変版 | 小林聖人 Masato Kobayashi  
    第2部
    基盤モデルとロボティクス
    2.1 ロボティクス領域への活用事例
    62

    View Slide

  63. スプリングセミナー2023 深層強化学習 第6回 資料改変版 | 小林聖人 Masato Kobayashi  
    2.1 ロボティクス領域への活用事例
    ▷基盤モデルとロボティクスの俯瞰図
    63
    Vision
    Plannning
    NLP
    Manipulation
    Navigation
    Control
    ・ロボットはマルチモーダルな処理
    ・基盤モデルと相性が良い
    https://www.youtube.com/watch?v=FFhiQ7z3zfc

    View Slide

  64. スプリングセミナー2023 深層強化学習 第6回 資料改変版 | 小林聖人 Masato Kobayashi  
    2.1 ロボティクス領域への活用事例
    ▷基盤モデルとロボティクスの活用事例 (ほんのひとにぎりを紹介)
    64
    Vision
    Plannning
    NLP
    Manipulation
    Navigation
    Control
    Language Models as Zero-Shot Planners
    SayCan
    MDM
    LATTE
    ATLA
    GPT
    BERT
    CLIP Palm
    Whisper
    Detic
    CLIP-Fields
    LM-Nav VIMA
    Transformer
    基盤モデルをロボティクスに活用した研究が急激に増加!
    セマンティクスな点群マップ
    言語で動作修正
    自律移動
    実空間でのプランニング 言語空間でのプランニング
    新しい道具の使い方を効率的に学習
    マニピュレーション テキストから動作生成
    ChatGPTの活用!
    ChatGPT for Robotics

    View Slide

  65. スプリングセミナー2023 深層強化学習 第6回 資料改変版 | 小林聖人 Masato Kobayashi  
    2.1 ロボティクス領域への活用事例
    ▷言語空間でのタスクプランニング
    65
    Language Models as Zero-Shot Planners
    https://www.youtube.com/watch?v=CkyugWI3_fc
    https://arxiv.org/abs/2201.07207
    GPT-3 BERT
    ・基盤モデルであるGPT-3等を活用し、言語空間で の
    タスクプランニング

    View Slide

  66. スプリングセミナー2023 深層強化学習 第6回 資料改変版 | 小林聖人 Masato Kobayashi  
    2.1 ロボティクス領域への活用事例
    ▷実空間でのタスクプランニング  SayCan
    66
    SayCan
    https://arxiv.org/abs/2204.01691
    LLM:GPT3等
    ・会話としては妥当な回 
    答が帰ってくる
    ・ロボットに自然言語で 指
    示できないのか? https://say-can.github.io/
    Palm
    https://www.youtube.com/watch?v=E2g1APtSuUM

    View Slide

  67. スプリングセミナー2023 深層強化学習 第6回 資料改変版 | 小林聖人 Masato Kobayashi  
    2.1 ロボティクス領域への活用事例
    ▷実空間でのタスクプランニング  SayCan
    67
    SayCan
    https://say-can.github.io/
    SayCanの目的
    ・言語指示
     “I spilled my drink, can you help?”
    ・行動列
     行動列を答える/実行すること
    →強化学習の問題
    1 Xを取る
    2 Xを置く
    3 Xを並べる
    4 引き出しを開ける
    5 引き出しを閉める
    6 指定した場所に行く
    7 特定の操作
    ・7 種類のスキル
    ・17 種類の対象
    ・計 551 個 の行動
    動作は事前にBC-Zなどで用意
    BC-Z:
    Zero-Shot Task Generalization with
    Robotic Imitation Learning
    RetinaGAN
    https://sites.google.com/view/bc-z/home
    Palm

    View Slide

  68. スプリングセミナー2023 深層強化学習 第6回 資料改変版 | 小林聖人 Masato Kobayashi  
    2.1 ロボティクス領域への活用事例
    ▷言語指示動作生成 Motion Diffusion Model :MDM
    68
    CLIP MDM
    "A person punches in a manner consistent with martial arts"
    https://qiita.com/binomiya/items/42e9a0bc4fd924af8fe0
    https://guytevet.github.io/mdm-page/
    https://www.youtube.com/watch?v=rVkIDj5wgjs

    View Slide

  69. スプリングセミナー2023 深層強化学習 第6回 資料改変版 | 小林聖人 Masato Kobayashi  
    2.1 ロボティクス領域への活用事例
    ▷言語補助動作生成: LATTE: LAnguage Trajectory TransformEr
    69
    https://arxiv.org/abs/2208.02918
    CLIP BERT
    自然言語指示でロボットの動作修正に試みた研究 (マニピュレータ、ドローン、多足ロボットで実証)
    https://www.youtube.com/watch?v=Kutc_peSrpw

    View Slide

  70. スプリングセミナー2023 深層強化学習 第6回 資料改変版 | 小林聖人 Masato Kobayashi  
    2.1 ロボティクス領域への活用事例
    ▷言語補助動作生成: ATLA: "Leveraging Language for Accelerated Learning of Tool Manipulation"
    70
    https://arxiv.org/abs/2206.13074
    tool manupilationタスクにおいて,言語で条件づけたメタ学
    習を行うことで,新しい toolに対して効率的に適応できるポリ
    シーを獲得する.
    (pushing / lifting / sweeping / hammering) task
    GPT-3 BERT
    https://www.youtube.com/watch?v=PFiN3T1Vh4M

    View Slide

  71. スプリングセミナー2023 深層強化学習 第6回 資料改変版 | 小林聖人 Masato Kobayashi  
    2.1 ロボティクス領域への活用事例
    ▷ChatGPT for Robotics
    71
    ChatGPT
    https://www.microsoft.com/en-us/research/group/autonomous-systems-group-robotics/articles/chatgpt-for-robotics/
    ・人間が頑張って
     コーディングする
    ・Prompt, APIs+Objectiveを
     LLM(ChatGPT)に与えコード生成
    https://www.youtube.com/watch?v=wLOChUtdqoA

    View Slide

  72. スプリングセミナー2023 深層強化学習 第6回 資料改変版 | 小林聖人 Masato Kobayashi  
    2.1 ロボティクス領域への活用事例
    ▷CLIP-Feilds
    72
    CLIP
    https://trail.t.u-tokyo.ac.jp/ja/blog/22-12-05-clip-fields/
    CLIP-Fields
    ・マップ上の空間的位置に対応するセマンティックな表現ベクトルを得ることができる。
    ・セグメンテーション、ナビゲーションなどのタスクを実行できる。
    ◎人手によるラベル付けを必要としない点
    Detic
    Sentence
    BERT
    https://mahis.life/clip-fields/ https://www.youtube.com/watch?v=bKu7GvRiSQU

    View Slide

  73. スプリングセミナー2023 深層強化学習 第6回 資料改変版 | 小林聖人 Masato Kobayashi  
    2.1 ロボティクス領域への活用事例
    ▷基盤モデルとロボティクスの活用事例 (ほんのひとにぎりを紹介)
    73
    Vision
    Plannning
    NLP
    Manipulation
    Navigation
    Control
    Language Models as Zero-Shot Planners
    SayCan
    MDM
    LATTE
    ATLA
    GPT
    BERT
    CLIP Palm
    Whisper
    Detic
    CLIP-Fields
    LM-Nav VIMA
    Transformer
    基盤モデルをロボティクスに活用した研究が急激に増加!
    セマンティクスな点群マップ
    言語で動作修正
    自律移動
    実空間でのプランニング 言語空間でのプランニング
    新しい道具の使い方を効率的に学習
    マニピュレーション テキストから動作生成
    ChatGPTの活用!
    ChatGPT for Robotics

    View Slide

  74. スプリングセミナー2023 深層強化学習 第6回 資料改変版 | 小林聖人 Masato Kobayashi  
    第2部
    基盤モデルとロボティクス
    2.2 ロボティクス版
    基盤モデルを作るには?
    (*2.2では私の考えを大きく含みます)
    74

    View Slide

  75. スプリングセミナー2023 深層強化学習 第6回 資料改変版 | 小林聖人 Masato Kobayashi  
    2. 基盤モデルとロボティクス
    ▷講義の大筋
    75
    □基盤モデルをロボティクスへ活用
     既存の基盤モデルをシステムに組み込む
    □ロボティクス版基盤モデル
     基盤モデルそのものを作る
    ・CLIP
     
    ・BERT
     

    ロボット
    ロボット
    Robotics Transformer 1

    View Slide

  76. スプリングセミナー2023 深層強化学習 第6回 資料改変版 | 小林聖人 Masato Kobayashi  
    2.2 ロボティクス版基盤モデルを作るには?
    ▷ロボティクスと基盤モデル
    76
    https://arxiv.org/abs/2208.02918
    CLIP BERT
    ・これまでの説明では、
     基盤モデルをロボットに応用する研究を紹介
     CLIPを活用して...
     BERTを活用して...
     GPTを活用して...
    ・ロボティクス版基盤モデルはあるのか?
     RT-1では?MineDojo?
     (Mine Craftの実況動画から学習 )
     
    ・それだけなのか?もっと沢山ないの?
    →ロボティクス版基盤モデルを作ること自体が難しい
     何故か...
    GPT Detic

    View Slide

  77. スプリングセミナー2023 深層強化学習 第6回 資料改変版 | 小林聖人 Masato Kobayashi  
    2.2 ロボティクス版基盤モデルを作るには?
    □ロボティクス版基盤モデルの研究背景
    ・基盤モデルの様な大規模モデルが高い性能を示している。
    ChatGPTもその一例。
    ・大規模なデータ、大容量モデルにより高い性能
    ・基盤モデルは新規タスクにも汎化
    □ロボット版基盤モデル作成の難しさ
    ・「ロボット」での大規模、大容量モデルの構築
    - 実機のロボットで動作
    ・大規模なデータセットの構築
    - データ量とタスクの多様性
    ▷ロボティクス版基盤モデルの課題
    77
    ・モデルは言語/画像のようにTransformer?
    ・ロボットの行動決定 /動作周期はそれなりに求 め
    られる。モデル出力の処理が重要になる。
    ・そもそもロボットのデータ取得が難しい
     →web上にロボットデータがない等
     →模倣学習や深層強化学習を活用

    View Slide

  78. スプリングセミナー2023 深層強化学習 第6回 資料改変版 | 小林聖人 Masato Kobayashi  
    78
    https://trail.t.u-tokyo.ac.jp/ja/blog/22-12-15-rt-1/
    ・長期間、大量のデータ収集
    - デモ数:130k
    - 使用ロボット(EDR):13台
    - Task数:744
    - 収集期間:17ヶ月
    - 成功率:97% success rate
    言語やビジョン領域では既に大規模データや
    モデルを用いることで性能が向上している。
    ロボットでもGoogleがやってみせた。
    RT-1:Robotics Transformer 1
    2.2 ロボティクス版基盤モデルを作るには?
    ▷ロボティクス版基盤モデルへ Robotics Transformer 1 : RT-1
    https://www.youtube.com/watch?v=UuKAp9a6wMs

    View Slide

  79. スプリングセミナー2023 深層強化学習 第6回 資料改変版 | 小林聖人 Masato Kobayashi  
    79
    2.2 ロボティクス版基盤モデルを作るには?
    ▷ロボティクス版基盤モデルへ Robotics Transformer 1 : RT-1
    RT-1の著者陣
    https://arxiv.org/abs/2212.06817
    ・RT-1
     Github:google-research/robotics_transformer
    引用:RT-1

    View Slide

  80. スプリングセミナー2023 深層強化学習 第6回 資料改変版 | 小林聖人 Masato Kobayashi  
    80
    2.2 ロボティクス版基盤モデルを作るには?
    ▷ロボティクス版基盤モデルへ Robotics Transformer 1 : RT-1
    Robotic Skill Acquisition via Instruction Augmentation with Vision-Language Modelsより引用
    ・Mobile Manipulator(移動と作業ができるロボット )
    ・7DoF(7自由度)のロボットアーム搭載
    ・グリッパ搭載
    ■EDR(Mobile Manipulator:Everyday Robots) RT-1で使用したロボット
    https://www.youtube.com/watch?v=cZT57pkD62w&t=17s

    View Slide

  81. スプリングセミナー2023 深層強化学習 第6回 資料改変版 | 小林聖人 Masato Kobayashi  
    81
    2.2 ロボティクス版基盤モデルを作るには?
    ▷ロボティクス版基盤モデルへ Robotics Transformer 1 : RT-1
    ■データ収集
    ・長期間、大量のデータ収集
    - デモ数:130k
    - 使用ロボット(EDR):13台
    - Task数:744
    - 収集期間:17ヶ月
    - 成功率:97% success rate
    RT-1: Robotics Transformer for Real-World Control at Scaleより引用
    https://www.youtube.com/watch?v=f-9Jw3KvPJo
    ・VRコントローラでロボットを操作

    View Slide

  82. スプリングセミナー2023 深層強化学習 第6回 資料改変版 | 小林聖人 Masato Kobayashi  
    2.2 ロボティクス版基盤モデルを作るには?
    ▷ロボティクス版基盤モデル RT-1 モデル概要
    82
    入力:画像とテキスト RT-1 出力:Action
    Mode, Arm, Base
    RT-1: Robotics Transformer for Real-World Control at Scaleより引用

    View Slide

  83. スプリングセミナー2023 深層強化学習 第6回 資料改変版 | 小林聖人 Masato Kobayashi  
    2.2 ロボティクス版基盤モデルを作るには?
    ▷RT-1のモデルカード
    83
    RT-1: Robotics Transformer for Real-World Control at Scaleより引用

    View Slide

  84. スプリングセミナー2023 深層強化学習 第6回 資料改変版 | 小林聖人 Masato Kobayashi  
    2.2 ロボティクス版基盤モデルを作るには?
    ▷ロボティクス版基盤モデル RT-1 別のロボットデータを使用した性能向上
    84
    ・今まではロボット(EDR)のデータを使用
    ・学習データにはない、 Bin-pickingという新タスク を
    ロボット(Kuka IIWA)のデータを使用して学習
    ・他のロボットから取得したデータで新タスクを 獲得
    できるのかを検証。
    ・EDRで検証しBin-pickingのタスク成功率が向上
    *EDRとKuka IIWAは構造が異なる
    RT-1: Robotics Transformer for Real-World Control at Scaleより引用

    View Slide

  85. スプリングセミナー2023 深層強化学習 第6回 資料改変版 | 小林聖人 Masato Kobayashi  
    2.2 ロボティクス版基盤モデルを作るには?
    QT-Opt:Scalable Deep Reinforcement Learning for Vision-Based Robotic Manipulation
    前回の古田さんの講義でも (p8)
    ▷ロボティクス版基盤モデル 強化学習の活用 QT-Opt
    85
    ・過去の探索時の経験データ(オフライン経験データ)を活 用す
    る学習

    ・状態:画像、グリッパー開閉のバイナリ値、トレイからの 高さ

    ・行動:制御コマンド グリッパーの移動方向と移動量、回 転量、
    グリッパー開閉、把持動作を終了命令

    https://www.youtube.com/watch?v=W4joe3zzglU

    View Slide

  86. スプリングセミナー2023 深層強化学習 第6回 資料改変版 | 小林聖人 Masato Kobayashi  
    2.2 ロボティクス版基盤モデルを作るには?
    ▷ロボティクス版基盤モデル RT-1 別のロボットデータを使用した性能向上
    86
    RT-1: Robotics Transformer for Real-World Control at Scaleより引用

    View Slide

  87. スプリングセミナー2023 深層強化学習 第6回 資料改変版 | 小林聖人 Masato Kobayashi  
    2.2 ロボティクス版基盤モデルを作るには?
    大規模なデータセットの構築 データ量とタスクの多様性
    ▷Scaling Robot Learning with Semantically Imagined Experience (ROSIE)
    87
    https://twitter.com/xf1280/status/1628483168306364416
    https://diffusion-rosie.github.io/
    https://www.youtube.com/watch?v=TRYgNHDS7II&t=1s

    View Slide

  88. スプリングセミナー2023 深層強化学習 第6回 資料改変版 | 小林聖人 Masato Kobayashi  
    2.2 ロボティクス版基盤モデルを作るには?
    ▷MOO:Open-World Object Manipulation using Pre-Trained Vision-Language Models
    88
    https://robot-moo.github.io/
    MOO: Manipulation of Open-World Objects
    https://twitter.com/xiao_ted/status/1631061177663987713 https://twitter.com/hausman_k/status/1631073653982138368?s=20
    https://www.youtube.com/watch?v=KyvHTbLRovI

    View Slide

  89. スプリングセミナー2023 深層強化学習 第6回 資料改変版 | 小林聖人 Masato Kobayashi  
    2.2 ロボティクス版基盤モデルを作るには?
    □ロボティクス版基盤モデルの研究背景
    ・基盤モデルの様な大規模モデルが高い性能を示している。
    ChatGPTもその一例。
    ・大規模なデータ、大容量モデルにより高い性能
    ・基盤モデルは新規タスクにも汎化
    □ロボット版基盤モデル作成の難しさ
    ・「ロボット」での大規模、大容量モデルの構築
    - 実機のロボットで動作
    ・大規模なデータセットの構築
    - データ量とタスクの多様性
    ▷ロボティクス版基盤モデルの課題
    89
    ・モデルは言語/画像のようにTransformer?
    ・ロボットの行動決定 /動作周期はそれなりに求 め
    られる。モデル出力の処理が重要になる。
    ・そもそもロボットのデータ取得が難しい
     →web上にロボットデータがない等
     →模倣学習や深層強化学習を活用

    View Slide

  90. スプリングセミナー2023 深層強化学習 第6回 資料改変版 | 小林聖人 Masato Kobayashi  
    2.2 ロボティクス版基盤モデルを作るには?
    ▷Pre-Training for Robots: Offline RL Enables Learning New Tasks from a Handful of Trials
    90
    https://www.youtube.com/watch?v=van6wejvUDQ
    ・概要
    1. 事前学習として多様なマルチタスクに対するオフライン強化学

    2. Fine-tuneをすることで、新しいタスクに対応
    事前学習にはBridge Dataを使用
    https://arxiv.org/abs/2210.05178

    View Slide

  91. スプリングセミナー2023 深層強化学習 第6回 資料改変版 | 小林聖人 Masato Kobayashi  
    2.2 ロボティクス版基盤モデルを作るには?
    ▷GNM: A General Navigation Model to Drive Any Robot
    91
    https://www.youtube.com/watch?v=ICeD6iOglKc
    ・概要
    - 多種ロボットのナビゲーションができるプランナーを学習している
    - 8種類のロボットからなる計60時間のデータセットを学習にしよう
    - input - 観測画像、ゴール画像、Embodiment Context(過去k step観測画像)
    - 距離とwaypointを予測
    -これをロボット別のlow-levelコントローラーで追っている
    https://arxiv.org/abs/2210.03370

    View Slide

  92. スプリングセミナー2023 深層強化学習 第6回 資料改変版 | 小林聖人 Masato Kobayashi  
    第2部
    基盤モデルとロボティクス
    2.3 松尾研での活用事例
    92

    View Slide

  93. スプリングセミナー2023 深層強化学習 第6回 資料改変版 | 小林聖人 Masato Kobayashi  
    2.3 松尾研での活用事例
    ▷TRAIL
    93
    ・CLIPを活用
    最近ではSayCanやGPT等も試しています。
    https://www.youtube.com/watch?v=FFhiQ7z3zfc

    View Slide

  94. スプリングセミナー2023 深層強化学習 第6回 資料改変版 | 小林聖人 Masato Kobayashi  
    応用を見据えた近年の発展的話題  基盤モデルとロボティクス
    おわりに...本講義では以下を目標に講義しました。
    本講義の概要:基盤モデルの概略やロボティクスへの応用事例を学ぶ
    1. 基盤モデル、Transformer
    2. 基盤モデルとロボティクス
    目標:
    ▷基盤モデルや Transformerの概要を理解する
    ▷基盤モデルとロボティクスの研究事例を把握し、基盤モデルの応用方法につい
     て理解する(強化学習との関わりについても適宜述べていきます)
    少しでも皆様の理解の助けになれれば幸いです!
    94
    担当講師:小林 聖人 博士
    (工学)
    Twitter: @robotmkb , @MeRTcooking フォローもwelcomeです!

    View Slide