$30 off During Our Annual Pro Sale. View Details »

how will foundation models change robotics

how will foundation models change robotics

More Decks by Semantic Machine Intelligence Lab., Keio Univ.

Other Decks in Technology

Transcript

  1. 慶應義塾大学
    杉浦孔明
    - -
    1
    基盤モデルはロボティクスを
    どう変えるのか

    View Slide

  2. ロボット×言語のユースケース
    - -
    2
    【Honda CIマイクロモビリティ】搭乗型マイクロモビリティ
    CiKoMaができること(YouTube)
    PaLM-E [Driess (Robotics at Google)+ 2023]
    https://palm-e.github.io/

    View Slide

  3. 基盤モデルのロボティクスへの影響
    - -
    3
    ■ 基盤モデル:大規模データで訓練され種々のタスクに応用可能*
    ■ BERT, GPT-3, CLIP等
    ■ ロボット構築に基盤モデルを利用:多い
    ■ 未知の状況での頑健性(Zero-shot/few-shot性能)
    ■ 言語・画像の非専門家が容易に利用可能
    ■ 基盤モデル構築にロボットを利用:少ない
    ■ RT-1/2等
    ■ 対話知能学後継、ムーンショット
    ■ 今後、自動車/倉庫/工場におけるデータ収集に期待
    *Bommasani et al, “On the Opportunities and Risks of Foundation Models”, 2021.

    View Slide

  4. 対話ロボット構築と音声・言語基盤モデル
    - -
    4
    テキスト
    埋め込み
    スタンドアロン BERT, RoBERTa, DeBERTa等が主流
    クラウド型 text-embedding-ada-002(OpenAI)がオススメ
    音声認識 スタンドアロン Whisper (OpenAI)が主流
    クラウド型 • スマートフォンUIとクラウドAPI利用が簡易
    • 多くのロボット開発では音声認識用に計算リソース
    を割くことを敬遠 [杉浦+ 2013]
    バラエティ番組等の遠隔・
    同時・複数人会話の認識は
    現在でも技術的に困難

    View Slide

  5. ロボット向けのコードを大規模言語モデル(LLM)で生成
    - -
    5
    手法 概要
    Code as Policies [Liang+ 22] LLMを用いてatomic actions(認識・動作)を繋げたコードを生成
    ChatGPT for Robotics
    [Vemprala+ 23]
    LLMの出力を一方的に使うのではなく対話的にコード生成
    TidyBot [Wu+ AR-IROS23] CLIPで目標物体をカテゴリ認識し運び先とコードをLLMで生成
    多くの手法では状況を
    人手で与える必要がある
    ■ 例:objects = ["yellow
    shirt", "black shirt”, ..]

    View Slide

  6. 画像と言語を扱うマルチモーダル基盤モデル:
    CLIP[Radford+ 21]
    ■ 画像とテキストの組(4億組)の特徴量同士が近くなるように学習
    ■ 多数の応用(例:DALL·E 2 [Aditya (OpenAI) + 2022/4])
    a photo of a beer bottle
    satellite imagery of roundabout
    a photo of a marimba
    a meme
    Text
    Text
    feat.
    Image
    feat.
    Image
    ※UNITER[Chen+ 20]やBLIP [Li+ 22]等もロボティクス
    で用いられる
    https://vimeo.com/692375454

    View Slide

  7. CLIPを物体操作・探索に利用
    - -
    7
    物体操作 CLIPort [Shridhar+
    CoRL21],
    PerAct [Shridhar+
    CoRL22]
    • Transporter Networks[Zeng+ CoRL20] を拡張して
    CLIPの言語/画像特徴量を導入
    • 「どの位置にグリッパを移動させるか」を予測
    KITE [Sundaresan+
    CoRL23]
    「物体のどの部分を掴むか(キーポイント)」を予測
    物体検索 CLIP-Fields
    [Shafiullah+ RSS23]
    Detic, BERT, CLIPの組み合わせで物体の探索を行う
    OpenScene [Peng+
    CVPR23]
    Open-vocabularyの3D Scene understanding

    View Slide

  8. 「CLIPで画像を特徴抽出したい」場合の頻出パターン
    - -
    8
    ①1次元の特徴量を利用
    ■ コード1行で書ける
    ■ 画像/テキスト特徴量が同型
    (512 x 1)
    ■ 位置の情報が失われるので、
    「Aの上にBがある」のような情
    報表現に不向き
    Text
    Text
    feat.
    Image
    feat.
    Image
    新規
    画像

    View Slide

  9. 「CLIPで画像を特徴抽出したい」場合の頻出パターン
    - -
    9
    ①1次元の特徴量を利用
    ■ コード1行で書ける
    ■ 画像/テキスト特徴量が同型
    (512 x 1)
    ■ 位置の情報が失われるので、
    「Aの上にBがある」のような情
    報表現に不向き
    ②2次元の特徴マップを利用
    ■ CLIPに含まれるResNet/ViTから
    中間層の出力(28 x 28 x 512
    等)を用いる
    ■ 代表的な利用例
    ■ CLIPort [Shridhar+ CoRL21],
    CRIS [Wang+ CVPR22], SAN
    [Mengde+ CVPR23]
    Text
    Text
    feat.
    Image
    feat.
    Image
    新規
    画像
    Text
    Text
    feat.
    Image
    feat.
    Image
    新規
    画像

    View Slide

  10. LLMによる行動系列生成:
    VQAと同様に今後は早期統合が主流になると予想
    - -
    10
    ■ 後期統合: PaLM SayCan [Ahn(Google)+ 2022]
    ■ 言語スコア(Say):LLMで生成した動詞+目的語の生成確率
    ■ 動作スコア(Can):その状況での動作成功確率
    ■ 早期統合: PaLM-E [Driess (Google)+ 2023]
    ■ 画像と言語を入力とするLLMを用いたタスク分解と実行

    View Slide

  11. ロボット用基盤モデル構築の試み
    - -
    11
    RT-1[Brohan+50人の著者, 22]
    ■ ロボット13台x17ヶ月の膨大な
    学習データ
    ■ 言語・画像の統合は若干古い方
    式(FiLM[Perez+ 17])
    ■ アーム/台車動作を3Hzで推論
    ■ RT-2[Brohan+ 23]では、LLMを
    複数利用して「位置と角度の差
    分」を推論
    Gato [Reed+ JMLR22]
    ■ ゲーム、画像キャプション生成、
    物体操作等を1つのトランス
    フォーマーで学習

    View Slide

  12. 実機を含むベンチマークテスト
    - -
    12
    RoboCup@Home(2006-)
    ■ 世界最大の生活支援ロボットの
    ベンチマークテスト
    ■ GPSR: RT-2/PaLM SayCanで扱
    われているレベルの難易度
    ■ 無理(2010)→ほぼ解決(2023)
    ■ 優勝・準優勝(2008-2010,2012)
    HomeRobot [Yenamandra+ CoRL23]
    ■ Open-vocabulary mobile
    manipulation
    ■ NeurIPS23でコンペ

    View Slide

  13. 最近のモデルでも難しい問題の例:
    参照表現理解
    - -
    13
    ■ Google Bard*
    ■ 赤枠の物体を”white pillow”と
    認識
    ■ SEEM [Zou+ 23]
    ■ “Pick up the plant in front of
    the mirror”という指示に対し、
    植物ではなく鏡をマスク
    *言語設定を英語にすることでマルチモーダル入力が可能(2023/7)

    View Slide

  14. 生活支援ロボットの
    言語理解
    - -
    14

    View Slide

  15. Motivation:
    介助犬レベルの支援を行うロボットを構築したい
    https://www.toyota.com/usa/toyota-effect/romy-
    robot.html
    音声(言語)を使った
    場合は
    どんな課題があるの?
    候補が少ないならいいけど、
    多いならタッチパネルは不便。
    音声のほうが便利では?
    社会課題
    • 要支援者を物理的・経済的に支える
    生産年齢人口の減少
    • ポテンシャルユーザのなかで介助犬
    (育成に2年300万円)の利用者≒0.5%
    家族の世話で仕事
    辞めないと…
    介助犬を世話
    できない

    View Slide

  16. 何をどこまでやるのか
    ■ 介助犬のタスクは明確
    に規定されている
    ■ HSRが可能なタスク
    を人手で分析
    ■ タスクの80%以上をカ
    バーし、成功率80%以
    上とすれば良い
    IAADPが定義した介助犬タスクのうちHSRが可能なタスク

    View Slide

  17. Open-vocabulary物体操作
    - -
    17
    赤いマグの近くのボールを高い台
    に持って行ってくれる?
    みかんの隣のトマトスープ缶を
    高い台に置いて
    x4

    View Slide

  18. ①MultiRankIt:物体をマルチモーダル検索して人間に呈示
    背景
    ■ 全自動の設定での成功率低
    ■ Closed-vocabulary 設定では
    実用性に欠ける
    技術ポイント
    ■ 自動化とオペレータによる介入を
    組み合わせたhuman-in-the-loop設定
    ■ 文と画像を複数粒度で分解・統合す
    るMulti-level/modal Transformer
    CLIP
    [OpenAI 2021]
     成功率 約 30%

    View Slide

  19. 複雑な参照表現に対して適切に検索できた
    Instruction: “Go to the bathroom with a picture of a wagon and bring me the towel directly across from the sink”
    Rank: 1 Rank: 2 Rank: 3 Rank: 4 Rank: 5 Rank: 6

    Rank: 1 Rank: 2 Rank: 3 Rank: 4 Rank: 5 Rank: 6

    Instruction: “Go to the hallway on level 1 that is lined with wine bottles and pull out the high chair closest to the
    wine bottles at the second table from the door”

    View Slide

  20. 移動指示・物体探索指示に関するデータセット:
    シミュレーションと実世界
    実世界
    ■ Room2Room [Anderson+ CVPR18],
    REVERIE[Qi+ CVPR20]
    ■ Honorable Mention
    Award@REVERIE Challenge 2022
    シミュレーション
    ■ ALFRED [Shridhar+ CVPR20],
    HomeRobot, VLMbench [Zheng+
    NeurIPS22]
    ■ CVPR 2023 DialFRED Challenge
    優勝[Kaneda+ 23]
    VLN-BERT
    「壁に縞模様がある寝室の横の蛇口
    から水が出ていないか確認して」
    Matterport3D
    (90種類の家屋)

    View Slide

  21. ②マルチモーダル言語処理における転移学習手法
    [Otsuki+ IROS23]
    背景
    ■ ロボットを使ったマルチモーダ
    ルコーパス構築はコストが高い
    技術ポイント
    ■ 転移元と転移先のプロトタイプ
    間の差異を最小化するDual
    ProtoNCEの提案
    ■ シミュレーション:実機
    ≒30000:10000

    View Slide

  22. ベースライン手法(拡張前の手法)を超える性能
    Method Acc. [%]↑
    転移先のデータのみ 73.0±1.87
    MCDDA+ [Saito+,
    CVPR18]
    74.9±3.94
    提案手法 78.1±2.49
    “Go down the stairs to the lower
    balcony area and turn off the lamp on
    the dresser.”

    View Slide

  23. ③Carryタスクにおける問題:
    推論回数が膨大でリアルタイム性において非実用的
    クローリングを繰り返すと(対象物体, 配置目標)の組合せが爆発的に増加
    推論回数のオーダー: 𝑂𝑂(𝑀𝑀 × 𝑁𝑁)
    例)𝑀𝑀 = 200, 𝑁𝑁 = 30,1回の推論時間を0.005秒と仮定  判断に30秒必要
    23
    𝑀𝑀:対象物体候補数
    𝑁𝑁:配置目標候補数 ( , )

    ( , )

    View Slide

  24. Switching Head-tail Funnel UNITERを構築し
    推論速度を実用レベルとした[Korekata+ IROS23]
    24
    技術ポイント
    ■ 単一モデルで対象物体/配置目標
    を独立に予測可能
    ■ 推論回数のオーダーを 𝑂𝑂(𝑀𝑀 + 𝑁𝑁)
    に削減
    結果
    ■ 把持+配置タスク成功率:89%
    Put the red chips can on the white table
    with the soccer ball on it.

    View Slide

  25. ④移動指示の理解:CrossMap Transformer
    [Magassouba, Sugiura+ RAL & IROS2021]
    【タスク】移動指示の理解
    【技術ポイント】
    ■ 3種類のマスキング(画像・言語・
    経路)を事前学習に導入
    ■ 双方向マルチモーダル逆翻訳による
    データ拡張を学習に導入
    【結果】 [Majumdar+ (Facebook) ECCV20]
    [Hao+ (Microsoft) CVPR20]を超える性能
    言語+画像
    経路
    逆翻訳→
    VLN-BERT
    「寝室のドアから廊下へ出てくださ
    い。手すりに沿って廊下を進み、丸
    い鏡と蝶のオブジェがある部屋に
    入ってください」

    View Slide

  26. ⑤モビリティ向け移動指示理解 [畑中+ 23]
    【タスク】
    「バイクが止まっている所の横に
    停めて」等の移動指示言語理解
    【技術ポイント】
    ■ 夜間画像のセグメンテーション
    マスク信頼度を推定
    ■ [Rufus+ IROS21]を超える性能
    Mean IoU
    [Rufus+, IROS2021] 32.71±4.59
    TNRSM (提案手法) 37.61±2.73
    - 26 -

    View Slide

  27. ロボティクスにおける
    説明性
    - -
    27

    View Slide

  28. PonNet:衝突危険性の予測および視覚的説明生成
    [Magassouba+ Advanced Robotics 2021]
    背景: 動作実行前に帰結を予測し(physical reasoning)、ユーザに
    説明できれば便利
    技術ポイント: Attention Branch Network (ABN) [Fukui+ CVPR19]
    を2系統に拡張し、自己注意で統合
    平面検出
    だと精度
    が低い

    View Slide

  29. - -
    29

    View Slide

  30. 将来のリスクに対する言語的説明生成:Future captioning
    [Kambara+ ICIP22][平野+ 23]
    - -
    30
    【タスク】
    行動前にユーザに実行可否を判断
    を仰ぐための説明生成
    【技術ポイント】
    ■ Relational Self-Attention [Kim+
    NeurIPS21]を用いたイベント間
    の関係性抽出
    ■ LLMによるあり得る帰結の生成
    ■ Nearest Neighbor Language
    Model (NNLM)をキャプション
    生成に初めて導入
    例:「砂時計が落下するリスクがあ
    ります。動作を実行しますか?」

    View Slide

  31. あり得る未来の説明をLLMで生成し、NNLMを用いて生成
    確率をリスコア
    ■ LLMによるデータ拡張
    ■ 学習集合における各サンプルをLLMに入力
    ■ 新たなサンプルを含めた学習集合を得る
    ■ 説明文の後件部を変更するプロンプトを使用
    アームがペットボトルを置こうとして、
    砂糖の容器に衝突して倒れる
    アームがペットボトルを置こうとして、
    砂糖の容器に衝突して弾き飛ばされる
    LLM
    入力例
    LLM
    出力例
    31

    View Slide

  32. ロボットタスクおよび料理動画に対するfuture captioning
    32
    アームがつかんでいたルービックキューブをテーブルの上
    に置き、ルービックキューブとマヨネーズが衝突する
    アームがルービックキューブを机の上に置こうとしたが、
    おこうとした場所にペットボトルと接触してしまい、ルー
    ビックキューブが棚の上で倒れる
    アームがルービックキューブを机の上に置こうとしたが、
    マヨネーズの容器に衝突し、マヨネーズの容器が少し動く

    View Slide

  33. 説明生成の評価はマルチモーダル生成モデルの発展に必須
    - -
    33
    ■ 説明生成モデルの開発には
    自動評価尺度が必須
    ■ cf. 機械翻訳
    ■ 日々のモデル改良サイク
    ルを被験者評価で行うこ
    とは非現実的
    ■ マルチモーダル生成モデル
    の需要増加を見据え、公
    平・優秀な評価尺度を構築

    View Slide

  34. 日本語における画像キャプション生成のための
    自動評価尺度JaSPICEの構築
    背景: 日本語のための画像説明文の自動評価尺度は、良いものがほぼない
    技術ポイント: 述語項構造に基づくシーングラフを用いたグラフマッチング
    人通りの少なくなった道路で,青いズボンを着た男の子が
    オレンジ色のヘルメットを被りスケートボードに乗っている
    被験者100人から22,350サンプルを収集した比較評価

    View Slide

  35. まとめ
    - -
    35

    View Slide

  36. まとめ
    - -
    36
    1. ロボティクスにおける基盤モデルの動向
    2. 生活支援ロボットの言語理解
    3. ロボティクスにおける説明性
    ※JSPS・JST CREST・JSTムーンショット・NEDO・SCOPE・トヨタ自動車・
    NICT・本田技研・大阪大学・中部大学・本学共同研究者・研究室の学生・
    スタッフに感謝申し上げます。

    View Slide

  37. マルチモーダル言語処理の発表資料を公開しています
    - -
    37
    公開スライド
    https://speakerdeck.com/keio_smilab
    ウェブサイト
    https://smilab.org
    Twitter
    @keio_smilab

    View Slide