画像エンコーダ: ViT-B/32, ResNet等 ▪ テキストエンコーダ: トランスフォーマー等 ▪ 推論: 新規の画像(or テキスト)を入力して特徴量に変換 ▪ 多数の応用(DALL·E 2 [Aditya (OpenAI) + 2022/4]等) a photo of a beer bottle satellite imagery of roundabout a photo of a marimba a meme テキスト エンコーダ 画像 エンコーダ
[Kaneda+, RA-L/IROS24] ③ 参照表現理解 [Nishimura+, IROS24] ④ 物体操作成功判定 [Goko+, CoRL24] 出力: Success place a red can on the front right pick up the tissue box next to the sink 出力:セグメンテーションマスク 出力:観測姿勢集合 出力:対象物体画像 16x 4x
背景 ▪ マルチモーダル検索に基づく, 生活支援ロボットによる物体操作 提案 ▪ MLLM/LLMを複合し,指示文・画像を 複数粒度で分解・統合 ▪ Unlabeled PositiveおよびNegativeペア の対照性を緩和するContrastive Loss 結果 ▪ 実機実験において,ゼロショット転移 でタスク成功率80%を達成 16x pick up the long chips can and place it on the table with fruits
指示文からの対象物体特定・把持 にセグメンテーションは重要 提案 最適輸送を用いたポリゴンマッチング 画角外の情報を扱う3D Semantic Point Aggregator 結果 mIoUにおいて既存 手法を上回った pick up the pillow closest to the radio art on the wall OpenScene [Peng+, CVPR23]
提案 ▪ 多階層視覚表現λ-Representationを導入 ▪ 画像間の差異を抽出し, 指示文とのアラインメントを考慮 結果 ▪ RT-1データセット・ 実機において, Few-Shot MLLMを 上回った “pick the orange” 8x 人間の妨害 からの復帰 出力: Success place a red can on the front right