Slide 1

Slide 1 text

三次元データを用いた学習技術 ~ロボット応用にむけて~ 2023.6.16 吉安 祐介 産業技術総合研究所・人工知能研究センター コンピュータビジョン研究チーム

Slide 2

Slide 2 text

本日のアウトライン 1. Embodied AI(物体探索ナビゲーション) 2. もののハンドリングのための三次元物体認識 3. Transformerを用いたEmbodied AI・三次元学習技術

Slide 3

Slide 3 text

Embodied AI • ロボット学習の課題: ハードウェアで試行錯誤 ⇨ 危険性・長時間 • 「身体性」を有するAI、 2010年代後半から • シミュレータで学習・ソフトウェア技術向上 ⇒ 現実世界に展開 ⇒ 物体探索成功率90% [Gervet 2023] Navigating to Objects in the Real World Theophile Gervet, Soumith Chintala, Dhruv Batra, Jitendra Malik, Devendra Singh Chaplot, 2023 物体探索 成功率90% Find “Toilet” Duan et al.: A Survey of Embodied AI: From Simulators to Research Tasks

Slide 4

Slide 4 text

Find ‘Laptop’ 問題設定:屋内空間でものを探すAI • Embodied AI が屋内空間を移動し、ものを探す ‒ 第一人称視点の画像入力 ‒ 単語で提示された対象物をさがし近づく ‒ 三次元学習環境・シミュレータで試行錯誤(=強化学習) [Druon, Yoshiyasu, kanezaki, Watt, RAL + ICRA 2020] [Fukushima, Ota, Kanezaki, Sasaki, Yoshiyasu, ICRA2022]

Slide 5

Slide 5 text

物体探索ナビゲーション:コンセプト A) 人の日常行動からインスパイア • 対象物が見えていないときは、周りにあるものを頼りに対象物のありそうな場所に近づく • 対象が視野に入った後、素早く対象物に近づく 例)シンクにあるスポンジをさがす B) 背景知識特徴表現: “Context grid” • 対象物と周りの物体の空間的・意味的関係性を学習、行動意思決定に活用 C) 大規模知識ベースから学習環境外の知識を取りこみ汎化性を向上 Goal Start Context objects

Slide 6

Slide 6 text

物体探索ナビゲーション:モデル構成 MoveAhead, MoveBack, MoveRight, MoveLeft, RotateRight, RotateLeft, LookUp, LookDown, DONE action = シーン全体の視覚情報 周りの物と対象物の視覚情報 対象物の単語情報 背景知識表現: Context Grid 行動ポリシー • 対象物が視野内に存在しない場合でも、対象物と周りの物体の空間的・意味的関係性 を把握して、素早い物体探索を実現 強化学習:A3C

Slide 7

Slide 7 text

三次元学習環境と知識ベース Kitchen Living room Bathroom Bedroom • 80000 カテゴリー • 3000000 インスタンス • Word embeddingの学習 • 大規模知識ベースに含まれる知識を活用して汎化性を向上、未知物体も探索可能 Visual Genome AI2Thor • 120 部屋 • 150 カテゴリー • 検出器の学習、ポリシーの学習 Visual Genome: Connecting Language and Vision Using Crowdsourced Dense Image Annotations, Krishna et al, 2016 https://ai2thor.allenai.org/

Slide 8

Slide 8 text

結果:未知物体の探索 • 学習データに含まれていない種類のものをさがすことができる

Slide 9

Slide 9 text

本日のアウトライン 1. Embodied AI(物体探索ナビゲーション) 2. もののハンドリングのための三次元物体認識 3. Transformerを用いたEmbodied AI・三次元学習技術

Slide 10

Slide 10 text

位置・姿勢認識技術を利用した マテリアルハンドリング NEDO次世代人工知能技術分野/ AI×ロボティクスによる高度マテリアル ハンドリング・システムの研究開発 2017-2018

Slide 11

Slide 11 text

位置・姿勢検出に基づく把持動作生成 位置・姿勢 点群データ RGB 画像 Input: RGB-D 深度センサー 領域検出(YOLOv3) 3Dモデル ロボット把持 姿勢検出 (15fps) 3Dモデルマッチング (1fps) • 三次元データを用いて視覚認識モデル(物体領域検出、姿勢検出)を深層学習

Slide 12

Slide 12 text

切り抜いた物体領域をさまざまな背景画像に張り付ける [Gabas, Yoshiyasu, Singh, Sagawa, Yoshida, ICIP 2020] [Suzui, Yoshiyasu, Gabas, Yoshida, Kanehiro, SII 2019] [Tshilonbo, Yoshiyasu, Gabas, Suzui, Siggraph asia 2018 poster] [Singh, Benallegue, Yoshiyasu, Kanehiro, ICRA 2021] 学習用多視点画像・三次元データ収集手法 SfMを用いた3Dモデルと学習画像データセット自動作成 多視点データセット簡易作成システム マーカーにより物体の姿勢と距離情報をラベリング

Slide 13

Slide 13 text

本日のアウトライン 1. Embodied AI(物体探索ナビゲーション) 2. もののハンドリングのための三次元物体認識 3. Transformerを用いたEmbodied AI・三次元学習技術

Slide 14

Slide 14 text

Transformer機構に基づくもの探しナビゲーションモデル • 長期間の観測から目標に向けた意思決定を学習するモデル • 重要な時刻に注意を向けることで長期観測を効果的活用 • 時系列情報を扱う従来のRNNモデルよりも高い性能を示す [Fukushima, Ota, Kanezaki, Sasaki, Yoshiyasu, ICRA2022] Controller Object-Scene Memory Transformer Scene Object t 0 Self-Attention Encoded Memory ⋮ Target Attention t t 0 Temporal Attention Map 0 ⋮ “Pillow” “Move Right” ➢ Ours 32 hist. Method SR [%] SPL [%] Random 6.1 1.3 SP [Yang 2019] 18.24 4.39 Baseline [Druon 2021] 61.55 20.83 Baseline - LSTM 3 Layer [Druon 2021] 63.25 23.96 Ours - 32 hist. 69.39 (0.16) 27.51 (0.10) ➢ 性能評価 • 正解バウンディングボックスを用いた場合

Slide 15

Slide 15 text

Transformerに基づくセンサフュージョン・オドメトリ TransFusionOdom [Sun, Ding, Qiu, Yoshiyasu, Kanehiro, in submission] • オドメトリ:移動体の位置姿勢検出 • Transformerに基づくLidarとIMUセンサーのセンサフュージョン • 評価用のシミュレーションデータセットを提供

Slide 16

Slide 16 text

Transformerを用いた単眼画像人体三次元形状復元 Deformable mesh transFormer (DeFormer) [Yoshiyasu, CVPR 2023] • メッシュ接続情報と変形モデルに基づく効率的なAttention - Body sparse self-attention - Deformable mesh cross attention • 高解像度画像特徴マップと密なメッシュを活用可能 • SOTAパフォーマンス(Human3.6Mと3DPW)

Slide 17

Slide 17 text

汎用性を有する ロボット知能 ↓ ロボット実機 へ展開 本日のまとめ 大規模学習モデル 生成モデル ChatGPT, Diffusion model… シミュレーション デジタルツイン 仮想環境, メタバース 今後の展開: 1. Embodied AI(物体探索ナビゲーション) 2. もののハンドリングのための三次元物体認識 3. Transformerを用いたEmbodied AI・三次元学習技術 ネットAI・ネットデータ 3Dデータ 三次元データを用いた学習技術 ~ロボット応用にむけて~ スケール化による性能・汎用性向上