Upgrade to Pro — share decks privately, control downloads, hide ads and more …

SSII2023 [OS3] 三次元データを用いた学習技術 ~ロボット応用にむけて~

SSII2023 [OS3] 三次元データを用いた学習技術 ~ロボット応用にむけて~

吉安 祐介(産業技術総合研究所・人工知能研究センター コンピュータビジョン研究チーム)

More Decks by 画像センシングシンポジウム

Other Decks in Science

Transcript

  1. Embodied AI • ロボット学習の課題: ハードウェアで試行錯誤 ⇨ 危険性・長時間 • 「身体性」を有するAI、 2010年代後半から

    • シミュレータで学習・ソフトウェア技術向上 ⇒ 現実世界に展開 ⇒ 物体探索成功率90% [Gervet 2023] Navigating to Objects in the Real World Theophile Gervet, Soumith Chintala, Dhruv Batra, Jitendra Malik, Devendra Singh Chaplot, 2023 物体探索 成功率90% Find “Toilet” Duan et al.: A Survey of Embodied AI: From Simulators to Research Tasks
  2. Find ‘Laptop’ 問題設定:屋内空間でものを探すAI • Embodied AI が屋内空間を移動し、ものを探す ‒ 第一人称視点の画像入力 ‒

    単語で提示された対象物をさがし近づく ‒ 三次元学習環境・シミュレータで試行錯誤(=強化学習) [Druon, Yoshiyasu, kanezaki, Watt, RAL + ICRA 2020] [Fukushima, Ota, Kanezaki, Sasaki, Yoshiyasu, ICRA2022]
  3. 物体探索ナビゲーション:モデル構成 MoveAhead, MoveBack, MoveRight, MoveLeft, RotateRight, RotateLeft, LookUp, LookDown, DONE

    action = シーン全体の視覚情報 周りの物と対象物の視覚情報 対象物の単語情報 背景知識表現: Context Grid 行動ポリシー • 対象物が視野内に存在しない場合でも、対象物と周りの物体の空間的・意味的関係性 を把握して、素早い物体探索を実現 強化学習:A3C
  4. 三次元学習環境と知識ベース Kitchen Living room Bathroom Bedroom • 80000 カテゴリー •

    3000000 インスタンス • Word embeddingの学習 • 大規模知識ベースに含まれる知識を活用して汎化性を向上、未知物体も探索可能 Visual Genome AI2Thor • 120 部屋 • 150 カテゴリー • 検出器の学習、ポリシーの学習 Visual Genome: Connecting Language and Vision Using Crowdsourced Dense Image Annotations, Krishna et al, 2016 https://ai2thor.allenai.org/
  5. 位置・姿勢検出に基づく把持動作生成 位置・姿勢 点群データ RGB 画像 Input: RGB-D 深度センサー 領域検出(YOLOv3) 3Dモデル

    ロボット把持 姿勢検出 (15fps) 3Dモデルマッチング (1fps) • 三次元データを用いて視覚認識モデル(物体領域検出、姿勢検出)を深層学習
  6. 切り抜いた物体領域をさまざまな背景画像に張り付ける [Gabas, Yoshiyasu, Singh, Sagawa, Yoshida, ICIP 2020] [Suzui, Yoshiyasu,

    Gabas, Yoshida, Kanehiro, SII 2019] [Tshilonbo, Yoshiyasu, Gabas, Suzui, Siggraph asia 2018 poster] [Singh, Benallegue, Yoshiyasu, Kanehiro, ICRA 2021] 学習用多視点画像・三次元データ収集手法 SfMを用いた3Dモデルと学習画像データセット自動作成 多視点データセット簡易作成システム マーカーにより物体の姿勢と距離情報をラベリング
  7. Transformer機構に基づくもの探しナビゲーションモデル • 長期間の観測から目標に向けた意思決定を学習するモデル • 重要な時刻に注意を向けることで長期観測を効果的活用 • 時系列情報を扱う従来のRNNモデルよりも高い性能を示す [Fukushima, Ota, Kanezaki,

    Sasaki, Yoshiyasu, ICRA2022] Controller Object-Scene Memory Transformer Scene Object t 0 Self-Attention Encoded Memory ⋮ Target Attention t t 0 Temporal Attention Map 0 ⋮ “Pillow” “Move Right” ➢ Ours 32 hist. Method SR [%] SPL [%] Random 6.1 1.3 SP [Yang 2019] 18.24 4.39 Baseline [Druon 2021] 61.55 20.83 Baseline - LSTM 3 Layer [Druon 2021] 63.25 23.96 Ours - 32 hist. 69.39 (0.16) 27.51 (0.10) ➢ 性能評価 • 正解バウンディングボックスを用いた場合
  8. Transformerに基づくセンサフュージョン・オドメトリ TransFusionOdom [Sun, Ding, Qiu, Yoshiyasu, Kanehiro, in submission] •

    オドメトリ:移動体の位置姿勢検出 • Transformerに基づくLidarとIMUセンサーのセンサフュージョン • 評価用のシミュレーションデータセットを提供
  9. Transformerを用いた単眼画像人体三次元形状復元 Deformable mesh transFormer (DeFormer) [Yoshiyasu, CVPR 2023] • メッシュ接続情報と変形モデルに基づく効率的なAttention

    - Body sparse self-attention - Deformable mesh cross attention • 高解像度画像特徴マップと密なメッシュを活用可能 • SOTAパフォーマンス(Human3.6Mと3DPW)
  10. 汎用性を有する ロボット知能 ↓ ロボット実機 へ展開 本日のまとめ 大規模学習モデル 生成モデル ChatGPT, Diffusion

    model… シミュレーション デジタルツイン 仮想環境, メタバース 今後の展開: 1. Embodied AI(物体探索ナビゲーション) 2. もののハンドリングのための三次元物体認識 3. Transformerを用いたEmbodied AI・三次元学習技術 ネットAI・ネットデータ 3Dデータ 三次元データを用いた学習技術 ~ロボット応用にむけて~ スケール化による性能・汎用性向上