$30 off During Our Annual Pro Sale. View Details »

SSII2023 [OS3] 三次元データを用いた学習技術 ~ロボット応用にむけて~

SSII2023 [OS3] 三次元データを用いた学習技術 ~ロボット応用にむけて~

吉安 祐介(産業技術総合研究所・人工知能研究センター コンピュータビジョン研究チーム)

More Decks by 画像センシングシンポジウム

Other Decks in Science

Transcript

  1. 三次元データを用いた学習技術
    ~ロボット応用にむけて~
    2023.6.16
    吉安 祐介
    産業技術総合研究所・人工知能研究センター
    コンピュータビジョン研究チーム

    View Slide

  2. 本日のアウトライン
    1. Embodied AI(物体探索ナビゲーション)
    2. もののハンドリングのための三次元物体認識
    3. Transformerを用いたEmbodied AI・三次元学習技術

    View Slide

  3. Embodied AI
    • ロボット学習の課題:
    ハードウェアで試行錯誤 ⇨ 危険性・長時間
    • 「身体性」を有するAI、 2010年代後半から
    • シミュレータで学習・ソフトウェア技術向上
    ⇒ 現実世界に展開
    ⇒ 物体探索成功率90% [Gervet 2023]
    Navigating to Objects in the Real World
    Theophile Gervet, Soumith Chintala, Dhruv Batra,
    Jitendra Malik, Devendra Singh Chaplot, 2023
    物体探索
    成功率90%
    Find “Toilet”
    Duan et al.: A Survey of Embodied AI: From Simulators to Research Tasks

    View Slide

  4. Find ‘Laptop’
    問題設定:屋内空間でものを探すAI
    • Embodied AI が屋内空間を移動し、ものを探す
    ‒ 第一人称視点の画像入力
    ‒ 単語で提示された対象物をさがし近づく
    ‒ 三次元学習環境・シミュレータで試行錯誤(=強化学習)
    [Druon, Yoshiyasu, kanezaki, Watt, RAL + ICRA 2020]
    [Fukushima, Ota, Kanezaki, Sasaki, Yoshiyasu, ICRA2022]

    View Slide

  5. 物体探索ナビゲーション:コンセプト
    A) 人の日常行動からインスパイア
    • 対象物が見えていないときは、周りにあるものを頼りに対象物のありそうな場所に近づく
    • 対象が視野に入った後、素早く対象物に近づく 例)シンクにあるスポンジをさがす
    B) 背景知識特徴表現: “Context grid”
    • 対象物と周りの物体の空間的・意味的関係性を学習、行動意思決定に活用
    C) 大規模知識ベースから学習環境外の知識を取りこみ汎化性を向上
    Goal
    Start Context objects

    View Slide

  6. 物体探索ナビゲーション:モデル構成
    MoveAhead,
    MoveBack,
    MoveRight,
    MoveLeft,
    RotateRight,
    RotateLeft,
    LookUp,
    LookDown,
    DONE
    action =
    シーン全体の視覚情報
    周りの物と対象物の視覚情報
    対象物の単語情報
    背景知識表現:
    Context Grid
    行動ポリシー
    • 対象物が視野内に存在しない場合でも、対象物と周りの物体の空間的・意味的関係性
    を把握して、素早い物体探索を実現
    強化学習:A3C

    View Slide

  7. 三次元学習環境と知識ベース
    Kitchen Living room Bathroom Bedroom
    • 80000 カテゴリー
    • 3000000 インスタンス
    • Word embeddingの学習
    • 大規模知識ベースに含まれる知識を活用して汎化性を向上、未知物体も探索可能
    Visual Genome
    AI2Thor
    • 120 部屋
    • 150 カテゴリー
    • 検出器の学習、ポリシーの学習
    Visual Genome: Connecting Language and Vision Using
    Crowdsourced Dense Image Annotations, Krishna et al, 2016
    https://ai2thor.allenai.org/

    View Slide

  8. 結果:未知物体の探索
    • 学習データに含まれていない種類のものをさがすことができる

    View Slide

  9. 本日のアウトライン
    1. Embodied AI(物体探索ナビゲーション)
    2. もののハンドリングのための三次元物体認識
    3. Transformerを用いたEmbodied AI・三次元学習技術

    View Slide

  10. 位置・姿勢認識技術を利用した
    マテリアルハンドリング
    NEDO次世代人工知能技術分野/
    AI×ロボティクスによる高度マテリアル
    ハンドリング・システムの研究開発
    2017-2018

    View Slide

  11. 位置・姿勢検出に基づく把持動作生成
    位置・姿勢
    点群データ
    RGB
    画像
    Input: RGB-D
    深度センサー
    領域検出(YOLOv3)
    3Dモデル
    ロボット把持
    姿勢検出
    (15fps)
    3Dモデルマッチング
    (1fps)
    • 三次元データを用いて視覚認識モデル(物体領域検出、姿勢検出)を深層学習

    View Slide

  12. 切り抜いた物体領域をさまざまな背景画像に張り付ける
    [Gabas, Yoshiyasu, Singh, Sagawa, Yoshida, ICIP 2020]
    [Suzui, Yoshiyasu, Gabas, Yoshida, Kanehiro, SII 2019]
    [Tshilonbo, Yoshiyasu, Gabas, Suzui, Siggraph asia 2018 poster]
    [Singh, Benallegue, Yoshiyasu, Kanehiro, ICRA 2021]
    学習用多視点画像・三次元データ収集手法
    SfMを用いた3Dモデルと学習画像データセット自動作成
    多視点データセット簡易作成システム
    マーカーにより物体の姿勢と距離情報をラベリング

    View Slide

  13. 本日のアウトライン
    1. Embodied AI(物体探索ナビゲーション)
    2. もののハンドリングのための三次元物体認識
    3. Transformerを用いたEmbodied AI・三次元学習技術

    View Slide

  14. Transformer機構に基づくもの探しナビゲーションモデル
    • 長期間の観測から目標に向けた意思決定を学習するモデル
    • 重要な時刻に注意を向けることで長期観測を効果的活用
    • 時系列情報を扱う従来のRNNモデルよりも高い性能を示す
    [Fukushima, Ota, Kanezaki, Sasaki, Yoshiyasu, ICRA2022]
    Controller

    Object-Scene Memory Transformer
    Scene
    Object
    t
    0
    Self-Attention
    Encoded Memory

    Target Attention
    t
    t
    0
    Temporal Attention Map
    0

    “Pillow”
    “Move Right”
    ➢ Ours 32 hist.
    Method SR [%] SPL [%]
    Random 6.1 1.3
    SP [Yang 2019] 18.24 4.39
    Baseline [Druon 2021] 61.55 20.83
    Baseline - LSTM 3 Layer [Druon 2021] 63.25 23.96
    Ours - 32 hist. 69.39 (0.16) 27.51 (0.10)
    ➢ 性能評価
    • 正解バウンディングボックスを用いた場合

    View Slide

  15. Transformerに基づくセンサフュージョン・オドメトリ
    TransFusionOdom [Sun, Ding, Qiu, Yoshiyasu, Kanehiro, in submission]
    • オドメトリ:移動体の位置姿勢検出
    • Transformerに基づくLidarとIMUセンサーのセンサフュージョン
    • 評価用のシミュレーションデータセットを提供

    View Slide

  16. Transformerを用いた単眼画像人体三次元形状復元
    Deformable mesh transFormer (DeFormer) [Yoshiyasu, CVPR 2023]
    • メッシュ接続情報と変形モデルに基づく効率的なAttention
    - Body sparse self-attention
    - Deformable mesh cross attention
    • 高解像度画像特徴マップと密なメッシュを活用可能
    • SOTAパフォーマンス(Human3.6Mと3DPW)

    View Slide

  17. 汎用性を有する
    ロボット知能

    ロボット実機
    へ展開
    本日のまとめ
    大規模学習モデル
    生成モデル
    ChatGPT, Diffusion model…
    シミュレーション
    デジタルツイン
    仮想環境, メタバース
    今後の展開:
    1. Embodied AI(物体探索ナビゲーション)
    2. もののハンドリングのための三次元物体認識
    3. Transformerを用いたEmbodied AI・三次元学習技術
    ネットAI・ネットデータ
    3Dデータ
    三次元データを用いた学習技術 ~ロボット応用にむけて~
    スケール化による性能・汎用性向上

    View Slide