SSII2023 [OS3] 三次元データを用いた学習技術～ロボット応用にむけて～

三次元データを用いた学習技術～ロボット応用にむけて～ 2023.6.16 吉安祐介産業技術総合研究所・人工知能研究センターコンピュータビジョン研究チーム

本日のアウトライン 1. Embodied AI（物体探索ナビゲーション） 2. もののハンドリングのための三次元物体認識 3. Transformerを用いたEmbodied AI・三次元学習技術

Embodied AI • ロボット学習の課題：ハードウェアで試行錯誤 ⇨ 危険性・長時間 • 「身体性」を有するAI、 2010年代後半から
• シミュレータで学習・ソフトウェア技術向上 ⇒ 現実世界に展開 ⇒ 物体探索成功率90% [Gervet 2023] Navigating to Objects in the Real World Theophile Gervet, Soumith Chintala, Dhruv Batra, Jitendra Malik, Devendra Singh Chaplot, 2023 物体探索成功率90% Find “Toilet” Duan et al.: A Survey of Embodied AI: From Simulators to Research Tasks

Find ‘Laptop’ 問題設定：屋内空間でものを探すAI • Embodied AI が屋内空間を移動し、ものを探す ‒ 第一人称視点の画像入力 ‒
単語で提示された対象物をさがし近づく ‒ 三次元学習環境・シミュレータで試行錯誤（＝強化学習） [Druon, Yoshiyasu, kanezaki, Watt, RAL + ICRA 2020] [Fukushima, Ota, Kanezaki, Sasaki, Yoshiyasu, ICRA2022]

物体探索ナビゲーション：コンセプト A) 人の日常行動からインスパイア • 対象物が見えていないときは、周りにあるものを頼りに対象物のありそうな場所に近づく • 対象が視野に入った後、素早く対象物に近づく例)シンクにあるスポンジをさがす B) 背景知識特徴表現：
“Context grid” • 対象物と周りの物体の空間的・意味的関係性を学習、行動意思決定に活用 C) 大規模知識ベースから学習環境外の知識を取りこみ汎化性を向上 Goal Start Context objects

物体探索ナビゲーション：モデル構成 MoveAhead, MoveBack, MoveRight, MoveLeft, RotateRight, RotateLeft, LookUp, LookDown, DONE
action = シーン全体の視覚情報周りの物と対象物の視覚情報対象物の単語情報背景知識表現: Context Grid 行動ポリシー • 対象物が視野内に存在しない場合でも、対象物と周りの物体の空間的・意味的関係性を把握して、素早い物体探索を実現強化学習：A3C

三次元学習環境と知識ベース Kitchen Living room Bathroom Bedroom • 80000 カテゴリー •
3000000 インスタンス • Word embeddingの学習 • 大規模知識ベースに含まれる知識を活用して汎化性を向上、未知物体も探索可能 Visual Genome AI2Thor • 120 部屋 • 150 カテゴリー • 検出器の学習、ポリシーの学習 Visual Genome: Connecting Language and Vision Using Crowdsourced Dense Image Annotations, Krishna et al, 2016 https://ai2thor.allenai.org/

結果：未知物体の探索 • 学習データに含まれていない種類のものをさがすことができる

位置・姿勢認識技術を利用したマテリアルハンドリング NEDO次世代人工知能技術分野／ AI×ロボティクスによる高度マテリアルハンドリング・システムの研究開発 2017-2018

位置・姿勢検出に基づく把持動作生成位置・姿勢点群データ RGB 画像 Input: RGB-D 深度センサー領域検出（YOLOv3）３Dモデル
ロボット把持姿勢検出（15fps）３Ｄモデルマッチング (1fps) • 三次元データを用いて視覚認識モデル（物体領域検出、姿勢検出）を深層学習

切り抜いた物体領域をさまざまな背景画像に張り付ける [Gabas, Yoshiyasu, Singh, Sagawa, Yoshida, ICIP 2020] [Suzui, Yoshiyasu,
Gabas, Yoshida, Kanehiro, SII 2019] [Tshilonbo, Yoshiyasu, Gabas, Suzui, Siggraph asia 2018 poster] [Singh, Benallegue, Yoshiyasu, Kanehiro, ICRA 2021] 学習用多視点画像・三次元データ収集手法 SfMを用いた３Dモデルと学習画像データセット自動作成多視点データセット簡易作成システムマーカーにより物体の姿勢と距離情報をラベリング

Transformer機構に基づくもの探しナビゲーションモデル • 長期間の観測から目標に向けた意思決定を学習するモデル • 重要な時刻に注意を向けることで長期観測を効果的活用 • 時系列情報を扱う従来のRNNモデルよりも高い性能を示す [Fukushima, Ota, Kanezaki,
Sasaki, Yoshiyasu, ICRA2022] Controller Object-Scene Memory Transformer Scene Object t 0 Self-Attention Encoded Memory ⋮ Target Attention t t 0 Temporal Attention Map 0 ⋮ “Pillow” “Move Right” ➢ Ours 32 hist. Method SR [%] SPL [%] Random 6.1 1.3 SP [Yang 2019] 18.24 4.39 Baseline [Druon 2021] 61.55 20.83 Baseline - LSTM 3 Layer [Druon 2021] 63.25 23.96 Ours - 32 hist. 69.39 (0.16) 27.51 (0.10) ➢ 性能評価 • 正解バウンディングボックスを用いた場合

Transformerに基づくセンサフュージョン・オドメトリ TransFusionOdom [Sun, Ding, Qiu, Yoshiyasu, Kanehiro, in submission] •
オドメトリ：移動体の位置姿勢検出 • Transformerに基づくLidarとIMUセンサーのセンサフュージョン • 評価用のシミュレーションデータセットを提供

Transformerを用いた単眼画像人体三次元形状復元 Deformable mesh transFormer (DeFormer) [Yoshiyasu, CVPR 2023] • メッシュ接続情報と変形モデルに基づく効率的なAttention
- Body sparse self-attention - Deformable mesh cross attention • 高解像度画像特徴マップと密なメッシュを活用可能 • SOTAパフォーマンス（Human3.6Mと3DPW）

汎用性を有するロボット知能 ↓ ロボット実機へ展開本日のまとめ大規模学習モデル生成モデル ChatGPT, Diffusion
model… シミュレーションデジタルツイン仮想環境, メタバース今後の展開： 1. Embodied AI（物体探索ナビゲーション） 2. もののハンドリングのための三次元物体認識 3. Transformerを用いたEmbodied AI・三次元学習技術ネットAI・ネットデータ３Dデータ三次元データを用いた学習技術～ロボット応用にむけて～スケール化による性能・汎用性向上

SSII2023 [OS3] 三次元データを用いた学習技術～ロボット応用にむけて～

SSII2023 [OS3] 三次元データを用いた学習技術～ロボット応用にむけて～

画像センシングシンポジウム PRO

More Decks by 画像センシングシンポジウム

Other Decks in Science

Featured

Transcript

三次元データを用いた学習技術～ロボット応用にむけて～ 2023.6.16 吉安祐介産業技術総合研究所・人工知能研究センターコンピュータビジョン研究チーム

本日のアウトライン 1. Embodied AI（物体探索ナビゲーション） 2. もののハンドリングのための三次元物体認識 3. Transformerを用いたEmbodied AI・三次元学習技術

Embodied AI • ロボット学習の課題：ハードウェアで試行錯誤 ⇨ 危険性・長時間 • 「身体性」を有するAI、 2010年代後半から

Find ‘Laptop’ 問題設定：屋内空間でものを探すAI • Embodied AI が屋内空間を移動し、ものを探す ‒ 第一人称視点の画像入力 ‒

物体探索ナビゲーション：モデル構成 MoveAhead, MoveBack, MoveRight, MoveLeft, RotateRight, RotateLeft, LookUp, LookDown, DONE

三次元学習環境と知識ベース Kitchen Living room Bathroom Bedroom • 80000 カテゴリー •

結果：未知物体の探索 • 学習データに含まれていない種類のものをさがすことができる

本日のアウトライン 1. Embodied AI（物体探索ナビゲーション） 2. もののハンドリングのための三次元物体認識 3. Transformerを用いたEmbodied AI・三次元学習技術

位置・姿勢認識技術を利用したマテリアルハンドリング NEDO次世代人工知能技術分野／ AI×ロボティクスによる高度マテリアルハンドリング・システムの研究開発 2017-2018

位置・姿勢検出に基づく把持動作生成位置・姿勢点群データ RGB 画像 Input: RGB-D 深度センサー領域検出（YOLOv3）３Dモデル

切り抜いた物体領域をさまざまな背景画像に張り付ける [Gabas, Yoshiyasu, Singh, Sagawa, Yoshida, ICIP 2020] [Suzui, Yoshiyasu,

本日のアウトライン 1. Embodied AI（物体探索ナビゲーション） 2. もののハンドリングのための三次元物体認識 3. Transformerを用いたEmbodied AI・三次元学習技術

Transformerに基づくセンサフュージョン・オドメトリ TransFusionOdom [Sun, Ding, Qiu, Yoshiyasu, Kanehiro, in submission] •

Transformerを用いた単眼画像人体三次元形状復元 Deformable mesh transFormer (DeFormer) [Yoshiyasu, CVPR 2023] • メッシュ接続情報と変形モデルに基づく効率的なAttention

汎用性を有するロボット知能 ↓ ロボット実機へ展開本日のまとめ大規模学習モデル生成モデル ChatGPT, Diffusion

SSII2023 [OS3] 三次元データを用いた学習技術 ～ロボット応用にむけて～

SSII2023 [OS3] 三次元データを用いた学習技術 ～ロボット応用にむけて～

More Decks by 画像センシングシンポジウム

Other Decks in Science

Featured

Transcript

SSII2023 [OS3] 三次元データを用いた学習技術～ロボット応用にむけて～

SSII2023 [OS3] 三次元データを用いた学習技術～ロボット応用にむけて～