[Journal club] A Simple Approach for Visual Rearrangement: 3D Mapping and Semantic Search

Slide 1

Slide 1 text

慶應義塾大学杉浦孔明研究室是方諒介 A Simple Approach for Visual Rearrangement: 3D Mapping and Semantic Search Brandon Trabucco1, Gunnar Sigurdsson2, Robinson Piramuthu2, Gaurav S. Sukhatme2,3, Ruslan Salakhutdinov1 (1Carnegie Mellon University, 2Amazon Alexa AI, 3University of Southern California) Winner of the Rearrangement Challenge at CVPR 2022 Brandon Trabucco, Gunnar Sigurdsson, Robinson Piramuthu, Gaurav S. Sukhatme, and Ruslan Salakhutdinov. "A Simple Approach for Visual Rearrangement: 3D Mapping and Semantic Search." Winner of the Rearrangement Challenge at CVPR 2022.

Slide 2

Slide 2 text

概要背景 ✓ Rearrangementタスクはembodiedエージェントにとって高難度提案 ✓ semantic segmentationを用いた、voxel-basedなsemantic mapの構築 ✓ semantic search policyによる効率的な探索結果 ✓ AI2-THOR Rearrangement Challenge 2022で、成功率を14.66%向上 2

Slide 3

Slide 3 text

背景：物体を初期状態に戻すEmbodied AIタスクは高難度 ◼ AI2-THOR Rearrangement Challenge 2022 [Weihs+, CVPR21] ◼ エージェントが部屋を周回し、RGB/深度画像のみを観測（状態変化前後の計2回） ◼ 物体の位置・方向・開閉の「変化を検出」し、状態を「変化前に戻す」 ◼ AI2-THOR（シミュレーション環境）を利用 3 変化後変化前 RGB画像深度画像

Slide 4

Slide 4 text

関連研究：性能に改善の余地 4 Model Detail Visual Room Rearrangement (VRR) [Weihs+, CVPR21] ・Rearrangementタスクのデータセット（RoomR）を提案・end-to-endな強化学習に基づくベースラインモデル Continuous Scene Representations (CSR) [Gadre+, CVPR22] ・連続的なシーンから物体間の関係をグラフ構造化・planning-basedなアプローチ VRR CSR

Slide 5

Slide 5 text

提案手法：voxel-basedなsemantic mapの差分から変化を発見 ◼ 手順1：状態変化前後でそれぞれsemantic mapを構築 ◼ semantic search policyに基づき、物体が存在する可能性の高い場所へnavigation ◼ 手順2：検出した変化を解消するように1物体ずつrearrangement ◼ 変化前後の差分は各物体の二部マッチングを考慮 5 例：ベッドの上のラップトップを把持し、机に配置

Slide 6

Slide 6 text

手順1：状態変化前後のsemantic map 𝑚0 , 𝑚1 ∈ ℛ𝐻×𝑊×𝐷×𝐶 を構築 ◼ Walkthrough/Unshuffle Phase：変化前/後 6 方策 𝜋𝜃 (𝐱|𝑚𝑖 ) に基づき探索目標位置を決定して navigation 𝐻 × 𝑊 × 𝐷：voxel空間 𝐶：物体のクラス数 semantic mapを逐次更新 ① 𝐼𝑡 ：時刻 𝑡 のRGB画像 ② 𝐷𝑡 ：時刻 𝑡 の深度画像

Slide 7

Slide 7 text

semantic mapの構築方法：semantic segmentationの結果を反映 ◼ Mask R-CNN [He+, ICCV17] の信頼度0.9未満を除外 ◼ 現在位置・姿勢および深度情報を加味し、点群を世界座標系のvoxelへ変換 7 Mask R-CNNにより各クラスの確率を取得 𝑣𝑡 𝑚𝑎𝑠𝑘 ∈ ℛ𝐻×𝑊×𝐷×1：物体の存在に関するマスク（0 or 1） 𝑣𝑡 𝑔𝑒𝑜 ∈ ℛ𝐻×𝑊×𝐷×𝐶：voxel集合に変換された予測確率 𝜖 ∈ (0, 1)：更新度合いのハイパーパラメータ 𝑚𝑖 𝑡 + 1 = 𝑚𝑖 𝑡 ⊙ 1 − 𝑣𝑡 𝑚𝑎𝑠𝑘 1 − 𝜖 + 𝑣 𝑡 𝑔𝑒𝑜(1 − 𝜖)

Slide 8

Slide 8 text

semantic search policy (1/2)：物体が存在する可能性の高い場所へnavigation ◼ FILM [Min+, ICLR22] に倣い混合ガウス分布 𝑝∗(𝐱) により方策 𝜋𝜃 (𝐱|𝑚𝑖 ) を学習 ◼ 入力：現在のsemantic map 𝑚𝑖 ◼ 出力：探索目標位置に対応するvoxelのカテゴリ分布 8 𝑝∗ 𝐱 ∝ 1 𝐾 Σ𝑘=1 𝐾 𝒩(𝐱; 𝜇𝑘 , 𝜎2𝐼) 𝐾：rearrangeすべき物体数 𝜇𝑘 ：各物体の位置 𝜎2：ハイパーパラメータ FILMの場合の出力例

Slide 9

Slide 9 text

semantic search policy (2/2)：探索目標位置までplanning ◼ semantic mapのvoxel占有率から、通過可能な空間を表す平面グラフを作成 ◼ ダイクストラ法 [Dijkstra, Numer. Math.59] で現在位置からの最短経路を導出 ◼ 到達後は次の目標位置をサンプリングして繰り返す 9

Slide 10

Slide 10 text

手順2：変化前後の差分からrearrangement対象を検出 ◼ semantic mapにおいて、同クラスの隣接voxelを一つのインスタンスと解釈 ◼ 同クラスインスタンス間の変化が最小となる割当問題 ◼ ハンガリアン法 [Kuhn, Nav. Res. Logist.55] による二部マッチング 10 http://www.bunkyo.ac.jp/~nemoto/lecture/network/2010/matching1_2010.pdf 重み付き二部グラフ重みの和が最小（最適割当）

Slide 11

Slide 11 text

実験設定：AI2-THOR Rearrangement Challenge 2022 [Weihs+, CVPR21] ◼ RoomRデータセット ◼ 最大5物体がrearrangement対象 ◼ 評価指標 ① Success↑：全対象物体を正しくrearrangeできたタスクの割合 ② % Fixed Strict↑：タスクごとに正しくrearrangeできた物体の割合 11 # Room # Task training 80 4000 validation 20 1000 test 20 1000

Slide 12

Slide 12 text

定量的結果：既存手法を上回る性能 ◼ 考察 ✓ validation, testともに提案手法が最高性能 ✓ 両指標で提案手法が最高性能 12

Slide 13

Slide 13 text

Ablation Study：semantic search, segmentationともに有効 ◼ GT Semantic Search：方策 𝜋𝜃 の代わりに物体の真の位置を使用 ◼ GT Segmentation：Mask R-CNN [He+, ICCV17] の代わりに真のラベルを使用 ◼ 考察 ✓ GTにより性能が大幅に向上することから、各モジュールの有効性を確認 ✓ 既存手法より性能改善の伸びしろが大きい 13

Slide 14

Slide 14 text

まとめ背景 ✓ Rearrangementタスクはembodiedエージェントにとって高難度提案 ✓ semantic segmentationを用いた、voxel-basedなsemantic mapの構築 ✓ semantic search policyによる効率的な探索結果 ✓ AI2-THOR Rearrangement Challenge 2022で、成功率を14.66%向上 14