Slide 1

Slide 1 text

マルチモーダル基盤モデルと劣モジュラ最適化 に基づく移動ロボットの環境探索 慶應義塾大学 松尾榛夏 神原元就 杉浦孔明

Slide 2

Slide 2 text

概要 - 2 - ■ 背景 ■ ロボットの効率的なタスク実行のために物体位置の事前把握が重要 ■ 一方,無限箇所の情報収集は非合理的 ■ 提案手法:Submodular Observation Pose Optimization ■ ロボットの2D姿勢集合を最適化 ■ 劣モジュラ最適化の使用 ■ 3Dマルチモーダル基盤モデルの使用 ■ 結果 ■ 実環境においても提案手法は有益な 観測姿勢を選択

Slide 3

Slide 3 text

物資配送や監視,家庭内での支援において移動ロボットの利用が有望視 ■ 効率的な実行のためには物体の位置を事前に把握する必要あり ■  日常物体は頻繁に位置が変化 ■  無限箇所の情報収集は非合理的 背景:移動ロボットによる屋内環境の事前理解 - 3 - ペンを持ってきて ×8 https://aihabitat.org/challenge/2022_rearrange ☺ 効率的な最新の物体位置の取得

Slide 4

Slide 4 text

問題設定:効率的な環境探索のためのCOPOタスク - 4 - 観測姿勢集合組み合わせ最適化 (COPO):ロボットの2D姿勢集合を最適化 入力:2Dマップ,環境内の家具に関する点群 出力:ロボットの2D観測姿勢 (x, y, theta) の集合 ※ 最適=可能な限り多くの物体を観測できる観測姿勢集合の選択

Slide 5

Slide 5 text

COPO:組み合わせ爆発の問題を回避する必要がある - 5 - 観測姿勢の数が増加 → 可能な組み合わせの数が指数関数的に増加 ⇒  組み合わせ爆発 ※ 観測姿勢の数により最適な観測姿勢集合の要素が決まる <観測姿勢の数が1の場合> <観測姿勢の数が3の場合> 観測姿勢を 新たに増やすわけではない

Slide 6

Slide 6 text

関連研究:既存手法はCOPOタスクに対応できない - 6 - タスク 代表的研究 特徴 単一の物体探索 (Object search) [Hernandez+, IROS20], ZAVIS [Park+, ICRA23] ☺ 物体の存在確率を使用して物体を効率的に探索  COPOタスクへの適用 → 組み合わせ爆発の回避× 行動系列生成 Matcha [Zhao+, IROS23], NavCon [Biggie+, CoRL23] ☺ 大規模言語モデル (LLM) を使用し良好な結果  COPOタスクにおいて最適解が得られる保証× [Hernandez+, IROS20] ZAVIS [Park+, ICRA23] NavCon [Biggie+, CoRL23]

Slide 7

Slide 7 text

提案手法: 劣モジュラ最適化手法による観測姿勢集合の選択 - 7 - Submodular Observation Pose Optimization (SOPO) 新規性 ■ 劣モジュラ最適化の使用 ☺ 最適スコアの(1−1/𝑒)近似が保証される ☺ 組み合わせ爆発の回避 ■ 2種類の物体存在マップの生成&使用 ☺ 物体が存在しそうな領域に注目 ☺ 遮蔽物が存在しそうな領域を考慮

Slide 8

Slide 8 text

2種類の物体存在マップを生成 3Dマルチモーダル基盤モデルOpenScene [Peng+, CVPR23]を使用 → 環境の中で日常物体がありそうな領域を予測 O³Map (1/2):3Dマルチモーダル基盤モデルの使用 - 8 - “Places to put objects that can be carried”

Slide 9

Slide 9 text

2種類の物体存在マップを生成 PN Switchingにより2種類の物体存在マップに ■ Positive object occurrence map:日常物体が存在しそうな領域 ■ Negative object occurrence map:遮蔽物が存在しそうな領域 O³Map (2/2):物体存在マップの生成 - 9 -

Slide 10

Slide 10 text

劣モジュラ最適化を用いてカバレッジを最大化する観測姿勢集合を生成 劣モジュラ性を満たす場合 → 貪欲法でも最適スコアの(1−1/𝑒)近似が保証される [Nemhauser+, 78] ⇒ ☺ 組み合わせ爆発の回避 SPOpt (1/2): 劣モジュラ最適化による組み合わせ爆発の回避 - 10 - 既に観測した姿勢に新たな姿勢を追加する方法でも◎ 集合の要素の増加につれて 新たに得られる情報量が少なくなっていく性質

Slide 11

Slide 11 text

劣モジュラ最適化を用いてカバレッジを最大化する観測姿勢集合を生成 観測範囲に含まれる値が最大になる観測姿勢を選択 SPOpt (2/2): 遮蔽物を含まず物体の観測が可能な姿勢の選択 - 11 - 観測姿勢 観測姿勢候補集合 選択済みの観測姿勢集合 から得られるカバレッジ

Slide 12

Slide 12 text

劣モジュラ最適化を用いてカバレッジを最大化する観測姿勢集合を生成 観測範囲に含まれる値が最大になる観測姿勢を選択 SPOpt (2/2): 遮蔽物を含まず物体の観測が可能な姿勢の選択 - 11 - 観測姿勢 観測姿勢候補集合 選択済みの観測姿勢集合 から得られるカバレッジ 遮蔽物 物体 遮蔽物 物体 遮蔽物を含む場合に ペナルティ

Slide 13

Slide 13 text

実験設定(シミュレーション実験):タスク環境の構築 - 12 - ■ 環境:Matterport3D [Chang+, 3DV17] の3Dモデルを用いて作成 ■ ロボット:Human Support Robot (HSR) [Yamamoto+, ROBOMECH J.19] ×5

Slide 14

Slide 14 text

定量的結果(1/2): 効率的な情報収集が可能な観測姿勢を選択 - 13 - Random baseline:ランダムな姿勢 における画像の収集 GPT-3.5 method:GPT-3.5が観測箇所の 集合を生成 : 観測姿勢集合のサイズ 𝑅𝐾 = 𝐾の集合において観測した日常物体数 環境内における日常物体の総数 𝐾 手法 𝑹𝟓 Random baseline 0.26 GPT-3.5 method 0.21 SOPO 0.50 +0.24 𝐾 = 5

Slide 15

Slide 15 text

定量的結果(2/2) : 観測姿勢数が増加した場合も効果的な観測姿勢を選択 - 14 - Random baseline:ランダムな姿勢 における画像の収集 GPT-3.5 method:GPT-3.5が観測箇所の 集合を生成 : 観測姿勢集合のサイズ 𝑅𝐾 = 𝐾の集合において観測した日常物体数 環境内における日常物体の総数 𝐾 手法 𝑹𝟐𝟓 Random baseline 0.59 GPT-3.5 method 0.48 SOPO 1.0 +0.41 𝐾 = 25

Slide 16

Slide 16 text

定性的結果:GPT-3.5手法は効果的でない姿勢を選択 - 15 - 同じ場所を観測する姿勢を選択&観測していない部屋が複数存在 𝐾 = 8

Slide 17

Slide 17 text

定性的結果:SOPOが効果的な姿勢を選択 - 16 - ロボットによる日常物体の観測を可能にする効果的な観測姿勢を選択 𝐾 = 8

Slide 18

Slide 18 text

Sensitivity analysis:各パラメータの感度の調査 - 17 - ◼ 𝛼 = 100のモデルが一番貢献 ◼ 様々なカメラモデルでSOPOが有効 𝛼 :Negative物体存在マップの考慮 (大きいほど影響大) 𝑑max :観測範囲の扇形の半径 : 観測姿勢集合のサイズ 𝑅𝐾 = 𝐾の集合において観測した日常物体数 環境内における日常物体の総数 𝐾

Slide 19

Slide 19 text

実験設定(実機実験):観測姿勢集合の巡回 - 18 - ■ 環境:WRS 2020 Partner Robot Challenge/Real Spaceの標準環境に準拠 ■ 実機:Human Support Robot (HSR) [Yamamoto+, ROBOMECH J.19] ■ 物体:YCB Object [Calli+, RAM15], 一般的な物体

Slide 20

Slide 20 text

実機実験:実環境における観測姿勢の巡回 ロボットがSOPOで得られた 観測姿勢を巡回 - 19 -

Slide 21

Slide 21 text

実機実験:実環境における観測姿勢の巡回 ロボットがSOPOで得られた 観測姿勢を巡回 - 19 -

Slide 22

Slide 22 text

実機実験:実環境における観測姿勢の巡回 ロボットがSOPOで得られた 観測姿勢を巡回 - 19 -

Slide 23

Slide 23 text

実機実験:実環境における観測姿勢の巡回 ロボットがSOPOで得られた 観測姿勢を巡回 - 19 -

Slide 24

Slide 24 text

実験結果:実環境におけるSOPOの有益な観測姿勢の選択 - 20 - SOPOは実環境においても有益な観測姿勢を選択

Slide 25

Slide 25 text

まとめ:SOPOの提案 - 21 - Submodular Observation Pose Optimizationの提案 ■ 劣モジュラ最適化手法 ■ マルチモーダル基盤モデルによる2種類の物体存在マップの使用 ■ 実環境においても提案手法は有益な観測姿勢を選択

Slide 26

Slide 26 text

Appendix

Slide 27

Slide 27 text

定性的結果(失敗例) - 23 - 遮蔽物のペナルティが大きいため,わずかでも未観測の Positive物体存在マップの値を含む姿勢を選択

Slide 28

Slide 28 text

エラー分析:物体存在マップとの乖離 - 24 - 失敗名 Ratio [%] 物体存在マップとの乖離 33 オクルージョンあり 30 物体検出器による検出失敗 21 観測された物体の重複 16 Total 100 新たな観測姿勢の追加により新たな物体を観測できなかった場合を失敗とした

Slide 29

Slide 29 text

実験設定(シミュレーション環境) - 25 - 環境 日常物体数 Room1 86 Room2 20 Room3 22 Room4 37 Room5 34 ■ 5種類のタスク環境 ■ 平均して6種類の部屋,35.2種類の家具,39.8種類の日常物体が存在 ■ 1環境に1つの階のみ

Slide 30

Slide 30 text

劣モジュラ性 - 26 - 任意の集合𝑆と集合𝑇のそれぞれに対して要素{𝑖}を追加した場合 が成り立つ 今回の問題設定でも,画像を収集するほど新たに得られる物体の情報は 少なくなっていく 集合のサイズを大きくした場合 増分は徐々に小さくなる [河原吉伸+, 15]

Slide 31

Slide 31 text

OpenScene [Peng+, CVPR23] Open-vocabularyな3Dシーン理解 → 任意のテキストクエリに対して一致する3Dモデルの部分をheatmap で示すことが可能 - 27-