Slide 1

Slide 1 text

慶應義塾大学 杉浦孔明研究室 名字氏名 Object Memory Transformer for Object Goal Navigation Rui Fukushima1, Kei Ota2,3, Asako Kanezaki2, Yoko Sasaki1, Yusuke Yoshiyasu1 (1National Institute of Advanced Industrial Science and Technology, 2Tokyo Institute of Technology, 3Information Technology R&D Center, Mitsubishi Electric Corporation) ICRA 2022 慶應義塾大学 杉浦孔明研究室 是方諒介 Fukushima, R., Ota, K., Kanezaki, A., Sasaki, Y., Yoshiyasu, Y. “Object Memory Transformer for Object Goal Navigation.” ICRA 2022.

Slide 2

Slide 2 text

概要 背景 ✓ object goal navigationタスクにおける深層強化学習手法の性能は不十分 提案 ✓ シーン画像および物体に関する長期記憶を保持するObject-Scene Memory ✓ 過去の観測から顕著な物体に着目するtransformerの活用 結果 ✓ AI2-THORベンチマークにおいてSOTA 2

Slide 3

Slide 3 text

背景:object goal navigation (ObjNav) ◼ 目的:3次元屋内環境における,対象物体へのnavigation  初期位置から対象物体が直接視認不可の場合が存在  深層強化学習を用いた手法は人間の性能に大きく劣る ◼ 入力 ① 対象物体を表す単語(e.g., “Pillow”) ② ロボットの一人称視点画像 3

Slide 4

Slide 4 text

関連研究:物体の意味的/空間的知識の活用 ◼ 課題  過去に観測済みの物体およびその出現順に関する記憶を考慮した手法は少ない 4 手法 概要 Scene Prior [Yang+, 18] ・ObjNavタスクに初めて深層強化学習を導入 ・Graph Convolution Networksにより物体に関する知識グラフを構築 [Druon+, RA-L20] ・物体同士の意味の類似度およびその位置を埋め込むcontext gridを提案 Scene Prior [Yang+, 18] [Druon+, RA-L20]

Slide 5

Slide 5 text

提案手法:Object Memory Transformer (OMT) ◼ シーン画像および物体に関する長期記憶を活用 ◼ 4つの主要モジュールから構成 ① Feature Extractor,② Object-Scene Memory,③ Transformer,④ Controller 5

Slide 6

Slide 6 text

① Feature Extractor:シーンの画像特徴/Object Gridを取得 ◼ 検出物体同士の関係をObject Grid で表現 [Druon+, RA-L20] ◼ 検出矩形領域の中心点に,対象物体とのコサイン類似度を付与 6 ResNet-50による画像特徴抽出 word2vecによる単語の埋め込み :対象物体を表す単語のベクトル表現 :検出物体を表す単語のベクトル表現

Slide 7

Slide 7 text

② Object-Scene Memory:過去 時刻分の特徴量保持 ◼ 画像特徴 およびObject Grid をリングバッファ形式で記憶 ◼ 各時刻において,両者を融合した特徴量 を取得 7 :学習可能なネットワーク

Slide 8

Slide 8 text

③ Transformer:長期記憶から,navigationに有効な特徴量 を獲得 ◼ encoder-decoderの構造は標準的なtransformerと同様 ◼ Positional Encodingに倣ったTemporal Encodingを導入 ◼ 観測順序に関する情報の欠落を防止 8 対象物体とのattention :対象物体を表す単語 のベクトル表現 :各時刻において, 画像特徴とObject Gridを融合した特徴量

Slide 9

Slide 9 text

④ Controller:9種類の行動 から1つ選択 ◼ Asynchronous Advantage Actor-Critic (A3C) [Mnih+, ICML16] ◼ Actor-Criticを並列かつ非同期に学習 ◼ 対象物体への接近および短い経路の選択を促す報酬 の設計 9 :各時刻において, 画像特徴とObject Gridを融合した特徴量

Slide 10

Slide 10 text

実験設定:AI2-THOR [Kolve+, 17] ◼ photo-realisticなシミュレータ ◼ 評価指標 ① Success Rate (SR) ② Success weighted by Path Length (SPL) 10 # Room Categories # Environments (train : test) # Object Classes 4 80 : 20 146 Kitchen Living Room Bedroom Bathroom :成功フラグ(0/1) :最短経路長 :要した経路長

Slide 11

Slide 11 text

定量的結果:SR, SPLともに既存手法を凌駕 ◼ 提案手法について,3パターンの系列長 で実験 ◼ 考察 ✓ LSTMを用いて時系列データを扱う拡張を行った場合の効果は限定的 ✓ より長期の記憶を保持した方がSPLが高い(= 効率的なnavigationが可能) 11

Slide 12

Slide 12 text

Ablation Study:各要素の有効性を確認 ◼ 考察 ✓ transformerにおけるTemporal Encodingの寄与が最大 ✓ 効率的なnavigationにはObject Memory (Object Grid) が有効 12

Slide 13

Slide 13 text

定性的結果:長期記憶を活かしたスタック回避 ◼ 既存手法  障害物を回避できずスタック状態に陥る  対象物体への接近が不十分 ◼ 提案手法 ☺ 観測情報に変化がないことから, スタック状態を認識して脱出 ☺ 対象物体に正面から近づけない場合は, 側面から回り込んで接近 13

Slide 14

Slide 14 text

まとめ 背景 ✓ ObjNavタスクにおける深層強化学習手法の性能は不十分 提案 ✓ シーン画像および物体に関する長期記憶を保持するObject-Scene Memory ✓ 過去の観測から顕著な物体に着目するtransformerの活用 結果 ✓ AI2-THORベンチマークにおいてSOTA 14

Slide 15

Slide 15 text

Appendix:学習設定 15 Transformer #L: 1, #A: 5 Optimizer RMSprop Learning rate Max time steps 300 GPU 4 NVIDIA V100