Upgrade to Pro — share decks privately, control downloads, hide ads and more …

[JSAI23] Target Regions Prediction for Understa...

[JSAI23] Target Regions Prediction for Understanding Navigation Instructions in Urban Areas

More Decks by Semantic Machine Intelligence Lab., Keio Univ.

Other Decks in Technology

Transcript

  1. 市街地での移動指示文に基づく目標領域予測 畑中 駿平1, 楊 巍1, 九曜 克之1, 細見 直希1,2, 翠

    輝久3, 山田 健太郎2, 杉浦 孔明1 1慶應義塾大学, 2株式会社本田技術研究所, 3Honda Research Institute USA, Inc.
  2. 関連研究: 移動指示理解タスクにおいて、目標位置や領域 予測モデルとして広く研究が行われている 代表的手法 概要 [Rufus+, IROS21] 目標領域のセグメンテーションマスク を生成するモデル PDPC

    [Grujicic+, AAAI22] 鳥瞰図上に混合ガウス分布として目標 領域を予測するモデル PTPC [Deruyttere+, IEEE22] マルチタスクとして目標領域と同時に 目標領域までの経路も予測するモデル UNITER Regressor [畑中+, SIG-KBS22] 目標領域ではなく、目標位置として 2次元座標を予測する回帰モデル [Rufus+, IROS21] PDPC [Grujicic+, AAAI22] UNITER Regressor [畑中+, SIG-KBS22] - 3 -
  3. 画像データ提供:Motional AD Inc. による nuScenesデータセット、https://www.nuscenes.org にて公開。本プレゼンテーションにおける以降の画像も 同一の出典から取得したものである。 ライセンス:Creative Commons Attribution-NonCommercial-ShareAlike

    4.0 International Public License ( CC BY-NC-SA 4.0 ) 問題設定: 目標領域を予測する移動指示理解タスク ▪ 対象タスク:Referring Navigable Regions (RNR) タスク ▪ モビリティに対して、移動指示文が 指している目標領域を予測 ▪ 入力 ▪ 画像 ▪ 移動指示文 ▪ 出力 ▪ 目標領域のセグメンテーションマスク “pull in behind the blue van on the left side.” - 4 - the blue van
  4. 提案手法: Trimodal Navigable Regions Segmentation Model (TNRSM) - 5 -

    ▪ トリモーダルな目標領域予測モデル ▪ ①画像、②テキスト、③セマンティック セグメンテーションマスク 新規性 1. Text-Mask Encoder (TME) ▪ 言語関連のマルチモーダルな特徴をセマン ティックセグメンテーションレベルで融合 2. Day-Night Classification Branch (DNCB) ▪ 昼夜の照明条件に応じて入力モダリティ間 の調整を行う ※以降、セマンティックセグメンテーションマスクを単に「マスク」と呼称
  5. ▪ トリモーダルな目標領域予測モデル ▪ ①画像、②テキスト、③セマンティック セグメンテーションマスク 新規性 1. Text-Mask Encoder (TME)

    ▪ 言語関連のマルチモーダルな特徴をセマン ティックセグメンテーションレベルで融合 2. Day-Night Classification Branch (DNCB) ▪ 昼夜の照明条件に応じて入力モダリティ間 の調整を行う 提案手法: Trimodal Navigable Regions Segmentation Model (TNRSM) - 6 - ※以降、セマンティックセグメンテーションマスクを単に「マスク」と呼称
  6. ▪ トリモーダルな目標領域予測モデル ▪ ①画像、②テキスト、③セマンティック セグメンテーションマスク 新規性 1. Text-Mask Encoder (TME)

    ▪ 言語関連のマルチモーダルな特徴をセマン ティックセグメンテーションレベルで融合 2. Day-Night Classification Branch (DNCB) ▪ 昼夜の照明条件に応じて入力モダリティ間 の調整を行う 提案手法: Trimodal Navigable Regions Segmentation Model (TNRSM) - 7 - ※以降、セマンティックセグメンテーションマスクを単に「マスク」と呼称
  7. 新規性 (1/2): セマンティックセグメンテーションマスクを 扱うためにText-Mask Encoder (TME) を導入 ▪ Text-Image Encoder

    / Text-Mask Encoder: 2種類のモジュールで構成 ▪ Swin Transformer [Liu+, ICCV21] ▪ PWAM [Yang+, CVPR22]:計算コストを削減した相互注意機構 - 10 - PWAMの出力 入力 テキスト特徴量 視覚特徴量 出力 マルチモーダル 特特徴量
  8. PWAM: 計算コストを削減した相互注意機構 - 11 - ▪ 画像同士の注意機構 ▪  ピクセル数が多く計算コスト大

    ▪ PWAMの特長 ▪ CNNおよびflatten処理後に画像と テキスト間の相互注意を計算 ▪ ☺ 計算コスト・メモリ使用量:少
  9. ▪ 画像とテキスト間の注意 𝑮 img (𝑖) ▪ 𝑮 img (𝑖) =

    softmax 𝑐 𝑖 −1 2𝑸 img (𝑖) 𝑳 𝑘 (𝑖)⊤ 𝑳𝑣 (𝑖) ▪ 𝑸 img (𝑖) :視覚特徴量 𝑽 img (𝑖) をCNNおよ びflatten処理した特徴量 ▪ 𝑳 𝑘 (𝑖), 𝑳𝑣 (𝑖):テキスト特徴量𝒉inst を CNNで処理した特徴量 ▪ 𝑐𝑖 :チャネル数 ▪ マスクとテキスト間の相互注意も 同様な処理 PWAM: 計算コストを削減した相互注意機構 - 12 -
  10. 新規性 (2/2): 入力モダリティ間のバランスをとるために Day-Night Classification Branch (DNCB)を導入 ▪ Day-Night Classification

    Branch (DNCB) ▪ 各層で昼夜のクラス分類を行うことで入力モダリティ間の調整を学習 - 15 -
  11. 新規性 (2/2): 入力モダリティ間のバランスをとるために Day-Night Classification Branch (DNCB)を導入 ▪ Day-Night Classification

    Branch (DNCB) ▪ 各層で昼夜のクラス分類を行うことで入力モダリティ間の調整を学習 - 16 - 出力 入力 昼夜の2クラス分類の 予測確率の推定値 単純なGAPとMLPで構成 ▪ 2種類のマルチモーダル特徴量 ▪ 画像とテキスト間の特徴量 ▪ マスクとテキスト間の特徴量
  12. Trimodal Decoderはアップサンプリングおよび単純なCNN で構成 ▪ Trimodal Decoder: アップサンプリングおよびCNNで構成 ▪ モデルの最終出力: 目標領域の予測セグメンテーションマスクෝ

    𝒚 ▪ 𝑝 ෝ 𝒚 を閾値で単純に二値化 - 18 - 次のBlockの入力へ 入力 ▪ 3種類のマルチモーダル特徴量 ▪ 画像とテキスト間の特徴量 ▪ マスクとテキスト間の特徴量 ▪ 前層のTrimodal Decoder Block の出力をアップサンプリング 出力 単純なCNNで構成
  13. モデルの最終出力である目標領域のセグメンテーション マスクෝ 𝒚は𝑝 ෝ 𝒚 を閾値で単純に二値化して得る ▪ Trimodal Decoder: アップサンプリングおよびCNNで構成

    ▪ モデルの最終出力: 目標領域の予測セグメンテーションマスクෝ 𝒚 ▪ 𝑝 ෝ 𝒚 を閾値で単純に二値化 - 19 - 𝑝 ෝ 𝒚
  14. ℒ = 𝜆mask ℒCE 𝑝 ෝ 𝒚 , 𝒚 +

    𝜆night ෍ 𝑖=1 4 ℒCE 𝑝 ෝ 𝒚 night (𝑖) , 𝒚night 損失関数: 2つの損失関数に対して、クロスエントロピー 誤差関数を適用 ◼ 第1項: 目標領域に関する損失 ◼ 第2項: 昼夜のクラス分類に関する補助損失 ◼ 𝜆mask , 𝜆night : ハイパーパラメータ ◼ ℒCE: クロスエントロピー誤差関数 ◼ 𝒚: 正解の目標領域のセグメンテーションマスク ◼ 𝒚night : 正解の昼夜クラスラベル - 20 -
  15. 実験設定: nuScenesデータセットで提供されている 昼夜情報をTalk2Car-RegSegデータセットに適用 ▪ Talk2Car-RegSeg [Rufus+, IROS21] ▪ 画像と移動指示文から目標領域の セグメンテーションマスクを生成

    ▪ DNCBの学習のためにnuScenes [Caesar+, CVPR20] データセット から昼夜情報を取得 ▪ (訓練集合 : 検証集合 : テスト集合) = (8,349 : 1,163 : 508) “pull in behind the blue van on the left side.” データセット名 サンプル数 画像サイズ 語彙サイズ 全単語数 平均文長 Talk2Car-RegSeg 10,020 1,600×900 1,746 116,501 11.63 - 21 -
  16. 定量的結果: 既存手法を上回る性能を獲得 ▪ 評価尺度:3種類 ▪ Mean IoU、Overall IoU、[email protected] ▪ ☺

    主要評価尺度 Mean IoUにおいて提案手法はベースライン手法を 4.90ポイント上回った ▪ ☺ 他の尺度も同様に、提案手法がベースライン手法を上回った [%] Mean IoU Overall IoU [email protected] [Rufus+, IROS2021] 32.71±4.59 34.79±2.23 32.13±6.34 TNRSM (提案手法) 37.61±2.73 39.85±2.22 37.44±2.60 +4.90 +5.06 +5.31 - 22 -
  17. 定性的結果 (1/2): 提案手法はベースライン手法よりも目標 領域として正しい領域をマスクすることに成功 正解 ベースライン手法 提案手法 移動指示文: “pull up

    behind the guy wearing a white shirt.” - 25 -  右側の緑色のシャツを着た人の 付近を誤ってマスク ☺ 白いシャツを着た人の後ろ の領域を正しくマスク
  18. 定性的結果 (2/2): 提案手法はベースライン手法よりも目標 領域として正しい領域をマスクすることに成功 正解 ベースライン手法 提案手法 移動指示文: “stop at

    the green trash can” - 28 -  侵入不可である歩道上の領域 を誤ってマスク ☺ 道路上の領域内で目標領域 を正しくマスク
  19. Ablation Study: 各モジュールの有効性を確認 ▪ Ablation条件 i. Text-Mask Encoder (TME) の有無(=①画像と②テキストからなる

    バイモーダルなモデル) ii. Day-Night Classification Branch (DNCB) の有無 [%] 条件 Mean IoU Overall IoU w/ TME w/ DNCB (i) ✔ 35.74±2.72 37.93±1.50 (ii) ✔ 36.88±3.84 38.40±3.90 Ours ✔ ✔ 37.61±2.73 39.85±2.22 ▪ ☺ 各モジュールの有効性を確認 - 29 -
  20. ▪  ベースライン手法および提案手法はいずれもトラックの後ろの領域を 目標領域として予測 ▪ 正解の目標領域はトラックの手前の領域 ▪ トラックの向きを正しく考慮できず目標領域の予測に失敗 定性的結果 (失敗例):

    ランドマーク領域であるトラックの 向きを考慮できずトラックの後ろ側を目標領域として予測 正解 ベースライン手法 提案手法 移動指示文: “park before the stationary truck on the right.” - 30 -
  21. エラー分析: 現状のボトルネックは移動指示文と違う領域 に誤って予測する失敗が最も多い ▪ テスト集合のうちIoUが小さい順に100サンプルをエラー分析(5種類) ▪ 移動指示文と違う領域に誤って予測した失敗が最も多い ▪ ランドマークを検出せずに直接マスクを生成し失敗 →

    今後ランドマーク検出モジュールの導入によって解決を図る 顕著な失敗の特徴例 エラー数 参照表現理解として移動指示文と違う領域に誤って予測 37 セグメンテーションマスクが生成されないことによる失敗 31 過剰または過少なセグメンテーションマスクの生成による失敗 19 曖昧な移動指示文による失敗 6 アノテーションエラー 7 合計 100 - 31 -
  22. まとめ: トリモーダルな目標領域予測モデルの提案 ▪ Trimodal Navigable Region Segmentation Model (TNRSM) の提案

    ▪ Text-Mask Encoder および Day-Night Classification Branchの導入 ▪ Talk2Car-RegSeg データセットで検証し、すべての評価尺度において ベースライン手法を上回る結果を獲得 - 32 -