Slide 1

Slide 1 text

市街地での移動指示文に基づく目標領域予測 畑中 駿平1, 楊 巍1, 九曜 克之1, 細見 直希1,2, 翠 輝久3, 山田 健太郎2, 杉浦 孔明1 1慶應義塾大学, 2株式会社本田技術研究所, 3Honda Research Institute USA, Inc.

Slide 2

Slide 2 text

■ 車の自動運転技術の進展とともに人とモビリティ間のユーザフレンドリな インタラクションの向上に期待が高まる ■ モビリティが移動指示を理解し、目標位置で止まることができれば便利 背景: モビリティが移動指示を理解し、目標位置で止まる ことができれば便利 【Honda CIマイクロモビリティ】搭乗型マイクロ モビリティCiKoMaができること(YouTube) ■ 例)「左手の黒い車の近くに 停まって」 ■ 移動指示理解タスク ■ 他のモビリティに関与する動的な 状況において、マルチモーダルな 言語理解が必要 - 2 -

Slide 3

Slide 3 text

関連研究: 移動指示理解タスクにおいて、目標位置や領域 予測モデルとして広く研究が行われている 代表的手法 概要 [Rufus+, IROS21] 目標領域のセグメンテーションマスク を生成するモデル PDPC [Grujicic+, AAAI22] 鳥瞰図上に混合ガウス分布として目標 領域を予測するモデル PTPC [Deruyttere+, IEEE22] マルチタスクとして目標領域と同時に 目標領域までの経路も予測するモデル UNITER Regressor [畑中+, SIG-KBS22] 目標領域ではなく、目標位置として 2次元座標を予測する回帰モデル [Rufus+, IROS21] PDPC [Grujicic+, AAAI22] UNITER Regressor [畑中+, SIG-KBS22] - 3 -

Slide 4

Slide 4 text

画像データ提供:Motional AD Inc. による nuScenesデータセット、https://www.nuscenes.org にて公開。本プレゼンテーションにおける以降の画像も 同一の出典から取得したものである。 ライセンス:Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International Public License ( CC BY-NC-SA 4.0 ) 問題設定: 目標領域を予測する移動指示理解タスク ■ 対象タスク:Referring Navigable Regions (RNR) タスク ■ モビリティに対して、移動指示文が 指している目標領域を予測 ■ 入力 ■ 画像 ■ 移動指示文 ■ 出力 ■ 目標領域のセグメンテーションマスク “pull in behind the blue van on the left side.” - 4 - the blue van

Slide 5

Slide 5 text

提案手法: Trimodal Navigable Regions Segmentation Model (TNRSM) - 5 - ■ トリモーダルな目標領域予測モデル ■ ①画像、②テキスト、③セマンティック セグメンテーションマスク 新規性 1. Text-Mask Encoder (TME) ■ 言語関連のマルチモーダルな特徴をセマン ティックセグメンテーションレベルで融合 2. Day-Night Classification Branch (DNCB) ■ 昼夜の照明条件に応じて入力モダリティ間 の調整を行う ※以降、セマンティックセグメンテーションマスクを単に「マスク」と呼称

Slide 6

Slide 6 text

■ トリモーダルな目標領域予測モデル ■ ①画像、②テキスト、③セマンティック セグメンテーションマスク 新規性 1. Text-Mask Encoder (TME) ■ 言語関連のマルチモーダルな特徴をセマン ティックセグメンテーションレベルで融合 2. Day-Night Classification Branch (DNCB) ■ 昼夜の照明条件に応じて入力モダリティ間 の調整を行う 提案手法: Trimodal Navigable Regions Segmentation Model (TNRSM) - 6 - ※以降、セマンティックセグメンテーションマスクを単に「マスク」と呼称

Slide 7

Slide 7 text

■ トリモーダルな目標領域予測モデル ■ ①画像、②テキスト、③セマンティック セグメンテーションマスク 新規性 1. Text-Mask Encoder (TME) ■ 言語関連のマルチモーダルな特徴をセマン ティックセグメンテーションレベルで融合 2. Day-Night Classification Branch (DNCB) ■ 昼夜の照明条件に応じて入力モダリティ間 の調整を行う 提案手法: Trimodal Navigable Regions Segmentation Model (TNRSM) - 7 - ※以降、セマンティックセグメンテーションマスクを単に「マスク」と呼称

Slide 8

Slide 8 text

ネットワーク: 3つのモジュールで構成される階層構造 ① Trimodal Encoder、② Day-Night Classification Branch、 ③ Trimodal Decoder の3つから構成される4層の階層構造 ① ② ③ - 8 -

Slide 9

Slide 9 text

Mask2Formerを用いて、画像からゼロショットで セマンティックセグメンテーションマスクを生成 セマンティック セグメンテーションマスク Mask2Former [Cheng+, CVPR22] RGB画像 ■ Mask2Former [Chen+, CVPR22] を用いてゼロショット生成 ■ Cityspacesデータセット [Cordts+, CVPR16] で学習済みモデル - 9 -

Slide 10

Slide 10 text

新規性 (1/2): セマンティックセグメンテーションマスクを 扱うためにText-Mask Encoder (TME) を導入 ■ Text-Image Encoder / Text-Mask Encoder: 2種類のモジュールで構成 ■ Swin Transformer [Liu+, ICCV21] ■ PWAM [Yang+, CVPR22]:計算コストを削減した相互注意機構 - 10 - PWAMの出力 入力 テキスト特徴量 視覚特徴量 出力 マルチモーダル 特特徴量

Slide 11

Slide 11 text

PWAM: 計算コストを削減した相互注意機構 - 11 - ■ 画像同士の注意機構 ■  ピクセル数が多く計算コスト大 ■ PWAMの特長 ■ CNNおよびflatten処理後に画像と テキスト間の相互注意を計算 ■ ☺ 計算コスト・メモリ使用量:少

Slide 12

Slide 12 text

■ 画像とテキスト間の注意 𝑮 img (𝑖) ■ 𝑮 img (𝑖) = softmax 𝑐 𝑖 −1 2𝑸 img (𝑖) 𝑳 𝑘 (𝑖)⊤ 𝑳𝑣 (𝑖) ■ 𝑸 img (𝑖) :視覚特徴量 𝑽 img (𝑖) をCNNおよ びflatten処理した特徴量 ■ 𝑳 𝑘 (𝑖), 𝑳𝑣 (𝑖):テキスト特徴量𝒉inst を CNNで処理した特徴量 ■ 𝑐𝑖 :チャネル数 ■ マスクとテキスト間の相互注意も 同様な処理 PWAM: 計算コストを削減した相互注意機構 - 12 -

Slide 13

Slide 13 text

課題: セマンティックセグメンテーションマスクは夜の 時間帯においては品質劣化が激しい RGB画像 セマンティック セグメンテーションマスク 昼の場合 夜の場合 - 13 -

Slide 14

Slide 14 text

課題: セマンティックセグメンテーションマスクは夜の 時間帯においては品質劣化が激しい セマンティック セグメンテーションマスク 昼の場合 夜の場合 - 14 - RGB画像  夜のシーンにおいてセマンティックセグメン テーションマスクの品質劣化が激しい

Slide 15

Slide 15 text

新規性 (2/2): 入力モダリティ間のバランスをとるために Day-Night Classification Branch (DNCB)を導入 ■ Day-Night Classification Branch (DNCB) ■ 各層で昼夜のクラス分類を行うことで入力モダリティ間の調整を学習 - 15 -

Slide 16

Slide 16 text

新規性 (2/2): 入力モダリティ間のバランスをとるために Day-Night Classification Branch (DNCB)を導入 ■ Day-Night Classification Branch (DNCB) ■ 各層で昼夜のクラス分類を行うことで入力モダリティ間の調整を学習 - 16 - 出力 入力 昼夜の2クラス分類の 予測確率の推定値 単純なGAPとMLPで構成 ■ 2種類のマルチモーダル特徴量 ■ 画像とテキスト間の特徴量 ■ マスクとテキスト間の特徴量

Slide 17

Slide 17 text

Trimodal Decoderおよび出力 ■ Trimodal Decoder: アップサンプリングおよびCNNで構成 ■ モデルの最終出力: 目標領域の予測セグメンテーションマスクෝ 𝒚 ■ 𝑝 ෝ 𝒚 を閾値で単純に二値化 - 17 -

Slide 18

Slide 18 text

Trimodal Decoderはアップサンプリングおよび単純なCNN で構成 ■ Trimodal Decoder: アップサンプリングおよびCNNで構成 ■ モデルの最終出力: 目標領域の予測セグメンテーションマスクෝ 𝒚 ■ 𝑝 ෝ 𝒚 を閾値で単純に二値化 - 18 - 次のBlockの入力へ 入力 ■ 3種類のマルチモーダル特徴量 ■ 画像とテキスト間の特徴量 ■ マスクとテキスト間の特徴量 ■ 前層のTrimodal Decoder Block の出力をアップサンプリング 出力 単純なCNNで構成

Slide 19

Slide 19 text

モデルの最終出力である目標領域のセグメンテーション マスクෝ 𝒚は𝑝 ෝ 𝒚 を閾値で単純に二値化して得る ■ Trimodal Decoder: アップサンプリングおよびCNNで構成 ■ モデルの最終出力: 目標領域の予測セグメンテーションマスクෝ 𝒚 ■ 𝑝 ෝ 𝒚 を閾値で単純に二値化 - 19 - 𝑝 ෝ 𝒚

Slide 20

Slide 20 text

ℒ = 𝜆mask ℒCE 𝑝 ෝ 𝒚 , 𝒚 + 𝜆night ෍ 𝑖=1 4 ℒCE 𝑝 ෝ 𝒚 night (𝑖) , 𝒚night 損失関数: 2つの損失関数に対して、クロスエントロピー 誤差関数を適用 ◼ 第1項: 目標領域に関する損失 ◼ 第2項: 昼夜のクラス分類に関する補助損失 ◼ 𝜆mask , 𝜆night : ハイパーパラメータ ◼ ℒCE: クロスエントロピー誤差関数 ◼ 𝒚: 正解の目標領域のセグメンテーションマスク ◼ 𝒚night : 正解の昼夜クラスラベル - 20 -

Slide 21

Slide 21 text

実験設定: nuScenesデータセットで提供されている 昼夜情報をTalk2Car-RegSegデータセットに適用 ■ Talk2Car-RegSeg [Rufus+, IROS21] ■ 画像と移動指示文から目標領域の セグメンテーションマスクを生成 ■ DNCBの学習のためにnuScenes [Caesar+, CVPR20] データセット から昼夜情報を取得 ■ (訓練集合 : 検証集合 : テスト集合) = (8,349 : 1,163 : 508) “pull in behind the blue van on the left side.” データセット名 サンプル数 画像サイズ 語彙サイズ 全単語数 平均文長 Talk2Car-RegSeg 10,020 1,600×900 1,746 116,501 11.63 - 21 -

Slide 22

Slide 22 text

定量的結果: 既存手法を上回る性能を獲得 ■ 評価尺度:3種類 ■ Mean IoU、Overall IoU、[email protected] ■ ☺ 主要評価尺度 Mean IoUにおいて提案手法はベースライン手法を 4.90ポイント上回った ■ ☺ 他の尺度も同様に、提案手法がベースライン手法を上回った [%] Mean IoU Overall IoU [email protected] [Rufus+, IROS2021] 32.71±4.59 34.79±2.23 32.13±6.34 TNRSM (提案手法) 37.61±2.73 39.85±2.22 37.44±2.60 +4.90 +5.06 +5.31 - 22 -

Slide 23

Slide 23 text

定性的結果 (1/2): 提案手法はベースライン手法よりも目標 領域として正しい領域をマスクすることに成功 正解 ベースライン手法 提案手法 移動指示文: “pull up behind the guy wearing a white shirt.” - 23 -

Slide 24

Slide 24 text

定性的結果 (1/2): 提案手法はベースライン手法よりも目標 領域として正しい領域をマスクすることに成功 正解 ベースライン手法 提案手法 移動指示文: “pull up behind the guy wearing a white shirt.” - 24 -

Slide 25

Slide 25 text

定性的結果 (1/2): 提案手法はベースライン手法よりも目標 領域として正しい領域をマスクすることに成功 正解 ベースライン手法 提案手法 移動指示文: “pull up behind the guy wearing a white shirt.” - 25 -  右側の緑色のシャツを着た人の 付近を誤ってマスク ☺ 白いシャツを着た人の後ろ の領域を正しくマスク

Slide 26

Slide 26 text

定性的結果 (2/2): 提案手法はベースライン手法よりも目標 領域として正しい領域をマスクすることに成功 正解 ベースライン手法 提案手法 移動指示文: “stop at the green trash can” - 26 -

Slide 27

Slide 27 text

定性的結果 (2/2): 提案手法はベースライン手法よりも目標 領域として正しい領域をマスクすることに成功 正解 ベースライン手法 提案手法 移動指示文: “stop at the green trash can” - 27 -

Slide 28

Slide 28 text

定性的結果 (2/2): 提案手法はベースライン手法よりも目標 領域として正しい領域をマスクすることに成功 正解 ベースライン手法 提案手法 移動指示文: “stop at the green trash can” - 28 -  侵入不可である歩道上の領域 を誤ってマスク ☺ 道路上の領域内で目標領域 を正しくマスク

Slide 29

Slide 29 text

Ablation Study: 各モジュールの有効性を確認 ■ Ablation条件 i. Text-Mask Encoder (TME) の有無(=①画像と②テキストからなる バイモーダルなモデル) ii. Day-Night Classification Branch (DNCB) の有無 [%] 条件 Mean IoU Overall IoU w/ TME w/ DNCB (i) ✔ 35.74±2.72 37.93±1.50 (ii) ✔ 36.88±3.84 38.40±3.90 Ours ✔ ✔ 37.61±2.73 39.85±2.22 ■ ☺ 各モジュールの有効性を確認 - 29 -

Slide 30

Slide 30 text

■  ベースライン手法および提案手法はいずれもトラックの後ろの領域を 目標領域として予測 ■ 正解の目標領域はトラックの手前の領域 ■ トラックの向きを正しく考慮できず目標領域の予測に失敗 定性的結果 (失敗例): ランドマーク領域であるトラックの 向きを考慮できずトラックの後ろ側を目標領域として予測 正解 ベースライン手法 提案手法 移動指示文: “park before the stationary truck on the right.” - 30 -

Slide 31

Slide 31 text

エラー分析: 現状のボトルネックは移動指示文と違う領域 に誤って予測する失敗が最も多い ■ テスト集合のうちIoUが小さい順に100サンプルをエラー分析(5種類) ■ 移動指示文と違う領域に誤って予測した失敗が最も多い ■ ランドマークを検出せずに直接マスクを生成し失敗 → 今後ランドマーク検出モジュールの導入によって解決を図る 顕著な失敗の特徴例 エラー数 参照表現理解として移動指示文と違う領域に誤って予測 37 セグメンテーションマスクが生成されないことによる失敗 31 過剰または過少なセグメンテーションマスクの生成による失敗 19 曖昧な移動指示文による失敗 6 アノテーションエラー 7 合計 100 - 31 -

Slide 32

Slide 32 text

まとめ: トリモーダルな目標領域予測モデルの提案 ■ Trimodal Navigable Region Segmentation Model (TNRSM) の提案 ■ Text-Mask Encoder および Day-Night Classification Branchの導入 ■ Talk2Car-RegSeg データセットで検証し、すべての評価尺度において ベースライン手法を上回る結果を獲得 - 32 -