[JSAI23] Target Regions Prediction for Understanding Navigation Instructions in Urban Areas

市街地での移動指示文に基づく目標領域予測畑中駿平1, 楊巍1, 九曜克之1, 細見直希1,2, 翠
輝久3, 山田健太郎2, 杉浦孔明1 1慶應義塾大学, 2株式会社本田技術研究所, 3Honda Research Institute USA, Inc.

▪ 車の自動運転技術の進展とともに人とモビリティ間のユーザフレンドリなインタラクションの向上に期待が高まる ▪ モビリティが移動指示を理解し、目標位置で止まることができれば便利背景: モビリティが移動指示を理解し、目標位置で止まることができれば便利【Honda CIマイクロモビリティ】搭乗型マイクロ
モビリティCiKoMaができること（YouTube） ▪ 例）「左手の黒い車の近くに停まって」 ▪ 移動指示理解タスク ▪ 他のモビリティに関与する動的な状況において、マルチモーダルな言語理解が必要 - 2 -

関連研究: 移動指示理解タスクにおいて、目標位置や領域予測モデルとして広く研究が行われている代表的手法概要 [Rufus+, IROS21] 目標領域のセグメンテーションマスクを生成するモデル PDPC
[Grujicic+, AAAI22] 鳥瞰図上に混合ガウス分布として目標領域を予測するモデル PTPC [Deruyttere+, IEEE22] マルチタスクとして目標領域と同時に目標領域までの経路も予測するモデル UNITER Regressor [畑中+, SIG-KBS22] 目標領域ではなく、目標位置として 2次元座標を予測する回帰モデル [Rufus+, IROS21] PDPC [Grujicic+, AAAI22] UNITER Regressor [畑中+, SIG-KBS22] - 3 -

画像データ提供：Motional AD Inc. による nuScenesデータセット、https://www.nuscenes.org にて公開。本プレゼンテーションにおける以降の画像も同一の出典から取得したものである。ライセンス：Creative Commons Attribution-NonCommercial-ShareAlike
4.0 International Public License ( CC BY-NC-SA 4.0 ) 問題設定: 目標領域を予測する移動指示理解タスク ▪ 対象タスク：Referring Navigable Regions (RNR) タスク ▪ モビリティに対して、移動指示文が指している目標領域を予測 ▪ 入力 ▪ 画像 ▪ 移動指示文 ▪ 出力 ▪ 目標領域のセグメンテーションマスク “pull in behind the blue van on the left side.” - 4 - the blue van

提案手法: Trimodal Navigable Regions Segmentation Model (TNRSM) - 5 -
▪ トリモーダルな目標領域予測モデル ▪ ①画像、②テキスト、③セマンティックセグメンテーションマスク新規性 1. Text-Mask Encoder (TME) ▪ 言語関連のマルチモーダルな特徴をセマンティックセグメンテーションレベルで融合 2. Day-Night Classification Branch (DNCB) ▪ 昼夜の照明条件に応じて入力モダリティ間の調整を行う ※以降、セマンティックセグメンテーションマスクを単に「マスク」と呼称

▪ トリモーダルな目標領域予測モデル ▪ ①画像、②テキスト、③セマンティックセグメンテーションマスク新規性 1. Text-Mask Encoder (TME)
▪ 言語関連のマルチモーダルな特徴をセマンティックセグメンテーションレベルで融合 2. Day-Night Classification Branch (DNCB) ▪ 昼夜の照明条件に応じて入力モダリティ間の調整を行う提案手法: Trimodal Navigable Regions Segmentation Model (TNRSM) - 6 - ※以降、セマンティックセグメンテーションマスクを単に「マスク」と呼称

▪ トリモーダルな目標領域予測モデル ▪ ①画像、②テキスト、③セマンティックセグメンテーションマスク新規性 1. Text-Mask Encoder (TME)
▪ 言語関連のマルチモーダルな特徴をセマンティックセグメンテーションレベルで融合 2. Day-Night Classification Branch (DNCB) ▪ 昼夜の照明条件に応じて入力モダリティ間の調整を行う提案手法: Trimodal Navigable Regions Segmentation Model (TNRSM) - 7 - ※以降、セマンティックセグメンテーションマスクを単に「マスク」と呼称

ネットワーク: 3つのモジュールで構成される階層構造 ① Trimodal Encoder、② Day-Night Classification Branch、 ③ Trimodal
Decoder の3つから構成される4層の階層構造 ① ② ③ - 8 -

Mask2Formerを用いて、画像からゼロショットでセマンティックセグメンテーションマスクを生成セマンティックセグメンテーションマスク Mask2Former [Cheng+, CVPR22] RGB画像 ▪ Mask2Former
[Chen+, CVPR22] を用いてゼロショット生成 ▪ Cityspacesデータセット [Cordts+, CVPR16] で学習済みモデル - 9 -

新規性 (1/2): セマンティックセグメンテーションマスクを扱うためにText-Mask Encoder (TME) を導入 ▪ Text-Image Encoder
/ Text-Mask Encoder: 2種類のモジュールで構成 ▪ Swin Transformer [Liu+, ICCV21] ▪ PWAM [Yang+, CVPR22]：計算コストを削減した相互注意機構 - 10 - PWAMの出力入力テキスト特徴量視覚特徴量出力マルチモーダル特特徴量

PWAM: 計算コストを削減した相互注意機構 - 11 - ▪ 画像同士の注意機構 ▪  ピクセル数が多く計算コスト大
▪ PWAMの特長 ▪ CNNおよびflatten処理後に画像とテキスト間の相互注意を計算 ▪ ☺ 計算コスト・メモリ使用量：少

▪ 画像とテキスト間の注意 𝑮 img (𝑖) ▪ 𝑮 img (𝑖) =
softmax 𝑐 𝑖 −1 2𝑸 img (𝑖) 𝑳 𝑘 (𝑖)⊤ 𝑳𝑣 (𝑖) ▪ 𝑸 img (𝑖) ：視覚特徴量 𝑽 img (𝑖) をCNNおよびflatten処理した特徴量 ▪ 𝑳 𝑘 (𝑖), 𝑳𝑣 (𝑖)：テキスト特徴量𝒉inst を CNNで処理した特徴量 ▪ 𝑐𝑖 ：チャネル数 ▪ マスクとテキスト間の相互注意も同様な処理 PWAM: 計算コストを削減した相互注意機構 - 12 -

課題: セマンティックセグメンテーションマスクは夜の時間帯においては品質劣化が激しい RGB画像セマンティックセグメンテーションマスク昼の場合夜の場合 - 13
-

課題: セマンティックセグメンテーションマスクは夜の時間帯においては品質劣化が激しいセマンティックセグメンテーションマスク昼の場合夜の場合 - 14 -
RGB画像  夜のシーンにおいてセマンティックセグメンテーションマスクの品質劣化が激しい

新規性 (2/2): 入力モダリティ間のバランスをとるために Day-Night Classification Branch (DNCB)を導入 ▪ Day-Night Classification
Branch (DNCB) ▪ 各層で昼夜のクラス分類を行うことで入力モダリティ間の調整を学習 - 15 -

新規性 (2/2): 入力モダリティ間のバランスをとるために Day-Night Classification Branch (DNCB)を導入 ▪ Day-Night Classification
Branch (DNCB) ▪ 各層で昼夜のクラス分類を行うことで入力モダリティ間の調整を学習 - 16 - 出力入力昼夜の2クラス分類の予測確率の推定値単純なGAPとMLPで構成 ▪ 2種類のマルチモーダル特徴量 ▪ 画像とテキスト間の特徴量 ▪ マスクとテキスト間の特徴量

Trimodal Decoderおよび出力 ▪ Trimodal Decoder: アップサンプリングおよびCNNで構成 ▪ モデルの最終出力: 目標領域の予測セグメンテーションマスクෝ 𝒚
▪ 𝑝 ෝ 𝒚 を閾値で単純に二値化 - 17 -

Trimodal Decoderはアップサンプリングおよび単純なCNN で構成 ▪ Trimodal Decoder: アップサンプリングおよびCNNで構成 ▪ モデルの最終出力: 目標領域の予測セグメンテーションマスクෝ
𝒚 ▪ 𝑝 ෝ 𝒚 を閾値で単純に二値化 - 18 - 次のBlockの入力へ入力 ▪ 3種類のマルチモーダル特徴量 ▪ 画像とテキスト間の特徴量 ▪ マスクとテキスト間の特徴量 ▪ 前層のTrimodal Decoder Block の出力をアップサンプリング出力単純なCNNで構成

モデルの最終出力である目標領域のセグメンテーションマスクෝ 𝒚は𝑝 ෝ 𝒚 を閾値で単純に二値化して得る ▪ Trimodal Decoder: アップサンプリングおよびCNNで構成
▪ モデルの最終出力: 目標領域の予測セグメンテーションマスクෝ 𝒚 ▪ 𝑝 ෝ 𝒚 を閾値で単純に二値化 - 19 - 𝑝 ෝ 𝒚

ℒ = 𝜆mask ℒCE 𝑝 ෝ 𝒚 , 𝒚 +
𝜆night ෍ 𝑖=1 4 ℒCE 𝑝 ෝ 𝒚 night (𝑖) , 𝒚night 損失関数: 2つの損失関数に対して、クロスエントロピー誤差関数を適用 ◼ 第1項: 目標領域に関する損失 ◼ 第2項: 昼夜のクラス分類に関する補助損失 ◼ 𝜆mask , 𝜆night : ハイパーパラメータ ◼ ℒCE: クロスエントロピー誤差関数 ◼ 𝒚: 正解の目標領域のセグメンテーションマスク ◼ 𝒚night : 正解の昼夜クラスラベル - 20 -

実験設定: nuScenesデータセットで提供されている昼夜情報をTalk2Car-RegSegデータセットに適用 ▪ Talk2Car-RegSeg [Rufus+, IROS21] ▪ 画像と移動指示文から目標領域のセグメンテーションマスクを生成
▪ DNCBの学習のためにnuScenes [Caesar+, CVPR20] データセットから昼夜情報を取得 ▪ （訓練集合 : 検証集合 : テスト集合） = （8,349 : 1,163 : 508） “pull in behind the blue van on the left side.” データセット名サンプル数画像サイズ語彙サイズ全単語数平均文長 Talk2Car-RegSeg 10,020 1,600×900 1,746 116,501 11.63 - 21 -

定量的結果: 既存手法を上回る性能を獲得 ▪ 評価尺度：3種類 ▪ Mean IoU、Overall IoU、[email protected] ▪ ☺
主要評価尺度 Mean IoUにおいて提案手法はベースライン手法を 4.90ポイント上回った ▪ ☺ 他の尺度も同様に、提案手法がベースライン手法を上回った [%] Mean IoU Overall IoU [email protected] [Rufus+, IROS2021] 32.71±4.59 34.79±2.23 32.13±6.34 TNRSM (提案手法) 37.61±2.73 39.85±2.22 37.44±2.60 +4.90 +5.06 +5.31 - 22 -

定性的結果 (1/2): 提案手法はベースライン手法よりも目標領域として正しい領域をマスクすることに成功正解ベースライン手法提案手法移動指示文： “pull up
behind the guy wearing a white shirt.” - 23 -

behind the guy wearing a white shirt.” - 24 -

behind the guy wearing a white shirt.” - 25 -  右側の緑色のシャツを着た人の付近を誤ってマスク ☺ 白いシャツを着た人の後ろの領域を正しくマスク

定性的結果 (2/2): 提案手法はベースライン手法よりも目標領域として正しい領域をマスクすることに成功正解ベースライン手法提案手法移動指示文： “stop at
the green trash can” - 26 -

the green trash can” - 27 -

the green trash can” - 28 -  侵入不可である歩道上の領域を誤ってマスク ☺ 道路上の領域内で目標領域を正しくマスク

Ablation Study: 各モジュールの有効性を確認 ▪ Ablation条件 i. Text-Mask Encoder (TME) の有無（=①画像と②テキストからなる
バイモーダルなモデル） ii. Day-Night Classification Branch (DNCB) の有無 [%] 条件 Mean IoU Overall IoU w/ TME w/ DNCB (i) ✔ 35.74±2.72 37.93±1.50 (ii) ✔ 36.88±3.84 38.40±3.90 Ours ✔ ✔ 37.61±2.73 39.85±2.22 ▪ ☺ 各モジュールの有効性を確認 - 29 -

▪  ベースライン手法および提案手法はいずれもトラックの後ろの領域を目標領域として予測 ▪ 正解の目標領域はトラックの手前の領域 ▪ トラックの向きを正しく考慮できず目標領域の予測に失敗定性的結果 (失敗例):
ランドマーク領域であるトラックの向きを考慮できずトラックの後ろ側を目標領域として予測正解ベースライン手法提案手法移動指示文： “park before the stationary truck on the right.” - 30 -

エラー分析: 現状のボトルネックは移動指示文と違う領域に誤って予測する失敗が最も多い ▪ テスト集合のうちIoUが小さい順に100サンプルをエラー分析（5種類） ▪ 移動指示文と違う領域に誤って予測した失敗が最も多い ▪ ランドマークを検出せずに直接マスクを生成し失敗 →
今後ランドマーク検出モジュールの導入によって解決を図る顕著な失敗の特徴例エラー数参照表現理解として移動指示文と違う領域に誤って予測 37 セグメンテーションマスクが生成されないことによる失敗 31 過剰または過少なセグメンテーションマスクの生成による失敗 19 曖昧な移動指示文による失敗 6 アノテーションエラー 7 合計 100 - 31 -

まとめ: トリモーダルな目標領域予測モデルの提案 ▪ Trimodal Navigable Region Segmentation Model (TNRSM) の提案
▪ Text-Mask Encoder および Day-Night Classification Branchの導入 ▪ Talk2Car-RegSeg データセットで検証し、すべての評価尺度においてベースライン手法を上回る結果を獲得 - 32 -

[JSAI23] Target Regions Prediction for Understa...

[JSAI23] Target Regions Prediction for Understanding Navigation Instructions in Urban Areas

Semantic Machine Intelligence Lab., Keio Univ. PRO

More Decks by Semantic Machine Intelligence Lab., Keio Univ.

Other Decks in Technology

Featured

Transcript

市街地での移動指示文に基づく目標領域予測畑中駿平1, 楊巍1, 九曜克之1, 細見直希1,2, 翠

関連研究: 移動指示理解タスクにおいて、目標位置や領域予測モデルとして広く研究が行われている代表的手法概要 [Rufus+, IROS21] 目標領域のセグメンテーションマスクを生成するモデル PDPC

提案手法: Trimodal Navigable Regions Segmentation Model (TNRSM) - 5 -

▪ トリモーダルな目標領域予測モデル ▪ ①画像、②テキスト、③セマンティックセグメンテーションマスク新規性 1. Text-Mask Encoder (TME)

▪ トリモーダルな目標領域予測モデル ▪ ①画像、②テキスト、③セマンティックセグメンテーションマスク新規性 1. Text-Mask Encoder (TME)

ネットワーク: 3つのモジュールで構成される階層構造 ① Trimodal Encoder、② Day-Night Classification Branch、 ③ Trimodal

Mask2Formerを用いて、画像からゼロショットでセマンティックセグメンテーションマスクを生成セマンティックセグメンテーションマスク Mask2Former [Cheng+, CVPR22] RGB画像 ▪ Mask2Former

新規性 (1/2): セマンティックセグメンテーションマスクを扱うためにText-Mask Encoder (TME) を導入 ▪ Text-Image Encoder

PWAM: 計算コストを削減した相互注意機構 - 11 - ▪ 画像同士の注意機構 ▪  ピクセル数が多く計算コスト大

▪ 画像とテキスト間の注意 𝑮 img (𝑖) ▪ 𝑮 img (𝑖) =

課題: セマンティックセグメンテーションマスクは夜の時間帯においては品質劣化が激しい RGB画像セマンティックセグメンテーションマスク昼の場合夜の場合 - 13

課題: セマンティックセグメンテーションマスクは夜の時間帯においては品質劣化が激しいセマンティックセグメンテーションマスク昼の場合夜の場合 - 14 -

新規性 (2/2): 入力モダリティ間のバランスをとるために Day-Night Classification Branch (DNCB)を導入 ▪ Day-Night Classification

新規性 (2/2): 入力モダリティ間のバランスをとるために Day-Night Classification Branch (DNCB)を導入 ▪ Day-Night Classification

Trimodal Decoderおよび出力 ▪ Trimodal Decoder: アップサンプリングおよびCNNで構成 ▪ モデルの最終出力: 目標領域の予測セグメンテーションマスクෝ 𝒚

Trimodal Decoderはアップサンプリングおよび単純なCNN で構成 ▪ Trimodal Decoder: アップサンプリングおよびCNNで構成 ▪ モデルの最終出力: 目標領域の予測セグメンテーションマスクෝ

モデルの最終出力である目標領域のセグメンテーションマスクෝ 𝒚は𝑝 ෝ 𝒚 を閾値で単純に二値化して得る ▪ Trimodal Decoder: アップサンプリングおよびCNNで構成

ℒ = 𝜆mask ℒCE 𝑝 ෝ 𝒚 , 𝒚 +

実験設定: nuScenesデータセットで提供されている昼夜情報をTalk2Car-RegSegデータセットに適用 ▪ Talk2Car-RegSeg [Rufus+, IROS21] ▪ 画像と移動指示文から目標領域のセグメンテーションマスクを生成

定量的結果: 既存手法を上回る性能を獲得 ▪ 評価尺度：3種類 ▪ Mean IoU、Overall IoU、[email protected] ▪ ☺

定性的結果 (1/2): 提案手法はベースライン手法よりも目標領域として正しい領域をマスクすることに成功正解ベースライン手法提案手法移動指示文： “pull up

定性的結果 (1/2): 提案手法はベースライン手法よりも目標領域として正しい領域をマスクすることに成功正解ベースライン手法提案手法移動指示文： “pull up

定性的結果 (1/2): 提案手法はベースライン手法よりも目標領域として正しい領域をマスクすることに成功正解ベースライン手法提案手法移動指示文： “pull up

定性的結果 (2/2): 提案手法はベースライン手法よりも目標領域として正しい領域をマスクすることに成功正解ベースライン手法提案手法移動指示文： “stop at

定性的結果 (2/2): 提案手法はベースライン手法よりも目標領域として正しい領域をマスクすることに成功正解ベースライン手法提案手法移動指示文： “stop at

定性的結果 (2/2): 提案手法はベースライン手法よりも目標領域として正しい領域をマスクすることに成功正解ベースライン手法提案手法移動指示文： “stop at

Ablation Study: 各モジュールの有効性を確認 ▪ Ablation条件 i. Text-Mask Encoder (TME) の有無（=①画像と②テキストからなる

▪  ベースライン手法および提案手法はいずれもトラックの後ろの領域を目標領域として予測 ▪ 正解の目標領域はトラックの手前の領域 ▪ トラックの向きを正しく考慮できず目標領域の予測に失敗定性的結果 (失敗例):

まとめ: トリモーダルな目標領域予測モデルの提案 ▪ Trimodal Navigable Region Segmentation Model (TNRSM) の提案