Upgrade to PRO for Only $50/Year—Limited-Time Offer! 🔥

[JSAI23] Target Regions Prediction for Understa...

[JSAI23] Target Regions Prediction for Understanding Navigation Instructions in Urban Areas

More Decks by Semantic Machine Intelligence Lab., Keio Univ.

Other Decks in Technology

Transcript

  1. 垂街地での移動指瀺文に基づく目暙領域予枬 畑侭 é§¿å¹³1, 楊 巍1, 九曜 克之1, 现芋 盎垌1,2, ç¿ 

    茝久3, 山田 健倪郎2, 杉浊 孔明1 1慶應矩塟倧孊, 2株匏䌚瀟本田技術研究所, 3Honda Research Institute USA, Inc.
  2. 関連研究: 移動指瀺理解タスクにおいお、目暙䜍眮や領域 予枬モデルずしお広く研究が行われおいる 代衚的手法 抂芁 [Rufus+, IROS21] 目暙領域のセグメンテヌションマスク を生成するモデル PDPC

    [Grujicic+, AAAI22] 鳥瞰図䞊に混合ガりス分垃ずしお目暙 領域を予枬するモデル PTPC [Deruyttere+, IEEE22] マルチタスクずしお目暙領域ず同時に 目暙領域たでの経路も予枬するモデル UNITER Regressor [畑侭+, SIG-KBS22] 目暙領域ではなく、目暙䜍眮ずしお 2次元座暙を予枬する回垰モデル [Rufus+, IROS21] PDPC [Grujicic+, AAAI22] UNITER Regressor [畑侭+, SIG-KBS22] - 3 -
  3. 画像デヌタ提䟛Motional AD Inc. による nuScenesデヌタセット、https://www.nuscenes.org にお公開。本プレれンテヌションにおける以降の画像も 同䞀の出兞から取埗したものである。 ラむセンスCreative Commons Attribution-NonCommercial-ShareAlike

    4.0 International Public License ( CC BY-NC-SA 4.0 ) 問題蚭定: 目暙領域を予枬する移動指瀺理解タスク ▪ 察象タスクReferring Navigable Regions (RNR) タスク ▪ モビリティに察しお、移動指瀺文が 指しおいる目暙領域を予枬 ▪ 入力 ▪ 画像 ▪ 移動指瀺文 ▪ 出力 ▪ 目暙領域のセグメンテヌションマスク “pull in behind the blue van on the left side.” - 4 - the blue van
  4. 提案手法: Trimodal Navigable Regions Segmentation Model (TNRSM) - 5 -

    ▪ トリモヌダルな目暙領域予枬モデル ▪ ①画像、②テキスト、③セマンティック セグメンテヌションマスク 新芏性 1. Text-Mask Encoder (TME) ▪ 蚀語関連のマルチモヌダルな特城をセマン ティックセグメンテヌションレベルで融合 2. Day-Night Classification Branch (DNCB) ▪ 昌倜の照明条件に応じお入力モダリティ間 の調敎を行う ※以降、セマンティックセグメンテヌションマスクを単に「マスク」ず呌称
  5. ▪ トリモヌダルな目暙領域予枬モデル ▪ ①画像、②テキスト、③セマンティック セグメンテヌションマスク 新芏性 1. Text-Mask Encoder (TME)

    ▪ 蚀語関連のマルチモヌダルな特城をセマン ティックセグメンテヌションレベルで融合 2. Day-Night Classification Branch (DNCB) ▪ 昌倜の照明条件に応じお入力モダリティ間 の調敎を行う 提案手法: Trimodal Navigable Regions Segmentation Model (TNRSM) - 6 - ※以降、セマンティックセグメンテヌションマスクを単に「マスク」ず呌称
  6. ▪ トリモヌダルな目暙領域予枬モデル ▪ ①画像、②テキスト、③セマンティック セグメンテヌションマスク 新芏性 1. Text-Mask Encoder (TME)

    ▪ 蚀語関連のマルチモヌダルな特城をセマン ティックセグメンテヌションレベルで融合 2. Day-Night Classification Branch (DNCB) ▪ 昌倜の照明条件に応じお入力モダリティ間 の調敎を行う 提案手法: Trimodal Navigable Regions Segmentation Model (TNRSM) - 7 - ※以降、セマンティックセグメンテヌションマスクを単に「マスク」ず呌称
  7. 新芏性 (1/2): セマンティックセグメンテヌションマスクを 扱うためにText-Mask Encoder (TME) を導入 ▪ Text-Image Encoder

    / Text-Mask Encoder: 2皮類のモゞュヌルで構成 ▪ Swin Transformer [Liu+, ICCV21] ▪ PWAM [Yang+, CVPR22]蚈算コストを削枛した盞互泚意機構 - 10 - PWAMの出力 入力 テキスト特城量 芖芚特城量 出力 マルチモヌダル 特特城量
  8. PWAM: 蚈算コストを削枛した盞互泚意機構 - 11 - ▪ 画像同士の泚意機構 ▪  ピクセル数が倚く蚈算コスト倧

    ▪ PWAMの特長 ▪ CNNおよびflatten凊理埌に画像ず テキスト間の盞互泚意を蚈算 ▪ ☺ 蚈算コスト・メモリ䜿甚量少
  9. ▪ 画像ずテキスト間の泚意 𝑮 img (𝑖) ▪ 𝑮 img (𝑖) =

    softmax 𝑐 𝑖 −1 2𝑞 img (𝑖) 𝑳 𝑘 (𝑖)⊀ 𝑳𝑣 (𝑖) ▪ 𝑞 img (𝑖) 芖芚特城量 𝑜 img (𝑖) をCNNおよ びflatten凊理した特城量 ▪ 𝑳 𝑘 (𝑖), 𝑳𝑣 (𝑖)テキスト特城量𝒉inst を CNNで凊理した特城量 ▪ 𝑐𝑖 チャネル数 ▪ マスクずテキスト間の盞互泚意も 同様な凊理 PWAM: 蚈算コストを削枛した盞互泚意機構 - 12 -
  10. 新芏性 (2/2): 入力モダリティ間のバランスをずるために Day-Night Classification Branch (DNCB)を導入 ▪ Day-Night Classification

    Branch (DNCB) ▪ 各局で昌倜のクラス分類を行うこずで入力モダリティ間の調敎を孊習 - 15 -
  11. 新芏性 (2/2): 入力モダリティ間のバランスをずるために Day-Night Classification Branch (DNCB)を導入 ▪ Day-Night Classification

    Branch (DNCB) ▪ 各局で昌倜のクラス分類を行うこずで入力モダリティ間の調敎を孊習 - 16 - 出力 入力 昌倜の2クラス分類の 予枬確率の掚定倀 単玔なGAPずMLPで構成 ▪ 2皮類のマルチモヌダル特城量 ▪ 画像ずテキスト間の特城量 ▪ マスクずテキスト間の特城量
  12. Trimodal Decoderはアップサンプリングおよび単玔なCNN で構成 ▪ Trimodal Decoder: アップサンプリングおよびCNNで構成 ▪ モデルの最終出力: 目暙領域の予枬セグメンテヌションマスクෝ

    𝒚 ▪ 𝑝 ෝ 𝒚 を閟倀で単玔に二倀化 - 18 - 次のBlockの入力ぞ 入力 ▪ 3皮類のマルチモヌダル特城量 ▪ 画像ずテキスト間の特城量 ▪ マスクずテキスト間の特城量 ▪ 前局のTrimodal Decoder Block の出力をアップサンプリング 出力 単玔なCNNで構成
  13. モデルの最終出力である目暙領域のセグメンテヌション マスクෝ 𝒚は𝑝 ෝ 𝒚 を閟倀で単玔に二倀化しお埗る ▪ Trimodal Decoder: アップサンプリングおよびCNNで構成

    ▪ モデルの最終出力: 目暙領域の予枬セグメンテヌションマスクෝ 𝒚 ▪ 𝑝 ෝ 𝒚 を閟倀で単玔に二倀化 - 19 - 𝑝 ෝ 𝒚
  14. ℒ = 𝜆mask ℒCE 𝑝 ෝ 𝒚 , 𝒚 +

    𝜆night ෍ 𝑖=1 4 ℒCE 𝑝 ෝ 𝒚 night (𝑖) , 𝒚night 損倱関数: 2぀の損倱関数に察しお、クロス゚ントロピヌ 誀差関数を適甚 â—Œ 第1項: 目暙領域に関する損倱 â—Œ 第2項: 昌倜のクラス分類に関する補助損倱 â—Œ 𝜆mask , 𝜆night : ハむパヌパラメヌタ â—Œ ℒCE: クロス゚ントロピヌ誀差関数 â—Œ 𝒚: 正解の目暙領域のセグメンテヌションマスク â—Œ 𝒚night : 正解の昌倜クラスラベル - 20 -
  15. 実隓蚭定: nuScenesデヌタセットで提䟛されおいる 昌倜情報をTalk2Car-RegSegデヌタセットに適甚 ▪ Talk2Car-RegSeg [Rufus+, IROS21] ▪ 画像ず移動指瀺文から目暙領域の セグメンテヌションマスクを生成

    ▪ DNCBの孊習のためにnuScenes [Caesar+, CVPR20] デヌタセット から昌倜情報を取埗 ▪ 蚓緎集合 : 怜蚌集合 : テスト集合 = 8,349 : 1,163 : 508 “pull in behind the blue van on the left side.” デヌタセット名 サンプル数 画像サむズ 語圙サむズ 党単語数 平均文長 Talk2Car-RegSeg 10,020 1,600×900 1,746 116,501 11.63 - 21 -
  16. 定量的結果: 既存手法を䞊回る性胜を獲埗 ▪ 評䟡尺床3皮類 ▪ Mean IoU、Overall IoU、[email protected] ▪ ☺

    䞻芁評䟡尺床 Mean IoUにおいお提案手法はベヌスラむン手法を 4.90ポむント䞊回った ▪ ☺ 他の尺床も同様に、提案手法がベヌスラむン手法を䞊回った [%] Mean IoU Overall IoU [email protected] [Rufus+, IROS2021] 32.71±4.59 34.79±2.23 32.13±6.34 TNRSM (提案手法) 37.61±2.73 39.85±2.22 37.44±2.60 +4.90 +5.06 +5.31 - 22 -
  17. 定性的結果 (1/2): 提案手法はベヌスラむン手法よりも目暙 領域ずしお正しい領域をマスクするこずに成功 正解 ベヌスラむン手法 提案手法 移動指瀺文 “pull up

    behind the guy wearing a white shirt.” - 25 -  右偎の緑色のシャツを着た人の 付近を誀っおマスク ☺ 癜いシャツを着た人の埌ろ の領域を正しくマスク
  18. 定性的結果 (2/2): 提案手法はベヌスラむン手法よりも目暙 領域ずしお正しい領域をマスクするこずに成功 正解 ベヌスラむン手法 提案手法 移動指瀺文 “stop at

    the green trash can” - 28 -  䟵入䞍可である歩道䞊の領域 を誀っおマスク ☺ 道路䞊の領域内で目暙領域 を正しくマスク
  19. Ablation Study: 各モゞュヌルの有効性を確認 ▪ Ablation条件 i. Text-Mask Encoder (TME) の有無=①画像ず②テキストからなる

    バむモヌダルなモデル ii. Day-Night Classification Branch (DNCB) の有無 [%] 条件 Mean IoU Overall IoU w/ TME w/ DNCB (i) ✔ 35.74±2.72 37.93±1.50 (ii) ✔ 36.88±3.84 38.40±3.90 Ours ✔ ✔ 37.61±2.73 39.85±2.22 ▪ ☺ 各モゞュヌルの有効性を確認 - 29 -
  20. ▪  ベヌスラむン手法および提案手法はいずれもトラックの埌ろの領域を 目暙領域ずしお予枬 ▪ 正解の目暙領域はトラックの手前の領域 ▪ トラックの向きを正しく考慮できず目暙領域の予枬に倱敗 定性的結果 (倱敗䟋):

    ランドマヌク領域であるトラックの 向きを考慮できずトラックの埌ろ偎を目暙領域ずしお予枬 正解 ベヌスラむン手法 提案手法 移動指瀺文 “park before the stationary truck on the right.” - 30 -
  21. ゚ラヌ分析: 珟状のボトルネックは移動指瀺文ず違う領域 に誀っお予枬する倱敗が最も倚い ▪ テスト集合のうちIoUが小さい順に100サンプルを゚ラヌ分析5皮類 ▪ 移動指瀺文ず違う領域に誀っお予枬した倱敗が最も倚い ▪ ランドマヌクを怜出せずに盎接マスクを生成し倱敗 →

    今埌ランドマヌク怜出モゞュヌルの導入によっお解決を図る 顕著な倱敗の特城䟋 ゚ラヌ数 参照衚珟理解ずしお移動指瀺文ず違う領域に誀っお予枬 37 セグメンテヌションマスクが生成されないこずによる倱敗 31 過剰たたは過少なセグメンテヌションマスクの生成による倱敗 19 曖昧な移動指瀺文による倱敗 6 アノテヌション゚ラヌ 7 合蚈 100 - 31 -
  22. たずめ: トリモヌダルな目暙領域予枬モデルの提案 ▪ Trimodal Navigable Region Segmentation Model (TNRSM) の提案

    ▪ Text-Mask Encoder および Day-Night Classification Branchの導入 ▪ Talk2Car-RegSeg デヌタセットで怜蚌し、すべおの評䟡尺床においお ベヌスラむン手法を䞊回る結果を獲埗 - 32 -