第61回コンピュータビジョン勉強会＠関東/CVPR2024読み会 Localization is all you evaluate data leakage in online mapping datasets and how to fix it

論文紹介：Localization Is All You Evaluate: Data Leakage in Online Mapping
Datasets and How to Fix It 第61回コンピュータビジョン勉強会＠関東/CVPR2024読み会 @caprest 1

書誌情報 Adam Lilja, Junsheng Fu, Erik Stenborg, Lars Hammarstrand; Proceedings
of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2024, pp. 22150-22159 • 著者の所属はチャルマース工科大学（スウェーデン）とzenseact(volvoの完全子会社) スライド中の図表は特に言及のない限り論文から引用しています。 URL :https://openaccess.thecvf.com/content/CVPR2024/html/Lilja_Localization_Is_All_You_Evaluate_Data_Leakage_in_Online_Mapping_CVPR_2024_paper.html * 2

どのような問題を解きたいか移動ロボットを制御するためには周辺の空間の中でどこを走っていいのかを判別する必要がある • 歩道は通ってはいけない ◦ 駐車場に入る時は別 • 電柱にぶつかると危ない •
横断歩道では人の通過を待つ必要がある Mappingとよんでいる 3 国道54号線

マッピングに対する二つのアプローチとは？ • Online Map Retrieval ◦ 事前に構築されたマップをもとに、センサー入力から自分が地図上のどこにいるのかを判定することで、周辺の情報を取得するアプローチ ◦ 地図が必要
▪ 地図に変更があったら更新が必要 ▪ 事前に地図を取得している地域でしか走れない • Online Map Estimation ◦ センサー入力から直接周辺の情報を推定する ▪ チャレンジングだが、事前の情報なしで走るためには必須 ▪ 「人間的」なアプローチ • We briefly barked up the tree of high precision lane line [maps], but decided it wasn't a good idea. -- Elon Musk 4

Online Map Estimationの入出力例 5

Online Mappingの二つのアプローチ • Segmentation base ◦ 空間をグリッドに分割して、それぞれを分類する（ empty, lane marking,
road edge） • Vector base ◦ オブジェクト（laneline）のセットを予測する HDMapNetなどいずれの手法にしても nuScenesと Argoverse2のようなデータセットを評価に使っている 6

Online mappingのデータセットとは • nuScenes/Argoverseが使われている • nuScenes ◦ 1000個のシーンからなる ◦
ボストンとシンガポールの 5km^2 のエリアで撮影している • Argoverse2 ◦ 1000このシーンからなる ◦ アメリカの6都市で撮影 ◦ 17km^2 のエリアで撮影している 7

Online mapping のデータセットの問題点とは • もともと物体検出、motion predictionなど別のタスク向けに設計されているものを使いまわしているため地理的に同じ場所が Train/Val/Testセットに含まれてしまっている ◦
これでは事前にmapを知っている前提の Online Map Retrieval (localization) を評価していることになっていしまう 8

nuScenesはスプリット間での重複が多い 9

正確に予測できているようだが、trainingに似たようなものが入っているという例 10

定量的には重複はどの程度か？ • 80％近いサンプルがTrainingのセットから5m以内の場所にある ◦ nuScenesで特に顕著 ◦ Argoverseでも無視できるレベルではない 11

Argoverse2も同一セット内での空間的重複が多い • Argoverse２のほうが、 intra-set densityが高い。 ◦ 60mのグリッドに切った時の一つのセルに入るサンプル数のブウプを表したのが右の図 ◦
Argoverseは4倍のサンプルがあるのに、左端でのdensityがそこまで減っていないことが分かる 12

先行研究で提案されていたスプリットは？先行研究では、適切なtrain/val/testに分けたものを提案できていなかった • Roddick and Cipolla [2020]でこの問題は指摘されていた ◦ しかし新しいtrain/val/test を提案はしていない
◦ データ量を削減するアプローチを取ってしまっている • Qin et al. [2023]で提案されたスプリットは都市間のスプリット ◦ これだけではむずかしすぎる 13

本論文で新しく提唱されたスプリットとは？本論文では地理的に分離された二つのスプリットを提案して公開している 1. Near Extropolation a. 地理的にある程度近接したマップを予測させるように設計されたスプリット b. zone クラス（住宅エリアか、工場エリアカなど）
,物体の出現頻度、天気、時間帯などの要素の分布が一致するように分割した 2. Far Extrapolation a. 都市ごとに分割されたスプリットよりチャレンジング b. 元々の都市の分布に偏りがあったためクロスバリデーション用に複数に分割して公開している 14

リークの影響は？ • 評価されたすべての手法は、オリジナルスプリットと比較して、地理的に非連続なスプリットを使用すると、性能が大幅に低下する ◦ vectorベースでも、segmentationベースでも同様に落ちる。 • Argoverseは落ち方が顕著でない ◦ サンプル数が多いことも一因か
◦ セット内での重複に関しては単なる data augmentationとして有効に働いているかもしれない。 15

リークの影響を可視化すると？ • 「全く見えていないものが正しく推定できている」場合がある ◦ cyanのやつがロードエッジ、 pinkのやつが、 lane divider ▪ HDmapでGTを与えているので、GT内には含まれている。
◦ 時系列を考慮していない手法なので推測できるはずがない 16

Far Extrapolationはさらに難しい trainセットにはない未知の都市での推定をやろうとするとさらにパフォーマンスは落ちる 17

Sampleの多様性の重要性は？ • nuScenesは2hzでしかデータを作っていないが、HDMapと位置情報があればさらにdenseなデータセットを作れる ◦ denseにしてもperformance dropは起こる。サンプルの多様性が大事。 18

新しいスプリットでの既存手法の評価新しく作ったスプリットでハイパラチューニングをし直すとどうなるか？ • Lifting（カメラ特徴量を3D空間にマップする方法）の手法間での差は再現できなかった • 補助タスクによる改善も限定的であることが分かった 19

（分からなかったこと） • 様々な要素を均等になるように分割したと行っているが、そのための手法はあまりよく分からなかった ◦ 均等に分割したい様々な要素を考え始めると、大抵サンプルが足りないことになりがち ▪ 例えば urbanで、pedestrianが二人以上で、雨で 17時台のようなサンプルは
1000シーンの中にはそこまでたくさん含まれていないはず ◦ 全ての組み合わせを考えることもできないので ◦ （個人的にはシーンをベクトル化する技術が重要かなと思っている） 20

感想：評価指標で何を評価しているのかに自覚的になるべき • 「グッドハートの法則」（Goodhart's Law） ◦ 「ある指標が目標として使われ始めると、それはもはや良い指標ではなくなる」 • LLMで毎週のようにSoTAが出ているが本当にGPT-3 -> GPT-4
レベルのジャンプを感じられているかというと ……？ ◦ SoTAでもつかってみないとよくわからないことがある ▪ 手軽に試せるUIとかも大切 • 実際に使ってみないと分からない所も多い ▪ 実際のサンプルで可視化することも大切 ◦ 本論文では指摘されていないが mAPなどの数値指標の妥当性も随時検討すべき ▪ あなたの最適化している評価指標をスクラッチで実装できますか？ 21

ポエム：そもそも自動運転にMapping は必要か？ • 様々なタスクを正確に評価するのは本当に大変 ◦ データセット構築一つとってもかなり大変だし、罠も多い • The parable of
the parser ◦ https://drive.google.com/file/d/1VodGljuEhBKwZIXQwN-ApH6g2wBAVAdK/view ◦ “ Identify your real tasks” • End to End というので何とかしてくれるらしい • Vapnikの原理 ◦ 「ある問題を解くとき，その問題よりも難しい問題を途中段階で解いてはならない」 22

まとめ • Online mapping Estimationにおけるデータセットの既存のsplitには大きな問題がある ◦ 殆ど同じ場所がTrain/Validation / Testで含まれてしまっていることが分かった
◦ 実質的にLocalizationを解いていることになっていた • Training / Validation / Test で地理的に分離されたデータセットを構築した ◦ 既存手法の大幅なパフォーマンスの低下を確認した ◦ 異なる都市で学習したモデルは殆どワークしないことが確認された • 23

第61回コンピュータビジョン勉強会＠関東/CVPR2024読み会 Localization ...

第61回コンピュータビジョン勉強会＠関東/CVPR2024読み会 Localization is all you evaluate data leakage in online mapping datasets and how to fix it

Fumiya Simada

More Decks by Fumiya Simada

Featured

Transcript

論文紹介：Localization Is All You Evaluate: Data Leakage in Online Mapping

書誌情報 Adam Lilja, Junsheng Fu, Erik Stenborg, Lars Hammarstrand; Proceedings

どのような問題を解きたいか移動ロボットを制御するためには周辺の空間の中でどこを走っていいのかを判別する必要がある • 歩道は通ってはいけない ◦ 駐車場に入る時は別 • 電柱にぶつかると危ない •

マッピングに対する二つのアプローチとは？ • Online Map Retrieval ◦ 事前に構築されたマップをもとに、センサー入力から自分が地図上のどこにいるのかを判定することで、周辺の情報を取得するアプローチ ◦ 地図が必要

Online Map Estimationの入出力例 5

Online Mappingの二つのアプローチ • Segmentation base ◦ 空間をグリッドに分割して、それぞれを分類する（ empty, lane marking,

Online mappingのデータセットとは • nuScenes/Argoverseが使われている • nuScenes ◦ 1000個のシーンからなる ◦

Online mapping のデータセットの問題点とは • もともと物体検出、motion predictionなど別のタスク向けに設計されているものを使いまわしているため地理的に同じ場所が Train/Val/Testセットに含まれてしまっている ◦

nuScenesはスプリット間での重複が多い 9

正確に予測できているようだが、trainingに似たようなものが入っているという例 10

定量的には重複はどの程度か？ • 80％近いサンプルがTrainingのセットから5m以内の場所にある ◦ nuScenesで特に顕著 ◦ Argoverseでも無視できるレベルではない 11

Argoverse2も同一セット内での空間的重複が多い • Argoverse２のほうが、 intra-set densityが高い。 ◦ 60mのグリッドに切った時の一つのセルに入るサンプル数のブウプを表したのが右の図 ◦

先行研究で提案されていたスプリットは？先行研究では、適切なtrain/val/testに分けたものを提案できていなかった • Roddick and Cipolla [2020]でこの問題は指摘されていた ◦ しかし新しいtrain/val/test を提案はしていない

リークの影響を可視化すると？ • 「全く見えていないものが正しく推定できている」場合がある ◦ cyanのやつがロードエッジ、 pinkのやつが、 lane divider ▪ HDmapでGTを与えているので、GT内には含まれている。

Far Extrapolationはさらに難しい trainセットにはない未知の都市での推定をやろうとするとさらにパフォーマンスは落ちる 17

Sampleの多様性の重要性は？ • nuScenesは2hzでしかデータを作っていないが、HDMapと位置情報があればさらにdenseなデータセットを作れる ◦ denseにしてもperformance dropは起こる。サンプルの多様性が大事。 18

ポエム：そもそも自動運転にMapping は必要か？ • 様々なタスクを正確に評価するのは本当に大変 ◦ データセット構築一つとってもかなり大変だし、罠も多い • The parable of

まとめ • Online mapping Estimationにおけるデータセットの既存のsplitには大きな問題がある ◦ 殆ど同じ場所がTrain/Validation / Testで含まれてしまっていることが分かった

第61回 コンピュータビジョン勉強会＠関東/CVPR2024読み会 Localization ...

第61回 コンピュータビジョン勉強会＠関東/CVPR2024読み会 Localization is all you evaluate data leakage in online mapping datasets and how to fix it

More Decks by Fumiya Simada

Featured

Transcript

第61回コンピュータビジョン勉強会＠関東/CVPR2024読み会 Localization ...

第61回コンピュータビジョン勉強会＠関東/CVPR2024読み会 Localization is all you evaluate data leakage in online mapping datasets and how to fix it