Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Unsupervised_3D_Perception_with_2D_Vision-Langu...

Kohei Iwamasa
November 04, 2023
550

 Unsupervised_3D_Perception_with_2D_Vision-Language_Distillation_for_Autonomous_Driving_CV勉強会

Kohei Iwamasa

November 04, 2023
Tweet

Transcript

  1. ⾃⼰紹介 2 • 岩政 公平(X: @colum2131) • Turing株式会社 AIソフトウェアチーム ◦

    2022年8⽉- インターン ◦ 2023年4⽉- ⼊社 • 九州⼤学システム⽣命科学府M2 ◦ 研究: 葉脈構造のトポロジカルな定量化 • Kaggle Competitions Master https://www.jst.go.jp/pr/announce/20230721/index.html
  2. 本論⽂の主張 • Paper: link • Github: None😢 • WaymoはAlphabet傘下の⾃動運転開発企業 •

    LiDAR点群の3次元物体検出においてVision-Languageを 活⽤することで、事前に定義されていない物体カテゴリも 教師なしで認識可能になった 3 本論⽂から引⽤ [Najibi+ 2023]
  3. 先⾏研究: Open-Vocabulary物体検出(OVD) 6 • CLIPは、Open-set‧Zero-shotでの画像分類以外にも、2次元物体検出やセグメンテーションなど 幅広いタスクで応⽤されている(e.g., Detic[Zhou+ 22], Segment Anything[Kirillov+

    23]) • ViLDは、Open-Vocabulary Object Detection(OVD)という任意のカテゴリ名で物体検出が⾏える • RoIAlignされた候補物体の特徴ベクトルをCLIPの埋め込みに近づける蒸留を⾏う学習フレームワーク ViLD [Gu+ 22]
  4. 筆者らの先⾏研究: MI-UP(1) 6 • 筆者らは、LiDARのみの⾼品質な3次元物体検出のオートラベリング⼿法「MI-UP」を提案[Najibi+ 22] • 点単位の3次元フローベクトルを学習できるNeural Scene Flow

    Prior(NSFP)[Li+ 21]をベースとした 点群のシーンフロー推定「NSFP++」と、検出‧推定した点群のクラスタリングおよび トラッキングを⾏い、3次元物体の候補を⾃動で⽣成するAuto Meta Labelingを⾏う MI-UP [Najibi+ 22]
  5. 筆者らの先⾏研究: MI-UP(2) 6 • 時刻t-1の点群S1から点群数が異なるtの点群S2の 距離を最⼩にするシーンフローを求めたい • NSFPは、S1の3次元の点(x, y, z)を⼊⼒に、S2に

    対するのフロー(Δx, Δy, Δz)をMLPで最適化する ◦ 最適なネットワークは8層で128次元の 隠れ層を持つMLP(約12万パラメータ数) • この最適化はフローの推論時に逐次的に⾏われる • NSFPは、単⼀のNNのため移動物体と 静⽌物体の両⽅を表現できない問題がある ◦ ただ点のフローを推定しているため • NSFP++では、静⽌点除去と、物体クラスタ ごとにローカルフローを独⽴して求める! NSFP [Li+ 21] NSFP++ [Najibi+ 22]
  6. 筆者らの先⾏研究: MI-UP(3) 6 • 物体の3次元クラスタリングは、密度ベースのクラスタリングのDBSCANを⽤いる ◦ 点群Sとシーンフローによって求められた点群F両⽅⽤いる ◦ 偽陽性を防ぐために、動きが⼀定以上ある点を保持するフィルタリングを⾏う ◦

    点群SとFそれぞれでクラスタリングして、その交差をとり、最終的な物体位置を求める MI-UP[Najibi+ 22] LiDAR点群のみの クラスタリング 点群のフィルタリング後の クラスタリング 点群SとFでクラスタリング して交差をとる 異なる物体と 認識できた!
  7. UP-VLの学習: Auto-Labeling 6 • 必要な⼊⼒は、LiDARからの点群、マルチカメラ 画像、背景除去⽤のカテゴリ名(e.g., Road) • カメラ画像をCLIPのVision Encoderから

    画像特徴を取得して3次元点に投影 • NSFP++を⽤いてシーンフロー推定 • 背景カテゴリをText Encoderからテキスト特徴を 取得して、類似度が点は背景点とみなす • クラスタリングは、背景点の割合が任意の閾値を 越した場合はその物体は除去される • オクルージョンに対応するために、物体はカルマン フィルタを⽤いたトラッキングが⾏われ、ICPにより 複数フレームによって1物体の形状登録が⾏われる NSFPより改変 [Li+ 21] UP-VL [Najibi+ 23]
  8. UP-VLの学習: OVD 6 • 先⾏研究と⽐較するため、Auto-Labelingの結果を GTとして扱い、3D BBoxの回帰と分類を学習させる • ベースはPointPillars[Lang+ 19]

    • Pointwise VL Featuresを各点から予測するNNを追加し その⼊⼒は3次元点の位置、LiDARの強度(intensity)、 伸⻑(elongation)特徴で、出⼒はカメラ画像における その点のVL特徴になるよう蒸留する • 推論時は、検出した物体の点群それぞれのVL特徴と、 任意のカテゴリ名のテキスト特徴のコサイン類似度を とり、多数決によりその物体のカテゴリを予測する • 推論時は点群のみの操作のため画像を必要としない!
  9. UP-VLの評価: class-agnosticな検出精度 6 • Waymo Open Dataset(WOD)[Sun+ 20]で3D Average Precision(3D

    AP)の評価を⾏う • MI-UPとUP-VLともにAuto labelsの結果をGTとして、同様の条件で学習した(Detections) • UP-VLはMI-UPより精度が⼤幅に向上した • 両⽅のモデルでAuto labelsよりDetectionsの精度が向上した ◦ 評価指標がランキング評価であるのと、モデルの機能バイアスによりノイズ除去された?
  10. UP-VLの評価: class-awareな移動物体の精度 6 • ⾞両カテゴリをVeh(Vehicle)、歩⾏者などの交通弱者をVRU(Vulnerable Road Users)とする • 移動物体に対しての評価を⾏い、⽐較はMI-UPのクラスタリングと画像を⽤いたOpen-Vocabulary Semantic

    Segmentationを⾏うOpenSeg[Ghiasi+ 22]を合わせたモデル • Our auto labelsは画像を⽤いているが、蒸留を⾏ったUP-VLがmAPで最も精度が⾼い ◦ 推論時に画像を⽤いなくても⾼い精度で3次元物体認識が可能である
  11. まとめ + 感想 6 • Vision-LanguageをLiDAR点群の特徴に蒸留させることで視覚的な⼀般常識を捉える“⽬”がついた ◦ そもそもLiDARの点特徴にVLが蒸留して⼗分に分類できるほどの情報量があるのが驚き ◦ 点での類似度ではなく、物体として“いい感じ”に集約できるとより良さそう?

    • 特に⾃動運転AIにおいては、学習データにはないようなエッジケースに対応する必要と、 ⼤量の⾼品質なデータが必要であるため、Open-VocabularyなAuto-labeling⼿法は必要不可⽋ ◦ 移動物体以外も検出可能なため、⽩線などを含めた最強Auto-labelingを作りたい! ◦ 本論⽂のアプローチも⾯⽩いが、まだ先⾏研究が少なく今後ますます洗練されていきそう • 実験の評価は筆者らの研究によるものだけであまりフェアではない? ◦ class-agnosticの評価やtrackingの評価はおそらく先⾏研究はあるので⽐較して欲しかった • VL蒸留特徴点群とLLMをくっつけたら「56m先に⾺が⾛っています」みたいなことを喋る? ◦ LiDAR×VLとLLM両⽅の発展に期待
  12. 参考⽂献 6 1. Najibi, Mahyar, et al. "Unsupervised 3D Perception

    with 2D Vision-Language Distillation for Autonomous Driving." Proceedings of the IEEE/CVF International Conference on Computer Vision. 2023. 2. Najibi, Mahyar, et al. "Motion inspired unsupervised perception and prediction in autonomous driving." European Conference on Computer Vision. Cham: Springer Nature Switzerland, 2022. 3. Li, Xueqian, Jhony Kaesemodel Pontes, and Simon Lucey. "Neural scene flow prior." Advances in Neural Information Processing Systems 34 (2021): 7838-7851. 4. Radford, Alec, et al. "Learning transferable visual models from natural language supervision." International conference on machine learning. PMLR, 2021. 5. Lang, Alex H., et al. "Pointpillars: Fast encoders for object detection from point clouds." Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2019. 6. Sun, Pei, et al. "Scalability in perception for autonomous driving: Waymo open dataset." Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2020. 7. Gu, Xiuye, et al. "Open-vocabulary object detection via vision and language knowledge distillation." arXiv preprint arXiv:2104.13921 (2021). 8. Zhou, Xingyi, et al. "Detecting twenty-thousand classes using image-level supervision." European Conference on Computer Vision. Cham: Springer Nature Switzerland, 2022. 9. Kirillov, Alexander, et al. "Segment anything." arXiv preprint arXiv:2304.02643 (2023). 10. Ghiasi, Golnaz, et al. "Scaling open-vocabulary image segmentation with image-level labels." European Conference on Computer Vision. Cham: Springer Nature Switzerland, 2022.