Unsupervised_3D_Perception_with_2D_Vision-Language_Distillation_for_Autonomous_Driving_CV勉強会

UP-VL: Unsupervised 3D Perception with 2D Vision-Language Distillation for Autonomous
Driving 岩政公平 (@colum2131) Turing株式会社

⾃⼰紹介 2 • 岩政公平(X: @colum2131) • Turing株式会社 AIソフトウェアチーム ◦
2022年8⽉- インターン ◦ 2023年4⽉- ⼊社 • 九州⼤学システム⽣命科学府M2 ◦ 研究: 葉脈構造のトポロジカルな定量化 • Kaggle Competitions Master https://www.jst.go.jp/pr/announce/20230721/index.html

本論⽂の主張 • Paper: link • Github: None😢 • WaymoはAlphabet傘下の⾃動運転開発企業 •
LiDAR点群の3次元物体検出においてVision-Languageを活⽤することで、事前に定義されていない物体カテゴリも教師なしで認識可能になった 3 本論⽂から引⽤ [Najibi+ 2023]

本論⽂の主張 4 • 3次元物体検出モデルにVision-Languageの知識蒸留を組み込んだ学習フレームワーク • 推論時は任意のクラス名クエリで、3D open-vocabulary detectionが可能になった ◦ 例えば、“Truck”や“Cyclist”から“Sedan”や“Bulldozer”なども検出できる！
UP-VL [Najibi+ 23]

先⾏研究: CLIP 6 • CLIPは、テキストと画像との関連性を理解するようなText/Vision Encoderの対照学習を⾏う • 訓練データに含まれないクラスを分類する開クラス集合(Open-set)の画像分類が可能である ◦ 任意のカテゴリ名からなるプロンプトをEncoderでテキストベクトルに変換し、
画像ベクトルとの類似度が最も⾼いプロンプトのカテゴリを属するクラスとする CLIP [Radford+ 21]

先⾏研究: Open-Vocabulary物体検出(OVD) 6 • CLIPは、Open-set‧Zero-shotでの画像分類以外にも、2次元物体検出やセグメンテーションなど幅広いタスクで応⽤されている(e.g., Detic[Zhou+ 22], Segment Anything[Kirillov+
23]) • ViLDは、Open-Vocabulary Object Detection(OVD)という任意のカテゴリ名で物体検出が⾏える • RoIAlignされた候補物体の特徴ベクトルをCLIPの埋め込みに近づける蒸留を⾏う学習フレームワーク ViLD [Gu+ 22]

先⾏研究: LiDARを⽤いた3次元物体検出 6 • LiDAR点群の3次元物体検出はクラスタリングや深層学習モデルで⾏われる • PointPillars[Lang+ 19]は、3次元点群をPillar(柱)として特徴量抽出を⾏い、Bird-Eye-View(BEV)空間を擬似画像(⾼さ, 幅,
チャネルの3軸)とみなし、2D CNNとDetection Headで3次元物体検出を⾏う PointPillars [Lang+ 19]

筆者らの先⾏研究: MI-UP(1) 6 • 筆者らは、LiDARのみの⾼品質な3次元物体検出のオートラベリング⼿法「MI-UP」を提案[Najibi+ 22] • 点単位の3次元フローベクトルを学習できるNeural Scene Flow
Prior(NSFP)[Li+ 21]をベースとした点群のシーンフロー推定「NSFP++」と、検出‧推定した点群のクラスタリングおよびトラッキングを⾏い、3次元物体の候補を⾃動で⽣成するAuto Meta Labelingを⾏う MI-UP [Najibi+ 22]

筆者らの先⾏研究: MI-UP(2) 6 • 時刻t-1の点群S1から点群数が異なるtの点群S2の距離を最⼩にするシーンフローを求めたい • NSFPは、S1の3次元の点(x, y, z)を⼊⼒に、S2に
対するのフロー(Δx, Δy, Δz)をMLPで最適化する ◦ 最適なネットワークは8層で128次元の隠れ層を持つMLP(約12万パラメータ数) • この最適化はフローの推論時に逐次的に⾏われる • NSFPは、単⼀のNNのため移動物体と静⽌物体の両⽅を表現できない問題がある ◦ ただ点のフローを推定しているため • NSFP++では、静⽌点除去と、物体クラスタごとにローカルフローを独⽴して求める！ NSFP [Li+ 21] NSFP++ [Najibi+ 22]

筆者らの先⾏研究: MI-UP(3) 6 • 物体の3次元クラスタリングは、密度ベースのクラスタリングのDBSCANを⽤いる ◦ 点群Sとシーンフローによって求められた点群F両⽅⽤いる ◦ 偽陽性を防ぐために、動きが⼀定以上ある点を保持するフィルタリングを⾏う ◦
点群SとFそれぞれでクラスタリングして、その交差をとり、最終的な物体位置を求める MI-UP[Najibi+ 22] LiDAR点群のみのクラスタリング点群のフィルタリング後のクラスタリング点群SとFでクラスタリングして交差をとる異なる物体と認識できた！

UP-VLの概要 6 • UP-VLは、Open-set3次元物体検出と移動物体以外の全ての運動状態の物体検出を可能にする！ • 学習時は、3次元物体検出‧追跡と、点単位のVision-Languageのセマンティック特徴の学習を⾏う • 推論時は、カテゴリ名のテキストプロンプトをもとに3次元Open-Vocabulary物体検出が⾏える UP-VL [Najibi+
23]

UP-VLの学習: Auto-Labeling 6 • 必要な⼊⼒は、LiDARからの点群、マルチカメラ画像、背景除去⽤のカテゴリ名(e.g., Road) • カメラ画像をCLIPのVision Encoderから
画像特徴を取得して3次元点に投影 • NSFP++を⽤いてシーンフロー推定 • 背景カテゴリをText Encoderからテキスト特徴を取得して、類似度が点は背景点とみなす • クラスタリングは、背景点の割合が任意の閾値を越した場合はその物体は除去される • オクルージョンに対応するために、物体はカルマンフィルタを⽤いたトラッキングが⾏われ、ICPにより複数フレームによって1物体の形状登録が⾏われる NSFPより改変 [Li+ 21] UP-VL [Najibi+ 23]

UP-VLの学習: OVD 6 • 先⾏研究と⽐較するため、Auto-Labelingの結果を GTとして扱い、3D BBoxの回帰と分類を学習させる • ベースはPointPillars[Lang+ 19]
• Pointwise VL Featuresを各点から予測するNNを追加しその⼊⼒は3次元点の位置、LiDARの強度(intensity)、伸⻑(elongation)特徴で、出⼒はカメラ画像におけるその点のVL特徴になるよう蒸留する • 推論時は、検出した物体の点群それぞれのVL特徴と、任意のカテゴリ名のテキスト特徴のコサイン類似度をとり、多数決によりその物体のカテゴリを予測する • 推論時は点群のみの操作のため画像を必要としない！

UP-VLの評価: class-agnosticな検出精度 6 • Waymo Open Dataset(WOD)[Sun+ 20]で3D Average Precision(3D
AP)の評価を⾏う • MI-UPとUP-VLともにAuto labelsの結果をGTとして、同様の条件で学習した(Detections) • UP-VLはMI-UPより精度が⼤幅に向上した • 両⽅のモデルでAuto labelsよりDetectionsの精度が向上した ◦ 評価指標がランキング評価であるのと、モデルの機能バイアスによりノイズ除去された？

UP-VLの評価: class-awareな移動物体の精度 6 • ⾞両カテゴリをVeh(Vehicle)、歩⾏者などの交通弱者をVRU(Vulnerable Road Users)とする • 移動物体に対しての評価を⾏い、⽐較はMI-UPのクラスタリングと画像を⽤いたOpen-Vocabulary Semantic
Segmentationを⾏うOpenSeg[Ghiasi+ 22]を合わせたモデル • Our auto labelsは画像を⽤いているが、蒸留を⾏ったUP-VLがmAPで最も精度が⾼い ◦ 推論時に画像を⽤いなくても⾼い精度で3次元物体認識が可能である

UP-VLの評価: OVDの精度 6 • 全ての運動状態における物体の認識精度を求める • 1⾏⽬は点群のみのクラスタリング、2⾏⽬はOpenSegでクラス推定、3⾏⽬はMI-UP+OpenSeg • 4⾏⽬はUP-VLのauto labels+VL特徴の投影、5⾏⽬はdetector+VL特徴の投影、6⾏⽬がUP-VL
• OVDにおいてはUP-VLは顕著な精度向上が⾒られる ◦ また、VL特徴の蒸留がOVDにおいて⼤幅な精度向上をもたらす！

UP-VLの評価: Trackingの精度 6 • MI-UPとUP-VLそれぞれ学習したdetectorの結果から同様のトラッカーを⽤いてトラッキング性能を⽐較 • 評価指標はMOTAとMOTP •
こちらも顕著な精度向上が⾒られた

UP-VLの評価: 定性評価 6 • 従来のデータセットに存在しないカテゴリであっても検出可能である(左) • ⼀⽅で検出を誤るケースも存在する(下) ◦ “tram”は、点として捉えているものの
⼤きすぎるためBBoxが⽣成されない？ ◦ クレーンであるものの“truck”と認識、実世界で⾼い共起性を持つため？

まとめ + 感想 6 • Vision-LanguageをLiDAR点群の特徴に蒸留させることで視覚的な⼀般常識を捉える“⽬”がついた ◦ そもそもLiDARの点特徴にVLが蒸留して⼗分に分類できるほどの情報量があるのが驚き ◦ 点での類似度ではなく、物体として“いい感じ”に集約できるとより良さそう？
• 特に⾃動運転AIにおいては、学習データにはないようなエッジケースに対応する必要と、⼤量の⾼品質なデータが必要であるため、Open-VocabularyなAuto-labeling⼿法は必要不可⽋ ◦ 移動物体以外も検出可能なため、⽩線などを含めた最強Auto-labelingを作りたい！ ◦ 本論⽂のアプローチも⾯⽩いが、まだ先⾏研究が少なく今後ますます洗練されていきそう • 実験の評価は筆者らの研究によるものだけであまりフェアではない？ ◦ class-agnosticの評価やtrackingの評価はおそらく先⾏研究はあるので⽐較して欲しかった • VL蒸留特徴点群とLLMをくっつけたら「56m先に⾺が⾛っています」みたいなことを喋る？ ◦ LiDAR×VLとLLM両⽅の発展に期待

参考⽂献 6 1. Najibi, Mahyar, et al. "Unsupervised 3D Perception
with 2D Vision-Language Distillation for Autonomous Driving." Proceedings of the IEEE/CVF International Conference on Computer Vision. 2023. 2. Najibi, Mahyar, et al. "Motion inspired unsupervised perception and prediction in autonomous driving." European Conference on Computer Vision. Cham: Springer Nature Switzerland, 2022. 3. Li, Xueqian, Jhony Kaesemodel Pontes, and Simon Lucey. "Neural scene flow prior." Advances in Neural Information Processing Systems 34 (2021): 7838-7851. 4. Radford, Alec, et al. "Learning transferable visual models from natural language supervision." International conference on machine learning. PMLR, 2021. 5. Lang, Alex H., et al. "Pointpillars: Fast encoders for object detection from point clouds." Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2019. 6. Sun, Pei, et al. "Scalability in perception for autonomous driving: Waymo open dataset." Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2020. 7. Gu, Xiuye, et al. "Open-vocabulary object detection via vision and language knowledge distillation." arXiv preprint arXiv:2104.13921 (2021). 8. Zhou, Xingyi, et al. "Detecting twenty-thousand classes using image-level supervision." European Conference on Computer Vision. Cham: Springer Nature Switzerland, 2022. 9. Kirillov, Alexander, et al. "Segment anything." arXiv preprint arXiv:2304.02643 (2023). 10. Ghiasi, Golnaz, et al. "Scaling open-vocabulary image segmentation with image-level labels." European Conference on Computer Vision. Cham: Springer Nature Switzerland, 2022.

Unsupervised_3D_Perception_with_2D_Vision-Langu...

Unsupervised_3D_Perception_with_2D_Vision-Language_Distillation_for_Autonomous_Driving_CV勉強会

Kohei Iwamasa

More Decks by Kohei Iwamasa

Featured

Transcript

UP-VL: Unsupervised 3D Perception with 2D Vision-Language Distillation for Autonomous

⾃⼰紹介 2 • 岩政公平(X: @colum2131) • Turing株式会社 AIソフトウェアチーム ◦

本論⽂の主張 • Paper: link • Github: None😢 • WaymoはAlphabet傘下の⾃動運転開発企業 •

先⾏研究: Open-Vocabulary物体検出(OVD) 6 • CLIPは、Open-set‧Zero-shotでの画像分類以外にも、2次元物体検出やセグメンテーションなど幅広いタスクで応⽤されている(e.g., Detic[Zhou+ 22], Segment Anything[Kirillov+

筆者らの先⾏研究: MI-UP(1) 6 • 筆者らは、LiDARのみの⾼品質な3次元物体検出のオートラベリング⼿法「MI-UP」を提案[Najibi+ 22] • 点単位の3次元フローベクトルを学習できるNeural Scene Flow

筆者らの先⾏研究: MI-UP(2) 6 • 時刻t-1の点群S1から点群数が異なるtの点群S2の距離を最⼩にするシーンフローを求めたい • NSFPは、S1の3次元の点(x, y, z)を⼊⼒に、S2に

UP-VLの学習: Auto-Labeling 6 • 必要な⼊⼒は、LiDARからの点群、マルチカメラ画像、背景除去⽤のカテゴリ名(e.g., Road) • カメラ画像をCLIPのVision Encoderから

UP-VLの学習: OVD 6 • 先⾏研究と⽐較するため、Auto-Labelingの結果を GTとして扱い、3D BBoxの回帰と分類を学習させる • ベースはPointPillars[Lang+ 19]

UP-VLの評価: class-agnosticな検出精度 6 • Waymo Open Dataset(WOD)[Sun+ 20]で3D Average Precision(3D

UP-VLの評価: class-awareな移動物体の精度 6 • ⾞両カテゴリをVeh(Vehicle)、歩⾏者などの交通弱者をVRU(Vulnerable Road Users)とする • 移動物体に対しての評価を⾏い、⽐較はMI-UPのクラスタリングと画像を⽤いたOpen-Vocabulary Semantic

UP-VLの評価: Trackingの精度 6 • MI-UPとUP-VLそれぞれ学習したdetectorの結果から同様のトラッカーを⽤いてトラッキング性能を⽐較 • 評価指標はMOTAとMOTP •

UP-VLの評価: 定性評価 6 • 従来のデータセットに存在しないカテゴリであっても検出可能である(左) • ⼀⽅で検出を誤るケースも存在する(下) ◦ “tram”は、点として捉えているものの

参考⽂献 6 1. Najibi, Mahyar, et al. "Unsupervised 3D Perception