Slide 1

Slide 1 text

UP-VL: Unsupervised 3D Perception with 2D Vision-Language Distillation for Autonomous Driving 岩政 公平 (@colum2131) Turing株式会社

Slide 2

Slide 2 text

⾃⼰紹介 2 ● 岩政 公平(X: @colum2131) ● Turing株式会社 AIソフトウェアチーム ○ 2022年8⽉- インターン ○ 2023年4⽉- ⼊社 ● 九州⼤学システム⽣命科学府M2 ○ 研究: 葉脈構造のトポロジカルな定量化 ● Kaggle Competitions Master https://www.jst.go.jp/pr/announce/20230721/index.html

Slide 3

Slide 3 text

本論⽂の主張 ● Paper: link ● Github: None😢 ● WaymoはAlphabet傘下の⾃動運転開発企業 ● LiDAR点群の3次元物体検出においてVision-Languageを 活⽤することで、事前に定義されていない物体カテゴリも 教師なしで認識可能になった 3 本論⽂から引⽤ [Najibi+ 2023]

Slide 4

Slide 4 text

本論⽂の主張 4 ● 3次元物体検出モデルにVision-Languageの知識蒸留を組み込んだ学習フレームワーク ● 推論時は任意のクラス名クエリで、3D open-vocabulary detectionが可能になった ○ 例えば、“Truck”や“Cyclist”から“Sedan”や“Bulldozer”なども検出できる! UP-VL [Najibi+ 23]

Slide 5

Slide 5 text

先⾏研究: CLIP 6 ● CLIPは、テキストと画像との関連性を理解するようなText/Vision Encoderの対照学習を⾏う ● 訓練データに含まれないクラスを分類する開クラス集合(Open-set)の画像分類が可能である ○ 任意のカテゴリ名からなるプロンプトをEncoderでテキストベクトルに変換し、 画像ベクトルとの類似度が最も⾼いプロンプトのカテゴリを属するクラスとする CLIP [Radford+ 21]

Slide 6

Slide 6 text

先⾏研究: Open-Vocabulary物体検出(OVD) 6 ● CLIPは、Open-set‧Zero-shotでの画像分類以外にも、2次元物体検出やセグメンテーションなど 幅広いタスクで応⽤されている(e.g., Detic[Zhou+ 22], Segment Anything[Kirillov+ 23]) ● ViLDは、Open-Vocabulary Object Detection(OVD)という任意のカテゴリ名で物体検出が⾏える ● RoIAlignされた候補物体の特徴ベクトルをCLIPの埋め込みに近づける蒸留を⾏う学習フレームワーク ViLD [Gu+ 22]

Slide 7

Slide 7 text

先⾏研究: LiDARを⽤いた3次元物体検出 6 ● LiDAR点群の3次元物体検出はクラスタリングや深層学習モデルで⾏われる ● PointPillars[Lang+ 19]は、3次元点群をPillar(柱)として特徴量抽出を⾏い、Bird-Eye-View(BEV)空間を 擬似画像(⾼さ, 幅, チャネルの3軸)とみなし、2D CNNとDetection Headで3次元物体検出を⾏う PointPillars [Lang+ 19]

Slide 8

Slide 8 text

筆者らの先⾏研究: MI-UP(1) 6 ● 筆者らは、LiDARのみの⾼品質な3次元物体検出のオートラベリング⼿法「MI-UP」を提案[Najibi+ 22] ● 点単位の3次元フローベクトルを学習できるNeural Scene Flow Prior(NSFP)[Li+ 21]をベースとした 点群のシーンフロー推定「NSFP++」と、検出‧推定した点群のクラスタリングおよび トラッキングを⾏い、3次元物体の候補を⾃動で⽣成するAuto Meta Labelingを⾏う MI-UP [Najibi+ 22]

Slide 9

Slide 9 text

筆者らの先⾏研究: MI-UP(2) 6 ● 時刻t-1の点群S1から点群数が異なるtの点群S2の 距離を最⼩にするシーンフローを求めたい ● NSFPは、S1の3次元の点(x, y, z)を⼊⼒に、S2に 対するのフロー(Δx, Δy, Δz)をMLPで最適化する ○ 最適なネットワークは8層で128次元の 隠れ層を持つMLP(約12万パラメータ数) ● この最適化はフローの推論時に逐次的に⾏われる ● NSFPは、単⼀のNNのため移動物体と 静⽌物体の両⽅を表現できない問題がある ○ ただ点のフローを推定しているため ● NSFP++では、静⽌点除去と、物体クラスタ ごとにローカルフローを独⽴して求める! NSFP [Li+ 21] NSFP++ [Najibi+ 22]

Slide 10

Slide 10 text

筆者らの先⾏研究: MI-UP(3) 6 ● 物体の3次元クラスタリングは、密度ベースのクラスタリングのDBSCANを⽤いる ○ 点群Sとシーンフローによって求められた点群F両⽅⽤いる ○ 偽陽性を防ぐために、動きが⼀定以上ある点を保持するフィルタリングを⾏う ○ 点群SとFそれぞれでクラスタリングして、その交差をとり、最終的な物体位置を求める MI-UP[Najibi+ 22] LiDAR点群のみの クラスタリング 点群のフィルタリング後の クラスタリング 点群SとFでクラスタリング して交差をとる 異なる物体と 認識できた!

Slide 11

Slide 11 text

UP-VLの概要 6 ● UP-VLは、Open-set3次元物体検出と移動物体以外の全ての運動状態の物体検出を可能にする! ● 学習時は、3次元物体検出‧追跡と、点単位のVision-Languageのセマンティック特徴の学習を⾏う ● 推論時は、カテゴリ名のテキストプロンプトをもとに3次元Open-Vocabulary物体検出が⾏える UP-VL [Najibi+ 23]

Slide 12

Slide 12 text

UP-VLの学習: Auto-Labeling 6 ● 必要な⼊⼒は、LiDARからの点群、マルチカメラ 画像、背景除去⽤のカテゴリ名(e.g., Road) ● カメラ画像をCLIPのVision Encoderから 画像特徴を取得して3次元点に投影 ● NSFP++を⽤いてシーンフロー推定 ● 背景カテゴリをText Encoderからテキスト特徴を 取得して、類似度が点は背景点とみなす ● クラスタリングは、背景点の割合が任意の閾値を 越した場合はその物体は除去される ● オクルージョンに対応するために、物体はカルマン フィルタを⽤いたトラッキングが⾏われ、ICPにより 複数フレームによって1物体の形状登録が⾏われる NSFPより改変 [Li+ 21] UP-VL [Najibi+ 23]

Slide 13

Slide 13 text

UP-VLの学習: OVD 6 ● 先⾏研究と⽐較するため、Auto-Labelingの結果を GTとして扱い、3D BBoxの回帰と分類を学習させる ● ベースはPointPillars[Lang+ 19] ● Pointwise VL Featuresを各点から予測するNNを追加し その⼊⼒は3次元点の位置、LiDARの強度(intensity)、 伸⻑(elongation)特徴で、出⼒はカメラ画像における その点のVL特徴になるよう蒸留する ● 推論時は、検出した物体の点群それぞれのVL特徴と、 任意のカテゴリ名のテキスト特徴のコサイン類似度を とり、多数決によりその物体のカテゴリを予測する ● 推論時は点群のみの操作のため画像を必要としない!

Slide 14

Slide 14 text

UP-VLの評価: class-agnosticな検出精度 6 ● Waymo Open Dataset(WOD)[Sun+ 20]で3D Average Precision(3D AP)の評価を⾏う ● MI-UPとUP-VLともにAuto labelsの結果をGTとして、同様の条件で学習した(Detections) ● UP-VLはMI-UPより精度が⼤幅に向上した ● 両⽅のモデルでAuto labelsよりDetectionsの精度が向上した ○ 評価指標がランキング評価であるのと、モデルの機能バイアスによりノイズ除去された?

Slide 15

Slide 15 text

UP-VLの評価: class-awareな移動物体の精度 6 ● ⾞両カテゴリをVeh(Vehicle)、歩⾏者などの交通弱者をVRU(Vulnerable Road Users)とする ● 移動物体に対しての評価を⾏い、⽐較はMI-UPのクラスタリングと画像を⽤いたOpen-Vocabulary Semantic Segmentationを⾏うOpenSeg[Ghiasi+ 22]を合わせたモデル ● Our auto labelsは画像を⽤いているが、蒸留を⾏ったUP-VLがmAPで最も精度が⾼い ○ 推論時に画像を⽤いなくても⾼い精度で3次元物体認識が可能である

Slide 16

Slide 16 text

UP-VLの評価: OVDの精度 6 ● 全ての運動状態における物体の認識精度を求める ● 1⾏⽬は点群のみのクラスタリング、2⾏⽬はOpenSegでクラス推定、3⾏⽬はMI-UP+OpenSeg ● 4⾏⽬はUP-VLのauto labels+VL特徴の投影、5⾏⽬はdetector+VL特徴の投影、6⾏⽬がUP-VL ● OVDにおいてはUP-VLは顕著な精度向上が⾒られる ○ また、VL特徴の蒸留がOVDにおいて⼤幅な精度向上をもたらす!

Slide 17

Slide 17 text

UP-VLの評価: Trackingの精度 6 ● MI-UPとUP-VLそれぞれ学習したdetectorの結 果から同様のトラッカーを⽤いて トラッキング性能を⽐較 ● 評価指標はMOTAとMOTP ● こちらも顕著な精度向上が⾒られた

Slide 18

Slide 18 text

UP-VLの評価: 定性評価 6 ● 従来のデータセットに存在しないカテゴリで あっても検出可能である(左) ● ⼀⽅で検出を誤るケースも存在する(下) ○ “tram”は、点として捉えているものの ⼤きすぎるためBBoxが⽣成されない? ○ クレーンであるものの“truck”と認識、 実世界で⾼い共起性を持つため?

Slide 19

Slide 19 text

まとめ + 感想 6 ● Vision-LanguageをLiDAR点群の特徴に蒸留させることで視覚的な⼀般常識を捉える“⽬”がついた ○ そもそもLiDARの点特徴にVLが蒸留して⼗分に分類できるほどの情報量があるのが驚き ○ 点での類似度ではなく、物体として“いい感じ”に集約できるとより良さそう? ● 特に⾃動運転AIにおいては、学習データにはないようなエッジケースに対応する必要と、 ⼤量の⾼品質なデータが必要であるため、Open-VocabularyなAuto-labeling⼿法は必要不可⽋ ○ 移動物体以外も検出可能なため、⽩線などを含めた最強Auto-labelingを作りたい! ○ 本論⽂のアプローチも⾯⽩いが、まだ先⾏研究が少なく今後ますます洗練されていきそう ● 実験の評価は筆者らの研究によるものだけであまりフェアではない? ○ class-agnosticの評価やtrackingの評価はおそらく先⾏研究はあるので⽐較して欲しかった ● VL蒸留特徴点群とLLMをくっつけたら「56m先に⾺が⾛っています」みたいなことを喋る? ○ LiDAR×VLとLLM両⽅の発展に期待

Slide 20

Slide 20 text

参考⽂献 6 1. Najibi, Mahyar, et al. "Unsupervised 3D Perception with 2D Vision-Language Distillation for Autonomous Driving." Proceedings of the IEEE/CVF International Conference on Computer Vision. 2023. 2. Najibi, Mahyar, et al. "Motion inspired unsupervised perception and prediction in autonomous driving." European Conference on Computer Vision. Cham: Springer Nature Switzerland, 2022. 3. Li, Xueqian, Jhony Kaesemodel Pontes, and Simon Lucey. "Neural scene flow prior." Advances in Neural Information Processing Systems 34 (2021): 7838-7851. 4. Radford, Alec, et al. "Learning transferable visual models from natural language supervision." International conference on machine learning. PMLR, 2021. 5. Lang, Alex H., et al. "Pointpillars: Fast encoders for object detection from point clouds." Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2019. 6. Sun, Pei, et al. "Scalability in perception for autonomous driving: Waymo open dataset." Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2020. 7. Gu, Xiuye, et al. "Open-vocabulary object detection via vision and language knowledge distillation." arXiv preprint arXiv:2104.13921 (2021). 8. Zhou, Xingyi, et al. "Detecting twenty-thousand classes using image-level supervision." European Conference on Computer Vision. Cham: Springer Nature Switzerland, 2022. 9. Kirillov, Alexander, et al. "Segment anything." arXiv preprint arXiv:2304.02643 (2023). 10. Ghiasi, Golnaz, et al. "Scaling open-vocabulary image segmentation with image-level labels." European Conference on Computer Vision. Cham: Springer Nature Switzerland, 2022.

Slide 21

Slide 21 text

No content