[CV勉強会@関東 CVPR2023] 自動運転におけるBEVベース物体認識技術の進化

Turing Inc, 棚橋耕太郎, @tanahhh 自動運転におけるBEVベース物体認識技術の進化担当論文: BEVFormer v2: Adapting
Modern Image Backbones to Bird's-Eye-View Recognition via Perspective Supervision 関東CV勉強会 2023/7/23

自己紹介略歴 2014年 CloudLaTeXを開発（会員6万人以上） 2015年リクルート新卒入社。 DSPなどのアドテクのシステム開発に従事 2017年 PyQUBOを開発
(2023/7時点で85万ダウンロード) 2018年 IPA未踏ターゲット事業プロジェクトマネージャに就任 2020年量子ソフトウェア研究会委員就任 2023年 Turingにジョイン。Brain Researchチームで完全自動運転の研究開発を行っている。 Turing (株) 棚橋耕太郎, Brain Research所属

Brain Research Team紹介運転動画をLLMに説明させた結果 LLMを用いた自動運転技術についても研究を進めている。大規模GPUクラスタも構築中！ ABCI LLMハッカソン発表資料より

自動運転におけるBEV (Bird’s Eye View)の重要性 • 車両を上から見たBird’s-Eye-Viewは車両の周囲をわかりやすく簡潔に表す方法であり、 BEVを正確に把握することは高度な自動運転において非常に重要 • 元々はLidarを用いて作成されていたが、近年はカメラベース手法の開発が活発
• 3次元ボクセルに対する Occupancy予測も可能 [J. Houston+, 2020] https://github.com/CVPR2023-3D-Occupancy-Pre diction/CVPR2023-3D-Occupancy-Prediction

IPM (Inverse Perspective Mapping) • IPM（逆透視マッピング）はカメラ画像をホモグラフィ変換（平面から平面への写像）によって BEV を作成する古典的な方法 • カメラの位置やパラメータに敏感で、道路が全て平面上にあるという前提が崩れると強い歪みが
生じてうまく機能しない • OpenCVのgetPerspectiveTransform(src, dst)を使うと変換行列が得られる https://towardsdatascience.com/a-hands-on-application-of-homography-ipm-18d9e47c152f

PyrOccNet (CVPR2020) • 各カメラ画像に対して Dense Transformerを適用しBEV空間でのカテゴリを推論 • 異なるスケールの特徴を使って異なる奥行きに対する特徴を作成 • 個別に推論した結果を並べることで最終的な
BEV全体での結果を得る (カメラごとに個別推論 ) T. Roddick and R. Cipolla, CVPR, 2020 複数のスケールから BEVを作成している。同じスケールから BEVを作ると、カメラから遠いグリッドセルはぼやけて、近いところは歪みが生じてしまったとのこと。 perspective viewからBEVへの空間変換を行うために、一旦極座標 BEV特徴を経由している。 ↓ attentionを使うtransformersではないので注意！

LSS: Lift, Splat, Shoot (ECCV 2020) • Lift: 各ピクセルにおける特徴ベクトル cと予測したdepth(離散)の確率分布αの外積
c⊗αを計算 • Splat: 格子状に配置した無限長の pillar（柱）にピクセルをマップし、畳み込みを行って BEV特徴を作成 • Shoot: BEV特徴を用いてmotion predictionなどのタスクを行う決められた射影を用いずに End-to-endに透視画像からBEVの変換が行えるようになった！実装もシンプル！ただし、物体検出の精度はそこまで高くない

BEVFormerの先駆け: TeslaのBEV Transformer • Tesla AI Day 2021にて、TransformerベースのBEV推論モデルが発表された • BEV上の位置埋め込みQが画像特徴K,Vとcross-attentionして特徴抽出する
• これをきっかけにTransformerベースのモデルが多く開発されるようになった Tesla AI Day 2021, https://www.youtube.com/watch?v=j0z4FweCy4M

Cross-attentionによる画像特徴抽出 • DETR [N. Carion+, 2020]では画像エンコーダで抽出した情報を Decoder側へcross-attentionのK, Vとして渡している。 •
Decoderにおけるobject queriesは空の箱として機能し、 cross-attentionで画像から特徴を抽出して予測クラスとBounding Boxを出力 → End-to-Endに物体検出モデルが作れる！

Cross-attentionによる画像特徴抽出 • DETRにおけるobject queryをBEV queryに拡張したものがTeslaのBEV transformerと見ることが可能 • ただし、厳密にcross-attentionを計算すると非常に時間がかかる https://towardsdatascience.com/monocular-bev-perception-with-transformers-in-autonomous-driving-c41e4a893944

BEVFormer (ECCV2022) • transformerを使って動的に画像特徴を抽出する仕組みを導入 • 学習・推論速度を高めるためにDeformable DETR[1]のdeformable attentionを取り入れた • temporal
self-attentionにより時系列情報を考慮可能とし、速度情報やOcclusion問題に対処 [1] Zhu, Xizhou, et al. ICLR. 2020.

BEVFormerの全体構造 BEV空間に格子状に配置されたクエリ特徴（学習される）マルチカメラの情報はcross-attentionで取り込まれる効率的に処理するためにdeformable attentionを3次元に拡張したspatial cross-attentionが使われている時系列情報を取り入れるために temporal
self-attentionを導入

Deformable Attention クエリ特徴 z q 画像のどこにアテンションするかヘッドごとにΔpを計算 W’ [1] Zhu,
Xizhou, et al. ICLR. 2020. 注意重み: M：マルチヘッド数 K：注意サンプル数 (左の例だと3) W - cross-attentionにおいて、全データと重みを計算すると計算量が大きくなるので、Kサンプルのみから特徴を抽出する。 - 相互作用するサンプルはクエリの座標pからΔp離れた座標とする。Δpはクエリ特徴zから予測する。画像特徴(K,V) x 注意重み A mqk ２次元参照点学習する重み行列:

Spatial Cross-Attention - Spatial Cross-AttentionではDeformable Attentionにおける参照座標pを、空間上の点pから二次元画像への射影として、変換 P(p,i,j)によって求めている。射影変換はカメラパラメータを用いて記述できる。 Deformable attention Spatial
cross-attention T i : カメラから2次元への射影行列 3次元参照点 2次元への射影

BEVFormer v2 (CVPR 2023) - 画像backboneを透視画像に対して最適化しないと精度が上がらないことを指摘 - Perspective 3Dヘッドを新たに導入すること画像backboneが透視画像に対して最適化 -
より現代的な画像backboneを採用することで認識精度が向上 3次元物体認識を行うヘッドを導入(FCOS3D と類似) 3次元物体認識結果を BEV transformerのクエリ特徴に含めたより最適な画像バックボーンを採用過去のBEV特徴BtはRNNのように逐次計算するのではなく、単にconcatする

BEVFormer v2: 実験結果 - 異なる画像backboneとヘッドの設定でnuScenes valデータセットの物体検出 - 画像backboneとしてはInternImageが最も優秀。画像バックボーンは重要！ -
BEV onlyよりもPerspective3Dヘッドを取り付けたほうが良い結果！ NDS: nuScenes Detection Score

BEVFormer v2: 実験結果 - nuScenes testデータセット(test)での物体検出精度の他手法との比較 - V2-99は他の3次元深度推定で事前学習されたもの。InternImageはCOOCで事前学習したのみ。 NDS: nuScenes
Detection Score

NuScenesでの物体検出(カメラのみ)の精度ランキング - 2022/11まではBEVFormer v2がトップだったが、2023/3にStreamPETRに追い抜かされている - StreamPETR[1]はPETR[2]を拡張して時系列情報を取り入れたモデル。 [1] Wang, Shihao, et
al. arXiv preprint arXiv:2303.11926 (2023). [2] Liu, Yingfei, et al. ECCV, 2022.

CVPR 2023, OpenLane Topology Challenge - Track1. OpenLane Topology Challengeでは道路上のレーンの中央線とトポロジーを予測する
- 優勝した手法はPETR v2だった (PETRの開発者のチーム) - 画像backboneではViTを使うことで、ResNetやVOVに大きく差をつけた (バックボーン重要！ ) https://opendatalab.com/OpenLane-V2 https://arxiv.org/pdf/2306.09590.pdf

PETR (ECCV 2022) - 2次元画像上のグリッドを3次元にマッピングし、その3次元座標点のPosition Embedding (PE)を作成 - PEとカメラ画像の特徴を足し合わせて、1次元上にflattenすることでKey, Valueとしてdecoderに挿入可能
2次元グリッドを 3次元グリッドに変換 (uj, vj)は画像上の座標 , djは深度各カメラの座標系を世界座標に統一チャンネル間、カメラ間での特徴を抽出

CVPR 2023, Occupancy Prediction Challenge - 優勝チームの手法は LSSとBEVFormerのハイブリッド - LSSではスパースな傾向が得られるため、この結果を元に
BEVFormerで高精度化している “FB-BEV provides a unified design that leverages both methods, promoting the benefits from each method with improved perception　results while overcoming their limitations.’’ https://opendrivelab.com/e2ead/AD23Challenge/Track_3_NVOCC.pdf

他に読むべき資料 Teslaはカメラを使ってどのように世界を認識しているか → TeslaのBEV transformerについて詳細に解説されている https://speakerdeck.com/inoichan/teslahakamerawoshi-tutedonoyounishi-jie- woren-shi-siteiruka [CV関東3D勉強会] TPVFormer
~マルチカメラを用いた自動運転の3D Occupancy Prediction~ → BEVベースのOccupancy predictionについての包括的なサーベイ https://speakerdeck.com/inoichan/cvguan-dong-3dmian-qiang-hui-tpvformer-m arutikamerawoyong-itazi-dong-yun-zhuan-3d-occupancy-prediction

ML Engineer/Researcher、Software Developer募集中!! • レベル5自動運転技術を研究開発するリサーチャー、研究用のデータ基盤を構築するデータエンジニア、学習基盤であるGPUクラスタ環境を整備するインフラエンジニアを募集しています ! • 東京にオフィス移転予定です！

Thank you

[CV勉強会@関東 CVPR2023] 自動運転におけるBEVベース物体認識技術の進化

[CV勉強会@関東 CVPR2023] 自動運転におけるBEVベース物体認識技術の進化

kotaro_tanahashi

More Decks by kotaro_tanahashi

Other Decks in Technology

Featured

Transcript

Turing Inc, 棚橋耕太郎, @tanahhh 自動運転におけるBEVベース物体認識技術の進化担当論文: BEVFormer v2: Adapting

自己紹介略歴 2014年 CloudLaTeXを開発（会員6万人以上） 2015年リクルート新卒入社。 DSPなどのアドテクのシステム開発に従事 2017年 PyQUBOを開発

Brain Research Team紹介運転動画をLLMに説明させた結果 LLMを用いた自動運転技術についても研究を進めている。大規模GPUクラスタも構築中！ ABCI LLMハッカソン発表資料より

PyrOccNet (CVPR2020) • 各カメラ画像に対して Dense Transformerを適用しBEV空間でのカテゴリを推論 • 異なるスケールの特徴を使って異なる奥行きに対する特徴を作成 • 個別に推論した結果を並べることで最終的な

LSS: Lift, Splat, Shoot (ECCV 2020) • Lift: 各ピクセルにおける特徴ベクトル cと予測したdepth(離散)の確率分布αの外積

BEVFormerの先駆け: TeslaのBEV Transformer • Tesla AI Day 2021にて、TransformerベースのBEV推論モデルが発表された • BEV上の位置埋め込みQが画像特徴K,Vとcross-attentionして特徴抽出する

Cross-attentionによる画像特徴抽出 • DETR [N. Carion+, 2020]では画像エンコーダで抽出した情報を Decoder側へcross-attentionのK, Vとして渡している。 •

BEVFormer (ECCV2022) • transformerを使って動的に画像特徴を抽出する仕組みを導入 • 学習・推論速度を高めるためにDeformable DETR[1]のdeformable attentionを取り入れた • temporal

Deformable Attention クエリ特徴 z q 画像のどこにアテンションするかヘッドごとにΔpを計算 W’ [1] Zhu,

BEVFormer v2 (CVPR 2023) - 画像backboneを透視画像に対して最適化しないと精度が上がらないことを指摘 - Perspective 3Dヘッドを新たに導入すること画像backboneが透視画像に対して最適化 -

BEVFormer v2: 実験結果 - 異なる画像backboneとヘッドの設定でnuScenes valデータセットの物体検出 - 画像backboneとしてはInternImageが最も優秀。画像バックボーンは重要！ -

BEVFormer v2: 実験結果 - nuScenes testデータセット(test)での物体検出精度の他手法との比較 - V2-99は他の3次元深度推定で事前学習されたもの。InternImageはCOOCで事前学習したのみ。 NDS: nuScenes

NuScenesでの物体検出(カメラのみ)の精度ランキング - 2022/11まではBEVFormer v2がトップだったが、2023/3にStreamPETRに追い抜かされている - StreamPETR[1]はPETR[2]を拡張して時系列情報を取り入れたモデル。 [1] Wang, Shihao, et

CVPR 2023, OpenLane Topology Challenge - Track1. OpenLane Topology Challengeでは道路上のレーンの中央線とトポロジーを予測する

PETR (ECCV 2022) - 2次元画像上のグリッドを3次元にマッピングし、その3次元座標点のPosition Embedding (PE)を作成 - PEとカメラ画像の特徴を足し合わせて、1次元上にflattenすることでKey, Valueとしてdecoderに挿入可能

CVPR 2023, Occupancy Prediction Challenge - 優勝チームの手法は LSSとBEVFormerのハイブリッド - LSSではスパースな傾向が得られるため、この結果を元に

他に読むべき資料 Teslaはカメラを使ってどのように世界を認識しているか → TeslaのBEV transformerについて詳細に解説されている https://speakerdeck.com/inoichan/teslahakamerawoshi-tutedonoyounishi-jie- woren-shi-siteiruka [CV関東3D勉強会] TPVFormer

Thank you