[CV勉強会@関東 CVPR2023] 自動運転におけるBEVベース物体認識技術の進化

Slide 1

Slide 1 text

Turing Inc, 棚橋耕太郎, @tanahhh 自動運転におけるBEVベース物体認識技術の進化担当論文: BEVFormer v2: Adapting Modern Image Backbones to Bird's-Eye-View Recognition via Perspective Supervision 関東CV勉強会 2023/7/23

Slide 2

Slide 2 text

自己紹介略歴 2014年 CloudLaTeXを開発（会員6万人以上） 2015年リクルート新卒入社。 DSPなどのアドテクのシステム開発に従事 2017年 PyQUBOを開発 (2023/7時点で85万ダウンロード) 2018年 IPA未踏ターゲット事業プロジェクトマネージャに就任 2020年量子ソフトウェア研究会委員就任 2023年 Turingにジョイン。Brain Researchチームで完全自動運転の研究開発を行っている。 Turing (株) 棚橋耕太郎, Brain Research所属

Slide 3

Slide 3 text

Brain Research Team紹介運転動画をLLMに説明させた結果 LLMを用いた自動運転技術についても研究を進めている。大規模GPUクラスタも構築中！ ABCI LLMハッカソン発表資料より

Slide 4

Slide 4 text

自動運転におけるBEV (Bird’s Eye View)の重要性 ● 車両を上から見たBird’s-Eye-Viewは車両の周囲をわかりやすく簡潔に表す方法であり、 BEVを正確に把握することは高度な自動運転において非常に重要 ● 元々はLidarを用いて作成されていたが、近年はカメラベース手法の開発が活発 ● 3次元ボクセルに対する Occupancy予測も可能 [J. Houston+, 2020] https://github.com/CVPR2023-3D-Occupancy-Pre diction/CVPR2023-3D-Occupancy-Prediction

Slide 5

Slide 5 text

IPM (Inverse Perspective Mapping) ● IPM（逆透視マッピング）はカメラ画像をホモグラフィ変換（平面から平面への写像）によって BEV を作成する古典的な方法 ● カメラの位置やパラメータに敏感で、道路が全て平面上にあるという前提が崩れると強い歪みが生じてうまく機能しない ● OpenCVのgetPerspectiveTransform(src, dst)を使うと変換行列が得られる https://towardsdatascience.com/a-hands-on-application-of-homography-ipm-18d9e47c152f

Slide 6

Slide 6 text

PyrOccNet (CVPR2020) ● 各カメラ画像に対して Dense Transformerを適用しBEV空間でのカテゴリを推論 ● 異なるスケールの特徴を使って異なる奥行きに対する特徴を作成 ● 個別に推論した結果を並べることで最終的な BEV全体での結果を得る (カメラごとに個別推論 ) T. Roddick and R. Cipolla, CVPR, 2020 複数のスケールから BEVを作成している。同じスケールから BEVを作ると、カメラから遠いグリッドセルはぼやけて、近いところは歪みが生じてしまったとのこと。 perspective viewからBEVへの空間変換を行うために、一旦極座標 BEV特徴を経由している。 ↓ attentionを使うtransformersではないので注意！

Slide 7

Slide 7 text

LSS: Lift, Splat, Shoot (ECCV 2020) ● Lift: 各ピクセルにおける特徴ベクトル cと予測したdepth(離散)の確率分布αの外積 c⊗αを計算 ● Splat: 格子状に配置した無限長の pillar（柱）にピクセルをマップし、畳み込みを行って BEV特徴を作成 ● Shoot: BEV特徴を用いてmotion predictionなどのタスクを行う決められた射影を用いずに End-to-endに透視画像からBEVの変換が行えるようになった！実装もシンプル！ただし、物体検出の精度はそこまで高くない

Slide 8

Slide 8 text

BEVFormerの先駆け: TeslaのBEV Transformer ● Tesla AI Day 2021にて、TransformerベースのBEV推論モデルが発表された ● BEV上の位置埋め込みQが画像特徴K,Vとcross-attentionして特徴抽出する ● これをきっかけにTransformerベースのモデルが多く開発されるようになった Tesla AI Day 2021, https://www.youtube.com/watch?v=j0z4FweCy4M

Slide 9

Slide 9 text

Cross-attentionによる画像特徴抽出 ● DETR [N. Carion+, 2020]では画像エンコーダで抽出した情報を Decoder側へcross-attentionのK, Vとして渡している。 ● Decoderにおけるobject queriesは空の箱として機能し、 cross-attentionで画像から特徴を抽出して予測クラスとBounding Boxを出力 → End-to-Endに物体検出モデルが作れる！

Slide 10

Slide 10 text

Cross-attentionによる画像特徴抽出 ● DETRにおけるobject queryをBEV queryに拡張したものがTeslaのBEV transformerと見ることが可能 ● ただし、厳密にcross-attentionを計算すると非常に時間がかかる https://towardsdatascience.com/monocular-bev-perception-with-transformers-in-autonomous-driving-c41e4a893944

Slide 11

Slide 11 text

BEVFormer (ECCV2022) ● transformerを使って動的に画像特徴を抽出する仕組みを導入 ● 学習・推論速度を高めるためにDeformable DETR[1]のdeformable attentionを取り入れた ● temporal self-attentionにより時系列情報を考慮可能とし、速度情報やOcclusion問題に対処 [1] Zhu, Xizhou, et al. ICLR. 2020.

Slide 12

Slide 12 text

BEVFormerの全体構造 BEV空間に格子状に配置されたクエリ特徴（学習される）マルチカメラの情報はcross-attentionで取り込まれる効率的に処理するためにdeformable attentionを3次元に拡張したspatial cross-attentionが使われている時系列情報を取り入れるために temporal self-attentionを導入

Slide 13

Slide 13 text

Deformable Attention クエリ特徴 z q 画像のどこにアテンションするかヘッドごとにΔpを計算 W’ [1] Zhu, Xizhou, et al. ICLR. 2020. 注意重み: M：マルチヘッド数 K：注意サンプル数 (左の例だと3) W - cross-attentionにおいて、全データと重みを計算すると計算量が大きくなるので、Kサンプルのみから特徴を抽出する。 - 相互作用するサンプルはクエリの座標pからΔp離れた座標とする。Δpはクエリ特徴zから予測する。画像特徴(K,V) x 注意重み A mqk ２次元参照点学習する重み行列:

Slide 14

Slide 14 text

Spatial Cross-Attention - Spatial Cross-AttentionではDeformable Attentionにおける参照座標pを、空間上の点pから二次元画像への射影として、変換 P(p,i,j)によって求めている。射影変換はカメラパラメータを用いて記述できる。 Deformable attention Spatial cross-attention T i : カメラから2次元への射影行列 3次元参照点 2次元への射影

Slide 15

Slide 15 text

BEVFormer v2 (CVPR 2023) - 画像backboneを透視画像に対して最適化しないと精度が上がらないことを指摘 - Perspective 3Dヘッドを新たに導入すること画像backboneが透視画像に対して最適化 - より現代的な画像backboneを採用することで認識精度が向上 3次元物体認識を行うヘッドを導入(FCOS3D と類似) 3次元物体認識結果を BEV transformerのクエリ特徴に含めたより最適な画像バックボーンを採用過去のBEV特徴BtはRNNのように逐次計算するのではなく、単にconcatする

Slide 16

Slide 16 text

BEVFormer v2: 実験結果 - 異なる画像backboneとヘッドの設定でnuScenes valデータセットの物体検出 - 画像backboneとしてはInternImageが最も優秀。画像バックボーンは重要！ - BEV onlyよりもPerspective3Dヘッドを取り付けたほうが良い結果！ NDS: nuScenes Detection Score

Slide 17

Slide 17 text

BEVFormer v2: 実験結果 - nuScenes testデータセット(test)での物体検出精度の他手法との比較 - V2-99は他の3次元深度推定で事前学習されたもの。InternImageはCOOCで事前学習したのみ。 NDS: nuScenes Detection Score

Slide 18

Slide 18 text

NuScenesでの物体検出(カメラのみ)の精度ランキング - 2022/11まではBEVFormer v2がトップだったが、2023/3にStreamPETRに追い抜かされている - StreamPETR[1]はPETR[2]を拡張して時系列情報を取り入れたモデル。 [1] Wang, Shihao, et al. arXiv preprint arXiv:2303.11926 (2023). [2] Liu, Yingfei, et al. ECCV, 2022.

Slide 19

Slide 19 text

CVPR 2023, OpenLane Topology Challenge - Track1. OpenLane Topology Challengeでは道路上のレーンの中央線とトポロジーを予測する - 優勝した手法はPETR v2だった (PETRの開発者のチーム) - 画像backboneではViTを使うことで、ResNetやVOVに大きく差をつけた (バックボーン重要！ ) https://opendatalab.com/OpenLane-V2 https://arxiv.org/pdf/2306.09590.pdf

Slide 20

Slide 20 text

PETR (ECCV 2022) - 2次元画像上のグリッドを3次元にマッピングし、その3次元座標点のPosition Embedding (PE)を作成 - PEとカメラ画像の特徴を足し合わせて、1次元上にflattenすることでKey, Valueとしてdecoderに挿入可能 2次元グリッドを 3次元グリッドに変換 (uj, vj)は画像上の座標 , djは深度各カメラの座標系を世界座標に統一チャンネル間、カメラ間での特徴を抽出

Slide 21

Slide 21 text

CVPR 2023, Occupancy Prediction Challenge - 優勝チームの手法は LSSとBEVFormerのハイブリッド - LSSではスパースな傾向が得られるため、この結果を元に BEVFormerで高精度化している “FB-BEV provides a unified design that leverages both methods, promoting the benefits from each method with improved perception　results while overcoming their limitations.’’ https://opendrivelab.com/e2ead/AD23Challenge/Track_3_NVOCC.pdf

Slide 22

Slide 22 text

他に読むべき資料 Teslaはカメラを使ってどのように世界を認識しているか → TeslaのBEV transformerについて詳細に解説されている https://speakerdeck.com/inoichan/teslahakamerawoshi-tutedonoyounishi-jie- woren-shi-siteiruka [CV関東3D勉強会] TPVFormer ~マルチカメラを用いた自動運転の3D Occupancy Prediction~ → BEVベースのOccupancy predictionについての包括的なサーベイ https://speakerdeck.com/inoichan/cvguan-dong-3dmian-qiang-hui-tpvformer-m arutikamerawoyong-itazi-dong-yun-zhuan-3d-occupancy-prediction

Slide 23

Slide 23 text

ML Engineer/Researcher、Software Developer募集中!! ● レベル5自動運転技術を研究開発するリサーチャー、研究用のデータ基盤を構築するデータエンジニア、学習基盤であるGPUクラスタ環境を整備するインフラエンジニアを募集しています ! ● 東京にオフィス移転予定です！

Slide 24

Slide 24 text

Thank you