Slide 1

Slide 1 text

Turing Inc, 棚橋 耕太郎, @tanahhh 自動運転におけるBEVベース物体認識技術の進化 担当論文: BEVFormer v2: Adapting Modern Image Backbones to Bird's-Eye-View Recognition via Perspective Supervision 関東CV勉強会 2023/7/23

Slide 2

Slide 2 text

自己紹介 略歴 2014年 CloudLaTeXを開発(会員6万人以上) 2015年 リクルート新卒入社。 DSPなどのアドテクのシステム開 発に従事 2017年 PyQUBOを開発 (2023/7時点で85万ダウンロード) 2018年 IPA未踏ターゲット事業プロジェクトマネージャに就任 2020年 量子ソフトウェア研究会委員就任 2023年 Turingにジョイン。Brain Researchチームで完全自動 運転の研究開発を行っている。 Turing (株) 棚橋耕太郎, Brain Research所属

Slide 3

Slide 3 text

Brain Research Team紹介 運転動画をLLMに説明させた結果 LLMを用いた自動運転技術についても研究を進めている。 大規模GPUクラスタも構築中! ABCI LLMハッカソン発表資料より

Slide 4

Slide 4 text

自動運転におけるBEV (Bird’s Eye View)の重要性 ● 車両を上から見たBird’s-Eye-Viewは車両の周囲をわかりやすく簡潔に表す方法であり、 BEVを正確に把 握することは高度な自動運転において非常に重要 ● 元々はLidarを用いて作成されていたが、近年はカメラベース手法の開発が活発 ● 3次元ボクセルに対する Occupancy予測も可能 [J. Houston+, 2020] https://github.com/CVPR2023-3D-Occupancy-Pre diction/CVPR2023-3D-Occupancy-Prediction

Slide 5

Slide 5 text

IPM (Inverse Perspective Mapping) ● IPM(逆透視マッピング)はカメラ画像をホモグラフィ変換(平面から平面への写像)によって BEV を作成する古典的な方法 ● カメラの位置やパラメータに敏感で、道路が全て平面上にあるという前提が崩れると強い歪みが 生じてうまく機能しない ● OpenCVのgetPerspectiveTransform(src, dst)を使うと変換行列が得られる https://towardsdatascience.com/a-hands-on-application-of-homography-ipm-18d9e47c152f

Slide 6

Slide 6 text

PyrOccNet (CVPR2020) ● 各カメラ画像に対して Dense Transformerを適用しBEV空間でのカテゴリを推論 ● 異なるスケールの特徴を使って異なる奥行きに対する特徴を作成 ● 個別に推論した結果を並べることで最終的な BEV全体での結果を得る (カメラごとに個別推論 ) T. Roddick and R. Cipolla, CVPR, 2020 複数のスケールから BEVを作成している。同じスケールから BEVを作ると、カメラから遠いグ リッドセルはぼやけて、近いところは歪みが生じてしまったとのこと。 perspective viewからBEVへの空間変換を行うために、一旦極座標 BEV特徴を 経由している。 ↓ attentionを使うtransformersではないので注意!

Slide 7

Slide 7 text

LSS: Lift, Splat, Shoot (ECCV 2020) ● Lift: 各ピクセルにおける特徴ベクトル cと予測したdepth(離散)の確率分布αの外積 c⊗αを計算 ● Splat: 格子状に配置した無限長の pillar(柱)にピクセルをマップし、畳み込みを行って BEV特徴を作成 ● Shoot: BEV特徴を用いてmotion predictionなどのタスクを行う 決められた射影を用いずに End-to-endに透視画像からBEVの変換が行えるようになった!実装もシンプル! ただし、物体検出の精度はそこまで高くない

Slide 8

Slide 8 text

BEVFormerの先駆け: TeslaのBEV Transformer ● Tesla AI Day 2021にて、TransformerベースのBEV推論モデルが発表された ● BEV上の位置埋め込みQが画像特徴K,Vとcross-attentionして特徴抽出する ● これをきっかけにTransformerベースのモデルが多く開発されるようになった Tesla AI Day 2021, https://www.youtube.com/watch?v=j0z4FweCy4M

Slide 9

Slide 9 text

Cross-attentionによる画像特徴抽出 ● DETR [N. Carion+, 2020]では画像エンコーダで抽出した情報を Decoder側へcross-attentionのK, Vと して渡している。 ● Decoderにおけるobject queriesは空の箱として機能し、 cross-attentionで画像から特徴を抽出して予測 クラスとBounding Boxを出力 → End-to-Endに物体検出モデルが作れる!

Slide 10

Slide 10 text

Cross-attentionによる画像特徴抽出 ● DETRにおけるobject queryをBEV queryに拡張したものがTeslaのBEV transformerと見ることが可能 ● ただし、厳密にcross-attentionを計算すると非常に時間がかかる https://towardsdatascience.com/monocular-bev-perception-with-transformers-in-autonomous-driving-c41e4a893944

Slide 11

Slide 11 text

BEVFormer (ECCV2022) ● transformerを使って動的に画像特徴を抽出する仕組みを導入 ● 学習・推論速度を高めるためにDeformable DETR[1]のdeformable attentionを取り入れた ● temporal self-attentionにより時系列情報を考慮可能とし、速度情報やOcclusion問題に対処 [1] Zhu, Xizhou, et al. ICLR. 2020.

Slide 12

Slide 12 text

BEVFormerの全体構造 BEV空間に格子状に配置され たクエリ特徴(学習される) マルチカメラの情報はcross-attentionで取り込まれる 効率的に処理するためにdeformable attentionを3次元に 拡張したspatial cross-attentionが使われている 時系列情報を取り入れるために temporal self-attentionを導入

Slide 13

Slide 13 text

Deformable Attention クエリ特徴 z q 画像のどこにアテンション するかヘッドごとにΔpを計算 W’ [1] Zhu, Xizhou, et al. ICLR. 2020. 注意重み: M:マルチヘッド数 K:注意サンプル数 (左の例だと3) W - cross-attentionにおいて、全データと重みを計算すると計算量が大きくなるので、Kサンプルのみから特徴を抽出する。 - 相互作用するサンプルはクエリの座標pからΔp離れた座標とする。Δpはクエリ特徴zから予測する。 画像特徴(K,V) x 注意重み A mqk 2次元参照点 学習する重み行列:

Slide 14

Slide 14 text

Spatial Cross-Attention - Spatial Cross-AttentionではDeformable Attentionにおける参照座標pを、空間上の点pから二次元画像への射影として、変換 P(p,i,j)によって求めている。射影変換はカメラパラメータを用いて記述できる。 Deformable attention Spatial cross-attention T i : カメラから2次元への射影行列 3次元参照点 2次元への射影

Slide 15

Slide 15 text

BEVFormer v2 (CVPR 2023) - 画像backboneを透視画像に対して最適化しないと精度が上がらないことを指摘 - Perspective 3Dヘッドを新たに導入すること画像backboneが透視画像に対して最適化 - より現代的な画像backboneを採用することで認識精度が向上 3次元物体認識を行う ヘッドを導入(FCOS3D と類似) 3次元物体認識結果を BEV transformerの クエリ特徴に含めた より最適な画像バック ボーンを採用 過去のBEV特徴BtはRNNの ように逐次計算するのではな く、単にconcatする

Slide 16

Slide 16 text

BEVFormer v2: 実験結果 - 異なる画像backboneとヘッドの設定でnuScenes valデータセットの物体検出 - 画像backboneとしてはInternImageが最も優秀。 画像バックボーンは重要! - BEV onlyよりもPerspective3Dヘッドを取り付けたほうが良い結果! NDS: nuScenes Detection Score

Slide 17

Slide 17 text

BEVFormer v2: 実験結果 - nuScenes testデータセット(test)での物体検出精度の他手法との比較 - V2-99は他の3次元深度推定で事前学習されたもの。InternImageはCOOCで事前学習したのみ。 NDS: nuScenes Detection Score

Slide 18

Slide 18 text

NuScenesでの物体検出(カメラのみ)の精度ランキング - 2022/11まではBEVFormer v2がトップだったが、2023/3にStreamPETRに追い抜かされている - StreamPETR[1]はPETR[2]を拡張して時系列情報を取り入れたモデル。 [1] Wang, Shihao, et al. arXiv preprint arXiv:2303.11926 (2023). [2] Liu, Yingfei, et al. ECCV, 2022.

Slide 19

Slide 19 text

CVPR 2023, OpenLane Topology Challenge - Track1. OpenLane Topology Challengeでは道路上のレーンの中央線とトポロジーを予測する - 優勝した手法はPETR v2だった (PETRの開発者のチーム) - 画像backboneではViTを使うことで、ResNetやVOVに大きく差をつけた (バックボーン重要! ) https://opendatalab.com/OpenLane-V2 https://arxiv.org/pdf/2306.09590.pdf

Slide 20

Slide 20 text

PETR (ECCV 2022) - 2次元画像上のグリッドを3次元にマッピングし、その3次元座標点のPosition Embedding (PE)を作成 - PEとカメラ画像の特徴を足し合わせて、1次元上にflattenすることでKey, Valueとしてdecoderに挿入可能 2次元グリッドを 3次元グリッドに変換 (uj, vj)は画像上の座標 , djは深度 各カメラの座標系を世界座標に統一 チャンネル間、カメラ間での特徴を抽出

Slide 21

Slide 21 text

CVPR 2023, Occupancy Prediction Challenge - 優勝チームの手法は LSSとBEVFormerのハイブリッド - LSSではスパースな傾向が得られるため、この結果を元に BEVFormerで高精度化している “FB-BEV provides a unified design that leverages both methods, promoting the benefits from each method with improved perception results while overcoming their limitations.’’ https://opendrivelab.com/e2ead/AD23Challenge/Track_3_NVOCC.pdf

Slide 22

Slide 22 text

他に読むべき資料 Teslaはカメラを使ってどのように世界を認識している か → TeslaのBEV transformerについて詳細に解説されている https://speakerdeck.com/inoichan/teslahakamerawoshi-tutedonoyounishi-jie- woren-shi-siteiruka [CV関東3D勉強会] TPVFormer ~マルチカメラを用い た自動運転の3D Occupancy Prediction~ → BEVベースのOccupancy predictionについての包括的なサーベイ https://speakerdeck.com/inoichan/cvguan-dong-3dmian-qiang-hui-tpvformer-m arutikamerawoyong-itazi-dong-yun-zhuan-3d-occupancy-prediction

Slide 23

Slide 23 text

ML Engineer/Researcher、Software Developer募集中!! ● レベル5自動運転技術を研究開発するリサーチャー、研究用のデータ基盤を構築するデータエンジニア、学習 基盤であるGPUクラスタ環境を整備するインフラエンジニアを募集しています ! ● 東京にオフィス移転予定です!

Slide 24

Slide 24 text

Thank you