Upgrade to PRO for Only $50/Year—Limited-Time Offer! 🔥

[CV勉強会@関東 CVPR2023] 自動運転におけるBEVベース物体認識技術の進化

[CV勉強会@関東 CVPR2023] 自動運転におけるBEVベース物体認識技術の進化

7/23関東CV勉強会の資料です

kotaro_tanahashi

July 23, 2023
Tweet

More Decks by kotaro_tanahashi

Other Decks in Technology

Transcript

  1. Turing Inc, 棚橋 耕太郎, @tanahhh 自動運転におけるBEVベース物体認識技術の進化 担当論文: BEVFormer v2: Adapting

    Modern Image Backbones to Bird's-Eye-View Recognition via Perspective Supervision 関東CV勉強会 2023/7/23
  2. 自己紹介 略歴 2014年 CloudLaTeXを開発(会員6万人以上) 2015年 リクルート新卒入社。 DSPなどのアドテクのシステム開 発に従事 2017年 PyQUBOを開発

    (2023/7時点で85万ダウンロード) 2018年 IPA未踏ターゲット事業プロジェクトマネージャに就任 2020年 量子ソフトウェア研究会委員就任 2023年 Turingにジョイン。Brain Researchチームで完全自動 運転の研究開発を行っている。 Turing (株) 棚橋耕太郎, Brain Research所属
  3. PyrOccNet (CVPR2020) • 各カメラ画像に対して Dense Transformerを適用しBEV空間でのカテゴリを推論 • 異なるスケールの特徴を使って異なる奥行きに対する特徴を作成 • 個別に推論した結果を並べることで最終的な

    BEV全体での結果を得る (カメラごとに個別推論 ) T. Roddick and R. Cipolla, CVPR, 2020 複数のスケールから BEVを作成している。同じスケールから BEVを作ると、カメラから遠いグ リッドセルはぼやけて、近いところは歪みが生じてしまったとのこと。 perspective viewからBEVへの空間変換を行うために、一旦極座標 BEV特徴を 経由している。 ↓ attentionを使うtransformersではないので注意!
  4. LSS: Lift, Splat, Shoot (ECCV 2020) • Lift: 各ピクセルにおける特徴ベクトル cと予測したdepth(離散)の確率分布αの外積

    c⊗αを計算 • Splat: 格子状に配置した無限長の pillar(柱)にピクセルをマップし、畳み込みを行って BEV特徴を作成 • Shoot: BEV特徴を用いてmotion predictionなどのタスクを行う 決められた射影を用いずに End-to-endに透視画像からBEVの変換が行えるようになった!実装もシンプル! ただし、物体検出の精度はそこまで高くない
  5. BEVFormerの先駆け: TeslaのBEV Transformer • Tesla AI Day 2021にて、TransformerベースのBEV推論モデルが発表された • BEV上の位置埋め込みQが画像特徴K,Vとcross-attentionして特徴抽出する

    • これをきっかけにTransformerベースのモデルが多く開発されるようになった Tesla AI Day 2021, https://www.youtube.com/watch?v=j0z4FweCy4M
  6. Cross-attentionによる画像特徴抽出 • DETR [N. Carion+, 2020]では画像エンコーダで抽出した情報を Decoder側へcross-attentionのK, Vと して渡している。 •

    Decoderにおけるobject queriesは空の箱として機能し、 cross-attentionで画像から特徴を抽出して予測 クラスとBounding Boxを出力 → End-to-Endに物体検出モデルが作れる!
  7. Deformable Attention クエリ特徴 z q 画像のどこにアテンション するかヘッドごとにΔpを計算 W’ [1] Zhu,

    Xizhou, et al. ICLR. 2020. 注意重み: M:マルチヘッド数 K:注意サンプル数 (左の例だと3) W - cross-attentionにおいて、全データと重みを計算すると計算量が大きくなるので、Kサンプルのみから特徴を抽出する。 - 相互作用するサンプルはクエリの座標pからΔp離れた座標とする。Δpはクエリ特徴zから予測する。 画像特徴(K,V) x 注意重み A mqk 2次元参照点 学習する重み行列:
  8. BEVFormer v2 (CVPR 2023) - 画像backboneを透視画像に対して最適化しないと精度が上がらないことを指摘 - Perspective 3Dヘッドを新たに導入すること画像backboneが透視画像に対して最適化 -

    より現代的な画像backboneを採用することで認識精度が向上 3次元物体認識を行う ヘッドを導入(FCOS3D と類似) 3次元物体認識結果を BEV transformerの クエリ特徴に含めた より最適な画像バック ボーンを採用 過去のBEV特徴BtはRNNの ように逐次計算するのではな く、単にconcatする
  9. CVPR 2023, OpenLane Topology Challenge - Track1. OpenLane Topology Challengeでは道路上のレーンの中央線とトポロジーを予測する

    - 優勝した手法はPETR v2だった (PETRの開発者のチーム) - 画像backboneではViTを使うことで、ResNetやVOVに大きく差をつけた (バックボーン重要! ) https://opendatalab.com/OpenLane-V2 https://arxiv.org/pdf/2306.09590.pdf
  10. PETR (ECCV 2022) - 2次元画像上のグリッドを3次元にマッピングし、その3次元座標点のPosition Embedding (PE)を作成 - PEとカメラ画像の特徴を足し合わせて、1次元上にflattenすることでKey, Valueとしてdecoderに挿入可能

    2次元グリッドを 3次元グリッドに変換 (uj, vj)は画像上の座標 , djは深度 各カメラの座標系を世界座標に統一 チャンネル間、カメラ間での特徴を抽出
  11. CVPR 2023, Occupancy Prediction Challenge - 優勝チームの手法は LSSとBEVFormerのハイブリッド - LSSではスパースな傾向が得られるため、この結果を元に

    BEVFormerで高精度化している “FB-BEV provides a unified design that leverages both methods, promoting the benefits from each method with improved perception results while overcoming their limitations.’’ https://opendrivelab.com/e2ead/AD23Challenge/Track_3_NVOCC.pdf
  12. 他に読むべき資料 Teslaはカメラを使ってどのように世界を認識している か → TeslaのBEV transformerについて詳細に解説されている https://speakerdeck.com/inoichan/teslahakamerawoshi-tutedonoyounishi-jie- woren-shi-siteiruka [CV関東3D勉強会] TPVFormer

    ~マルチカメラを用い た自動運転の3D Occupancy Prediction~ → BEVベースのOccupancy predictionについての包括的なサーベイ https://speakerdeck.com/inoichan/cvguan-dong-3dmian-qiang-hui-tpvformer-m arutikamerawoyong-itazi-dong-yun-zhuan-3d-occupancy-prediction