$30 off During Our Annual Pro Sale. View Details »

Teslaはカメラを使ってどのように世界を認識しているか

Inoichan
September 30, 2022

 Teslaはカメラを使ってどのように世界を認識しているか

TURINGの社内AI勉強会で発表した資料です。
Tesla AI Day 2021で紹介されたTesla車に搭載されているマルチカメラを用いた認識モデルの紹介と、それに関連しそうな論文の紹介をしています。

Inoichan

September 30, 2022
Tweet

More Decks by Inoichan

Other Decks in Research

Transcript

  1. Teslaはカメラを使ってどのように世界を認識しているか ~~Survey: Bird’s Eye View model~~ 2022. 9. 30 井ノ上雄一

  2. CONFIDENTIAL COMPANY PROFILE - Teslaの 空 間 認 識 モデル

    2021年に行われたTesla AI Dayで紹介されたModelについて簡単に紹介します。 - Teslaっぽいモデルを 作 るための 論 文 紹 介 鳥瞰図(Bird's eye view, BEV)を生成するようなモデルの論文を紹介します。    *TURINGの社内AI勉強会で紹介したときの資料です。 Outline Section 00 - 00 井ノ上 雄一 エンジニア@TURING Twitter: https://twitter.com/inoichan Github: https://github.com/Ino-Ichan Kaggle: https://www.kaggle.com/inoueu1 Linkedin: https://www.linkedin.com/in/inoichan
  3. CONFIDENTIAL COMPANY PROFILE TeslaのFull self driving βを動かしている動画。このUIに出てくる線とか車とか、どういうAIモデル で認識してるのかを今日は紹介します。すごいのでぜひ一度見てください。 Link:https://www.youtube.com/watch?v=_ZYEjYnmPlA

  4. CONFIDENTIAL COMPANY PROFILE Tesla AI Day • 技術的に大きな躍進が合った時に開かれ るTesla dayのAI版

    • 2021/8/20に開催。 Link:https://www.youtube.com/watch?v=j0z4FweCy4M&t=3355s Section 00 - 00
  5. CONFIDENTIAL COMPANY PROFILE Single imageではFSDは無理 • マルチタスクにしたぜ、ウェイ!からモデルの紹介は始 まる。ここは技術紹介の中では新規性も重要度も少し 低めだけど、今後のベースとしてちゃんと紹介してくれ てる。

    Section 00 - 00
  6. CONFIDENTIAL COMPANY PROFILE Single imageではFSDは無理 • ただしSingle imageによる推論だけではFull self driving

    (FSD)には足りない。 Section 00 - 00
  7. CONFIDENTIAL COMPANY PROFILE Multicameraで空間認識する難しさ • Multi cameraを使ってOccupancy trackerという画像空間 を直接BEVにするようなソフトを開発したが 1.

    パラメタチューニングが難しい 2. 画像空間と出力空間を正確に合わせるの難しい Section 00 - 00
  8. CONFIDENTIAL COMPANY PROFILE Multicameraの物体検出の難しさ Section 00 - 00 • Multi

    cameraを使ってOccupancy trackerという画像空間 を直接BEVにするようなソフトを開発したが 1. パラメタチューニングが難しい 2. 画像空間と出力空間を正確に合わせるの難しい • 複数のカメラで認識された一つの物体をちゃんと一つのも のとして結合させるの難しい。
  9. CONFIDENTIAL COMPANY PROFILE BEVに簡単には投写できない • 画像空間をBEV空間にマッピングは直接はできない。 (道の傾斜などによってずれる) Section 00 -

    00
  10. CONFIDENTIAL COMPANY PROFILE Transformerを用いて画像→BEV変換の効率化 • Transformerの構造を用いることで画像空間→BEV空 間の変換が効率良く行われることがわかった。 動画ではOutput spaceのRasterをあらかじめInitialize してと言っており、BEV空間の特徴マップと画像空間の

    特徴マップでCross-attentionをしていると考えられる。 Section 00 - 00
  11. CONFIDENTIAL COMPANY PROFILE • Transformerの構造を用いることで画像空間→BEV空 間の変換が効率良く行われることがわかった。 動画ではOutput spaceのRasterをあらかじめInitialize してと言っており、BEV空間の特徴マップと画像空間の 特徴マップでCross-attentionをしていると考えられる。

    Section 00 - 00 Transformerを用いて画像→BEV変換の効率化
  12. CONFIDENTIAL COMPANY PROFILE • 物体検出の結果も改善した。シングルカメラのオレンジ に比べ、Transformerでマルチカメラの情報を統合した モデルでは1つの車を1つの車として認識できている。 Section 00 -

    00 Transformerを用いて画像→BEV変換の効率化
  13. CONFIDENTIAL COMPANY PROFILE • 時系列情報を入れる。交差点などで前方を車が横切っ たときに向こう側が一時的に見えなくなるが、そのとき 時系列情報を使えば予測できる。 • 時間情報だけでは車線情報などの空間情報を伝えき れない。時系列でかつ空間情報が必要。

    Spatial-Temporal feature →3D conv? Transformer? RNN Section 00 - 00 時空間情報が必要
  14. CONFIDENTIAL COMPANY PROFILE Spatial RNN • Spatial RNNがいい感じだった。 車の近傍のピクセルを、ピクセル単位でRNNにかけて いく。

    Section 00 - 00
  15. CONFIDENTIAL COMPANY PROFILE • Spatial RNNの出力ベクトルをチャンネルごとに活性化 状態を可視化したもの。道路に沿ってチャンネルが活 性化しているのがわかる。 (映像で見るともっとイメージしやすいよ!) Section

    00 - 00 Spatial RNNが世界を認識している様子
  16. CONFIDENTIAL COMPANY PROFILE 時空間情報を考慮したモデルの性能 • いいやん! Section 00 - 00

  17. CONFIDENTIAL COMPANY PROFILE • Spatial RNNを使うことで車が前方を横切った時、その車 の向こう側にある車も正しく認識できるようになった。 もともとその2台は見えていたので、時間情報を使うことで 別の車に遮られた後も継続して認識できてる! Section

    00 - 00 この車の向こう側に 2台車がある。 時空間情報を考慮したモデルの性能
  18. CONFIDENTIAL COMPANY PROFILE TeslaのNeural Networkの全体図 Section 00 - 00

  19. CONFIDENTIAL COMPANY PROFILE 【関連しそうな論文たち】 Section 00 - 00

  20. CONFIDENTIAL COMPANY PROFILE DETR (arX 2020) BEVモデルの紹介の前に画像の分野にCross-attentionを導入した超重要論文。 Object queriesという形でQueryを用意し、CNN->Transformer encoderにかけたembeddingとCross-attentionしている。Metaに

    よって提案され、引用件数は3,000以上。 このCross-attentionがBEVのタスクでも鍵となりそう(Teslaのモデルでも使われてる)。 Section 00 - 00
  21. CONFIDENTIAL COMPANY PROFILE Mono Semantic Occupancy (RAL 2018) Encoder-Decoderのアーキテクチャを利用してEnd-to-endに学習させた初めての論文。 愚直にやるとこんな感じになるのかという印象。(U-Netですらない)

    Section 00 - 00
  22. CONFIDENTIAL COMPANY PROFILE Mono Semantic Occupancy (RAL 2018) 開けた平らな道なら予想できなくはなさそうだが、道の状況が複雑になってきたり車などがいっ ぱい写ってくると厳しそうな感じ。まさに初手という感じの論文。

    Section 00 - 00
  23. CONFIDENTIAL COMPANY PROFILE Learning to Look around Objects (ECCV 2018)

    SegmentationをDepth estimationとカメラパラメータを使ってBEV空間にマッピングする。さらにそれをRefineするようなCNNを作 成してBEVの精度をあげている。 面白いのはSegmentationとDepth estimationを学習させる時、車や歩行者のような遮蔽物としてランダムマスクを用いた学習を 行い、カメラからは見えない向こう側の領域をうまく学習させようとしているとこ。 Section 00 - 00
  24. CONFIDENTIAL COMPANY PROFILE Learning to Look around Objects (ECCV 2018)

    KITTIのデータセットでの結果 境界とかは結構ぼやっと出てる。 Section 00 - 00
  25. CONFIDENTIAL COMPANY PROFILE VPN (RAL 2020) 複数のカメラの入力をSegmentatino空間に落と し込み、View Parsing Network(VPN)でMLPを

    用いてBEV空間にマップしている。 シミュレーションのデータを使ってDomain adaptationで精度をあげようと試みているところも 面白い。 Section 00 - 00
  26. CONFIDENTIAL COMPANY PROFILE VPN (RAL 2020) きれいなBEV予測を行うのは難しいんだなという印象... Section 00 -

    00
  27. CONFIDENTIAL COMPANY PROFILE Lift, Splat, Shoot (ECCV 2020) マルチカメラの画像それぞれにCNNを個別に適応した初めての論文。 各カメラ画像から抽出した特徴量にDepth

    distributionという深さに関する情報を適応する(Lift)。カメラパラメータを用いてBEV空 間にそれらのベクトルを割り当てて(Splat)、ロードセグメンテーションやモーションプランニングといった下流のタスクに使用する (Shoot)。 Section 00 - 00
  28. CONFIDENTIAL COMPANY PROFILE Lift, Splat, Shoot (ECCV 2020) Section 00

    - 00 近い部分は少しきれいになってきている...!
  29. CONFIDENTIAL COMPANY PROFILE PYVA (CVPR 2021) Image to BEVで初めてBEV空間と画像空間でのCross-attentionを明示的に使用した論文。 BEV空間の特徴量であるX'をQuery、Encoderから抽出された画像空間の特徴量XをKey、X'から今一度画像空間に戻したX''を

    ValueとしたBEV空間特徴と画像空間特徴のCross-attention構造。 Section 00 - 00
  30. CONFIDENTIAL COMPANY PROFILE PYVA (CVPR 2021) Section 00 - 00

    簡単な道だと予測できるようになってきてる。
  31. CONFIDENTIAL COMPANY PROFILE NEAT (ICCV 2021) Image to BEVでTransformerを使っているわけではないが、MLPでAttentionを計算している。 Neural

    Attention Field (NEAT)moduleを2回繰り返している。実質、一回目がBEV空間への射影で、2周目でCross-attention的 な役割を果たしている? Section 00 - 00
  32. CONFIDENTIAL COMPANY PROFILE NEAT (ICCV 2021) Section 00 - 00

    (シミュレーションだけなのでなんとも。)
  33. CONFIDENTIAL COMPANY PROFILE STSU (ICCV 2021) センターライン用と物体用の2つのQueryを用意してCross-attentionを行っている。 センターラインの出力にいろいろ工夫を施している。 Section 00

    - 00
  34. CONFIDENTIAL COMPANY PROFILE STSU (ICCV 2021) Section 00 - 00

    白色が道の中心を表している。セグメンテーションよりもスマートな感じはある。
  35. CONFIDENTIAL COMPANY PROFILE DETR3D (CoRL 2021) Object Queryを画像空間に投写して、Object queryをリファインメントしている。 BEV

    segmentationはしていないが、Object queryはBEV空間の情報を持っている。Cross-attentionではないが、画像空間から 返ってきたベクトルたちでSelf-attentionしているので、雰囲気は近い。 BEV Segmentationはしてないが、3D空間と2D空間をCross-attentionでつないでおり、重要な論文。 Section 00 - 00
  36. CONFIDENTIAL COMPANY PROFILE Cross View Transformers (CVPR 2022) Teslaっぽい。BEVのQueryを用意して画像空間の特徴量とCross-attentionしている。 CNNから抽出した複数のscaleの特徴マップを順にCross

    attentionしながらQueryを更新していってる。とてもシンプルな構造なが ら精度も良さそう。 Section 00 - 00
  37. CONFIDENTIAL COMPANY PROFILE Transformerを用いて画像→鳥瞰図変換の効率化 • Transformerの構造を用いることで空間の情報の変換 が効率良く行われることがわかった。 TeslaのモデルはBEV空間のQueryベクトルをあらかじ め作って、マルチカメラで取得した特徴マップと Cross-attentionしてるのでかなり近い。

    Section 00 - 00 (再掲)
  38. CONFIDENTIAL COMPANY PROFILE Cross View Transformers (CVPR 2022) Section 00

    - 00 結果もかなり良さそう! Pred GT
  39. CONFIDENTIAL COMPANY PROFILE BEVSegFormer (CoRR 2022) BEVのQueryを用意して画像空間の特徴量とCross-attentionしている。この論文の特徴は、画像空間の全特徴量と Cross-attentionをすると非常に計算が多くなるので、Deformable Attentionを使って関係ありそうなところを効率よく Cross-attentionに加えている。

    Section 00 - 00
  40. CONFIDENTIAL COMPANY PROFILE BEVSegFormer (CoRR 2022) Section 00 - 00

    良い感じ!!!
  41. CONFIDENTIAL COMPANY PROFILE BEVFormer (CVPR workshop and ECCV 2022) BEVSegFormerに時系列を考慮するためにTemporal

    Self-Attentionを追加した。 Temporal Self-AttentionもDeformable Attentionを利用しており、TeslaのSpatial RNNに近い。CVPR 2022のWaymoの Workshopで優勝しているので実際にちゃんと精度が出てる。 Section 00 - 00
  42. CONFIDENTIAL COMPANY PROFILE BEVFormer (CVPR workshop and ECCV 2022) Section

    00 - 00 BEV Segmentationに加えて車の検出や白線の 検出もかなり良くなっている印象。
  43. CONFIDENTIAL COMPANY PROFILE A Simple Baseline for BEV Perception (arXive

    2022) 画像からCNNで得られた特徴量をBEV空間に直接投写して、さらにCNNでBEV特徴量を得ているのが特徴。CNNから得た中 間特徴を投写してさらにCNNにかけることによってうまくBEV空間にもっていってる。 Simple Baselineという煽った名前つけてるのも好き。(Waymoのコンペで優勝したBEVFormerよりも良いので煽りレベル高 い。) Section 00 - 00
  44. CONFIDENTIAL COMPANY PROFILE A Simple Baseline for BEV Perception (arXive

    2022) Section 00 - 00 Segmentationがかなりきれいにできているし、物体の検出も見える範囲は特に きれい。煽ってるだけある。
  45. CONFIDENTIAL COMPANY PROFILE まとめ ❖ BEVのSegmentationもTransformerの機構が有効。 ❖ マルチカメラをうまくBEV空間に持っていけばけっこう強そう。 ❖ ただし実車で推論するとこまで考慮して精度出せてるの

    Teslaだけかも。 Section 00 - 00
  46. CONFIDENTIAL COMPANY PROFILE まとめ ❖ BEVのSegmentationもTransformerの機構が有効。 ❖ マルチカメラをうまくBEV空間に持っていけばけっこう強そう。 ❖ ただし実車で推論するとこまで考慮して精度出せてるの

    Teslaだけかも。 ➢ Teslaがやってるのコレだけ??? Section 00 - 00
  47. CONFIDENTIAL COMPANY PROFILE [CVPR'22 WAD] Keynote - Ashok Elluswamy, Tesla

    Section 00 - 00 Director of Autopilot Autopilot teamの立ち上げメンバー ドン引きするくらいすごい ...
  48. CONFIDENTIAL COMPANY PROFILE [CVPR'22 WAD] Keynote - Ashok Elluswamy, Tesla

    Section 00 - 00 画像から3D空間にしてリアルタイムでいろんな課題を解いている。
  49. CONFIDENTIAL COMPANY PROFILE [CVPR'22 WAD] Keynote - Ashok Elluswamy, Tesla

    Section 00 - 00 画像から3D空間にしてリアルタイムでいろんな課題を解いている。
  50. CONFIDENTIAL COMPANY PROFILE まとめ ❖ BEVのSegmentationもTransformerの機構が有効。 ❖ マルチカメラをうまくBEV空間に持っていけばけっこう強そう。 ❖ ただし実車で推論するとこまで考慮して精度出せてるの

    Teslaだけかも。 ➢ Teslaがやってるのコレだけ??? →まだまだすごいこといろいろやってそう!今後の発表にも期待! Section 00 - 00
  51. CONFIDENTIAL COMPANY PROFILE 参考文献 • Tesla AI Day:link • Tesla

    AI Day【翻訳レポート】過去 10年で最も素晴らしい AIプレゼンテーションのひとつ: link • Monocular BEV Perception with Transformers in Autonomous Driving:link • Monocular Bird’s-Eye-View Semantic Segmentation for Autonomous Driving:link • Carion, Nicolas, Francisco Massa, Gabriel Synnaeve, Nicolas Usunier, Alexander Kirillov, and Sergey Zagoruyko. 2020. “End-to-End Object Detection with Transformers.” arXiv [cs.CV]. arXiv. http://arxiv.org/abs/2005.12872. • Schulter, Samuel, Menghua Zhai, Nathan Jacobs, and Manmohan Chandraker. 2018. “Learning to Look around Objects for Top-View Representations of Outdoor Scenes.” arXiv [cs.CV]. arXiv. http://arxiv.org/abs/1803.10870. • Lu, Chenyang, Marinus Jacobus Gerardus van de Molengraft, and Gijs Dubbelman. 2018. “Monocular Semantic Occupancy Grid Mapping with Convolutional Variational Encoder-Decoder Networks.” arXiv [cs.RO]. arXiv. http://arxiv.org/abs/1804.02176. • Pan, Bowen, Jiankai Sun, Ho Yin Tiga Leung, Alex Andonian, and Bolei Zhou. 2019. “Cross-View Semantic Segmentation for Sensing Surroundings.” arXiv [cs.CV]. arXiv. http://arxiv.org/abs/1906.03560. • Philion, Jonah, and Sanja Fidler. 2020. “Lift, Splat, Shoot: Encoding Images From Arbitrary Camera Rigs by Implicitly Unprojecting to 3D.” arXiv [cs.CV]. arXiv. http://arxiv.org/abs/2008.05711. • Yang, Weixiang, Qi Li, Wenxi Liu, Yuanlong Yu, Yuexin Ma, Shengfeng He, and Jia Pan. n.d. “Projecting Your View Attentively: Monocular Road Scene Layout Estimation via Cross-View Transformation.” CVPR2021. Link Section 00 - 00
  52. CONFIDENTIAL COMPANY PROFILE 参考文献 • Chitta, Kashyap, Aditya Prakash, and

    Andreas Geiger. 2021. “NEAT: Neural Attention Fields for End-to-End Autonomous Driving.” arXiv [cs.CV]. arXiv. http://arxiv.org/abs/2109.04456. • Can, Yigit Baran, Alexander Liniger, Danda Pani Paudel, and Luc Van Gool. 2021. “Structured Bird’s-Eye-View Traffic Scene Understanding from Onboard Images.” arXiv [cs.CV]. arXiv. http://arxiv.org/abs/2110.01997. • Wang, Yue, Vitor Guizilini, Tianyuan Zhang, Yilun Wang, Hang Zhao, and Justin Solomon. 2021. “DETR3D: 3D Object Detection from Multi-View Images via 3D-to-2D Queries.” arXiv [cs.CV]. arXiv. http://arxiv.org/abs/2110.06922. • Brady Zhou, Philipp Kr Ahenb Uhl. n.d. Cross-View Transformers for Real-Time Map-View Semantic Segmentation. UT Austin. Accessed July 30, 2022. https://github.com/bradyz. • Peng, Lang, Zhirong Chen, Zhangjie Fu, Pengpeng Liang, and Erkang Cheng. 2022. “BEVSegFormer: Bird’s Eye View Semantic Segmentation From Arbitrary Camera Rigs.” arXiv [cs.CV]. arXiv. http://arxiv.org/abs/2203.04050. • Li, Zhiqi. n.d. BEVFormer: This Is the Official Implementation of BEVFormer, a Camera-Only Framework for Autonomous Driving Perception, E.g., 3D Object Detection and Semantic Map Segmentation. Github. Accessed May 25, 2022. https://github.com/zhiqi-li/BEVFormer. • Harley, Adam W., Zhaoyuan Fang, Jie Li, Rares Ambrus, and Katerina Fragkiadaki. 2022. “A Simple Baseline for BEV Perception Without LiDAR.” arXiv [cs.CV]. arXiv. http://arxiv.org/abs/2206.07959. • [CVPR'22 WAD] Keynote - Ashok Elluswamy, Tesla:link Section 00 - 00
  53. We Overtake Tesla