Teslaはカメラを使ってどのように世界を認識しているか

Teslaはカメラを使ってどのように世界を認識しているか ~~Survey: Bird’s Eye View model~~ 2022. 9. 30 井ノ上雄一

CONFIDENTIAL COMPANY PROFILE - Teslaの空間認識モデル
2021年に行われたTesla AI Dayで紹介されたModelについて簡単に紹介します。 - Teslaっぽいモデルを作るための論文紹介鳥瞰図（Bird's eye view, BEV）を生成するようなモデルの論文を紹介します。　　　＊TURINGの社内AI勉強会で紹介したときの資料です。 Outline Section 00 - 00 井ノ上　雄一エンジニア＠TURING Twitter: https://twitter.com/inoichan Github: https://github.com/Ino-Ichan Kaggle: https://www.kaggle.com/inoueu1 Linkedin: https://www.linkedin.com/in/inoichan

CONFIDENTIAL COMPANY PROFILE TeslaのFull self driving βを動かしている動画。このUIに出てくる線とか車とか、どういうAIモデルで認識してるのかを今日は紹介します。すごいのでぜひ一度見てください。 Link：https://www.youtube.com/watch?v=_ZYEjYnmPlA

CONFIDENTIAL COMPANY PROFILE Tesla AI Day • 技術的に大きな躍進が合った時に開かれるTesla dayのAI版
• 2021/8/20に開催。 Link：https://www.youtube.com/watch?v=j0z4FweCy4M&t=3355s Section 00 - 00

CONFIDENTIAL COMPANY PROFILE Single imageではFSDは無理 • マルチタスクにしたぜ、ウェイ！からモデルの紹介は始まる。ここは技術紹介の中では新規性も重要度も少し低めだけど、今後のベースとしてちゃんと紹介してくれてる。
Section 00 - 00

CONFIDENTIAL COMPANY PROFILE Single imageではFSDは無理 • ただしSingle imageによる推論だけではFull self driving
(FSD)には足りない。 Section 00 - 00

CONFIDENTIAL COMPANY PROFILE Multicameraで空間認識する難しさ • Multi cameraを使ってOccupancy trackerという画像空間を直接BEVにするようなソフトを開発したが 1.
パラメタチューニングが難しい 2. 画像空間と出力空間を正確に合わせるの難しい Section 00 - 00

CONFIDENTIAL COMPANY PROFILE Multicameraの物体検出の難しさ Section 00 - 00 • Multi
cameraを使ってOccupancy trackerという画像空間を直接BEVにするようなソフトを開発したが 1. パラメタチューニングが難しい 2. 画像空間と出力空間を正確に合わせるの難しい • 複数のカメラで認識された一つの物体をちゃんと一つのものとして結合させるの難しい。

CONFIDENTIAL COMPANY PROFILE BEVに簡単には投写できない • 画像空間をBEV空間にマッピングは直接はできない。（道の傾斜などによってずれる） Section 00 -
00

CONFIDENTIAL COMPANY PROFILE Transformerを用いて画像→BEV変換の効率化 • Transformerの構造を用いることで画像空間→BEV空間の変換が効率良く行われることがわかった。動画ではOutput spaceのRasterをあらかじめInitialize してと言っており、BEV空間の特徴マップと画像空間の
特徴マップでCross-attentionをしていると考えられる。 Section 00 - 00

CONFIDENTIAL COMPANY PROFILE • Transformerの構造を用いることで画像空間→BEV空間の変換が効率良く行われることがわかった。動画ではOutput spaceのRasterをあらかじめInitialize してと言っており、BEV空間の特徴マップと画像空間の特徴マップでCross-attentionをしていると考えられる。
Section 00 - 00 Transformerを用いて画像→BEV変換の効率化

CONFIDENTIAL COMPANY PROFILE • 物体検出の結果も改善した。シングルカメラのオレンジに比べ、Transformerでマルチカメラの情報を統合したモデルでは1つの車を1つの車として認識できている。 Section 00 -
00 Transformerを用いて画像→BEV変換の効率化

CONFIDENTIAL COMPANY PROFILE • 時系列情報を入れる。交差点などで前方を車が横切ったときに向こう側が一時的に見えなくなるが、そのとき時系列情報を使えば予測できる。 • 時間情報だけでは車線情報などの空間情報を伝えきれない。時系列でかつ空間情報が必要。
Spatial-Temporal feature →3D conv? Transformer? RNN Section 00 - 00 時空間情報が必要

CONFIDENTIAL COMPANY PROFILE Spatial RNN • Spatial RNNがいい感じだった。車の近傍のピクセルを、ピクセル単位でRNNにかけていく。
Section 00 - 00

CONFIDENTIAL COMPANY PROFILE • Spatial RNNの出力ベクトルをチャンネルごとに活性化状態を可視化したもの。道路に沿ってチャンネルが活性化しているのがわかる。（映像で見るともっとイメージしやすいよ！） Section
00 - 00 Spatial RNNが世界を認識している様子

CONFIDENTIAL COMPANY PROFILE 時空間情報を考慮したモデルの性能 • いいやん！ Section 00 - 00

CONFIDENTIAL COMPANY PROFILE • Spatial RNNを使うことで車が前方を横切った時、その車の向こう側にある車も正しく認識できるようになった。もともとその2台は見えていたので、時間情報を使うことで別の車に遮られた後も継続して認識できてる！ Section
00 - 00 この車の向こう側に 2台車がある。時空間情報を考慮したモデルの性能

CONFIDENTIAL COMPANY PROFILE TeslaのNeural Networkの全体図 Section 00 - 00

CONFIDENTIAL COMPANY PROFILE 【関連しそうな論文たち】 Section 00 - 00

CONFIDENTIAL COMPANY PROFILE DETR (arX 2020) BEVモデルの紹介の前に画像の分野にCross-attentionを導入した超重要論文。 Object queriesという形でQueryを用意し、CNN->Transformer encoderにかけたembeddingとCross-attentionしている。Metaに
よって提案され、引用件数は3,000以上。このCross-attentionがBEVのタスクでも鍵となりそう（Teslaのモデルでも使われてる）。 Section 00 - 00

CONFIDENTIAL COMPANY PROFILE Mono Semantic Occupancy (RAL 2018) Encoder-Decoderのアーキテクチャを利用してEnd-to-endに学習させた初めての論文。愚直にやるとこんな感じになるのかという印象。（U-Netですらない）
Section 00 - 00

CONFIDENTIAL COMPANY PROFILE Mono Semantic Occupancy (RAL 2018) 開けた平らな道なら予想できなくはなさそうだが、道の状況が複雑になってきたり車などがいっぱい写ってくると厳しそうな感じ。まさに初手という感じの論文。
Section 00 - 00

CONFIDENTIAL COMPANY PROFILE Learning to Look around Objects (ECCV 2018)
SegmentationをDepth estimationとカメラパラメータを使ってBEV空間にマッピングする。さらにそれをRefineするようなCNNを作成してBEVの精度をあげている。面白いのはSegmentationとDepth estimationを学習させる時、車や歩行者のような遮蔽物としてランダムマスクを用いた学習を行い、カメラからは見えない向こう側の領域をうまく学習させようとしているとこ。 Section 00 - 00

CONFIDENTIAL COMPANY PROFILE Learning to Look around Objects (ECCV 2018)
KITTIのデータセットでの結果境界とかは結構ぼやっと出てる。 Section 00 - 00

CONFIDENTIAL COMPANY PROFILE VPN (RAL 2020) 複数のカメラの入力をSegmentatino空間に落とし込み、View Parsing Network（VPN）でMLPを
用いてBEV空間にマップしている。シミュレーションのデータを使ってDomain adaptationで精度をあげようと試みているところも面白い。 Section 00 - 00

CONFIDENTIAL COMPANY PROFILE VPN (RAL 2020) きれいなBEV予測を行うのは難しいんだなという印象... Section 00 -
00

CONFIDENTIAL COMPANY PROFILE Lift, Splat, Shoot (ECCV 2020) マルチカメラの画像それぞれにCNNを個別に適応した初めての論文。各カメラ画像から抽出した特徴量にDepth
distributionという深さに関する情報を適応する（Lift）。カメラパラメータを用いてBEV空間にそれらのベクトルを割り当てて（Splat）、ロードセグメンテーションやモーションプランニングといった下流のタスクに使用する（Shoot）。 Section 00 - 00

CONFIDENTIAL COMPANY PROFILE Lift, Splat, Shoot (ECCV 2020) Section 00
- 00 近い部分は少しきれいになってきている...！

CONFIDENTIAL COMPANY PROFILE PYVA (CVPR 2021) Image to BEVで初めてBEV空間と画像空間でのCross-attentionを明示的に使用した論文。 BEV空間の特徴量であるX'をQuery、Encoderから抽出された画像空間の特徴量XをKey、X'から今一度画像空間に戻したX''を
ValueとしたBEV空間特徴と画像空間特徴のCross-attention構造。 Section 00 - 00

CONFIDENTIAL COMPANY PROFILE PYVA (CVPR 2021) Section 00 - 00
簡単な道だと予測できるようになってきてる。

CONFIDENTIAL COMPANY PROFILE NEAT (ICCV 2021) Image to BEVでTransformerを使っているわけではないが、MLPでAttentionを計算している。 Neural
Attention Field （NEAT）moduleを2回繰り返している。実質、一回目がBEV空間への射影で、2周目でCross-attention的な役割を果たしている？ Section 00 - 00

CONFIDENTIAL COMPANY PROFILE NEAT (ICCV 2021) Section 00 - 00
（シミュレーションだけなのでなんとも。）

CONFIDENTIAL COMPANY PROFILE STSU (ICCV 2021) センターライン用と物体用の2つのQueryを用意してCross-attentionを行っている。センターラインの出力にいろいろ工夫を施している。 Section 00
- 00

CONFIDENTIAL COMPANY PROFILE STSU (ICCV 2021) Section 00 - 00
白色が道の中心を表している。セグメンテーションよりもスマートな感じはある。

CONFIDENTIAL COMPANY PROFILE DETR3D (CoRL 2021) Object Queryを画像空間に投写して、Object queryをリファインメントしている。 BEV
segmentationはしていないが、Object queryはBEV空間の情報を持っている。Cross-attentionではないが、画像空間から返ってきたベクトルたちでSelf-attentionしているので、雰囲気は近い。 BEV Segmentationはしてないが、3D空間と2D空間をCross-attentionでつないでおり、重要な論文。 Section 00 - 00

CONFIDENTIAL COMPANY PROFILE Cross View Transformers (CVPR 2022) Teslaっぽい。BEVのQueryを用意して画像空間の特徴量とCross-attentionしている。 CNNから抽出した複数のscaleの特徴マップを順にCross
attentionしながらQueryを更新していってる。とてもシンプルな構造ながら精度も良さそう。 Section 00 - 00

CONFIDENTIAL COMPANY PROFILE Transformerを用いて画像→鳥瞰図変換の効率化 • Transformerの構造を用いることで空間の情報の変換が効率良く行われることがわかった。 TeslaのモデルはBEV空間のQueryベクトルをあらかじめ作って、マルチカメラで取得した特徴マップと Cross-attentionしてるのでかなり近い。
Section 00 - 00 （再掲）

CONFIDENTIAL COMPANY PROFILE Cross View Transformers (CVPR 2022) Section 00
- 00 結果もかなり良さそう！ Pred GT

CONFIDENTIAL COMPANY PROFILE BEVSegFormer (CoRR 2022) BEVのQueryを用意して画像空間の特徴量とCross-attentionしている。この論文の特徴は、画像空間の全特徴量と Cross-attentionをすると非常に計算が多くなるので、Deformable Attentionを使って関係ありそうなところを効率よく Cross-attentionに加えている。
Section 00 - 00

CONFIDENTIAL COMPANY PROFILE BEVSegFormer (CoRR 2022) Section 00 - 00
良い感じ！！！

CONFIDENTIAL COMPANY PROFILE BEVFormer (CVPR workshop and ECCV 2022) BEVSegFormerに時系列を考慮するためにTemporal
Self-Attentionを追加した。 Temporal Self-AttentionもDeformable Attentionを利用しており、TeslaのSpatial RNNに近い。CVPR 2022のWaymoの Workshopで優勝しているので実際にちゃんと精度が出てる。 Section 00 - 00

CONFIDENTIAL COMPANY PROFILE BEVFormer (CVPR workshop and ECCV 2022) Section
00 - 00 BEV Segmentationに加えて車の検出や白線の検出もかなり良くなっている印象。

CONFIDENTIAL COMPANY PROFILE A Simple Baseline for BEV Perception (arXive
2022) 画像からCNNで得られた特徴量をBEV空間に直接投写して、さらにCNNでBEV特徴量を得ているのが特徴。CNNから得た中間特徴を投写してさらにCNNにかけることによってうまくBEV空間にもっていってる。 Simple Baselineという煽った名前つけてるのも好き。（Waymoのコンペで優勝したBEVFormerよりも良いので煽りレベル高い。） Section 00 - 00

CONFIDENTIAL COMPANY PROFILE A Simple Baseline for BEV Perception (arXive
2022) Section 00 - 00 Segmentationがかなりきれいにできているし、物体の検出も見える範囲は特にきれい。煽ってるだけある。

CONFIDENTIAL COMPANY PROFILE まとめ ❖ BEVのSegmentationもTransformerの機構が有効。 ❖ マルチカメラをうまくBEV空間に持っていけばけっこう強そう。 ❖ ただし実車で推論するとこまで考慮して精度出せてるの
Teslaだけかも。 Section 00 - 00

Teslaだけかも。 ➢ Teslaがやってるのコレだけ？？？ Section 00 - 00

CONFIDENTIAL COMPANY PROFILE [CVPR'22 WAD] Keynote - Ashok Elluswamy, Tesla
Section 00 - 00 Director of Autopilot Autopilot teamの立ち上げメンバードン引きするくらいすごい ...

CONFIDENTIAL COMPANY PROFILE [CVPR'22 WAD] Keynote - Ashok Elluswamy, Tesla
Section 00 - 00 画像から3D空間にしてリアルタイムでいろんな課題を解いている。

Teslaだけかも。 ➢ Teslaがやってるのコレだけ？？？ →まだまだすごいこといろいろやってそう！今後の発表にも期待！ Section 00 - 00

CONFIDENTIAL COMPANY PROFILE 参考文献 • Tesla AI Day：link • Tesla
AI Day【翻訳レポート】過去 10年で最も素晴らしい AIプレゼンテーションのひとつ： link • Monocular BEV Perception with Transformers in Autonomous Driving：link • Monocular Bird’s-Eye-View Semantic Segmentation for Autonomous Driving：link • Carion, Nicolas, Francisco Massa, Gabriel Synnaeve, Nicolas Usunier, Alexander Kirillov, and Sergey Zagoruyko. 2020. “End-to-End Object Detection with Transformers.” arXiv [cs.CV]. arXiv. http://arxiv.org/abs/2005.12872. • Schulter, Samuel, Menghua Zhai, Nathan Jacobs, and Manmohan Chandraker. 2018. “Learning to Look around Objects for Top-View Representations of Outdoor Scenes.” arXiv [cs.CV]. arXiv. http://arxiv.org/abs/1803.10870. • Lu, Chenyang, Marinus Jacobus Gerardus van de Molengraft, and Gijs Dubbelman. 2018. “Monocular Semantic Occupancy Grid Mapping with Convolutional Variational Encoder-Decoder Networks.” arXiv [cs.RO]. arXiv. http://arxiv.org/abs/1804.02176. • Pan, Bowen, Jiankai Sun, Ho Yin Tiga Leung, Alex Andonian, and Bolei Zhou. 2019. “Cross-View Semantic Segmentation for Sensing Surroundings.” arXiv [cs.CV]. arXiv. http://arxiv.org/abs/1906.03560. • Philion, Jonah, and Sanja Fidler. 2020. “Lift, Splat, Shoot: Encoding Images From Arbitrary Camera Rigs by Implicitly Unprojecting to 3D.” arXiv [cs.CV]. arXiv. http://arxiv.org/abs/2008.05711. • Yang, Weixiang, Qi Li, Wenxi Liu, Yuanlong Yu, Yuexin Ma, Shengfeng He, and Jia Pan. n.d. “Projecting Your View Attentively: Monocular Road Scene Layout Estimation via Cross-View Transformation.” CVPR2021. Link Section 00 - 00

CONFIDENTIAL COMPANY PROFILE 参考文献 • Chitta, Kashyap, Aditya Prakash, and
Andreas Geiger. 2021. “NEAT: Neural Attention Fields for End-to-End Autonomous Driving.” arXiv [cs.CV]. arXiv. http://arxiv.org/abs/2109.04456. • Can, Yigit Baran, Alexander Liniger, Danda Pani Paudel, and Luc Van Gool. 2021. “Structured Bird’s-Eye-View Traffic Scene Understanding from Onboard Images.” arXiv [cs.CV]. arXiv. http://arxiv.org/abs/2110.01997. • Wang, Yue, Vitor Guizilini, Tianyuan Zhang, Yilun Wang, Hang Zhao, and Justin Solomon. 2021. “DETR3D: 3D Object Detection from Multi-View Images via 3D-to-2D Queries.” arXiv [cs.CV]. arXiv. http://arxiv.org/abs/2110.06922. • Brady Zhou, Philipp Kr Ahenb Uhl. n.d. Cross-View Transformers for Real-Time Map-View Semantic Segmentation. UT Austin. Accessed July 30, 2022. https://github.com/bradyz. • Peng, Lang, Zhirong Chen, Zhangjie Fu, Pengpeng Liang, and Erkang Cheng. 2022. “BEVSegFormer: Bird’s Eye View Semantic Segmentation From Arbitrary Camera Rigs.” arXiv [cs.CV]. arXiv. http://arxiv.org/abs/2203.04050. • Li, Zhiqi. n.d. BEVFormer: This Is the Official Implementation of BEVFormer, a Camera-Only Framework for Autonomous Driving Perception, E.g., 3D Object Detection and Semantic Map Segmentation. Github. Accessed May 25, 2022. https://github.com/zhiqi-li/BEVFormer. • Harley, Adam W., Zhaoyuan Fang, Jie Li, Rares Ambrus, and Katerina Fragkiadaki. 2022. “A Simple Baseline for BEV Perception Without LiDAR.” arXiv [cs.CV]. arXiv. http://arxiv.org/abs/2206.07959. • [CVPR'22 WAD] Keynote - Ashok Elluswamy, Tesla：link Section 00 - 00

We Overtake Tesla

Teslaはカメラを使ってどのように世界を認識しているか

Teslaはカメラを使ってどのように世界を認識しているか

More Decks by Inoichan

Other Decks in Research

Featured

Transcript