Slide 1

Slide 1 text

Teslaはカメラを使ってどのように世界を認識しているか ~~Survey: Bird’s Eye View model~~ 2022. 9. 30 井ノ上雄一

Slide 2

Slide 2 text

CONFIDENTIAL COMPANY PROFILE - Teslaの 空 間 認 識 モデル 2021年に行われたTesla AI Dayで紹介されたModelについて簡単に紹介します。 - Teslaっぽいモデルを 作 るための 論 文 紹 介 鳥瞰図(Bird's eye view, BEV)を生成するようなモデルの論文を紹介します。    *TURINGの社内AI勉強会で紹介したときの資料です。 Outline Section 00 - 00 井ノ上 雄一 エンジニア@TURING Twitter: https://twitter.com/inoichan Github: https://github.com/Ino-Ichan Kaggle: https://www.kaggle.com/inoueu1 Linkedin: https://www.linkedin.com/in/inoichan

Slide 3

Slide 3 text

CONFIDENTIAL COMPANY PROFILE TeslaのFull self driving βを動かしている動画。このUIに出てくる線とか車とか、どういうAIモデル で認識してるのかを今日は紹介します。すごいのでぜひ一度見てください。 Link:https://www.youtube.com/watch?v=_ZYEjYnmPlA

Slide 4

Slide 4 text

CONFIDENTIAL COMPANY PROFILE Tesla AI Day ● 技術的に大きな躍進が合った時に開かれ るTesla dayのAI版 ● 2021/8/20に開催。 Link:https://www.youtube.com/watch?v=j0z4FweCy4M&t=3355s Section 00 - 00

Slide 5

Slide 5 text

CONFIDENTIAL COMPANY PROFILE Single imageではFSDは無理 ● マルチタスクにしたぜ、ウェイ!からモデルの紹介は始 まる。ここは技術紹介の中では新規性も重要度も少し 低めだけど、今後のベースとしてちゃんと紹介してくれ てる。 Section 00 - 00

Slide 6

Slide 6 text

CONFIDENTIAL COMPANY PROFILE Single imageではFSDは無理 ● ただしSingle imageによる推論だけではFull self driving (FSD)には足りない。 Section 00 - 00

Slide 7

Slide 7 text

CONFIDENTIAL COMPANY PROFILE Multicameraで空間認識する難しさ ● Multi cameraを使ってOccupancy trackerという画像空間 を直接BEVにするようなソフトを開発したが 1. パラメタチューニングが難しい 2. 画像空間と出力空間を正確に合わせるの難しい Section 00 - 00

Slide 8

Slide 8 text

CONFIDENTIAL COMPANY PROFILE Multicameraの物体検出の難しさ Section 00 - 00 ● Multi cameraを使ってOccupancy trackerという画像空間 を直接BEVにするようなソフトを開発したが 1. パラメタチューニングが難しい 2. 画像空間と出力空間を正確に合わせるの難しい ● 複数のカメラで認識された一つの物体をちゃんと一つのも のとして結合させるの難しい。

Slide 9

Slide 9 text

CONFIDENTIAL COMPANY PROFILE BEVに簡単には投写できない ● 画像空間をBEV空間にマッピングは直接はできない。 (道の傾斜などによってずれる) Section 00 - 00

Slide 10

Slide 10 text

CONFIDENTIAL COMPANY PROFILE Transformerを用いて画像→BEV変換の効率化 ● Transformerの構造を用いることで画像空間→BEV空 間の変換が効率良く行われることがわかった。 動画ではOutput spaceのRasterをあらかじめInitialize してと言っており、BEV空間の特徴マップと画像空間の 特徴マップでCross-attentionをしていると考えられる。 Section 00 - 00

Slide 11

Slide 11 text

CONFIDENTIAL COMPANY PROFILE ● Transformerの構造を用いることで画像空間→BEV空 間の変換が効率良く行われることがわかった。 動画ではOutput spaceのRasterをあらかじめInitialize してと言っており、BEV空間の特徴マップと画像空間の 特徴マップでCross-attentionをしていると考えられる。 Section 00 - 00 Transformerを用いて画像→BEV変換の効率化

Slide 12

Slide 12 text

CONFIDENTIAL COMPANY PROFILE ● 物体検出の結果も改善した。シングルカメラのオレンジ に比べ、Transformerでマルチカメラの情報を統合した モデルでは1つの車を1つの車として認識できている。 Section 00 - 00 Transformerを用いて画像→BEV変換の効率化

Slide 13

Slide 13 text

CONFIDENTIAL COMPANY PROFILE ● 時系列情報を入れる。交差点などで前方を車が横切っ たときに向こう側が一時的に見えなくなるが、そのとき 時系列情報を使えば予測できる。 ● 時間情報だけでは車線情報などの空間情報を伝えき れない。時系列でかつ空間情報が必要。 Spatial-Temporal feature →3D conv? Transformer? RNN Section 00 - 00 時空間情報が必要

Slide 14

Slide 14 text

CONFIDENTIAL COMPANY PROFILE Spatial RNN ● Spatial RNNがいい感じだった。 車の近傍のピクセルを、ピクセル単位でRNNにかけて いく。 Section 00 - 00

Slide 15

Slide 15 text

CONFIDENTIAL COMPANY PROFILE ● Spatial RNNの出力ベクトルをチャンネルごとに活性化 状態を可視化したもの。道路に沿ってチャンネルが活 性化しているのがわかる。 (映像で見るともっとイメージしやすいよ!) Section 00 - 00 Spatial RNNが世界を認識している様子

Slide 16

Slide 16 text

CONFIDENTIAL COMPANY PROFILE 時空間情報を考慮したモデルの性能 ● いいやん! Section 00 - 00

Slide 17

Slide 17 text

CONFIDENTIAL COMPANY PROFILE ● Spatial RNNを使うことで車が前方を横切った時、その車 の向こう側にある車も正しく認識できるようになった。 もともとその2台は見えていたので、時間情報を使うことで 別の車に遮られた後も継続して認識できてる! Section 00 - 00 この車の向こう側に 2台車がある。 時空間情報を考慮したモデルの性能

Slide 18

Slide 18 text

CONFIDENTIAL COMPANY PROFILE TeslaのNeural Networkの全体図 Section 00 - 00

Slide 19

Slide 19 text

CONFIDENTIAL COMPANY PROFILE 【関連しそうな論文たち】 Section 00 - 00

Slide 20

Slide 20 text

CONFIDENTIAL COMPANY PROFILE DETR (arX 2020) BEVモデルの紹介の前に画像の分野にCross-attentionを導入した超重要論文。 Object queriesという形でQueryを用意し、CNN->Transformer encoderにかけたembeddingとCross-attentionしている。Metaに よって提案され、引用件数は3,000以上。 このCross-attentionがBEVのタスクでも鍵となりそう(Teslaのモデルでも使われてる)。 Section 00 - 00

Slide 21

Slide 21 text

CONFIDENTIAL COMPANY PROFILE Mono Semantic Occupancy (RAL 2018) Encoder-Decoderのアーキテクチャを利用してEnd-to-endに学習させた初めての論文。 愚直にやるとこんな感じになるのかという印象。(U-Netですらない) Section 00 - 00

Slide 22

Slide 22 text

CONFIDENTIAL COMPANY PROFILE Mono Semantic Occupancy (RAL 2018) 開けた平らな道なら予想できなくはなさそうだが、道の状況が複雑になってきたり車などがいっ ぱい写ってくると厳しそうな感じ。まさに初手という感じの論文。 Section 00 - 00

Slide 23

Slide 23 text

CONFIDENTIAL COMPANY PROFILE Learning to Look around Objects (ECCV 2018) SegmentationをDepth estimationとカメラパラメータを使ってBEV空間にマッピングする。さらにそれをRefineするようなCNNを作 成してBEVの精度をあげている。 面白いのはSegmentationとDepth estimationを学習させる時、車や歩行者のような遮蔽物としてランダムマスクを用いた学習を 行い、カメラからは見えない向こう側の領域をうまく学習させようとしているとこ。 Section 00 - 00

Slide 24

Slide 24 text

CONFIDENTIAL COMPANY PROFILE Learning to Look around Objects (ECCV 2018) KITTIのデータセットでの結果 境界とかは結構ぼやっと出てる。 Section 00 - 00

Slide 25

Slide 25 text

CONFIDENTIAL COMPANY PROFILE VPN (RAL 2020) 複数のカメラの入力をSegmentatino空間に落と し込み、View Parsing Network(VPN)でMLPを 用いてBEV空間にマップしている。 シミュレーションのデータを使ってDomain adaptationで精度をあげようと試みているところも 面白い。 Section 00 - 00

Slide 26

Slide 26 text

CONFIDENTIAL COMPANY PROFILE VPN (RAL 2020) きれいなBEV予測を行うのは難しいんだなという印象... Section 00 - 00

Slide 27

Slide 27 text

CONFIDENTIAL COMPANY PROFILE Lift, Splat, Shoot (ECCV 2020) マルチカメラの画像それぞれにCNNを個別に適応した初めての論文。 各カメラ画像から抽出した特徴量にDepth distributionという深さに関する情報を適応する(Lift)。カメラパラメータを用いてBEV空 間にそれらのベクトルを割り当てて(Splat)、ロードセグメンテーションやモーションプランニングといった下流のタスクに使用する (Shoot)。 Section 00 - 00

Slide 28

Slide 28 text

CONFIDENTIAL COMPANY PROFILE Lift, Splat, Shoot (ECCV 2020) Section 00 - 00 近い部分は少しきれいになってきている...!

Slide 29

Slide 29 text

CONFIDENTIAL COMPANY PROFILE PYVA (CVPR 2021) Image to BEVで初めてBEV空間と画像空間でのCross-attentionを明示的に使用した論文。 BEV空間の特徴量であるX'をQuery、Encoderから抽出された画像空間の特徴量XをKey、X'から今一度画像空間に戻したX''を ValueとしたBEV空間特徴と画像空間特徴のCross-attention構造。 Section 00 - 00

Slide 30

Slide 30 text

CONFIDENTIAL COMPANY PROFILE PYVA (CVPR 2021) Section 00 - 00 簡単な道だと予測できるようになってきてる。

Slide 31

Slide 31 text

CONFIDENTIAL COMPANY PROFILE NEAT (ICCV 2021) Image to BEVでTransformerを使っているわけではないが、MLPでAttentionを計算している。 Neural Attention Field (NEAT)moduleを2回繰り返している。実質、一回目がBEV空間への射影で、2周目でCross-attention的 な役割を果たしている? Section 00 - 00

Slide 32

Slide 32 text

CONFIDENTIAL COMPANY PROFILE NEAT (ICCV 2021) Section 00 - 00 (シミュレーションだけなのでなんとも。)

Slide 33

Slide 33 text

CONFIDENTIAL COMPANY PROFILE STSU (ICCV 2021) センターライン用と物体用の2つのQueryを用意してCross-attentionを行っている。 センターラインの出力にいろいろ工夫を施している。 Section 00 - 00

Slide 34

Slide 34 text

CONFIDENTIAL COMPANY PROFILE STSU (ICCV 2021) Section 00 - 00 白色が道の中心を表している。セグメンテーションよりもスマートな感じはある。

Slide 35

Slide 35 text

CONFIDENTIAL COMPANY PROFILE DETR3D (CoRL 2021) Object Queryを画像空間に投写して、Object queryをリファインメントしている。 BEV segmentationはしていないが、Object queryはBEV空間の情報を持っている。Cross-attentionではないが、画像空間から 返ってきたベクトルたちでSelf-attentionしているので、雰囲気は近い。 BEV Segmentationはしてないが、3D空間と2D空間をCross-attentionでつないでおり、重要な論文。 Section 00 - 00

Slide 36

Slide 36 text

CONFIDENTIAL COMPANY PROFILE Cross View Transformers (CVPR 2022) Teslaっぽい。BEVのQueryを用意して画像空間の特徴量とCross-attentionしている。 CNNから抽出した複数のscaleの特徴マップを順にCross attentionしながらQueryを更新していってる。とてもシンプルな構造なが ら精度も良さそう。 Section 00 - 00

Slide 37

Slide 37 text

CONFIDENTIAL COMPANY PROFILE Transformerを用いて画像→鳥瞰図変換の効率化 ● Transformerの構造を用いることで空間の情報の変換 が効率良く行われることがわかった。 TeslaのモデルはBEV空間のQueryベクトルをあらかじ め作って、マルチカメラで取得した特徴マップと Cross-attentionしてるのでかなり近い。 Section 00 - 00 (再掲)

Slide 38

Slide 38 text

CONFIDENTIAL COMPANY PROFILE Cross View Transformers (CVPR 2022) Section 00 - 00 結果もかなり良さそう! Pred GT

Slide 39

Slide 39 text

CONFIDENTIAL COMPANY PROFILE BEVSegFormer (CoRR 2022) BEVのQueryを用意して画像空間の特徴量とCross-attentionしている。この論文の特徴は、画像空間の全特徴量と Cross-attentionをすると非常に計算が多くなるので、Deformable Attentionを使って関係ありそうなところを効率よく Cross-attentionに加えている。 Section 00 - 00

Slide 40

Slide 40 text

CONFIDENTIAL COMPANY PROFILE BEVSegFormer (CoRR 2022) Section 00 - 00 良い感じ!!!

Slide 41

Slide 41 text

CONFIDENTIAL COMPANY PROFILE BEVFormer (CVPR workshop and ECCV 2022) BEVSegFormerに時系列を考慮するためにTemporal Self-Attentionを追加した。 Temporal Self-AttentionもDeformable Attentionを利用しており、TeslaのSpatial RNNに近い。CVPR 2022のWaymoの Workshopで優勝しているので実際にちゃんと精度が出てる。 Section 00 - 00

Slide 42

Slide 42 text

CONFIDENTIAL COMPANY PROFILE BEVFormer (CVPR workshop and ECCV 2022) Section 00 - 00 BEV Segmentationに加えて車の検出や白線の 検出もかなり良くなっている印象。

Slide 43

Slide 43 text

CONFIDENTIAL COMPANY PROFILE A Simple Baseline for BEV Perception (arXive 2022) 画像からCNNで得られた特徴量をBEV空間に直接投写して、さらにCNNでBEV特徴量を得ているのが特徴。CNNから得た中 間特徴を投写してさらにCNNにかけることによってうまくBEV空間にもっていってる。 Simple Baselineという煽った名前つけてるのも好き。(Waymoのコンペで優勝したBEVFormerよりも良いので煽りレベル高 い。) Section 00 - 00

Slide 44

Slide 44 text

CONFIDENTIAL COMPANY PROFILE A Simple Baseline for BEV Perception (arXive 2022) Section 00 - 00 Segmentationがかなりきれいにできているし、物体の検出も見える範囲は特に きれい。煽ってるだけある。

Slide 45

Slide 45 text

CONFIDENTIAL COMPANY PROFILE まとめ ❖ BEVのSegmentationもTransformerの機構が有効。 ❖ マルチカメラをうまくBEV空間に持っていけばけっこう強そう。 ❖ ただし実車で推論するとこまで考慮して精度出せてるの Teslaだけかも。 Section 00 - 00

Slide 46

Slide 46 text

CONFIDENTIAL COMPANY PROFILE まとめ ❖ BEVのSegmentationもTransformerの機構が有効。 ❖ マルチカメラをうまくBEV空間に持っていけばけっこう強そう。 ❖ ただし実車で推論するとこまで考慮して精度出せてるの Teslaだけかも。 ➢ Teslaがやってるのコレだけ??? Section 00 - 00

Slide 47

Slide 47 text

CONFIDENTIAL COMPANY PROFILE [CVPR'22 WAD] Keynote - Ashok Elluswamy, Tesla Section 00 - 00 Director of Autopilot Autopilot teamの立ち上げメンバー ドン引きするくらいすごい ...

Slide 48

Slide 48 text

CONFIDENTIAL COMPANY PROFILE [CVPR'22 WAD] Keynote - Ashok Elluswamy, Tesla Section 00 - 00 画像から3D空間にしてリアルタイムでいろんな課題を解いている。

Slide 49

Slide 49 text

CONFIDENTIAL COMPANY PROFILE [CVPR'22 WAD] Keynote - Ashok Elluswamy, Tesla Section 00 - 00 画像から3D空間にしてリアルタイムでいろんな課題を解いている。

Slide 50

Slide 50 text

CONFIDENTIAL COMPANY PROFILE まとめ ❖ BEVのSegmentationもTransformerの機構が有効。 ❖ マルチカメラをうまくBEV空間に持っていけばけっこう強そう。 ❖ ただし実車で推論するとこまで考慮して精度出せてるの Teslaだけかも。 ➢ Teslaがやってるのコレだけ??? →まだまだすごいこといろいろやってそう!今後の発表にも期待! Section 00 - 00

Slide 51

Slide 51 text

CONFIDENTIAL COMPANY PROFILE 参考文献 ● Tesla AI Day:link ● Tesla AI Day【翻訳レポート】過去 10年で最も素晴らしい AIプレゼンテーションのひとつ: link ● Monocular BEV Perception with Transformers in Autonomous Driving:link ● Monocular Bird’s-Eye-View Semantic Segmentation for Autonomous Driving:link ● Carion, Nicolas, Francisco Massa, Gabriel Synnaeve, Nicolas Usunier, Alexander Kirillov, and Sergey Zagoruyko. 2020. “End-to-End Object Detection with Transformers.” arXiv [cs.CV]. arXiv. http://arxiv.org/abs/2005.12872. ● Schulter, Samuel, Menghua Zhai, Nathan Jacobs, and Manmohan Chandraker. 2018. “Learning to Look around Objects for Top-View Representations of Outdoor Scenes.” arXiv [cs.CV]. arXiv. http://arxiv.org/abs/1803.10870. ● Lu, Chenyang, Marinus Jacobus Gerardus van de Molengraft, and Gijs Dubbelman. 2018. “Monocular Semantic Occupancy Grid Mapping with Convolutional Variational Encoder-Decoder Networks.” arXiv [cs.RO]. arXiv. http://arxiv.org/abs/1804.02176. ● Pan, Bowen, Jiankai Sun, Ho Yin Tiga Leung, Alex Andonian, and Bolei Zhou. 2019. “Cross-View Semantic Segmentation for Sensing Surroundings.” arXiv [cs.CV]. arXiv. http://arxiv.org/abs/1906.03560. ● Philion, Jonah, and Sanja Fidler. 2020. “Lift, Splat, Shoot: Encoding Images From Arbitrary Camera Rigs by Implicitly Unprojecting to 3D.” arXiv [cs.CV]. arXiv. http://arxiv.org/abs/2008.05711. ● Yang, Weixiang, Qi Li, Wenxi Liu, Yuanlong Yu, Yuexin Ma, Shengfeng He, and Jia Pan. n.d. “Projecting Your View Attentively: Monocular Road Scene Layout Estimation via Cross-View Transformation.” CVPR2021. Link Section 00 - 00

Slide 52

Slide 52 text

CONFIDENTIAL COMPANY PROFILE 参考文献 ● Chitta, Kashyap, Aditya Prakash, and Andreas Geiger. 2021. “NEAT: Neural Attention Fields for End-to-End Autonomous Driving.” arXiv [cs.CV]. arXiv. http://arxiv.org/abs/2109.04456. ● Can, Yigit Baran, Alexander Liniger, Danda Pani Paudel, and Luc Van Gool. 2021. “Structured Bird’s-Eye-View Traffic Scene Understanding from Onboard Images.” arXiv [cs.CV]. arXiv. http://arxiv.org/abs/2110.01997. ● Wang, Yue, Vitor Guizilini, Tianyuan Zhang, Yilun Wang, Hang Zhao, and Justin Solomon. 2021. “DETR3D: 3D Object Detection from Multi-View Images via 3D-to-2D Queries.” arXiv [cs.CV]. arXiv. http://arxiv.org/abs/2110.06922. ● Brady Zhou, Philipp Kr Ahenb Uhl. n.d. Cross-View Transformers for Real-Time Map-View Semantic Segmentation. UT Austin. Accessed July 30, 2022. https://github.com/bradyz. ● Peng, Lang, Zhirong Chen, Zhangjie Fu, Pengpeng Liang, and Erkang Cheng. 2022. “BEVSegFormer: Bird’s Eye View Semantic Segmentation From Arbitrary Camera Rigs.” arXiv [cs.CV]. arXiv. http://arxiv.org/abs/2203.04050. ● Li, Zhiqi. n.d. BEVFormer: This Is the Official Implementation of BEVFormer, a Camera-Only Framework for Autonomous Driving Perception, E.g., 3D Object Detection and Semantic Map Segmentation. Github. Accessed May 25, 2022. https://github.com/zhiqi-li/BEVFormer. ● Harley, Adam W., Zhaoyuan Fang, Jie Li, Rares Ambrus, and Katerina Fragkiadaki. 2022. “A Simple Baseline for BEV Perception Without LiDAR.” arXiv [cs.CV]. arXiv. http://arxiv.org/abs/2206.07959. ● [CVPR'22 WAD] Keynote - Ashok Elluswamy, Tesla:link Section 00 - 00

Slide 53

Slide 53 text

We Overtake Tesla