$30 off During Our Annual Pro Sale. View Details »

Teslaはカメラを使ってどのように世界を認識しているか

Inoichan
September 30, 2022

 Teslaはカメラを使ってどのように世界を認識しているか

TURINGの社内AI勉強会で発表した資料です。
Tesla AI Day 2021で紹介されたTesla車に搭載されているマルチカメラを用いた認識モデルの紹介と、それに関連しそうな論文の紹介をしています。

Inoichan

September 30, 2022
Tweet

More Decks by Inoichan

Other Decks in Research

Transcript

  1. Teslaはカメラを使ってどのように世界を認識しているか
    ~~Survey: Bird’s Eye View model~~
    2022. 9. 30 井ノ上雄一

    View Slide

  2. CONFIDENTIAL
    COMPANY PROFILE
    - Teslaの 空 間 認 識 モデル
    2021年に行われたTesla AI Dayで紹介されたModelについて簡単に紹介します。
    - Teslaっぽいモデルを 作 るための 論 文 紹 介
    鳥瞰図(Bird's eye view, BEV)を生成するようなモデルの論文を紹介します。
       *TURINGの社内AI勉強会で紹介したときの資料です。
    Outline
    Section 00 - 00
    井ノ上 雄一
    エンジニア@TURING
    Twitter: https://twitter.com/inoichan
    Github: https://github.com/Ino-Ichan
    Kaggle: https://www.kaggle.com/inoueu1
    Linkedin: https://www.linkedin.com/in/inoichan

    View Slide

  3. CONFIDENTIAL
    COMPANY PROFILE
    TeslaのFull self driving βを動かしている動画。このUIに出てくる線とか車とか、どういうAIモデル
    で認識してるのかを今日は紹介します。すごいのでぜひ一度見てください。
    Link:https://www.youtube.com/watch?v=_ZYEjYnmPlA

    View Slide

  4. CONFIDENTIAL
    COMPANY PROFILE
    Tesla AI Day
    ● 技術的に大きな躍進が合った時に開かれ
    るTesla dayのAI版
    ● 2021/8/20に開催。
    Link:https://www.youtube.com/watch?v=j0z4FweCy4M&t=3355s
    Section 00 - 00

    View Slide

  5. CONFIDENTIAL
    COMPANY PROFILE
    Single imageではFSDは無理
    ● マルチタスクにしたぜ、ウェイ!からモデルの紹介は始
    まる。ここは技術紹介の中では新規性も重要度も少し
    低めだけど、今後のベースとしてちゃんと紹介してくれ
    てる。
    Section 00 - 00

    View Slide

  6. CONFIDENTIAL
    COMPANY PROFILE
    Single imageではFSDは無理
    ● ただしSingle imageによる推論だけではFull self
    driving (FSD)には足りない。
    Section 00 - 00

    View Slide

  7. CONFIDENTIAL
    COMPANY PROFILE
    Multicameraで空間認識する難しさ
    ● Multi cameraを使ってOccupancy trackerという画像空間
    を直接BEVにするようなソフトを開発したが
    1. パラメタチューニングが難しい
    2. 画像空間と出力空間を正確に合わせるの難しい
    Section 00 - 00

    View Slide

  8. CONFIDENTIAL
    COMPANY PROFILE
    Multicameraの物体検出の難しさ
    Section 00 - 00
    ● Multi cameraを使ってOccupancy trackerという画像空間
    を直接BEVにするようなソフトを開発したが
    1. パラメタチューニングが難しい
    2. 画像空間と出力空間を正確に合わせるの難しい
    ● 複数のカメラで認識された一つの物体をちゃんと一つのも
    のとして結合させるの難しい。

    View Slide

  9. CONFIDENTIAL
    COMPANY PROFILE
    BEVに簡単には投写できない
    ● 画像空間をBEV空間にマッピングは直接はできない。
    (道の傾斜などによってずれる)
    Section 00 - 00

    View Slide

  10. CONFIDENTIAL
    COMPANY PROFILE
    Transformerを用いて画像→BEV変換の効率化
    ● Transformerの構造を用いることで画像空間→BEV空
    間の変換が効率良く行われることがわかった。
    動画ではOutput spaceのRasterをあらかじめInitialize
    してと言っており、BEV空間の特徴マップと画像空間の
    特徴マップでCross-attentionをしていると考えられる。
    Section 00 - 00

    View Slide

  11. CONFIDENTIAL
    COMPANY PROFILE
    ● Transformerの構造を用いることで画像空間→BEV空
    間の変換が効率良く行われることがわかった。
    動画ではOutput spaceのRasterをあらかじめInitialize
    してと言っており、BEV空間の特徴マップと画像空間の
    特徴マップでCross-attentionをしていると考えられる。
    Section 00 - 00
    Transformerを用いて画像→BEV変換の効率化

    View Slide

  12. CONFIDENTIAL
    COMPANY PROFILE
    ● 物体検出の結果も改善した。シングルカメラのオレンジ
    に比べ、Transformerでマルチカメラの情報を統合した
    モデルでは1つの車を1つの車として認識できている。
    Section 00 - 00
    Transformerを用いて画像→BEV変換の効率化

    View Slide

  13. CONFIDENTIAL
    COMPANY PROFILE
    ● 時系列情報を入れる。交差点などで前方を車が横切っ
    たときに向こう側が一時的に見えなくなるが、そのとき
    時系列情報を使えば予測できる。
    ● 時間情報だけでは車線情報などの空間情報を伝えき
    れない。時系列でかつ空間情報が必要。
    Spatial-Temporal feature
    →3D conv? Transformer? RNN
    Section 00 - 00
    時空間情報が必要

    View Slide

  14. CONFIDENTIAL
    COMPANY PROFILE
    Spatial RNN
    ● Spatial RNNがいい感じだった。
    車の近傍のピクセルを、ピクセル単位でRNNにかけて
    いく。
    Section 00 - 00

    View Slide

  15. CONFIDENTIAL
    COMPANY PROFILE
    ● Spatial RNNの出力ベクトルをチャンネルごとに活性化
    状態を可視化したもの。道路に沿ってチャンネルが活
    性化しているのがわかる。
    (映像で見るともっとイメージしやすいよ!)
    Section 00 - 00
    Spatial RNNが世界を認識している様子

    View Slide

  16. CONFIDENTIAL
    COMPANY PROFILE
    時空間情報を考慮したモデルの性能
    ● いいやん!
    Section 00 - 00

    View Slide

  17. CONFIDENTIAL
    COMPANY PROFILE
    ● Spatial RNNを使うことで車が前方を横切った時、その車
    の向こう側にある車も正しく認識できるようになった。
    もともとその2台は見えていたので、時間情報を使うことで
    別の車に遮られた後も継続して認識できてる!
    Section 00 - 00
    この車の向こう側に
    2台車がある。
    時空間情報を考慮したモデルの性能

    View Slide

  18. CONFIDENTIAL
    COMPANY PROFILE
    TeslaのNeural Networkの全体図
    Section 00 - 00

    View Slide

  19. CONFIDENTIAL
    COMPANY PROFILE
    【関連しそうな論文たち】
    Section 00 - 00

    View Slide

  20. CONFIDENTIAL
    COMPANY PROFILE
    DETR (arX 2020)
    BEVモデルの紹介の前に画像の分野にCross-attentionを導入した超重要論文。
    Object queriesという形でQueryを用意し、CNN->Transformer encoderにかけたembeddingとCross-attentionしている。Metaに
    よって提案され、引用件数は3,000以上。
    このCross-attentionがBEVのタスクでも鍵となりそう(Teslaのモデルでも使われてる)。
    Section 00 - 00

    View Slide

  21. CONFIDENTIAL
    COMPANY PROFILE
    Mono Semantic Occupancy (RAL 2018)
    Encoder-Decoderのアーキテクチャを利用してEnd-to-endに学習させた初めての論文。
    愚直にやるとこんな感じになるのかという印象。(U-Netですらない)
    Section 00 - 00

    View Slide

  22. CONFIDENTIAL
    COMPANY PROFILE
    Mono Semantic Occupancy (RAL 2018)
    開けた平らな道なら予想できなくはなさそうだが、道の状況が複雑になってきたり車などがいっ
    ぱい写ってくると厳しそうな感じ。まさに初手という感じの論文。
    Section 00 - 00

    View Slide

  23. CONFIDENTIAL
    COMPANY PROFILE
    Learning to Look around Objects (ECCV 2018)
    SegmentationをDepth estimationとカメラパラメータを使ってBEV空間にマッピングする。さらにそれをRefineするようなCNNを作
    成してBEVの精度をあげている。
    面白いのはSegmentationとDepth estimationを学習させる時、車や歩行者のような遮蔽物としてランダムマスクを用いた学習を
    行い、カメラからは見えない向こう側の領域をうまく学習させようとしているとこ。
    Section 00 - 00

    View Slide

  24. CONFIDENTIAL
    COMPANY PROFILE
    Learning to Look around Objects (ECCV 2018)
    KITTIのデータセットでの結果
    境界とかは結構ぼやっと出てる。
    Section 00 - 00

    View Slide

  25. CONFIDENTIAL
    COMPANY PROFILE
    VPN (RAL 2020)
    複数のカメラの入力をSegmentatino空間に落と
    し込み、View Parsing Network(VPN)でMLPを
    用いてBEV空間にマップしている。
    シミュレーションのデータを使ってDomain
    adaptationで精度をあげようと試みているところも
    面白い。
    Section 00 - 00

    View Slide

  26. CONFIDENTIAL
    COMPANY PROFILE
    VPN (RAL 2020)
    きれいなBEV予測を行うのは難しいんだなという印象...
    Section 00 - 00

    View Slide

  27. CONFIDENTIAL
    COMPANY PROFILE
    Lift, Splat, Shoot (ECCV 2020)
    マルチカメラの画像それぞれにCNNを個別に適応した初めての論文。
    各カメラ画像から抽出した特徴量にDepth distributionという深さに関する情報を適応する(Lift)。カメラパラメータを用いてBEV空
    間にそれらのベクトルを割り当てて(Splat)、ロードセグメンテーションやモーションプランニングといった下流のタスクに使用する
    (Shoot)。
    Section 00 - 00

    View Slide

  28. CONFIDENTIAL
    COMPANY PROFILE
    Lift, Splat, Shoot (ECCV 2020)
    Section 00 - 00
    近い部分は少しきれいになってきている...!

    View Slide

  29. CONFIDENTIAL
    COMPANY PROFILE
    PYVA (CVPR 2021)
    Image to BEVで初めてBEV空間と画像空間でのCross-attentionを明示的に使用した論文。
    BEV空間の特徴量であるX'をQuery、Encoderから抽出された画像空間の特徴量XをKey、X'から今一度画像空間に戻したX''を
    ValueとしたBEV空間特徴と画像空間特徴のCross-attention構造。
    Section 00 - 00

    View Slide

  30. CONFIDENTIAL
    COMPANY PROFILE
    PYVA (CVPR 2021)
    Section 00 - 00
    簡単な道だと予測できるようになってきてる。

    View Slide

  31. CONFIDENTIAL
    COMPANY PROFILE
    NEAT (ICCV 2021)
    Image to BEVでTransformerを使っているわけではないが、MLPでAttentionを計算している。
    Neural Attention Field (NEAT)moduleを2回繰り返している。実質、一回目がBEV空間への射影で、2周目でCross-attention的
    な役割を果たしている?
    Section 00 - 00

    View Slide

  32. CONFIDENTIAL
    COMPANY PROFILE
    NEAT (ICCV 2021)
    Section 00 - 00
    (シミュレーションだけなのでなんとも。)

    View Slide

  33. CONFIDENTIAL
    COMPANY PROFILE
    STSU (ICCV 2021)
    センターライン用と物体用の2つのQueryを用意してCross-attentionを行っている。
    センターラインの出力にいろいろ工夫を施している。
    Section 00 - 00

    View Slide

  34. CONFIDENTIAL
    COMPANY PROFILE
    STSU (ICCV 2021)
    Section 00 - 00
    白色が道の中心を表している。セグメンテーションよりもスマートな感じはある。

    View Slide

  35. CONFIDENTIAL
    COMPANY PROFILE
    DETR3D (CoRL 2021)
    Object Queryを画像空間に投写して、Object queryをリファインメントしている。
    BEV segmentationはしていないが、Object queryはBEV空間の情報を持っている。Cross-attentionではないが、画像空間から
    返ってきたベクトルたちでSelf-attentionしているので、雰囲気は近い。
    BEV Segmentationはしてないが、3D空間と2D空間をCross-attentionでつないでおり、重要な論文。
    Section 00 - 00

    View Slide

  36. CONFIDENTIAL
    COMPANY PROFILE
    Cross View Transformers (CVPR 2022)
    Teslaっぽい。BEVのQueryを用意して画像空間の特徴量とCross-attentionしている。
    CNNから抽出した複数のscaleの特徴マップを順にCross attentionしながらQueryを更新していってる。とてもシンプルな構造なが
    ら精度も良さそう。
    Section 00 - 00

    View Slide

  37. CONFIDENTIAL
    COMPANY PROFILE
    Transformerを用いて画像→鳥瞰図変換の効率化
    ● Transformerの構造を用いることで空間の情報の変換
    が効率良く行われることがわかった。
    TeslaのモデルはBEV空間のQueryベクトルをあらかじ
    め作って、マルチカメラで取得した特徴マップと
    Cross-attentionしてるのでかなり近い。
    Section 00 - 00
    (再掲)

    View Slide

  38. CONFIDENTIAL
    COMPANY PROFILE
    Cross View Transformers (CVPR 2022)
    Section 00 - 00
    結果もかなり良さそう!
    Pred
    GT

    View Slide

  39. CONFIDENTIAL
    COMPANY PROFILE
    BEVSegFormer (CoRR 2022)
    BEVのQueryを用意して画像空間の特徴量とCross-attentionしている。この論文の特徴は、画像空間の全特徴量と
    Cross-attentionをすると非常に計算が多くなるので、Deformable Attentionを使って関係ありそうなところを効率よく
    Cross-attentionに加えている。
    Section 00 - 00

    View Slide

  40. CONFIDENTIAL
    COMPANY PROFILE
    BEVSegFormer (CoRR 2022)
    Section 00 - 00
    良い感じ!!!

    View Slide

  41. CONFIDENTIAL
    COMPANY PROFILE
    BEVFormer (CVPR workshop and ECCV 2022)
    BEVSegFormerに時系列を考慮するためにTemporal Self-Attentionを追加した。
    Temporal Self-AttentionもDeformable Attentionを利用しており、TeslaのSpatial RNNに近い。CVPR 2022のWaymoの
    Workshopで優勝しているので実際にちゃんと精度が出てる。
    Section 00 - 00

    View Slide

  42. CONFIDENTIAL
    COMPANY PROFILE
    BEVFormer (CVPR workshop and ECCV 2022)
    Section 00 - 00
    BEV Segmentationに加えて車の検出や白線の
    検出もかなり良くなっている印象。

    View Slide

  43. CONFIDENTIAL
    COMPANY PROFILE
    A Simple Baseline for BEV Perception (arXive 2022)
    画像からCNNで得られた特徴量をBEV空間に直接投写して、さらにCNNでBEV特徴量を得ているのが特徴。CNNから得た中
    間特徴を投写してさらにCNNにかけることによってうまくBEV空間にもっていってる。
    Simple Baselineという煽った名前つけてるのも好き。(Waymoのコンペで優勝したBEVFormerよりも良いので煽りレベル高
    い。)
    Section 00 - 00

    View Slide

  44. CONFIDENTIAL
    COMPANY PROFILE
    A Simple Baseline for BEV Perception (arXive 2022)
    Section 00 - 00
    Segmentationがかなりきれいにできているし、物体の検出も見える範囲は特に
    きれい。煽ってるだけある。

    View Slide

  45. CONFIDENTIAL
    COMPANY PROFILE
    まとめ
    ❖ BEVのSegmentationもTransformerの機構が有効。
    ❖ マルチカメラをうまくBEV空間に持っていけばけっこう強そう。
    ❖ ただし実車で推論するとこまで考慮して精度出せてるの
    Teslaだけかも。
    Section 00 - 00

    View Slide

  46. CONFIDENTIAL
    COMPANY PROFILE
    まとめ
    ❖ BEVのSegmentationもTransformerの機構が有効。
    ❖ マルチカメラをうまくBEV空間に持っていけばけっこう強そう。
    ❖ ただし実車で推論するとこまで考慮して精度出せてるの
    Teslaだけかも。
    ➢ Teslaがやってるのコレだけ???
    Section 00 - 00

    View Slide

  47. CONFIDENTIAL
    COMPANY PROFILE
    [CVPR'22 WAD] Keynote - Ashok Elluswamy, Tesla
    Section 00 - 00
    Director of Autopilot
    Autopilot teamの立ち上げメンバー
    ドン引きするくらいすごい ...

    View Slide

  48. CONFIDENTIAL
    COMPANY PROFILE
    [CVPR'22 WAD] Keynote - Ashok Elluswamy, Tesla
    Section 00 - 00
    画像から3D空間にしてリアルタイムでいろんな課題を解いている。

    View Slide

  49. CONFIDENTIAL
    COMPANY PROFILE
    [CVPR'22 WAD] Keynote - Ashok Elluswamy, Tesla
    Section 00 - 00
    画像から3D空間にしてリアルタイムでいろんな課題を解いている。

    View Slide

  50. CONFIDENTIAL
    COMPANY PROFILE
    まとめ
    ❖ BEVのSegmentationもTransformerの機構が有効。
    ❖ マルチカメラをうまくBEV空間に持っていけばけっこう強そう。
    ❖ ただし実車で推論するとこまで考慮して精度出せてるの
    Teslaだけかも。
    ➢ Teslaがやってるのコレだけ???
    →まだまだすごいこといろいろやってそう!今後の発表にも期待!
    Section 00 - 00

    View Slide

  51. CONFIDENTIAL
    COMPANY PROFILE
    参考文献
    ● Tesla AI Day:link
    ● Tesla AI Day【翻訳レポート】過去
    10年で最も素晴らしい
    AIプレゼンテーションのひとつ:
    link
    ● Monocular BEV Perception with Transformers in Autonomous Driving:link
    ● Monocular Bird’s-Eye-View Semantic Segmentation for Autonomous Driving:link
    ● Carion, Nicolas, Francisco Massa, Gabriel Synnaeve, Nicolas Usunier, Alexander Kirillov, and Sergey Zagoruyko. 2020. “End-to-End Object Detection with Transformers.” arXiv [cs.CV]. arXiv.
    http://arxiv.org/abs/2005.12872.
    ● Schulter, Samuel, Menghua Zhai, Nathan Jacobs, and Manmohan Chandraker. 2018. “Learning to Look around Objects for Top-View Representations of Outdoor Scenes.” arXiv [cs.CV]. arXiv.
    http://arxiv.org/abs/1803.10870.
    ● Lu, Chenyang, Marinus Jacobus Gerardus van de Molengraft, and Gijs Dubbelman. 2018. “Monocular Semantic Occupancy Grid Mapping with Convolutional Variational Encoder-Decoder
    Networks.” arXiv [cs.RO]. arXiv. http://arxiv.org/abs/1804.02176.
    ● Pan, Bowen, Jiankai Sun, Ho Yin Tiga Leung, Alex Andonian, and Bolei Zhou. 2019. “Cross-View Semantic Segmentation for Sensing Surroundings.” arXiv [cs.CV]. arXiv.
    http://arxiv.org/abs/1906.03560.
    ● Philion, Jonah, and Sanja Fidler. 2020. “Lift, Splat, Shoot: Encoding Images From Arbitrary Camera Rigs by Implicitly Unprojecting to 3D.” arXiv [cs.CV]. arXiv. http://arxiv.org/abs/2008.05711.
    ● Yang, Weixiang, Qi Li, Wenxi Liu, Yuanlong Yu, Yuexin Ma, Shengfeng He, and Jia Pan. n.d. “Projecting Your View Attentively: Monocular Road Scene Layout Estimation via Cross-View
    Transformation.” CVPR2021. Link
    Section 00 - 00

    View Slide

  52. CONFIDENTIAL
    COMPANY PROFILE
    参考文献
    ● Chitta, Kashyap, Aditya Prakash, and Andreas Geiger. 2021. “NEAT: Neural Attention Fields for End-to-End Autonomous Driving.” arXiv [cs.CV]. arXiv. http://arxiv.org/abs/2109.04456.
    ● Can, Yigit Baran, Alexander Liniger, Danda Pani Paudel, and Luc Van Gool. 2021. “Structured Bird’s-Eye-View Traffic Scene Understanding from Onboard Images.” arXiv [cs.CV]. arXiv.
    http://arxiv.org/abs/2110.01997.
    ● Wang, Yue, Vitor Guizilini, Tianyuan Zhang, Yilun Wang, Hang Zhao, and Justin Solomon. 2021. “DETR3D: 3D Object Detection from Multi-View Images via 3D-to-2D Queries.” arXiv [cs.CV].
    arXiv. http://arxiv.org/abs/2110.06922.
    ● Brady Zhou, Philipp Kr Ahenb Uhl. n.d. Cross-View Transformers for Real-Time Map-View Semantic Segmentation. UT Austin. Accessed July 30, 2022. https://github.com/bradyz.
    ● Peng, Lang, Zhirong Chen, Zhangjie Fu, Pengpeng Liang, and Erkang Cheng. 2022. “BEVSegFormer: Bird’s Eye View Semantic Segmentation From Arbitrary Camera Rigs.” arXiv [cs.CV].
    arXiv. http://arxiv.org/abs/2203.04050.
    ● Li, Zhiqi. n.d. BEVFormer: This Is the Official Implementation of BEVFormer, a Camera-Only Framework for Autonomous Driving Perception, E.g., 3D Object Detection and Semantic Map
    Segmentation. Github. Accessed May 25, 2022. https://github.com/zhiqi-li/BEVFormer.
    ● Harley, Adam W., Zhaoyuan Fang, Jie Li, Rares Ambrus, and Katerina Fragkiadaki. 2022. “A Simple Baseline for BEV Perception Without LiDAR.” arXiv [cs.CV]. arXiv.
    http://arxiv.org/abs/2206.07959.
    ● [CVPR'22 WAD] Keynote - Ashok Elluswamy, Tesla:link
    Section 00 - 00

    View Slide

  53. We Overtake Tesla

    View Slide