[T2] 自動運転における3次元物体認識の動向

Slide 1

Slide 1 text

株式会社辻勇気 T2 3D何でも勉強会#2 自動運転における3次元物体認識の動向

Slide 2

Slide 2 text

Copyright ©︎ T2, inc T2の紹介自己紹介 2 辻勇気（Yuki Tsuji) E-email: [email protected] Github: yukitsuji LinkedIn: yuki-tsuji-0420b1b3 株式会社T2 / 技術開発部門 / 開発チームリーダーカジュアル面談、選考等受け付けておりますので、私にご連絡いただくか会社HP(https://t2.auto/) より応募お待ちしております！ 01

Slide 3

Slide 3 text

荷主消費者政府レベル４自動運転技術を活用した社会インフラを構築し、日本の物流システムを支える運送会社トラックドライバートラックメーカー T2の紹介事業ビジョン 01 0 支援・自動化なし運転手運転手 ― 1 運転支援（縦or横）運転手運転手限定領域 2 部分自動化（縦＆横）運転手運転手限定領域 3 条件付自動化システム運転手限定領域 4 高度自動化システムシステム限定領域 5 完全自動化システムシステム無制限自動運転レベルの概要レベル対応主体対象地域通常時緊急時

Slide 4

Slide 4 text

Copyright ©︎ T2, inc T2の紹介本事業のサービス案 4 01 物流業界においては、特に長距離輸送におけるドライバー不足の課題が顕在化していると認識。就業規制によりドライバー数は更に必要に 2024年就業規制長距離ドライバーは過去と違い稼げない仕事にドライバー賃金の低水準化新規労働者が増加しないことで高年齢化が進む新規労働者の減少出典：国土交通省「トラック運送業の現状等について」出典：国土交通省「トラック運送業の現状等について」出典：厚生労働省「トラック運転者の労働時間等の改善基準のポイント」

Slide 5

Slide 5 text

Copyright ©︎ T2, inc センサーメーカーその他 T2の紹介本事業のサービス案 01 顧客となる運送会社・荷主様に対して、主要物流拠点間（関東圏～関西圏）を往復する、自動運転トラック幹線輸送サービスを提供。運送会社・荷主様その他機器・サービストラックメーカーベース車両高精度センサー顧客顧客 A社様 C社様 B社様 D社様自動運転システム開発自動運転車の運用・監視主要ターミナル間の運送サービス（幹線輸送）

Slide 6

Slide 6 text

Copyright ©︎ T2, inc 一般道大拠点小拠点支線荷降・荷積荷受人大拠点小拠点支線荷降・荷積荷受人 T2の紹介オペレーション想定 01 関東圏⇔関西圏の物流拠点間の幹線輸送を初期の対象として段階的に拡大させていく。高速直結の物流拠点は限定的の為、初期は高速を出た所に「切替拠点」にて、有人運転へ切り替えて拠点まで運ぶオペレーションを想定。荷積荷降有人運転運転手荷受人荷受人運転手一般道有人運転無人運転無人一般道一般道高速 T2事業範囲運転手運転手切替拠点切替拠点

Slide 7

Slide 7 text

Copyright ©︎ T2, inc T2の紹介ソリューション 01 物流業界におけるドライバー不足の問題を解決するために、幹線輸送（高速道路を用いた長距離輸送）におけるレベル４自動運転トラックのサービスを提供する。 2023年4月よりT2が改造した10トントラックを用いた自動運転の公道実証実験を開始。レベル2相当の機能を搭載し、最大速度80km/hで東関東自動車道の湾岸市川から湾岸習志野の自動走行に成功。

Slide 8

Slide 8 text

Copyright ©︎ T2, inc 3Dにまつわる技術要素 02 可視化 VisualizerをC++, CUDA, OpenGL, ImGui等を用いてFrom scratchで実装。巻き戻し機能、アルゴリズムの結果の3D表示、詳細な分析結果の表示など、自由度が高くパフォーマンス最適化された可視化を実現。センサー同期、可視化センサー同期、外部パラメータ推定カメラ・LiDARの同期を高精度で実現。高速道路では高速度（例: 時速80km/h=22.2m/s）で動作するため、カメラのシャッタータイミングとLiDARの照射タイミングの合わせ込みが不可欠。カメラの内パラ、センサー間の外パラも精度の追い込みが必須。

Slide 9

Slide 9 text

Copyright ©︎ T2, inc 自己位置推定アルゴリズム 3Dにまつわる技術要素 02 HD map情報（白線・標識, etc.）とカメラ認識結果、LiDAR点群を照合し自己位置推定を行う GNSS, IMUの結果と統合することで非GNSS受信環境下でも安定動作するアルゴリズムを開発認識アルゴリズム近・中距離では極めて高い精度で認識を実現、センサーフュージョンによる更なる精度向上に取り組み中。自己位置推定・認識

Slide 10

Slide 10 text

Copyright ©︎ T2, inc 3Dにまつわる技術要素 02 LiDAR odometry, IMU, GNSS等の結果を統合し高精度3次元地図を作成（左図）地図精度向上のため、3次元物体認識結果を用いて動的物体を削除した点群（赤色が障害物の点群）を活用（右図）東京-大阪間をカバーする大規模地図の利用が必要なため、データ構造の省メモリ化やアルゴリズム・実装面での工夫をした自己位置推定アルゴリズムの開発が必要 3次元点群地図の作成よび地図点群を用いた自己位置推定アルゴリズム自己位置推定・認識

Slide 11

Slide 11 text

3D Object Detection 01. CONTENTS

Slide 12

Slide 12 text

Copyright ©︎ T2, inc 本題 03 画像の物体検出で使われる矩形 Position: X, Y Size: Width, Height 3次元物体認識：前提知識 2D Bounding Box 3次元空間上での物体検出で使われる直方体 Position: X, Y, Z Rotation: Roll, Pitch, Yaw Size: Length, Width, Height 3D Bounding Box

Slide 13

Slide 13 text

Copyright ©︎ T2, inc 本題 03 センサーフュージョンを行うことで、各センサーの良いとこ取りを狙う 3次元物体認識：前提知識 LiDAR Radar カメラ認識Model メリットデメリットカメラ色・輪郭など遠距離でも得られる情報量が多い距離が分からない LiDAR 距離が分かる、Radarより解像度が高い悪天候に弱い Radar 悪天候に強い、速度が分かる解像度が低い、ノイズが多いセンサー同期前処理

Slide 14

Slide 14 text

Copyright ©︎ T2, inc 本題 03 3次元空間を格子状に区切ったものメリット：空間上の関係性、高さ情報を明示的に利用可能。デメリット：3D CNNの処理が重い。Sparse 3D Convolutionを使うことで処理速度、メモリ使用量を削減できるがDeployが難しい。 3次元物体認識：前提知識 Voxel 3次元空間を鳥瞰（上から）で見たときのView メリット：2D CNNが利用可能でDeployが容易。デメリット：空間上の関係性、高さ情報の特徴量への上手な落とし込みが必要 BEV (Bird Eye View)

Slide 15

Slide 15 text

Copyright ©︎ T2, inc 本題 03 BEV spaceの各Pixel毎に、点群の特徴量をNNを使って生成。PointNetがよく使われる 3次元物体認識: LiDAR-Only 3D object detection PointCloud ⇒ BEV (代表例: PointPillars[1]) [2] https://arxiv.org/pdf/2106.13365v1.pdf PointCloud ⇒ Voxel ⇒ BEV (代表例: SECOND[2]) 点群をVoxelizeし、3D Sparse Convolutionを利用して3次元空間の特徴量を生成し高さ方向にDownsampleしていくことでBEV特徴量を生成 [1]https://arxiv.org/abs/1812.05784

Slide 16

Slide 16 text

Copyright ©︎ T2, inc 本題 03 Rotation式LiDARの場合、Laserの数が決まっている Laser毎に回転しながら照射して物体の距離,Intensityを取得 HeightをLaser数、Widthを回転解像度として距離、Intensity等を特徴量とする画像[2]を生成点群を密な特徴量として表現でき、2Dconvolutionを利用可能なため、推論速度含めメリットが多い 3次元物体認識: LiDAR-Only 3D object detection RangeView ⇒ Voxelize or BEV（代表例: RangeDet、RSN) 画像: https://arxiv.org/pdf/2106.13365v1.pdf Voxelize or BEV Feature Extraction with CNN Detection

Slide 17

Slide 17 text

Copyright ©︎ T2, inc 本題 03 画像の特徴量をVoxel, BEV空間にどのようにProjectionするか a. 点群を画像上に投影して各点毎に特徴量を取得し、LiDAR特徴量とConcatする (ex: PointPainting) b. Voxel Feature (or BEV)と対応する画像Featureを用いて各Voxel毎にFusionされた特徴量を生成する (ex: AutoAlignv2) c. 画像からDepthを予測し、画像特徴量をVoxel, BEV空間にProjectionする。その後LiDAR BEV featureとConcatする (ex: BEVFusion) 3次元物体認識: 画像とLiDARのFusion Image feature projection to Voxel and BEV space 画像: https://arxiv.org/pdf/2205.13790.pdf

Slide 18

Slide 18 text

Copyright ©︎ T2, inc 本題 03 画像からDenseなBEV featureを生成することが可能画像およびLiDAR branchが同じBEV空間上で特徴量を生成できるため、実装がシンプルでDeployしやすい Waymo Open Dataset, Nuscenes datasetなど主要なデータセットでSOTAだった 3次元物体認識: 画像とLiDARのFusion (BEVFusion) BEVFusion: a simple and robust lidar-camera fusion framework BEVFusion : https://arxiv.org/pdf/2205.13790.pdf

Slide 19

Slide 19 text

Slide 20

Slide 20 text

Copyright ©︎ T2, inc 本題 03 画像特徴量（C）をVoxel空間にProjectionするには、内パラ、外パラ、DenseなDepthが必要 DenseなDepth画像は画像から生成する必要があるが、画像から生成されるDepthの分散は大きい ⬇ 一定距離毎（例えば0.5m毎）にProjection Lineを区切ったClassification task (D次元）としてDepth distribution（α）を予測距離毎にαCを計算し、外パラを用いてカメラ座標系からBEV座標系の該当PixelにProjection(u, v, d) -> (bev_x, bev_y) Depth distribution含めてEnd-to-Endで学習を行う 3次元物体認識: 画像とLiDARのFusion (BEVFusion) Image to Voxel space projection of BEVFusion: LSS 画像: https://arxiv.org/pdf/2205.13790.pdf

Slide 21

Slide 21 text

Copyright ©︎ T2, inc 本題 03 遠距離になればなるほど点群の密度は低くなるため、カメラ情報とのFusionは効果がある Camera streamとLiDAR streamどちらかが特徴を上手く抽出できればBEVFusionによって検出可能一方で、BEV fusionの場合はCamerastreamとLiDAR streamと別々で動いているので、両方共ミスするとBEVFusionでも失敗するケースがある ⬇ Point-Level fusionとFeature-Level fusionも掛け合わせることが必要 3次元物体認識: 画像とLiDARのFusion (BEVFusion) Fusionによる精度向上画像: https://arxiv.org/pdf/2205.13790.pdf

Slide 22

Slide 22 text

Copyright ©︎ T2, inc 本題 03 実際の車両で動かすことが大事 - OSSを研究で利用することは簡単だが、そのまま車両にDeployはできない - 単なる研究で終わらないことを意識する必要がある - NVIDIAが提供しているTensorRT (Model inference library）を利用 - GPUメモリ使用量やLatencyなどリソース使用量を意識する必要がある Integration詳細 - 3D Pointcloud backbone: PillarFeatureNet+ PillarScater+ Backbone (2D CNN) - 2D Camera backbone: Darknet + FPN - TensorRT Custom Plugin 1. PillarScatter: PillarFeatureNetをBEV spaceにProjectionする際に利用 2. LSS in image transformer to BEV: 画像特徴量をBEV spaceにProjectionする際に利用工夫点: LSSに必要となる入力の内、事前計算できる部分をCacheしておくカメラ毎に、内パラ・外パラが既知であり、Depthの次元も事前に決定するため、カメラ座標系(u, v, d)からBEV space (bev_x, bev_y)へのProjectionする際の対応関係は事前に計算可能 3次元物体認識: 画像とLiDARのFusion (BEVFusion) 実際にTensorRT C++にDeployしてみた PointPillars: https://arxiv.org/abs/1812.05784 BEVFusion : https://arxiv.org/pdf/2205.13790.pdf

Slide 23

Slide 23 text

Copyright ©︎ T2, inc 本題 03 GPU: NVIDIA GeForce RTX 2070 / CUDA: 11.7 /TensorRT: 8.4.1 T2内部のデータセットで学習したモデルを用いて検証画像サイズ: 256 x 704を6枚 3次元物体認識: 画像とLiDARのFusion (BEVFusion) Latency / frame Memory usage Pytorch FP32 243ms 1.75GB Pytorch Mixed 150ms 1.5GB TensorRT FP32 496ms 2.13GB TensorRT FP16 46ms 1.4GB 実際にTensorRT C++にDeployしてみた

Slide 24

Slide 24 text

Slide 25

Slide 25 text

Copyright ©︎ T2, inc 本題 03 - Attention (b) + LSS (c)を利用した研究が多くなってきている - Query, Key, Valueをどのように表現するのか、精度・速度面の向上を目指す - （時間がなくて説明していないが）時系列方向でのフュージョンも行うことで精度向上が可能 3D occupancy grid estimationの研究に注目が集まり始めている - Occupancy gridを利用することで、落木やタイヤなどレアな検出対象物を認識しやすい - 利用されているアルゴリズムは3次元物体検出やSegmentationの流用が多いので、3次元物体検出を理解していれば入門しやすい将来の動向センサーフュージョンモデルの研究の方向性

Slide 26

Slide 26 text

株式会社 T2 エンジニア絶賛募集中 https://t2.auto/