Slide 1

Slide 1 text

点群深層学習に計測の気持ちを⼊れた 研究の紹介 ページ 1 @shnhrtkyk 関東CV 2023/4/30

Slide 2

Slide 2 text

⾃⼰紹介 § 名前︓篠原崇之 § 経歴︓2015年〜 JTC勤務 2019年〜2022年 東⼯⼤で社D(点群Deep) § 仕事︓JTCでツール開発なんでも屋 ページ 2

Slide 3

Slide 3 text

今⽇の話 ページ 3 点群の計測と 深層学習の組み合わせ という分野があること 伝えたい

Slide 4

Slide 4 text

何故この話題か ページ 4

Slide 5

Slide 5 text

何故この話題か ページ 5 点群は 計測しないと 得られない

Slide 6

Slide 6 text

アウトライン ページ 6 1.点群の深層学習 2.点群の計測⽅法 3.360度スキャンに着⽬した 深層学習⼿法 4.反射強度に着⽬した 深層学習⼿法

Slide 7

Slide 7 text

アウトライン ページ 7 1.点群の深層学習 2.点群の計測⽅法 3.360度スキャンに着⽬した 深層学習⼿法 4.反射強度に着⽬した 深層学習⼿法

Slide 8

Slide 8 text

点群の深層学習 1. 点群とは 2. 点群深層学習とは 3. 点群深層学習のおおまかな流れ 4. 性能向上の戦略 ページ 8

Slide 9

Slide 9 text

点群とは: XYZの集合 ページ 9 図はhttps://www.mdpi.com/2079-9292/8/10/1196のFig1から引用 点群 Voxel メッシュ

Slide 10

Slide 10 text

点群とは: 物体認識が重要 ページ 10 現状の工事の進捗確認 走行可能領域 を把握 建物の高さの計測 建物や電線を 避けて移動 AR 3次元可視化・計測 セマンティックな情報付与 により利活用が進む 数値計算

Slide 11

Slide 11 text

点群深層学習⼿法 ページ 11 Deep Learning for 3D Point Clouds: A Survey (IEEE TPAMI 2020)より引用

Slide 12

Slide 12 text

点群深層学習⼿法の流れ :PointNet ページ 12 x y z 2 3 19 1 3 21 12 51 20 5 3 32 12 11 23 31 3 1 19 23 12 入力する点群 各点の特徴量 2 3 19 1 3 21 12 51 20 5 3 32 12 11 23 31 3 1 19 23 12 広 範 囲 の 情 報 SemSeg 分類 など

Slide 13

Slide 13 text

性能向上の戦略: 畳み込みの定義 § CNNのような畳み込みを点群にも適⽤ ページ 13 簡単な方法 グラフ https://www.mdpi.com/2072-4292/12/4/634# より引用

Slide 14

Slide 14 text

性能向上の戦略: 畳み込み(⼿前味噌ですが) ページ 14 エッジ強調演算 https://arxiv.org/pdf/2209.09483.pdf より引用 微分幾何学の気持ち で畳み込みを定義 https://arxiv.org/pdf/2207.01181.pdf より引用

Slide 15

Slide 15 text

性能向上の戦略: 階層性 § CNNのような階層構造を持たせる ページ 15 http://stanford.edu/~rqi/pointnet2/ より引用

Slide 16

Slide 16 text

アウトライン ページ 16 1.点群の深層学習 2.点群の計測⽅法 3.360度スキャンに着⽬した 深層学習⼿法 4.反射強度に着⽬した 深層学習⼿法

Slide 17

Slide 17 text

点群の計測 1. 計測⽅法 2. LiDARの仕組み 3. 点群の深層学習⼿法との関わり ページ 17

Slide 18

Slide 18 text

計測⽅法: LiDARとSfM/MVS § Light Detection And Ranging(LiDAR) § レーザー光で距離を測る § Structure from Motion/Multi View Stereo(SfM/MVS) § 多視点画像によるステレオ計測 ページ 18

Slide 19

Slide 19 text

計測⽅法︓LiDARの種類 § フラッシュ型︓ イメージセンサ全体を覆うようなレーザ光を出射し、 それを受光 ページ 19 https://commons.wikimedia.org/wiki/File:LIDAR-scanned-SICK-LMS- animation.gif § スキャン型︓レーザ光を⾛査 Quantitative Performance Assessment of LiDAR-based Vehicle Contour Estimation Algorithms for Integrated Vehicle Safety Applications の Figure2

Slide 20

Slide 20 text

計測⽅法: スキャン or フラッシュ ページ 20 図は以下から引用 https://techcrunch.com/2019/03/22/gates-backed-lumotive-upends-lidar-conventions-using-metamaterials/

Slide 21

Slide 21 text

ページ 21 LiDARの仕組み: 原理 Time of Flight(今回はdToF) レーザ発射 反射 照射~反射までの時間で センサと物体間の 距離を算出 自動運転に使われるLiDARの例 https://github.com/unitycoder/VelodyneLidarViewer センサ 物体

Slide 22

Slide 22 text

ページ 22 LiDARの仕組み: 原理 反射時間 (センサからの遠さ) 強 度 観測されるデータ 既知の情報 • センサの位置・姿勢 • レーザの照射角度 • 照射したレーザの情報 位置情報を計算 X,Y,Z座標 ピークの時間

Slide 23

Slide 23 text

LiDARの仕組み︓特性 § フットプリントの特性 § フットプリント内部に複数物体がある場合 § 材質の影響 ページ 23

Slide 24

Slide 24 text

LiDARの仕組み: 特性①(フットプリント) ページ 24 レーザー光は遠くになると照射面積(フットプリント)が広がる

Slide 25

Slide 25 text

LiDARの仕組み: 特性②(複数物体) ページ 25 複数物体ある場合のレーザ光のふるまい

Slide 26

Slide 26 text

ページ 26 照射 LiDARの仕組み: 特性②(複数物体)

Slide 27

Slide 27 text

ページ 27 手前にいる人間にあたる LiDARの仕組み: 特性②(複数物体)

Slide 28

Slide 28 text

ページ 28 レーザ光は減衰して進む LiDARの仕組み: 特性②(複数物体)

Slide 29

Slide 29 text

ページ 29 2つ目の物体にレーザ光が当たる LiDARの仕組み: 特性②(複数物体)

Slide 30

Slide 30 text

ページ 30 時間 強 度 複数物体にレーザ光が当たる場合は反射を複数観測し それぞれの反射が時系列的に格納される そして、複数のピークから点群を作成する(モードによる) LiDARの仕組み: 特性②(複数物体)

Slide 31

Slide 31 text

LiDARの仕組み: 特性③(材質) ページ 31 物体の違いによる反射の性質 ?

Slide 32

Slide 32 text

ページ 32 ソリッドな場合、すべて最初の面で反射 時間 強 度 LiDARの仕組み: 特性③(材質)

Slide 33

Slide 33 text

ページ 33 ふわふわしている場合、内部の物体からも反射するため ピークがよくわからない 時間 強 度 LiDARの仕組み: 特性③(材質)

Slide 34

Slide 34 text

ページ 34 レーザ光の照射面積に対して物体が小さい場合 反射強度は小さい 時間 強 度 LiDARの仕組み: 特性③(材質)

Slide 35

Slide 35 text

LiDARの仕組み: 特性③(材質) ページ 35 観測されるデータは 当たった物体に依存してその形状が異なる 時間 強 度 時間 強 度 ふわふわした物体 例:木など 硬い面を持つ物体 例:車・建物など

Slide 36

Slide 36 text

LiDARの仕組み(まとめ) § (dToF形式において)レーザ光を照射してその反射光を観測するまでの時間を計測し、 反射光のピークから点を作成 § 照射するレーザ光は遠くに⾏くほどフットプリントが広がる § レーザ光の照射⾯積内に複数の物体にあたる場合は減衰しながら進む § 物体からの反射を時系列的に格納する § 物体によって反射の性質が異なる § (主に現状の⾃動運転では)照射距離を稼ぐためレーザ光を回転しながら計測することが多い § ⾃動運転で特に注意が必要な前⾯だけであれば、フラッシュライダーも使⽤される ページ 36

Slide 37

Slide 37 text

ページ 37 点群深層学習との関わり 点群深層学習 幾何学 画像の アナロジー グラフ理論

Slide 38

Slide 38 text

ページ 38 点群深層学習との関わり 点群深層学習 幾何学 画像の アナロジー グラフ理論 計測の気持ち ※あまりやっている人が居ないので 増やしたい

Slide 39

Slide 39 text

アウトライン ページ 39 1.点群の深層学習 2.点群の計測⽅法 3.360度スキャンに着⽬した 深層学習⼿法 4.反射強度に着⽬した 深層学習⼿法

Slide 40

Slide 40 text

360度スキャンに着⽬した深層学習⼿法 1. 点群に対する物体検出 2. ⾃動運転向けのLiDAR 3. 論⽂紹介 ページ 40

Slide 41

Slide 41 text

⾃動運転向けのLiDAR ページ 41 図は以下から引用 https://techcrunch.com/2019/03/22/gates-backed-lumotive-upends-lidar-conventions-using-metamaterials/

Slide 42

Slide 42 text

点群に対する物体検出 § 欲しいスペック § 物体検出の処理速度を⾃動運転に使えるくらいにしたい(観測の30fps 以上) § 速度と性能のトレードオフをどうにかする § 基本戦略 1. 点群を1周スキャンで取得 2. スキャンし終わったら,点群を解析 § 点群を上から⾒た画像に変換して,画像の物体検出の世界に持っていく⼿法(速い) § 点群を⼀定間隔の柱で区切って特徴抽出して,それを統合(性能が良い) 3. 物体のいる位置を矩形で推定 § 課題 § 点群のままやると遅いので物体検出を⾼速にしたい =>1周待たずに取得された点群から即解析してしまえばいいのでは ページ 42

Slide 43

Slide 43 text

点群に対する物体検出 § 1周待たずに取得された点群から即解析してしまえばいいのでは ページ 43 1周待つ 時間が問題

Slide 44

Slide 44 text

点群に対する物体検出 § 1周待たずに取得された点群から即解析してしまえばいいのでは ページ 44 即点群解析

Slide 45

Slide 45 text

点群に対する物体検出 § 1周待たずに取得された点群から即解析してしまえばいいのでは ページ 45 即点群解析

Slide 46

Slide 46 text

点群に対する物体検出 § 1周待たずに取得された点群から即解析してしまえばいいのでは ページ 46 即点群解析

Slide 47

Slide 47 text

点群に対する物体検出 § 1周待たずに取得された点群から即解析してしまえばいいのでは ページ 47 即点群解析

Slide 48

Slide 48 text

点群に対する物体検出 § 1周待たずに取得された点群から即解析してしまえばいいのでは ページ 48 即点群解析

Slide 49

Slide 49 text

該当する論⽂ § Han, W., Zhang, Z., Caine, B., Yang, B., Sprunk, C., Alsharif, O., ... & Chen, Z. (2020, December). Streaming object detection for 3-d point clouds. In Computer Vision–ECCV 2020: 16th European Conference, Glasgow, UK, August 23–28, 2020, Proceedings, Part XVIII (pp. 423-441). Cham: Springer International Publishing. § Chen, Q., Vora, S., & Beijbom, O. (2021). Polarstream: Streaming object detection and segmentation with polar pillars. Advances in Neural Information Processing Systems, 34, 26871-26883. § Frossard, D., Da Suo, S., Casas, S., Tu, J., & Urtasun, R. (2021, October). Strobe: Streaming object detection from lidar packets. In Conference on Robot Learning (pp. 1174-1183). PMLR. § Abdelfattah, M., Yuan, K., Wang, Z. J., & Ward, R. (2022). Multi-modal Streaming 3D Object Detection. arXiv preprint arXiv:2209.04966. ページ 49

Slide 50

Slide 50 text

紹介する論⽂ § Han, W., Zhang, Z., Caine, B., Yang, B., Sprunk, C., Alsharif, O., ... & Chen, Z. (2020, December). Streaming object detection for 3-d point clouds. In Computer Vision–ECCV 2020: 16th European Conference, Glasgow, UK, August 23–28, 2020, Proceedings, Part XVIII (pp. 423-441). Cham: Springer International Publishing. § Chen, Q., Vora, S., & Beijbom, O. (2021). Polarstream: Streaming object detection and segmentation with polar pillars. Advances in Neural Information Processing Systems, 34, 26871-26883. § Frossard, D., Da Suo, S., Casas, S., Tu, J., & Urtasun, R. (2021, October). Strobe: Streaming object detection from lidar packets. In Conference on Robot Learning (pp. 1174-1183). PMLR. § Abdelfattah, M., Yuan, K., Wang, Z. J., & Ward, R. (2022). Multi-modal Streaming 3D Object Detection. arXiv preprint arXiv:2209.04966. ページ 50

Slide 51

Slide 51 text

論⽂の概要 § 円形にスキャンするので、⼀定⾓度ごとに深層学習モデルに⼊⼒する ページ 51 https://arxiv.org/pdf/2005.01864.pdf より引用 緑の範囲に入る点群ごとに解析 一周観測を待つと遅延する 緑の領域ごとに解析すれば遅延が少ない

Slide 52

Slide 52 text

通常の物体検出⼿法 § PointPillars: ベースラインとする ページ 52 https://arxiv.org/abs/1812.05784 より引用 オレンジの立方体に入る点群ごとに特徴抽出 鳥観図(上から見た図)に変換して画像のSSD

Slide 53

Slide 53 text

提案⼿法 § localized receptive field § ⼀定⾓度の領域で点群を区切る § LSTM § 区切ってしまったので、受容野が減るから それを補うように過去の観測の特徴も⽤いたい § Stateful NMS § 物体が領域をまたぐ場合があるので 個々の区切った領域でNMSするのではなく 複数の領域でNMSする ページ 53 https://arxiv.org/pdf/2005.01864.pdf より引用

Slide 54

Slide 54 text

実験結果(Waymo Open Dataset) § 性能の評価 ページ 54 https://arxiv.org/pdf/2005.01864.pdf より引用 区切ることで 全体を高速化 推論も高速になる RNNを入れると性能劣化が軽減 破線がベースライン

Slide 55

Slide 55 text

§ 物体サイズの影響 ページ 55 https://arxiv.org/pdf/2005.01864.pdf より引用 表: 車の抽出性能(mAP) 車のような大きなサイズでは細切れにすると受容野が不足 通常のスライスしないPointPollars手法 提案手法全盛りするとある程度抑制 スライスすると性能がガタ落ち NMSを工夫すると劣化がすこし抑制 実験結果(Waymo Open Dataset) スライスが細かい<--------------------->スライスが雑

Slide 56

Slide 56 text

論⽂のまとめ § ⾃動運転の際にはできるだけ物体検出を⾼速にしたい § 既存⼿法は1回のスキャンを待ってから推論を実⾏するので遅い § スキャンを⼀周待たずに⼀定⾓度でスライスして推論したらいいのでは § 単純にスライスして深層学習モデルに⼊れると性能が落ちるので、時系列性を考慮した § 実験結果として、スキャン1周待つ既存⼿法よりも、性能は落とさずに⾼速な処理を実現した § スライスによって受容野が⼩さくなるため,⾞のようなある程度⼤きな物体の抽出には悪影響があるが, スライスを細かくしすぎないことで抑制はできる(速度とのトレードオフ) ページ 56

Slide 57

Slide 57 text

アウトライン ページ 57 1.点群の深層学習 2.点群の計測⽅法 3.360度スキャンに着⽬した 深層学習⼿法 4.反射強度に着⽬した 深層学習⼿法

Slide 58

Slide 58 text

点群に対する物体検出 § 欲しいスペック § なるべく⾼性能な物体検出結果が欲しい § 課題 § 現状のモデルだと,⾒逃しや過剰検出が発⽣する =>もう少し深層学習⼿法に⼊⼒する情報を増やせばいいのでは ページ 58

Slide 59

Slide 59 text

反射強度に着⽬した深層学習⼿法 1. LiDAR計測で点群を得る⽅法のおさらい 2. 論⽂紹介 3. やってみた ページ 59

Slide 60

Slide 60 text

LiDARによる点群の取得⽅法(おさらい) § レーザ光の反射が時系列に並んでいる ページ 60 時間 強 度 § 反射のピークから点群を作成する 時間 強 度 x,y,z座標へ もしかして生信号って良い特徴なのでは

Slide 61

Slide 61 text

紹介する論⽂ § J. Déziel et al., “PixSet: An Opportunity for 3D Computer Vision to Go Beyond Point Clouds With a Full-Waveform LiDAR Dataset,” 2021 IEEE International Intelligent Transportation Systems Conference (ITSC), Indianapolis, IN, USA, 2021, pp. 2987-2993, doi: 10.1109/ITSC48978.2021.9565047. ページ 61

Slide 62

Slide 62 text

Full Waveform (FW) LiDAR § FW: LiDARとは: 反射強度を記録する時間分解能が⾼いLiDAR ページ 62 時間 強 度 通常のLiDARでは パルスのピークから点群を作成 時間 強 度 FW LiDARは波形のように 連続的に反射強度を記録し ピークから点群を作成する 点群だけでなく、この波形情報も使用して分類したらいいのでは

Slide 63

Slide 63 text

データセットの作成 § マルチモーダルなデータ ページ 63 https://arxiv.org/pdf/2102.12010.pdf より引用 通常のスキャン式LiDAR センサ類 Flush FW LiDAR 広角カメラ レーダー カメラ

Slide 64

Slide 64 text

Full Waveform LiDAR データ § Flush LiDAR型のFW LiDARを開発 ページ 64 https://arxiv.org/pdf/2102.12010.pdf より引用 図は以下から引用 https://techcrunch.com/2019/03/22/gates-backed-lumotive- upends-lidar-conventions-using-metamaterials/ センサに近い センサから遠い 512個の強度が格納 ピークの位置が点群となる 前方180度点群を観測できる

Slide 65

Slide 65 text

Full Waveform LiDAR データ § マルチバンドの画像として表現される ページ 65 https://arxiv.org/pdf/2102.12010.pdf より引用 奥行き方向に強度の値が並んでいる画像として扱える … センサに近い センサから遠い 512個の強度が格納 ピークの位置が点群となる

Slide 66

Slide 66 text

実験結果 § 物体検出の実験 § 通常のスキャン式LiDARデータをアノテーション ページ 66 アノテーションした結果 アノテーションしたクラスとBbox数 https://arxiv.org/pdf/2102.12010.pdf より引用

Slide 67

Slide 67 text

実験結果 § 物体検出の実験 § PointPillarsに通常のLiDARの点群を⼊⼒して物体検出を⾏った ページ 67 アノテーションしたクラスとBbox数 https://arxiv.org/pdf/2102.12010.pdf

Slide 68

Slide 68 text

発表者の落胆 ページ 68 読む前の私 実験パートを読んだ私

Slide 69

Slide 69 text

やってみた: 波形情報を付与 § 深度画像と波形をくっつけたマルチバンド画像化 ページ 69 … 8 96 1+512 小さい画像になってしまう…… XY座標に対して強度がたくさんある

Slide 70

Slide 70 text

やってみた: 実験結果 ページ 70 § 学習 § 物体検出⼿法はYOLOX § ⼊⼒画像が⼩さすぎるので、縦128x横1,536画素四⽅にアップサンプリング § 真値は3次元のBBOXから2次元のBBOXへ変換したもの(MScoco形式) § ⽐較実験として、深度のみの画像を⼊⼒したもの § テストの結果 § 波形を加えると,⾞・歩⾏者・⾃転⾞でAPが向上 § ⾞みたいなソリッドな物体では恩恵がないが,⼈とか⾃転⾞のような複雑な形であれば効果がある 歩行者 車 サイクリスト 深度のみ 0.633 0.866 0.571 深度+波形 0.721 0.872 0.639 テストデータに対するAP(IoU0.5)

Slide 71

Slide 71 text

論⽂のまとめ § Full Waveform LiDARという照射したレーザ光の反射を⾼いサンプリングレートで取得する LiDARや画像や通常のLiDARを⽤いたデータセットを作成した § 論⽂の中のベースライン実験では、Full Waveform LiDARは使ってない § 個⼈的にFull Waveform LiDARを触ってみた § 3次元的に点群と波形の紐づけができてない § Full Waveform LiDARデータの謎バイナリ形式が扱いにくい § 2次元のBBOXに次元を落としてしまったので,3次元のBBOX推定ができてない. § 波形の波形らしさをCNNで扱えてない § 画像にすると、解像度が⾜りないので3次元的に点群+波形として扱ったほうがよさそう ページ 71

Slide 72

Slide 72 text

全体のまとめと課題 § 点群の深層学習 § 幾何学の知識や画像処理の分野のノウハウを点群の深層学習へ⼊れ込む⼿法は多いが、 点群の計測⼿法に着⽬した⼿法が少ない § 計測の原理に着⽬した点群深層学習⼿法 § 360度スキャンに着⽬した⽅法では,スライスして深層学習モデルに⼊⼒すると⾼速な処理が可能 § 反射強度に着⽬した⼿法では,⽣信号を加えると性能が向上する(論⽂では実験していない) § 時系列性とか⼿法の部分で改善できる余地はありそう § とはいえ、会議受けが悪いネタなので発展しなさそう ページ 72