Slide 1

Slide 1 text

点群深層学習に計測の気持ちを入れた 研究の紹介 ページ 1 @shnhrtkyk 第36回ロボティクス勉強会 2023/5/19

Slide 2

Slide 2 text

自己紹介 ▪ 名前:篠原崇之 ▪ 経歴:2015年~ JTC勤務 2019年~2022年 東工大で社D(点群Deep) ▪ 仕事:JTCでツール開発なんでも屋 ページ 2

Slide 3

Slide 3 text

今日の話 ページ 3 点群の計測と 深層学習の組み合わせ という分野があること 伝えたい

Slide 4

Slide 4 text

何故この話題か ページ 4

Slide 5

Slide 5 text

何故この話題か ページ 5 点群は 計測しないと 得られない

Slide 6

Slide 6 text

アウトライン ページ 6 1.点群の深層学習 2.点群の計測方法 3.360度スキャンに着目した 深層学習手法 4.反射強度に着目した 深層学習手法

Slide 7

Slide 7 text

アウトライン ページ 7 1.点群の深層学習 2.点群の計測方法 3.360度スキャンに着目した 深層学習手法 4.反射強度に着目した 深層学習手法

Slide 8

Slide 8 text

点群の深層学習 1. 点群とは 2. 点群深層学習とは 3. 点群深層学習のおおまかな流れ 4. 性能向上の戦略 ページ 8

Slide 9

Slide 9 text

点群とは: XYZの集合 ページ 9 図はhttps://www.mdpi.com/2079-9292/8/10/1196のFig1から引用 点群 Voxel メッシュ

Slide 10

Slide 10 text

点群とは: 物体認識が重要 ページ 10 現状の工事の進捗確認 走行可能領域 を把握 建物の高さの計測 建物や電線を 避けて移動 AR よくある応用では 3次元可視化・計測 セマンティックな情報付与 により利活用が進む 数値計算

Slide 11

Slide 11 text

認識といえば深層学習手法 ページ 11 Deep Learning for 3D Point Clouds: A Survey (IEEE TPAMI 2020)より引用

Slide 12

Slide 12 text

点群深層学習手法の流れ :PointNet ページ 12 x y z 2 3 19 1 3 21 12 51 20 5 3 32 12 11 23 31 3 1 19 23 12 入力する点群 各点の特徴量 2 3 19 1 3 21 12 51 20 5 3 32 12 11 23 31 3 1 19 23 12 広 範 囲 の 情 報 SemSeg 分類 など

Slide 13

Slide 13 text

性能向上の戦略: 畳み込みの定義 ▪ CNNのような畳み込みを点群にも適用 ページ 13 簡単な方法 グラフ https://www.mdpi.com/2072-4292/12/4/634# より引用

Slide 14

Slide 14 text

性能向上の戦略: 畳み込み(手前味噌ですが) ページ 14 エッジ強調演算 https://arxiv.org/pdf/2209.09483.pdf より引用 微分幾何学の気持ち で畳み込みを定義 https://arxiv.org/pdf/2207.01181.pdf より引用

Slide 15

Slide 15 text

性能向上の戦略: 階層性 ▪ CNNのような階層構造を持たせる ページ 15 http://stanford.edu/~rqi/pointnet2/ より引用

Slide 16

Slide 16 text

アウトライン ページ 16 1.点群の深層学習 2.点群の計測方法 3.360度スキャンに着目した 深層学習手法 4.反射強度に着目した 深層学習手法

Slide 17

Slide 17 text

点群の計測 1. 計測方法 2. LiDARの仕組み 3. 点群の深層学習手法との関わり ページ 17

Slide 18

Slide 18 text

計測方法: LiDARとSfM/MVS ▪ Light Detection And Ranging(LiDAR) ▪ レーザー光で距離を測る ▪ Structure from Motion/Multi View Stereo(SfM/MVS) ▪ 多視点画像によるステレオ計測 ページ 18

Slide 19

Slide 19 text

計測方法:LiDARの種類 ▪ フラッシュ型: イメージセンサ全体を覆うようなレーザ光を出射し、 それを受光 ページ 19 https://commons.wikimedia.org/wiki/File:LIDAR-scanned-SICK-LMS- animation.gif ▪ スキャン型:レーザ光を走査 Quantitative Performance Assessment of LiDAR-based Vehicle Contour Estimation Algorithms for Integrated Vehicle Safety Applications の Figure2

Slide 20

Slide 20 text

計測方法: スキャン or フラッシュ ページ 20 図は以下から引用 https://techcrunch.com/2019/03/22/gates-backed-lumotive-upends-lidar-conventions-using-metamaterials/ 回転しないやつ 回転しながら計測

Slide 21

Slide 21 text

ページ 21 LiDARの仕組み: 原理 Time of Flight(今回はdToF) レーザ発射 反射 照射~反射までの時間で センサと物体間の 距離を算出 自動運転に使われるLiDARの例 https://github.com/unitycoder/VelodyneLidarViewer センサ 物体

Slide 22

Slide 22 text

ページ 22 LiDARの仕組み: 原理 反射時間 (センサからの遠さ) 強 度 観測されるデータ 既知の情報 • センサの位置・姿勢 • レーザの照射角度 • 照射したレーザの情報 位置情報を計算 X,Y,Z座標 ピークの時間

Slide 23

Slide 23 text

LiDARの仕組み:特性 ▪ フットプリントの特性 ▪ フットプリント内部に複数物体がある場合 ▪ 材質の影響 ページ 23

Slide 24

Slide 24 text

LiDARの仕組み: 特性①(フットプリント) ページ 24 レーザー光は遠くになると照射面積(フットプリント)が広がる

Slide 25

Slide 25 text

LiDARの仕組み: 特性②(複数物体) ページ 25 複数物体ある場合のレーザ光のふるまい

Slide 26

Slide 26 text

ページ 26 照射 LiDARの仕組み: 特性②(複数物体)

Slide 27

Slide 27 text

ページ 27 手前にいる人間にあたる LiDARの仕組み: 特性②(複数物体)

Slide 28

Slide 28 text

ページ 28 レーザ光は減衰して進む LiDARの仕組み: 特性②(複数物体)

Slide 29

Slide 29 text

ページ 29 2つ目の物体にレーザ光が当たる LiDARの仕組み: 特性②(複数物体)

Slide 30

Slide 30 text

ページ 30 時間 強 度 複数物体にレーザ光が当たる場合は反射を複数観測し それぞれの反射が時系列的に格納される そして、複数のピークから点群を作成する(モードによる) LiDARの仕組み: 特性②(複数物体)

Slide 31

Slide 31 text

LiDARの仕組み: 特性③(材質) ページ 31 物体の違いによる反射の性質 ?

Slide 32

Slide 32 text

ページ 32 ソリッドな場合、すべて最初の面で反射 時間 強 度 LiDARの仕組み: 特性③(材質)

Slide 33

Slide 33 text

ページ 33 ふわふわしている場合、内部の物体からも反射するため ピークがよくわからない 時間 強 度 LiDARの仕組み: 特性③(材質)

Slide 34

Slide 34 text

ページ 34 レーザ光の照射面積に対して物体が小さい場合 反射強度は小さい 時間 強 度 LiDARの仕組み: 特性③(材質)

Slide 35

Slide 35 text

LiDARの仕組み: 特性③(材質) ページ 35 観測されるデータは 当たった物体に依存してその形状が異なる 時間 強 度 時間 強 度 ふわふわした物体 例:木など 硬い面を持つ物体 例:車・建物など

Slide 36

Slide 36 text

LiDARの仕組み(まとめ) ▪ (dToF形式において)レーザ光を照射してその反射光を観測するまでの時間を計測し、 反射光のピークから点を作成 ▪ 照射するレーザ光は遠くに行くほどフットプリントが広がる ▪ レーザ光の照射面積内に複数の物体にあたる場合は減衰しながら進む ▪ 物体からの反射を時系列的に格納する ▪ 物体によって反射の性質が異なる ▪ (主に現状の自動運転では)照射距離を稼ぐためレーザ光を回転しながら計測することが多い ▪ 自動運転で特に注意が必要な前面だけであれば、フラッシュライダーも使用される ページ 36

Slide 37

Slide 37 text

ページ 37 点群深層学習との関わり 点群深層学習 幾何学 画像の アナロジー グラフ理論

Slide 38

Slide 38 text

ページ 38 点群深層学習との関わり 点群深層学習 幾何学 画像の アナロジー グラフ理論 計測の気持ち ※あまりやっている人が居ないので 増やしたい

Slide 39

Slide 39 text

アウトライン ページ 39 1.点群の深層学習 2.点群の計測方法 3.360度スキャンに着目した 深層学習手法 4.反射強度に着目した 深層学習手法

Slide 40

Slide 40 text

360度スキャンに着目した深層学習手法 1. 点群に対する物体検出 2. 自動運転向けのLiDAR 3. 論文紹介 ページ 40

Slide 41

Slide 41 text

自動運転向けのLiDAR ページ 41 図は以下から引用 https://techcrunch.com/2019/03/22/gates-backed-lumotive-upends-lidar-conventions-using-metamaterials/ 回転するタイプ

Slide 42

Slide 42 text

点群に対する物体検出 ▪ 一般的に欲しいスペック ▪ 物体検出の処理速度を自動運転に使えるくらいにしたい(観測の10fps 以上) ▪ 速度と性能のトレードオフをどうにかする ▪ 既存の基本戦略 1. 点群を1周スキャンで取得 2. スキャンし終わったら,点群を解析 ▪ 点群を上から見た画像に変換して,画像の物体検出の世界に持っていく手法(速い) ▪ 点群を一定間隔の柱で区切って特徴抽出して,それを統合(性能が良い) 3. 物体のいる位置を矩形で推定 ▪ 課題 ▪ 点群のままやると遅いので物体検出を高速にしたい ページ 42 🤔1周待たずに取得された点群から即解析してしまえばいいのでは

Slide 43

Slide 43 text

点群に対する物体検出 ▪ 1周待たずに取得された点群から即解析してしまえばいいのでは ページ 43 1周待つ 時間が問題

Slide 44

Slide 44 text

点群に対する物体検出 ▪ 1周待たずに取得された点群から即解析してしまえばいいのでは ページ 44 即点群解析

Slide 45

Slide 45 text

点群に対する物体検出 ▪ 1周待たずに取得された点群から即解析してしまえばいいのでは ページ 45 即点群解析

Slide 46

Slide 46 text

点群に対する物体検出 ▪ 1周待たずに取得された点群から即解析してしまえばいいのでは ページ 46 即点群解析

Slide 47

Slide 47 text

点群に対する物体検出 ▪ 1周待たずに取得された点群から即解析してしまえばいいのでは ページ 47 即点群解析

Slide 48

Slide 48 text

点群に対する物体検出 ▪ 1周待たずに取得された点群から即解析してしまえばいいのでは ページ 48 即点群解析

Slide 49

Slide 49 text

該当する論文 ▪ Han, W., Zhang, Z., Caine, B., Yang, B., Sprunk, C., Alsharif, O., ... & Chen, Z. (2020, December). Streaming object detection for 3-d point clouds. In Computer Vision–ECCV 2020: 16th European Conference, Glasgow, UK, August 23–28, 2020, Proceedings, Part XVIII (pp. 423-441). Cham: Springer International Publishing. ▪ Chen, Q., Vora, S., & Beijbom, O. (2021). Polarstream: Streaming object detection and segmentation with polar pillars. Advances in Neural Information Processing Systems, 34, 26871-26883. ▪ Frossard, D., Da Suo, S., Casas, S., Tu, J., & Urtasun, R. (2021, October). Strobe: Streaming object detection from lidar packets. In Conference on Robot Learning (pp. 1174-1183). PMLR. ▪ Abdelfattah, M., Yuan, K., Wang, Z. J., & Ward, R. (2022). Multi-modal Streaming 3D Object Detection. arXiv preprint arXiv:2209.04966. ページ 49

Slide 50

Slide 50 text

紹介する論文 ▪ Han, W., Zhang, Z., Caine, B., Yang, B., Sprunk, C., Alsharif, O., ... & Chen, Z. (2020, December). Streaming object detection for 3-d point clouds. In Computer Vision–ECCV 2020: 16th European Conference, Glasgow, UK, August 23–28, 2020, Proceedings, Part XVIII (pp. 423-441). Cham: Springer International Publishing. ▪ Chen, Q., Vora, S., & Beijbom, O. (2021). Polarstream: Streaming object detection and segmentation with polar pillars. Advances in Neural Information Processing Systems, 34, 26871-26883. ▪ Frossard, D., Da Suo, S., Casas, S., Tu, J., & Urtasun, R. (2021, October). Strobe: Streaming object detection from lidar packets. In Conference on Robot Learning (pp. 1174-1183). PMLR. ▪ Abdelfattah, M., Yuan, K., Wang, Z. J., & Ward, R. (2022). Multi-modal Streaming 3D Object Detection. arXiv preprint arXiv:2209.04966. ページ 50

Slide 51

Slide 51 text

論文の概要 ▪ 円形にスキャンするので、一定角度ごとに深層学習モデルに入力する ページ 51 https://arxiv.org/pdf/2005.01864.pdf より引用 緑の範囲に入る点群ごとに解析 一周観測を待つと遅延する 緑の領域ごとに解析すれば遅延が少ない

Slide 52

Slide 52 text

通常の物体検出手法 ▪ PointPillars: ベースラインとする ページ 52 https://arxiv.org/abs/1812.05784 より引用 オレンジの立方体に入る点群ごとに特徴抽出 鳥観図(上から見た図)に変換して画像のSSD

Slide 53

Slide 53 text

提案手法 PointPillarsを改造 ▪ localized receptive field ▪ 一定角度の領域で点群を区切って PointPillarsの処理を行う ▪ LSTM ▪ 区切ってしまったので、受容野が減るから それを補うように過去の観測の特徴も用いたい ▪ Stateful NMS ▪ 物体が領域をまたぐ場合があるので 個々の区切った領域でNMSするのではなく 複数の領域でNMSする ページ 53 https://arxiv.org/pdf/2005.01864.pdf より引用

Slide 54

Slide 54 text

実験結果(Waymo Open Dataset) ▪ 性能の評価 ページ 54 https://arxiv.org/pdf/2005.01864.pdf より引用 区切ることで 全体を高速化 推論も高速になる LSTMを入れると性能劣化が軽減 破線がベースライン 10fps

Slide 55

Slide 55 text

▪ 各工夫点の影響 ページ 55 https://arxiv.org/pdf/2005.01864.pdf より引用 表: 車の抽出性能(mAP) 車のような大きなサイズでは細切れにすると受容野が不足 通常のスライスしないPointPillars手法 提案手法全盛りするとある程度抑制 スライスすると性能がガタ落ち NMSを工夫すると劣化がすこし抑制 実験結果(Waymo Open Dataset) スライスが細かい<--------------------->スライスが雑

Slide 56

Slide 56 text

論文のまとめ ▪ 自動運転の際にはできるだけ物体検出を高速にしたい ▪ 既存手法は1回のスキャンを待ってから推論を実行するので遅い ▪ スキャンを一周待たずに一定角度でスライスして推論したらいいのでは ▪ 単純にスライスして深層学習モデルに入れると性能が落ちるので、時系列性を考慮した ▪ 実験結果として、スキャン1周待つ既存手法よりも、性能は落とさずに高速な処理を実現した ▪ スライスによって受容野が小さくなるため,車のようなある程度大きな物体の抽出には悪影響があるが, スライスを細かくしすぎないことで抑制はできる(速度とのトレードオフ) ページ 56

Slide 57

Slide 57 text

アウトライン ページ 57 1.点群の深層学習 2.点群の計測方法 3.360度スキャンに着目した 深層学習手法 4.反射強度に着目した 深層学習手法

Slide 58

Slide 58 text

点群に対する物体検出 ▪ 欲しいスペック ▪ なるべく高性能な物体検出結果が欲しい ▪ 課題 ▪ 現状のモデルだと,見逃しや過剰検出が発生する ページ 58 🤔もう少し深層学習手法に入力する情報を増やせばいいのでは

Slide 59

Slide 59 text

反射強度に着目した深層学習手法 1. LiDAR計測で点群を得る方法のおさらい 2. 論文紹介 3. やってみた ページ 59

Slide 60

Slide 60 text

LiDARによる点群の取得方法(おさらい) ▪ レーザ光の反射が時系列に並んでいる ページ 60 時間 強 度 ▪ 反射のピークから点群を作成する 時間 強 度 x,y,z座標へ もしかして生信号って良い特徴なのでは

Slide 61

Slide 61 text

紹介する論文 ▪ J. Déziel et al., “PixSet: An Opportunity for 3D Computer Vision to Go Beyond Point Clouds With a Full-Waveform LiDAR Dataset,” 2021 IEEE International Intelligent Transportation Systems Conference (ITSC), Indianapolis, IN, USA, 2021, pp. 2987-2993, doi: 10.1109/ITSC48978.2021.9565047. ページ 61

Slide 62

Slide 62 text

Full Waveform (FW) LiDARとは ▪ FW LiDARとは: 反射強度を記録する時間分解能が高いLiDAR ページ 62 時間 強 度 通常のLiDARでは強度の閾値を超えた パルスを記録しピークから点群を作成 時間 強 度 FW LiDARは波形のように 連続的に反射強度を記録し ピークから点群を作成する 🤔点群だけでなく、この波形情報も使用して分類したらいいのでは

Slide 63

Slide 63 text

データセットの作成(論文のコントリビューション) ▪ マルチモーダルなデータ ページ 63 https://arxiv.org/pdf/2102.12010.pdf より引用 通常のスキャン式LiDAR センサ類 Flush FW LiDAR 広角カメラ レーダー カメラ

Slide 64

Slide 64 text

Full Waveform LiDAR データ ▪ Flush LiDAR型のFW LiDARを開発 ページ 64 https://arxiv.org/pdf/2102.12010.pdf より引用 図は以下から引用 https://techcrunch.com/2019/03/22/gates-backed-lumotive- upends-lidar-conventions-using-metamaterials/ センサに近い センサから遠い 512個の強度が格納 ピークの位置が点群となる 前方180度点群を観測できる

Slide 65

Slide 65 text

Full Waveform LiDAR データ ▪ マルチバンドの画像として表現される ページ 65 https://arxiv.org/pdf/2102.12010.pdf より引用 奥行き方向に強度の値が並んでいる画像として扱える … センサに近い センサから遠い 512個の強度が格納 ピークの位置が点群となる

Slide 66

Slide 66 text

実験結果 ▪ 物体検出の実験 ▪ 通常のスキャン式LiDARデータをアノテーションしたデータセットを作った(コントリビューション) ページ 66 アノテーションした結果 アノテーションしたクラスとBbox数 https://arxiv.org/pdf/2102.12010.pdf より引用

Slide 67

Slide 67 text

実験結果 ▪ 物体検出の実験 ▪ PointPillarsに通常のLiDARの点群を入力して物体検出を行った ページ 67 アノテーションしたクラスとBbox数 https://arxiv.org/pdf/2102.12010.pdf

Slide 68

Slide 68 text

発表者の落胆 ページ 68 読む前の私 実験パートを読んだ私

Slide 69

Slide 69 text

やってみた: 波形情報を付与 ▪ 深度画像と波形の強度をくっつけたマルチバンド画像化 ページ 69 … 8 96 1+512 小さい画像になってしまう…… XY座標に対して強度がたくさんある

Slide 70

Slide 70 text

やってみた: 実験結果 ページ 70 ▪ 学習 ▪ 物体検出手法はYOLOX ▪ 入力画像が小さすぎるので、縦128x横1,536画素四方にアップサンプリング ▪ 真値は3次元のBBOXから2次元のBBOXへ変換したもの(MScoco形式) ▪ 比較実験として、深度のみの画像を入力したもの ▪ テストの結果 ▪ 波形を加えると,車・歩行者・自転車でAPが向上 ▪ 車みたいなソリッドな物体では恩恵がないが,人とか自転車のような複雑な形であれば効果がある 歩行者 車 サイクリスト 深度のみ 0.633 0.866 0.571 深度+波形 0.721 0.872 0.639 テストデータに対するAP(IoU0.5)

Slide 71

Slide 71 text

論文のまとめ ▪ Full Waveform LiDARという照射したレーザ光の反射を高いサンプリングレートで取得する LiDARや画像や通常のLiDARを用いたデータセットを作成した ▪ 論文の中のベースライン実験では、Full Waveform LiDARは使ってない ▪ 個人的にFull Waveform LiDARを触ってみた ▪ 3次元的に点群と波形の紐づけができてない ▪ Full Waveform LiDARデータの謎バイナリ形式が扱いにくい ▪ 2次元のBBOXに次元を落としてしまったので,3次元のBBOX推定ができてない. ▪ 波形の波形らしさをCNNで扱えてない ▪ 画像にすると、解像度が足りないので3次元的に点群+波形として扱ったほうがよさそう ページ 71

Slide 72

Slide 72 text

全体のまとめと課題 ▪ 点群の深層学習 ▪ 幾何学の知識や画像処理の分野のノウハウを点群の深層学習へ入れ込む手法は多いが、 点群の計測手法に着目した手法が少ない ▪ 計測の原理に着目した点群深層学習手法 ▪ 360度スキャンに着目した方法では,スライスして深層学習モデルに入力すると高速な処理が可能 ▪ 反射強度に着目した手法では,生信号を加えると性能が向上する(論文では実験していない) ▪ 時系列性とか手法の部分で改善できる余地はありそう ▪ とはいえ、会議受けが悪いネタなので発展しなさそう ページ 72

Slide 73

Slide 73 text

計測の気持ち論文が増えた☺ ▪ NeRFの点群版が出たよ ▪ NeRFを使用して任意観測点からの点群生成で 物理シミュレーションよりも良い性能を示した ▪ 視点変更 ▪ Z軸に動かす ▪ センサを傾ける ▪ 平面的に動かす ▪ センサ変更 ▪ 密なセンサに変更 ▪ 疎なセンサに変更 ページ 73 https://research.nvidia.com/labs/toronto-ai/nfl/