第36回ロボティクス勉強会発表資料

Slide 1

Slide 1 text

点群深層学習に計測の気持ちを入れた研究の紹介ページ 1 @shnhrtkyk 第36回ロボティクス勉強会 2023/5/19

Slide 2

Slide 2 text

自己紹介 ▪ 名前：篠原崇之 ▪ 経歴：2015年～ JTC勤務 2019年～2022年東工大で社Ｄ（点群Deep） ▪ 仕事：JTCでツール開発なんでも屋ページ 2

Slide 3

Slide 3 text

今日の話ページ 3 点群の計測と深層学習の組み合わせという分野があること伝えたい

Slide 4

Slide 4 text

何故この話題かページ 4

Slide 5

Slide 5 text

何故この話題かページ 5 点群は計測しないと得られない

Slide 6

Slide 6 text

アウトラインページ 6 1.点群の深層学習 2.点群の計測方法 3.360度スキャンに着目した深層学習手法 4.反射強度に着目した深層学習手法

Slide 7

Slide 7 text

アウトラインページ 7 1.点群の深層学習 2.点群の計測方法 3.360度スキャンに着目した深層学習手法 4.反射強度に着目した深層学習手法

Slide 8

Slide 8 text

点群の深層学習 1. 点群とは 2. 点群深層学習とは 3. 点群深層学習のおおまかな流れ 4. 性能向上の戦略ページ 8

Slide 9

Slide 9 text

点群とは: XYZの集合ページ 9 図はhttps://www.mdpi.com/2079-9292/8/10/1196のFig1から引用点群 Voxel メッシュ

Slide 10

Slide 10 text

点群とは: 物体認識が重要ページ 10 現状の工事の進捗確認走行可能領域を把握建物の高さの計測建物や電線を避けて移動 AR よくある応用では 3次元可視化・計測セマンティックな情報付与により利活用が進む数値計算

Slide 11

Slide 11 text

認識といえば深層学習手法ページ 11 Deep Learning for 3D Point Clouds: A Survey (IEEE TPAMI 2020)より引用

Slide 12

Slide 12 text

点群深層学習手法の流れ :PointNet ページ 12 x y z 2 3 19 1 3 21 12 51 20 5 3 32 12 11 23 31 3 1 19 23 12 入力する点群各点の特徴量 2 3 19 1 3 21 12 51 20 5 3 32 12 11 23 31 3 1 19 23 12 広範囲の情報 SemSeg 分類など

Slide 13

Slide 13 text

性能向上の戦略: 畳み込みの定義 ▪ CNNのような畳み込みを点群にも適用ページ 13 簡単な方法グラフ https://www.mdpi.com/2072-4292/12/4/634# より引用

Slide 14

Slide 14 text

性能向上の戦略: 畳み込み（手前味噌ですが）ページ 14 エッジ強調演算 https://arxiv.org/pdf/2209.09483.pdf より引用微分幾何学の気持ちで畳み込みを定義 https://arxiv.org/pdf/2207.01181.pdf より引用

Slide 15

Slide 15 text

性能向上の戦略: 階層性 ▪ CNNのような階層構造を持たせるページ 15 http://stanford.edu/~rqi/pointnet2/ より引用

Slide 16

Slide 16 text

アウトラインページ 16 1.点群の深層学習 2.点群の計測方法 3.360度スキャンに着目した深層学習手法 4.反射強度に着目した深層学習手法

Slide 17

Slide 17 text

点群の計測 1. 計測方法 2. LiDARの仕組み 3. 点群の深層学習手法との関わりページ 17

Slide 18

Slide 18 text

計測方法: LiDARとSfM/MVS ▪ Light Detection And Ranging(LiDAR) ▪ レーザー光で距離を測る ▪ Structure from Motion/Multi View Stereo(SfM/MVS) ▪ 多視点画像によるステレオ計測ページ 18

Slide 19

Slide 19 text

計測方法：LiDARの種類 ▪ フラッシュ型：イメージセンサ全体を覆うようなレーザ光を出射し、それを受光ページ 19 https://commons.wikimedia.org/wiki/File:LIDAR-scanned-SICK-LMS- animation.gif ▪ スキャン型：レーザ光を走査 Quantitative Performance Assessment of LiDAR-based Vehicle Contour Estimation Algorithms for Integrated Vehicle Safety Applications の Figure2

Slide 20

Slide 20 text

計測方法: スキャン or フラッシュページ 20 図は以下から引用 https://techcrunch.com/2019/03/22/gates-backed-lumotive-upends-lidar-conventions-using-metamaterials/ 回転しないやつ回転しながら計測

Slide 21

Slide 21 text

ページ 21 LiDARの仕組み: 原理 Time of Flight(今回はdToF) レーザ発射反射照射～反射までの時間でセンサと物体間の距離を算出自動運転に使われるLiDARの例 https://github.com/unitycoder/VelodyneLidarViewer センサ物体

Slide 22

Slide 22 text

ページ 22 LiDARの仕組み: 原理反射時間 (センサからの遠さ) 強度観測されるデータ既知の情報 • センサの位置・姿勢 • レーザの照射角度 • 照射したレーザの情報位置情報を計算 X,Y,Z座標ピークの時間

Slide 23

Slide 23 text

LiDARの仕組み：特性 ▪ フットプリントの特性 ▪ フットプリント内部に複数物体がある場合 ▪ 材質の影響ページ 23

Slide 24

Slide 24 text

LiDARの仕組み: 特性①（フットプリント）ページ 24 レーザー光は遠くになると照射面積（フットプリント）が広がる

Slide 25

Slide 25 text

LiDARの仕組み: 特性②（複数物体）ページ 25 複数物体ある場合のレーザ光のふるまい

Slide 26

Slide 26 text

ページ 26 照射 LiDARの仕組み: 特性②（複数物体）

Slide 27

Slide 27 text

ページ 27 手前にいる人間にあたる LiDARの仕組み: 特性②（複数物体）

Slide 28

Slide 28 text

ページ 28 レーザ光は減衰して進む LiDARの仕組み: 特性②（複数物体）

Slide 29

Slide 29 text

ページ 29 2つ目の物体にレーザ光が当たる LiDARの仕組み: 特性②（複数物体）

Slide 30

Slide 30 text

ページ 30 時間強度複数物体にレーザ光が当たる場合は反射を複数観測しそれぞれの反射が時系列的に格納されるそして、複数のピークから点群を作成する（モードによる） LiDARの仕組み: 特性②（複数物体）

Slide 31

Slide 31 text

LiDARの仕組み: 特性③（材質）ページ 31 物体の違いによる反射の性質？

Slide 32

Slide 32 text

ページ 32 ソリッドな場合、すべて最初の面で反射時間強度 LiDARの仕組み: 特性③（材質）

Slide 33

Slide 33 text

ページ 33 ふわふわしている場合、内部の物体からも反射するためピークがよくわからない時間強度 LiDARの仕組み: 特性③（材質）

Slide 34

Slide 34 text

ページ 34 レーザ光の照射面積に対して物体が小さい場合反射強度は小さい時間強度 LiDARの仕組み: 特性③（材質）

Slide 35

Slide 35 text

LiDARの仕組み: 特性③（材質）ページ 35 観測されるデータは当たった物体に依存してその形状が異なる時間強度時間強度ふわふわした物体例：木など硬い面を持つ物体例：車・建物など

Slide 36

Slide 36 text

LiDARの仕組み（まとめ） ▪ (dToF形式において)レーザ光を照射してその反射光を観測するまでの時間を計測し、反射光のピークから点を作成 ▪ 照射するレーザ光は遠くに行くほどフットプリントが広がる ▪ レーザ光の照射面積内に複数の物体にあたる場合は減衰しながら進む ▪ 物体からの反射を時系列的に格納する ▪ 物体によって反射の性質が異なる ▪ （主に現状の自動運転では）照射距離を稼ぐためレーザ光を回転しながら計測することが多い ▪ 自動運転で特に注意が必要な前面だけであれば、フラッシュライダーも使用されるページ 36

Slide 37

Slide 37 text

ページ 37 点群深層学習との関わり点群深層学習幾何学画像のアナロジーグラフ理論

Slide 38

Slide 38 text

ページ 38 点群深層学習との関わり点群深層学習幾何学画像のアナロジーグラフ理論計測の気持ち ※あまりやっている人が居ないので増やしたい

Slide 39

Slide 39 text

アウトラインページ 39 1.点群の深層学習 2.点群の計測方法 3.360度スキャンに着目した深層学習手法 4.反射強度に着目した深層学習手法

Slide 40

Slide 40 text

360度スキャンに着目した深層学習手法 1. 点群に対する物体検出 2. 自動運転向けのLiDAR 3. 論文紹介ページ 40

Slide 41

Slide 41 text

自動運転向けのLiDAR ページ 41 図は以下から引用 https://techcrunch.com/2019/03/22/gates-backed-lumotive-upends-lidar-conventions-using-metamaterials/ 回転するタイプ

Slide 42

Slide 42 text

点群に対する物体検出 ▪ 一般的に欲しいスペック ▪ 物体検出の処理速度を自動運転に使えるくらいにしたい（観測の10fps 以上） ▪ 速度と性能のトレードオフをどうにかする ▪ 既存の基本戦略 1. 点群を1周スキャンで取得 2. スキャンし終わったら，点群を解析 ▪ 点群を上から見た画像に変換して，画像の物体検出の世界に持っていく手法（速い） ▪ 点群を一定間隔の柱で区切って特徴抽出して，それを統合（性能が良い） 3. 物体のいる位置を矩形で推定 ▪ 課題 ▪ 点群のままやると遅いので物体検出を高速にしたいページ 42 🤔1周待たずに取得された点群から即解析してしまえばいいのでは

Slide 43

Slide 43 text

点群に対する物体検出 ▪ 1周待たずに取得された点群から即解析してしまえばいいのではページ 43 1周待つ時間が問題

Slide 44

Slide 44 text

点群に対する物体検出 ▪ 1周待たずに取得された点群から即解析してしまえばいいのではページ 44 即点群解析

Slide 45

Slide 45 text

点群に対する物体検出 ▪ 1周待たずに取得された点群から即解析してしまえばいいのではページ 45 即点群解析

Slide 46

Slide 46 text

点群に対する物体検出 ▪ 1周待たずに取得された点群から即解析してしまえばいいのではページ 46 即点群解析

Slide 47

Slide 47 text

点群に対する物体検出 ▪ 1周待たずに取得された点群から即解析してしまえばいいのではページ 47 即点群解析

Slide 48

Slide 48 text

点群に対する物体検出 ▪ 1周待たずに取得された点群から即解析してしまえばいいのではページ 48 即点群解析

Slide 49

Slide 49 text

該当する論文 ▪ Han, W., Zhang, Z., Caine, B., Yang, B., Sprunk, C., Alsharif, O., ... & Chen, Z. (2020, December). Streaming object detection for 3-d point clouds. In Computer Vision–ECCV 2020: 16th European Conference, Glasgow, UK, August 23–28, 2020, Proceedings, Part XVIII (pp. 423-441). Cham: Springer International Publishing. ▪ Chen, Q., Vora, S., & Beijbom, O. (2021). Polarstream: Streaming object detection and segmentation with polar pillars. Advances in Neural Information Processing Systems, 34, 26871-26883. ▪ Frossard, D., Da Suo, S., Casas, S., Tu, J., & Urtasun, R. (2021, October). Strobe: Streaming object detection from lidar packets. In Conference on Robot Learning (pp. 1174-1183). PMLR. ▪ Abdelfattah, M., Yuan, K., Wang, Z. J., & Ward, R. (2022). Multi-modal Streaming 3D Object Detection. arXiv preprint arXiv:2209.04966. ページ 49

Slide 50

Slide 50 text

紹介する論文 ▪ Han, W., Zhang, Z., Caine, B., Yang, B., Sprunk, C., Alsharif, O., ... & Chen, Z. (2020, December). Streaming object detection for 3-d point clouds. In Computer Vision–ECCV 2020: 16th European Conference, Glasgow, UK, August 23–28, 2020, Proceedings, Part XVIII (pp. 423-441). Cham: Springer International Publishing. ▪ Chen, Q., Vora, S., & Beijbom, O. (2021). Polarstream: Streaming object detection and segmentation with polar pillars. Advances in Neural Information Processing Systems, 34, 26871-26883. ▪ Frossard, D., Da Suo, S., Casas, S., Tu, J., & Urtasun, R. (2021, October). Strobe: Streaming object detection from lidar packets. In Conference on Robot Learning (pp. 1174-1183). PMLR. ▪ Abdelfattah, M., Yuan, K., Wang, Z. J., & Ward, R. (2022). Multi-modal Streaming 3D Object Detection. arXiv preprint arXiv:2209.04966. ページ 50

Slide 51

Slide 51 text

論文の概要 ▪ 円形にスキャンするので、一定角度ごとに深層学習モデルに入力するページ 51 https://arxiv.org/pdf/2005.01864.pdf より引用緑の範囲に入る点群ごとに解析一周観測を待つと遅延する緑の領域ごとに解析すれば遅延が少ない

Slide 52

Slide 52 text

通常の物体検出手法 ▪ PointPillars: ベースラインとするページ 52 https://arxiv.org/abs/1812.05784 より引用オレンジの立方体に入る点群ごとに特徴抽出鳥観図（上から見た図）に変換して画像のSSD

Slide 53

Slide 53 text

提案手法 PointPillarsを改造 ▪ localized receptive field ▪ 一定角度の領域で点群を区切って PointPillarsの処理を行う ▪ LSTM ▪ 区切ってしまったので、受容野が減るからそれを補うように過去の観測の特徴も用いたい ▪ Stateful NMS ▪ 物体が領域をまたぐ場合があるので個々の区切った領域でNMSするのではなく複数の領域でＮＭＳするページ 53 https://arxiv.org/pdf/2005.01864.pdf より引用

Slide 54

Slide 54 text

実験結果(Waymo Open Dataset) ▪ 性能の評価ページ 54 https://arxiv.org/pdf/2005.01864.pdf より引用区切ることで全体を高速化推論も高速になる LSTMを入れると性能劣化が軽減破線がベースライン 10fps

Slide 55

Slide 55 text

▪ 各工夫点の影響ページ 55 https://arxiv.org/pdf/2005.01864.pdf より引用表: 車の抽出性能(mAP) 車のような大きなサイズでは細切れにすると受容野が不足通常のスライスしないPointPillars手法提案手法全盛りするとある程度抑制スライスすると性能がガタ落ち NMSを工夫すると劣化がすこし抑制実験結果(Waymo Open Dataset) スライスが細かい<--------------------->スライスが雑

Slide 56

Slide 56 text

論文のまとめ ▪ 自動運転の際にはできるだけ物体検出を高速にしたい ▪ 既存手法は1回のスキャンを待ってから推論を実行するので遅い ▪ スキャンを一周待たずに一定角度でスライスして推論したらいいのでは ▪ 単純にスライスして深層学習モデルに入れると性能が落ちるので、時系列性を考慮した ▪ 実験結果として、スキャン1周待つ既存手法よりも、性能は落とさずに高速な処理を実現した ▪ スライスによって受容野が小さくなるため，車のようなある程度大きな物体の抽出には悪影響があるが，スライスを細かくしすぎないことで抑制はできる（速度とのトレードオフ）ページ 56

Slide 57

Slide 57 text

アウトラインページ 57 1.点群の深層学習 2.点群の計測方法 3.360度スキャンに着目した深層学習手法 4.反射強度に着目した深層学習手法

Slide 58

Slide 58 text

点群に対する物体検出 ▪ 欲しいスペック ▪ なるべく高性能な物体検出結果が欲しい ▪ 課題 ▪ 現状のモデルだと，見逃しや過剰検出が発生するページ 58 🤔もう少し深層学習手法に入力する情報を増やせばいいのでは

Slide 59

Slide 59 text

反射強度に着目した深層学習手法 1. LiDAR計測で点群を得る方法のおさらい 2. 論文紹介 3. やってみたページ 59

Slide 60

Slide 60 text

LiDARによる点群の取得方法（おさらい） ▪ レーザ光の反射が時系列に並んでいるページ 60 時間強度 ▪ 反射のピークから点群を作成する時間強度 x,y,z座標へもしかして生信号って良い特徴なのでは

Slide 61

Slide 61 text

紹介する論文 ▪ J. Déziel et al., “PixSet: An Opportunity for 3D Computer Vision to Go Beyond Point Clouds With a Full-Waveform LiDAR Dataset,” 2021 IEEE International Intelligent Transportation Systems Conference (ITSC), Indianapolis, IN, USA, 2021, pp. 2987-2993, doi: 10.1109/ITSC48978.2021.9565047. ページ 61

Slide 62

Slide 62 text

Full Waveform (FW) LiDARとは ▪ FW LiDARとは: 反射強度を記録する時間分解能が高いLiDAR ページ 62 時間強度通常のLiDARでは強度の閾値を超えたパルスを記録しピークから点群を作成時間強度 FW LiDARは波形のように連続的に反射強度を記録しピークから点群を作成する 🤔点群だけでなく、この波形情報も使用して分類したらいいのでは

Slide 63

Slide 63 text

データセットの作成(論文のコントリビューション) ▪ マルチモーダルなデータページ 63 https://arxiv.org/pdf/2102.12010.pdf より引用通常のスキャン式LiDAR センサ類 Flush FW LiDAR 広角カメラレーダーカメラ

Slide 64

Slide 64 text

Full Waveform LiDAR データ ▪ Flush LiDAR型のFW LiDARを開発ページ 64 https://arxiv.org/pdf/2102.12010.pdf より引用図は以下から引用 https://techcrunch.com/2019/03/22/gates-backed-lumotive- upends-lidar-conventions-using-metamaterials/ センサに近いセンサから遠い 512個の強度が格納ピークの位置が点群となる前方180度点群を観測できる

Slide 65

Slide 65 text

Full Waveform LiDAR データ ▪ マルチバンドの画像として表現されるページ 65 https://arxiv.org/pdf/2102.12010.pdf より引用奥行き方向に強度の値が並んでいる画像として扱える … センサに近いセンサから遠い 512個の強度が格納ピークの位置が点群となる

Slide 66

Slide 66 text

実験結果 ▪ 物体検出の実験 ▪ 通常のスキャン式LiDARデータをアノテーションしたデータセットを作った(コントリビューション) ページ 66 アノテーションした結果アノテーションしたクラスとBbox数 https://arxiv.org/pdf/2102.12010.pdf より引用

Slide 67

Slide 67 text

実験結果 ▪ 物体検出の実験 ▪ PointPillarsに通常のLiDARの点群を入力して物体検出を行ったページ 67 アノテーションしたクラスとBbox数 https://arxiv.org/pdf/2102.12010.pdf

Slide 68

Slide 68 text

発表者の落胆ページ 68 読む前の私実験パートを読んだ私

Slide 69

Slide 69 text

やってみた: 波形情報を付与 ▪ 深度画像と波形の強度をくっつけたマルチバンド画像化ページ 69 … 8 96 1+512 小さい画像になってしまう…… XY座標に対して強度がたくさんある

Slide 70

Slide 70 text

やってみた: 実験結果ページ 70 ▪ 学習 ▪ 物体検出手法はYOLOX ▪ 入力画像が小さすぎるので、縦128x横1,536画素四方にアップサンプリング ▪ 真値は3次元のBBOXから2次元のBBOXへ変換したもの(MScoco形式) ▪ 比較実験として、深度のみの画像を入力したもの ▪ テストの結果 ▪ 波形を加えると，車・歩行者・自転車でAPが向上 ▪ 車みたいなソリッドな物体では恩恵がないが，人とか自転車のような複雑な形であれば効果がある歩行者車サイクリスト深度のみ 0.633 0.866 0.571 深度＋波形 0.721 0.872 0.639 テストデータに対するAP(IoU0.5)

Slide 71

Slide 71 text

論文のまとめ ▪ Full Waveform LiDARという照射したレーザ光の反射を高いサンプリングレートで取得する LiDARや画像や通常のLiDARを用いたデータセットを作成した ▪ 論文の中のベースライン実験では、Full Waveform LiDARは使ってない ▪ 個人的にFull Waveform LiDARを触ってみた ▪ 3次元的に点群と波形の紐づけができてない ▪ Full Waveform LiDARデータの謎バイナリ形式が扱いにくい ▪ 2次元のBBOXに次元を落としてしまったので，3次元のBBOX推定ができてない． ▪ 波形の波形らしさをCNNで扱えてない ▪ 画像にすると、解像度が足りないので3次元的に点群＋波形として扱ったほうがよさそうページ 71

Slide 72

Slide 72 text

全体のまとめと課題 ▪ 点群の深層学習 ▪ 幾何学の知識や画像処理の分野のノウハウを点群の深層学習へ入れ込む手法は多いが、点群の計測手法に着目した手法が少ない ▪ 計測の原理に着目した点群深層学習手法 ▪ 360度スキャンに着目した方法では，スライスして深層学習モデルに入力すると高速な処理が可能 ▪ 反射強度に着目した手法では，生信号を加えると性能が向上する（論文では実験していない） ▪ 時系列性とか手法の部分で改善できる余地はありそう ▪ とはいえ、会議受けが悪いネタなので発展しなさそうページ 72

Slide 73

Slide 73 text

計測の気持ち論文が増えた☺ ▪ NeRFの点群版が出たよ ▪ NeRFを使用して任意観測点からの点群生成で物理シミュレーションよりも良い性能を示した ▪ 視点変更 ▪ Z軸に動かす ▪ センサを傾ける ▪ 平面的に動かす ▪ センサ変更 ▪ 密なセンサに変更 ▪ 疎なセンサに変更ページ 73 https://research.nvidia.com/labs/toronto-ai/nfl/