第36回ロボティクス勉強会発表資料

点群深層学習に計測の気持ちを入れた研究の紹介ページ 1 @shnhrtkyk 第36回ロボティクス勉強会 2023/5/19

自己紹介 ▪ 名前：篠原崇之 ▪ 経歴：2015年～ JTC勤務 2019年～2022年東工大で社Ｄ（点群Deep） ▪ 仕事：JTCでツール開発なんでも屋
ページ 2

今日の話ページ 3 点群の計測と深層学習の組み合わせという分野があること伝えたい

何故この話題かページ 4

何故この話題かページ 5 点群は計測しないと得られない

アウトラインページ 6 1.点群の深層学習 2.点群の計測方法 3.360度スキャンに着目した深層学習手法 4.反射強度に着目した深層学習手法

点群の深層学習 1. 点群とは 2. 点群深層学習とは 3. 点群深層学習のおおまかな流れ 4. 性能向上の戦略ページ
8

点群とは: XYZの集合ページ 9 図はhttps://www.mdpi.com/2079-9292/8/10/1196のFig1から引用点群 Voxel メッシュ

点群とは: 物体認識が重要ページ 10 現状の工事の進捗確認走行可能領域を把握建物の高さの計測建物や電線を避けて移動
AR よくある応用では 3次元可視化・計測セマンティックな情報付与により利活用が進む数値計算

認識といえば深層学習手法ページ 11 Deep Learning for 3D Point Clouds: A
Survey (IEEE TPAMI 2020)より引用

点群深層学習手法の流れ :PointNet ページ 12 x y z 2 3 19
1 3 21 12 51 20 5 3 32 12 11 23 31 3 1 19 23 12 入力する点群各点の特徴量 2 3 19 1 3 21 12 51 20 5 3 32 12 11 23 31 3 1 19 23 12 広範囲の情報 SemSeg 分類など

性能向上の戦略: 畳み込みの定義 ▪ CNNのような畳み込みを点群にも適用ページ 13 簡単な方法グラフ https://www.mdpi.com/2072-4292/12/4/634# より引用

性能向上の戦略: 畳み込み（手前味噌ですが）ページ 14 エッジ強調演算 https://arxiv.org/pdf/2209.09483.pdf より引用微分幾何学の気持ちで畳み込みを定義 https://arxiv.org/pdf/2207.01181.pdf
より引用

性能向上の戦略: 階層性 ▪ CNNのような階層構造を持たせるページ 15 http://stanford.edu/~rqi/pointnet2/ より引用

点群の計測 1. 計測方法 2. LiDARの仕組み 3. 点群の深層学習手法との関わりページ 17

計測方法: LiDARとSfM/MVS ▪ Light Detection And Ranging(LiDAR) ▪ レーザー光で距離を測る ▪
Structure from Motion/Multi View Stereo(SfM/MVS) ▪ 多視点画像によるステレオ計測ページ 18

計測方法：LiDARの種類 ▪ フラッシュ型：イメージセンサ全体を覆うようなレーザ光を出射し、それを受光ページ 19 https://commons.wikimedia.org/wiki/File:LIDAR-scanned-SICK-LMS- animation.gif ▪
スキャン型：レーザ光を走査 Quantitative Performance Assessment of LiDAR-based Vehicle Contour Estimation Algorithms for Integrated Vehicle Safety Applications の Figure2

計測方法: スキャン or フラッシュページ 20 図は以下から引用 https://techcrunch.com/2019/03/22/gates-backed-lumotive-upends-lidar-conventions-using-metamaterials/ 回転しないやつ回転しながら計測

ページ 21 LiDARの仕組み: 原理 Time of Flight(今回はdToF) レーザ発射反射照射～反射までの時間で
センサと物体間の距離を算出自動運転に使われるLiDARの例 https://github.com/unitycoder/VelodyneLidarViewer センサ物体

ページ 22 LiDARの仕組み: 原理反射時間 (センサからの遠さ) 強度観測されるデータ既知の情報
• センサの位置・姿勢 • レーザの照射角度 • 照射したレーザの情報位置情報を計算 X,Y,Z座標ピークの時間

LiDARの仕組み：特性 ▪ フットプリントの特性 ▪ フットプリント内部に複数物体がある場合 ▪ 材質の影響ページ 23

LiDARの仕組み: 特性①（フットプリント）ページ 24 レーザー光は遠くになると照射面積（フットプリント）が広がる

LiDARの仕組み: 特性②（複数物体）ページ 25 複数物体ある場合のレーザ光のふるまい

ページ 26 照射 LiDARの仕組み: 特性②（複数物体）

ページ 27 手前にいる人間にあたる LiDARの仕組み: 特性②（複数物体）

ページ 28 レーザ光は減衰して進む LiDARの仕組み: 特性②（複数物体）

ページ 29 2つ目の物体にレーザ光が当たる LiDARの仕組み: 特性②（複数物体）

ページ 30 時間強度複数物体にレーザ光が当たる場合は反射を複数観測しそれぞれの反射が時系列的に格納されるそして、複数のピークから点群を作成する（モードによる） LiDARの仕組み: 特性②（複数物体）

LiDARの仕組み: 特性③（材質）ページ 31 物体の違いによる反射の性質？

ページ 32 ソリッドな場合、すべて最初の面で反射時間強度 LiDARの仕組み: 特性③（材質）

ページ 33 ふわふわしている場合、内部の物体からも反射するためピークがよくわからない時間強度 LiDARの仕組み: 特性③（材質）

ページ 34 レーザ光の照射面積に対して物体が小さい場合反射強度は小さい時間強度 LiDARの仕組み: 特性③（材質）

LiDARの仕組み: 特性③（材質）ページ 35 観測されるデータは当たった物体に依存してその形状が異なる時間強度時間
強度ふわふわした物体例：木など硬い面を持つ物体例：車・建物など

LiDARの仕組み（まとめ） ▪ (dToF形式において)レーザ光を照射してその反射光を観測するまでの時間を計測し、反射光のピークから点を作成 ▪ 照射するレーザ光は遠くに行くほどフットプリントが広がる ▪ レーザ光の照射面積内に複数の物体にあたる場合は減衰しながら進む ▪ 物体からの反射を時系列的に格納する
▪ 物体によって反射の性質が異なる ▪ （主に現状の自動運転では）照射距離を稼ぐためレーザ光を回転しながら計測することが多い ▪ 自動運転で特に注意が必要な前面だけであれば、フラッシュライダーも使用されるページ 36

ページ 37 点群深層学習との関わり点群深層学習幾何学画像のアナロジーグラフ理論

ページ 38 点群深層学習との関わり点群深層学習幾何学画像のアナロジーグラフ理論計測の気持ち ※あまりやっている人が居ないので
増やしたい

360度スキャンに着目した深層学習手法 1. 点群に対する物体検出 2. 自動運転向けのLiDAR 3. 論文紹介ページ 40

自動運転向けのLiDAR ページ 41 図は以下から引用 https://techcrunch.com/2019/03/22/gates-backed-lumotive-upends-lidar-conventions-using-metamaterials/ 回転するタイプ

点群に対する物体検出 ▪ 一般的に欲しいスペック ▪ 物体検出の処理速度を自動運転に使えるくらいにしたい（観測の10fps 以上） ▪ 速度と性能のトレードオフをどうにかする ▪ 既存の基本戦略
1. 点群を1周スキャンで取得 2. スキャンし終わったら，点群を解析 ▪ 点群を上から見た画像に変換して，画像の物体検出の世界に持っていく手法（速い） ▪ 点群を一定間隔の柱で区切って特徴抽出して，それを統合（性能が良い） 3. 物体のいる位置を矩形で推定 ▪ 課題 ▪ 点群のままやると遅いので物体検出を高速にしたいページ 42 🤔1周待たずに取得された点群から即解析してしまえばいいのでは

点群に対する物体検出 ▪ 1周待たずに取得された点群から即解析してしまえばいいのではページ 43 1周待つ時間が問題

点群に対する物体検出 ▪ 1周待たずに取得された点群から即解析してしまえばいいのではページ 44 即点群解析

該当する論文 ▪ Han, W., Zhang, Z., Caine, B., Yang, B.,
Sprunk, C., Alsharif, O., ... & Chen, Z. (2020, December). Streaming object detection for 3-d point clouds. In Computer Vision–ECCV 2020: 16th European Conference, Glasgow, UK, August 23–28, 2020, Proceedings, Part XVIII (pp. 423-441). Cham: Springer International Publishing. ▪ Chen, Q., Vora, S., & Beijbom, O. (2021). Polarstream: Streaming object detection and segmentation with polar pillars. Advances in Neural Information Processing Systems, 34, 26871-26883. ▪ Frossard, D., Da Suo, S., Casas, S., Tu, J., & Urtasun, R. (2021, October). Strobe: Streaming object detection from lidar packets. In Conference on Robot Learning (pp. 1174-1183). PMLR. ▪ Abdelfattah, M., Yuan, K., Wang, Z. J., & Ward, R. (2022). Multi-modal Streaming 3D Object Detection. arXiv preprint arXiv:2209.04966. ページ 49

紹介する論文 ▪ Han, W., Zhang, Z., Caine, B., Yang, B.,
Sprunk, C., Alsharif, O., ... & Chen, Z. (2020, December). Streaming object detection for 3-d point clouds. In Computer Vision–ECCV 2020: 16th European Conference, Glasgow, UK, August 23–28, 2020, Proceedings, Part XVIII (pp. 423-441). Cham: Springer International Publishing. ▪ Chen, Q., Vora, S., & Beijbom, O. (2021). Polarstream: Streaming object detection and segmentation with polar pillars. Advances in Neural Information Processing Systems, 34, 26871-26883. ▪ Frossard, D., Da Suo, S., Casas, S., Tu, J., & Urtasun, R. (2021, October). Strobe: Streaming object detection from lidar packets. In Conference on Robot Learning (pp. 1174-1183). PMLR. ▪ Abdelfattah, M., Yuan, K., Wang, Z. J., & Ward, R. (2022). Multi-modal Streaming 3D Object Detection. arXiv preprint arXiv:2209.04966. ページ 50

論文の概要 ▪ 円形にスキャンするので、一定角度ごとに深層学習モデルに入力するページ 51 https://arxiv.org/pdf/2005.01864.pdf より引用緑の範囲に入る点群ごとに解析一周観測を待つと遅延する緑の領域ごとに解析すれば遅延が少ない

通常の物体検出手法 ▪ PointPillars: ベースラインとするページ 52 https://arxiv.org/abs/1812.05784 より引用オレンジの立方体に入る点群ごとに特徴抽出鳥観図（上から見た図）に変換して画像のSSD

提案手法 PointPillarsを改造 ▪ localized receptive field ▪ 一定角度の領域で点群を区切って PointPillarsの処理を行う ▪
LSTM ▪ 区切ってしまったので、受容野が減るからそれを補うように過去の観測の特徴も用いたい ▪ Stateful NMS ▪ 物体が領域をまたぐ場合があるので個々の区切った領域でNMSするのではなく複数の領域でＮＭＳするページ 53 https://arxiv.org/pdf/2005.01864.pdf より引用

実験結果(Waymo Open Dataset) ▪ 性能の評価ページ 54 https://arxiv.org/pdf/2005.01864.pdf より引用区切ることで
全体を高速化推論も高速になる LSTMを入れると性能劣化が軽減破線がベースライン 10fps

▪ 各工夫点の影響ページ 55 https://arxiv.org/pdf/2005.01864.pdf より引用表: 車の抽出性能(mAP) 車のような大きなサイズでは細切れにすると受容野が不足通常のスライスしないPointPillars手法
提案手法全盛りするとある程度抑制スライスすると性能がガタ落ち NMSを工夫すると劣化がすこし抑制実験結果(Waymo Open Dataset) スライスが細かい<--------------------->スライスが雑

論文のまとめ ▪ 自動運転の際にはできるだけ物体検出を高速にしたい ▪ 既存手法は1回のスキャンを待ってから推論を実行するので遅い ▪ スキャンを一周待たずに一定角度でスライスして推論したらいいのでは ▪ 単純にスライスして深層学習モデルに入れると性能が落ちるので、時系列性を考慮した ▪
実験結果として、スキャン1周待つ既存手法よりも、性能は落とさずに高速な処理を実現した ▪ スライスによって受容野が小さくなるため，車のようなある程度大きな物体の抽出には悪影響があるが，スライスを細かくしすぎないことで抑制はできる（速度とのトレードオフ）ページ 56

点群に対する物体検出 ▪ 欲しいスペック ▪ なるべく高性能な物体検出結果が欲しい ▪ 課題 ▪ 現状のモデルだと，見逃しや過剰検出が発生するページ
58 🤔もう少し深層学習手法に入力する情報を増やせばいいのでは

反射強度に着目した深層学習手法 1. LiDAR計測で点群を得る方法のおさらい 2. 論文紹介 3. やってみたページ 59

LiDARによる点群の取得方法（おさらい） ▪ レーザ光の反射が時系列に並んでいるページ 60 時間強度 ▪ 反射のピークから点群を作成する
時間強度 x,y,z座標へもしかして生信号って良い特徴なのでは

紹介する論文 ▪ J. Déziel et al., “PixSet: An Opportunity for
3D Computer Vision to Go Beyond Point Clouds With a Full-Waveform LiDAR Dataset,” 2021 IEEE International Intelligent Transportation Systems Conference (ITSC), Indianapolis, IN, USA, 2021, pp. 2987-2993, doi: 10.1109/ITSC48978.2021.9565047. ページ 61

Full Waveform (FW) LiDARとは ▪ FW LiDARとは: 反射強度を記録する時間分解能が高いLiDAR ページ 62
時間強度通常のLiDARでは強度の閾値を超えたパルスを記録しピークから点群を作成時間強度 FW LiDARは波形のように連続的に反射強度を記録しピークから点群を作成する 🤔点群だけでなく、この波形情報も使用して分類したらいいのでは

データセットの作成(論文のコントリビューション) ▪ マルチモーダルなデータページ 63 https://arxiv.org/pdf/2102.12010.pdf より引用通常のスキャン式LiDAR センサ類 Flush
FW LiDAR 広角カメラレーダーカメラ

Full Waveform LiDAR データ ▪ Flush LiDAR型のFW LiDARを開発ページ 64
https://arxiv.org/pdf/2102.12010.pdf より引用図は以下から引用 https://techcrunch.com/2019/03/22/gates-backed-lumotive- upends-lidar-conventions-using-metamaterials/ センサに近いセンサから遠い 512個の強度が格納ピークの位置が点群となる前方180度点群を観測できる

Full Waveform LiDAR データ ▪ マルチバンドの画像として表現されるページ 65 https://arxiv.org/pdf/2102.12010.pdf より引用
奥行き方向に強度の値が並んでいる画像として扱える … センサに近いセンサから遠い 512個の強度が格納ピークの位置が点群となる

実験結果 ▪ 物体検出の実験 ▪ 通常のスキャン式LiDARデータをアノテーションしたデータセットを作った(コントリビューション) ページ 66 アノテーションした結果アノテーションしたクラスとBbox数 https://arxiv.org/pdf/2102.12010.pdf
より引用

実験結果 ▪ 物体検出の実験 ▪ PointPillarsに通常のLiDARの点群を入力して物体検出を行ったページ 67 アノテーションしたクラスとBbox数 https://arxiv.org/pdf/2102.12010.pdf

発表者の落胆ページ 68 読む前の私実験パートを読んだ私

やってみた: 波形情報を付与 ▪ 深度画像と波形の強度をくっつけたマルチバンド画像化ページ 69 … 8 96 1+512
小さい画像になってしまう…… XY座標に対して強度がたくさんある

やってみた: 実験結果ページ 70 ▪ 学習 ▪ 物体検出手法はYOLOX ▪ 入力画像が小さすぎるので、縦128x横1,536画素四方にアップサンプリング
▪ 真値は3次元のBBOXから2次元のBBOXへ変換したもの(MScoco形式) ▪ 比較実験として、深度のみの画像を入力したもの ▪ テストの結果 ▪ 波形を加えると，車・歩行者・自転車でAPが向上 ▪ 車みたいなソリッドな物体では恩恵がないが，人とか自転車のような複雑な形であれば効果がある歩行者車サイクリスト深度のみ 0.633 0.866 0.571 深度＋波形 0.721 0.872 0.639 テストデータに対するAP(IoU0.5)

論文のまとめ ▪ Full Waveform LiDARという照射したレーザ光の反射を高いサンプリングレートで取得する LiDARや画像や通常のLiDARを用いたデータセットを作成した ▪ 論文の中のベースライン実験では、Full Waveform LiDARは使ってない
▪ 個人的にFull Waveform LiDARを触ってみた ▪ 3次元的に点群と波形の紐づけができてない ▪ Full Waveform LiDARデータの謎バイナリ形式が扱いにくい ▪ 2次元のBBOXに次元を落としてしまったので，3次元のBBOX推定ができてない． ▪ 波形の波形らしさをCNNで扱えてない ▪ 画像にすると、解像度が足りないので3次元的に点群＋波形として扱ったほうがよさそうページ 71

全体のまとめと課題 ▪ 点群の深層学習 ▪ 幾何学の知識や画像処理の分野のノウハウを点群の深層学習へ入れ込む手法は多いが、点群の計測手法に着目した手法が少ない ▪ 計測の原理に着目した点群深層学習手法 ▪ 360度スキャンに着目した方法では，スライスして深層学習モデルに入力すると高速な処理が可能
▪ 反射強度に着目した手法では，生信号を加えると性能が向上する（論文では実験していない） ▪ 時系列性とか手法の部分で改善できる余地はありそう ▪ とはいえ、会議受けが悪いネタなので発展しなさそうページ 72

計測の気持ち論文が増えた☺ ▪ NeRFの点群版が出たよ ▪ NeRFを使用して任意観測点からの点群生成で物理シミュレーションよりも良い性能を示した ▪ 視点変更 ▪ Z軸に動かす
▪ センサを傾ける ▪ 平面的に動かす ▪ センサ変更 ▪ 密なセンサに変更 ▪ 疎なセンサに変更ページ 73 https://research.nvidia.com/labs/toronto-ai/nfl/

第36回ロボティクス勉強会 発表資料

第36回ロボティクス勉強会 発表資料

More Decks by teddy

Other Decks in Research

Featured

Transcript

第36回ロボティクス勉強会発表資料

第36回ロボティクス勉強会発表資料