Upgrade to Pro — share decks privately, control downloads, hide ads and more …

第36回ロボティクス勉強会 発表資料

teddy
May 19, 2023

第36回ロボティクス勉強会 発表資料

点群深層学習に計測の気持ちを入れた研究の紹介

teddy

May 19, 2023
Tweet

More Decks by teddy

Other Decks in Research

Transcript

  1. 点群深層学習に計測の気持ちを入れた
    研究の紹介
    ページ 1
    @shnhrtkyk
    第36回ロボティクス勉強会
    2023/5/19

    View full-size slide

  2. 自己紹介
    ▪ 名前:篠原崇之
    ▪ 経歴:2015年~ JTC勤務
    2019年~2022年 東工大で社D(点群Deep)
    ▪ 仕事:JTCでツール開発なんでも屋
    ページ 2

    View full-size slide

  3. 今日の話
    ページ 3
    点群の計測と
    深層学習の組み合わせ
    という分野があること
    伝えたい

    View full-size slide

  4. 何故この話題か
    ページ 4

    View full-size slide

  5. 何故この話題か
    ページ 5
    点群は
    計測しないと
    得られない

    View full-size slide

  6. アウトライン
    ページ 6
    1.点群の深層学習
    2.点群の計測方法
    3.360度スキャンに着目した
    深層学習手法
    4.反射強度に着目した
    深層学習手法

    View full-size slide

  7. アウトライン
    ページ 7
    1.点群の深層学習
    2.点群の計測方法
    3.360度スキャンに着目した
    深層学習手法
    4.反射強度に着目した
    深層学習手法

    View full-size slide

  8. 点群の深層学習
    1. 点群とは
    2. 点群深層学習とは
    3. 点群深層学習のおおまかな流れ
    4. 性能向上の戦略
    ページ 8

    View full-size slide

  9. 点群とは: XYZの集合
    ページ 9
    図はhttps://www.mdpi.com/2079-9292/8/10/1196のFig1から引用
    点群 Voxel メッシュ

    View full-size slide

  10. 点群とは: 物体認識が重要
    ページ 10
    現状の工事の進捗確認 走行可能領域
    を把握
    建物の高さの計測
    建物や電線を
    避けて移動
    AR
    よくある応用では
    3次元可視化・計測
    セマンティックな情報付与
    により利活用が進む
    数値計算

    View full-size slide

  11. 認識といえば深層学習手法
    ページ 11
    Deep Learning for 3D Point Clouds: A Survey (IEEE TPAMI 2020)より引用

    View full-size slide

  12. 点群深層学習手法の流れ :PointNet
    ページ 12
    x y z
    2 3 19
    1 3 21
    12 51 20
    5 3 32
    12 11 23
    31 3 1
    19 23 12
    入力する点群
    各点の特徴量
    2 3 19
    1 3 21
    12 51 20
    5 3 32
    12 11 23
    31 3 1
    19 23 12






    SemSeg
    分類
    など

    View full-size slide

  13. 性能向上の戦略: 畳み込みの定義
    ▪ CNNのような畳み込みを点群にも適用
    ページ 13
    簡単な方法 グラフ
    https://www.mdpi.com/2072-4292/12/4/634# より引用

    View full-size slide

  14. 性能向上の戦略: 畳み込み(手前味噌ですが)
    ページ 14
    エッジ強調演算
    https://arxiv.org/pdf/2209.09483.pdf より引用
    微分幾何学の気持ち
    で畳み込みを定義
    https://arxiv.org/pdf/2207.01181.pdf より引用

    View full-size slide

  15. 性能向上の戦略: 階層性
    ▪ CNNのような階層構造を持たせる
    ページ 15
    http://stanford.edu/~rqi/pointnet2/ より引用

    View full-size slide

  16. アウトライン
    ページ 16
    1.点群の深層学習
    2.点群の計測方法
    3.360度スキャンに着目した
    深層学習手法
    4.反射強度に着目した
    深層学習手法

    View full-size slide

  17. 点群の計測
    1. 計測方法
    2. LiDARの仕組み
    3. 点群の深層学習手法との関わり
    ページ 17

    View full-size slide

  18. 計測方法: LiDARとSfM/MVS
    ▪ Light Detection And Ranging(LiDAR)
    ▪ レーザー光で距離を測る
    ▪ Structure from Motion/Multi View Stereo(SfM/MVS)
    ▪ 多視点画像によるステレオ計測
    ページ 18

    View full-size slide

  19. 計測方法:LiDARの種類
    ▪ フラッシュ型:
    イメージセンサ全体を覆うようなレーザ光を出射し、
    それを受光
    ページ 19
    https://commons.wikimedia.org/wiki/File:LIDAR-scanned-SICK-LMS-
    animation.gif
    ▪ スキャン型:レーザ光を走査
    Quantitative Performance Assessment of LiDAR-based Vehicle Contour
    Estimation Algorithms for Integrated Vehicle Safety Applications の Figure2

    View full-size slide

  20. 計測方法: スキャン or フラッシュ
    ページ 20
    図は以下から引用
    https://techcrunch.com/2019/03/22/gates-backed-lumotive-upends-lidar-conventions-using-metamaterials/
    回転しないやつ 回転しながら計測

    View full-size slide

  21. ページ 21
    LiDARの仕組み: 原理
    Time of Flight(今回はdToF)
    レーザ発射
    反射
    照射~反射までの時間で
    センサと物体間の
    距離を算出
    自動運転に使われるLiDARの例
    https://github.com/unitycoder/VelodyneLidarViewer
    センサ 物体

    View full-size slide

  22. ページ 22
    LiDARの仕組み: 原理
    反射時間
    (センサからの遠さ)


    観測されるデータ
    既知の情報
    • センサの位置・姿勢
    • レーザの照射角度
    • 照射したレーザの情報
    位置情報を計算
    X,Y,Z座標
    ピークの時間

    View full-size slide

  23. LiDARの仕組み:特性
    ▪ フットプリントの特性
    ▪ フットプリント内部に複数物体がある場合
    ▪ 材質の影響
    ページ 23

    View full-size slide

  24. LiDARの仕組み: 特性①(フットプリント)
    ページ 24
    レーザー光は遠くになると照射面積(フットプリント)が広がる

    View full-size slide

  25. LiDARの仕組み: 特性②(複数物体)
    ページ 25
    複数物体ある場合のレーザ光のふるまい

    View full-size slide

  26. ページ 26
    照射
    LiDARの仕組み: 特性②(複数物体)

    View full-size slide

  27. ページ 27
    手前にいる人間にあたる
    LiDARの仕組み: 特性②(複数物体)

    View full-size slide

  28. ページ 28
    レーザ光は減衰して進む
    LiDARの仕組み: 特性②(複数物体)

    View full-size slide

  29. ページ 29
    2つ目の物体にレーザ光が当たる
    LiDARの仕組み: 特性②(複数物体)

    View full-size slide

  30. ページ 30
    時間


    複数物体にレーザ光が当たる場合は反射を複数観測し
    それぞれの反射が時系列的に格納される
    そして、複数のピークから点群を作成する(モードによる)
    LiDARの仕組み: 特性②(複数物体)

    View full-size slide

  31. LiDARの仕組み: 特性③(材質)
    ページ 31
    物体の違いによる反射の性質

    View full-size slide

  32. ページ 32
    ソリッドな場合、すべて最初の面で反射
    時間


    LiDARの仕組み: 特性③(材質)

    View full-size slide

  33. ページ 33
    ふわふわしている場合、内部の物体からも反射するため
    ピークがよくわからない
    時間


    LiDARの仕組み: 特性③(材質)

    View full-size slide

  34. ページ 34
    レーザ光の照射面積に対して物体が小さい場合
    反射強度は小さい
    時間


    LiDARの仕組み: 特性③(材質)

    View full-size slide

  35. LiDARの仕組み: 特性③(材質)
    ページ 35
    観測されるデータは
    当たった物体に依存してその形状が異なる
    時間


    時間


    ふわふわした物体
    例:木など
    硬い面を持つ物体
    例:車・建物など

    View full-size slide

  36. LiDARの仕組み(まとめ)
    ▪ (dToF形式において)レーザ光を照射してその反射光を観測するまでの時間を計測し、
    反射光のピークから点を作成
    ▪ 照射するレーザ光は遠くに行くほどフットプリントが広がる
    ▪ レーザ光の照射面積内に複数の物体にあたる場合は減衰しながら進む
    ▪ 物体からの反射を時系列的に格納する
    ▪ 物体によって反射の性質が異なる
    ▪ (主に現状の自動運転では)照射距離を稼ぐためレーザ光を回転しながら計測することが多い
    ▪ 自動運転で特に注意が必要な前面だけであれば、フラッシュライダーも使用される
    ページ 36

    View full-size slide

  37. ページ 37
    点群深層学習との関わり
    点群深層学習
    幾何学
    画像の
    アナロジー
    グラフ理論

    View full-size slide

  38. ページ 38
    点群深層学習との関わり
    点群深層学習
    幾何学
    画像の
    アナロジー
    グラフ理論 計測の気持ち
    ※あまりやっている人が居ないので
    増やしたい

    View full-size slide

  39. アウトライン
    ページ 39
    1.点群の深層学習
    2.点群の計測方法
    3.360度スキャンに着目した
    深層学習手法
    4.反射強度に着目した
    深層学習手法

    View full-size slide

  40. 360度スキャンに着目した深層学習手法
    1. 点群に対する物体検出
    2. 自動運転向けのLiDAR
    3. 論文紹介
    ページ 40

    View full-size slide

  41. 自動運転向けのLiDAR
    ページ 41
    図は以下から引用
    https://techcrunch.com/2019/03/22/gates-backed-lumotive-upends-lidar-conventions-using-metamaterials/
    回転するタイプ

    View full-size slide

  42. 点群に対する物体検出
    ▪ 一般的に欲しいスペック
    ▪ 物体検出の処理速度を自動運転に使えるくらいにしたい(観測の10fps 以上)
    ▪ 速度と性能のトレードオフをどうにかする
    ▪ 既存の基本戦略
    1. 点群を1周スキャンで取得
    2. スキャンし終わったら,点群を解析
    ▪ 点群を上から見た画像に変換して,画像の物体検出の世界に持っていく手法(速い)
    ▪ 点群を一定間隔の柱で区切って特徴抽出して,それを統合(性能が良い)
    3. 物体のいる位置を矩形で推定
    ▪ 課題
    ▪ 点群のままやると遅いので物体検出を高速にしたい
    ページ 42
    🤔1周待たずに取得された点群から即解析してしまえばいいのでは

    View full-size slide

  43. 点群に対する物体検出
    ▪ 1周待たずに取得された点群から即解析してしまえばいいのでは
    ページ 43
    1周待つ
    時間が問題

    View full-size slide

  44. 点群に対する物体検出
    ▪ 1周待たずに取得された点群から即解析してしまえばいいのでは
    ページ 44
    即点群解析

    View full-size slide

  45. 点群に対する物体検出
    ▪ 1周待たずに取得された点群から即解析してしまえばいいのでは
    ページ 45
    即点群解析

    View full-size slide

  46. 点群に対する物体検出
    ▪ 1周待たずに取得された点群から即解析してしまえばいいのでは
    ページ 46
    即点群解析

    View full-size slide

  47. 点群に対する物体検出
    ▪ 1周待たずに取得された点群から即解析してしまえばいいのでは
    ページ 47
    即点群解析

    View full-size slide

  48. 点群に対する物体検出
    ▪ 1周待たずに取得された点群から即解析してしまえばいいのでは
    ページ 48
    即点群解析

    View full-size slide

  49. 該当する論文
    ▪ Han, W., Zhang, Z., Caine, B., Yang, B., Sprunk, C., Alsharif, O., ... & Chen, Z.
    (2020, December). Streaming object detection for 3-d point clouds. In Computer
    Vision–ECCV 2020: 16th European Conference, Glasgow, UK, August 23–28,
    2020, Proceedings, Part XVIII (pp. 423-441). Cham: Springer International
    Publishing.
    ▪ Chen, Q., Vora, S., & Beijbom, O. (2021). Polarstream: Streaming object
    detection and segmentation with polar pillars. Advances in Neural Information
    Processing Systems, 34, 26871-26883.
    ▪ Frossard, D., Da Suo, S., Casas, S., Tu, J., & Urtasun, R. (2021, October).
    Strobe: Streaming object detection from lidar packets. In Conference on Robot
    Learning (pp. 1174-1183). PMLR.
    ▪ Abdelfattah, M., Yuan, K., Wang, Z. J., & Ward, R. (2022). Multi-modal
    Streaming 3D Object Detection. arXiv preprint arXiv:2209.04966.
    ページ 49

    View full-size slide

  50. 紹介する論文
    ▪ Han, W., Zhang, Z., Caine, B., Yang, B., Sprunk, C., Alsharif, O., ... & Chen, Z.
    (2020, December). Streaming object detection for 3-d point clouds. In Computer
    Vision–ECCV 2020: 16th European Conference, Glasgow, UK, August 23–28,
    2020, Proceedings, Part XVIII (pp. 423-441). Cham: Springer International
    Publishing.
    ▪ Chen, Q., Vora, S., & Beijbom, O. (2021). Polarstream: Streaming object
    detection and segmentation with polar pillars. Advances in Neural Information
    Processing Systems, 34, 26871-26883.
    ▪ Frossard, D., Da Suo, S., Casas, S., Tu, J., & Urtasun, R. (2021, October).
    Strobe: Streaming object detection from lidar packets. In Conference on Robot
    Learning (pp. 1174-1183). PMLR.
    ▪ Abdelfattah, M., Yuan, K., Wang, Z. J., & Ward, R. (2022). Multi-modal
    Streaming 3D Object Detection. arXiv preprint arXiv:2209.04966.
    ページ 50

    View full-size slide

  51. 論文の概要
    ▪ 円形にスキャンするので、一定角度ごとに深層学習モデルに入力する
    ページ 51
    https://arxiv.org/pdf/2005.01864.pdf より引用
    緑の範囲に入る点群ごとに解析
    一周観測を待つと遅延する
    緑の領域ごとに解析すれば遅延が少ない

    View full-size slide

  52. 通常の物体検出手法
    ▪ PointPillars: ベースラインとする
    ページ 52
    https://arxiv.org/abs/1812.05784 より引用
    オレンジの立方体に入る点群ごとに特徴抽出 鳥観図(上から見た図)に変換して画像のSSD

    View full-size slide

  53. 提案手法 PointPillarsを改造
    ▪ localized receptive field
    ▪ 一定角度の領域で点群を区切って
    PointPillarsの処理を行う
    ▪ LSTM
    ▪ 区切ってしまったので、受容野が減るから
    それを補うように過去の観測の特徴も用いたい
    ▪ Stateful NMS
    ▪ 物体が領域をまたぐ場合があるので
    個々の区切った領域でNMSするのではなく
    複数の領域でNMSする
    ページ 53
    https://arxiv.org/pdf/2005.01864.pdf より引用

    View full-size slide

  54. 実験結果(Waymo Open Dataset)
    ▪ 性能の評価
    ページ 54
    https://arxiv.org/pdf/2005.01864.pdf より引用
    区切ることで
    全体を高速化
    推論も高速になる
    LSTMを入れると性能劣化が軽減
    破線がベースライン
    10fps

    View full-size slide

  55. ▪ 各工夫点の影響
    ページ 55
    https://arxiv.org/pdf/2005.01864.pdf より引用
    表: 車の抽出性能(mAP)
    車のような大きなサイズでは細切れにすると受容野が不足
    通常のスライスしないPointPillars手法
    提案手法全盛りするとある程度抑制
    スライスすると性能がガタ落ち
    NMSを工夫すると劣化がすこし抑制
    実験結果(Waymo Open Dataset)
    スライスが細かい<--------------------->スライスが雑

    View full-size slide

  56. 論文のまとめ
    ▪ 自動運転の際にはできるだけ物体検出を高速にしたい
    ▪ 既存手法は1回のスキャンを待ってから推論を実行するので遅い
    ▪ スキャンを一周待たずに一定角度でスライスして推論したらいいのでは
    ▪ 単純にスライスして深層学習モデルに入れると性能が落ちるので、時系列性を考慮した
    ▪ 実験結果として、スキャン1周待つ既存手法よりも、性能は落とさずに高速な処理を実現した
    ▪ スライスによって受容野が小さくなるため,車のようなある程度大きな物体の抽出には悪影響があるが,
    スライスを細かくしすぎないことで抑制はできる(速度とのトレードオフ)
    ページ 56

    View full-size slide

  57. アウトライン
    ページ 57
    1.点群の深層学習
    2.点群の計測方法
    3.360度スキャンに着目した
    深層学習手法
    4.反射強度に着目した
    深層学習手法

    View full-size slide

  58. 点群に対する物体検出
    ▪ 欲しいスペック
    ▪ なるべく高性能な物体検出結果が欲しい
    ▪ 課題
    ▪ 現状のモデルだと,見逃しや過剰検出が発生する
    ページ 58
    🤔もう少し深層学習手法に入力する情報を増やせばいいのでは

    View full-size slide

  59. 反射強度に着目した深層学習手法
    1. LiDAR計測で点群を得る方法のおさらい
    2. 論文紹介
    3. やってみた
    ページ 59

    View full-size slide

  60. LiDARによる点群の取得方法(おさらい)
    ▪ レーザ光の反射が時系列に並んでいる
    ページ 60
    時間


    ▪ 反射のピークから点群を作成する
    時間


    x,y,z座標へ
    もしかして生信号って良い特徴なのでは

    View full-size slide

  61. 紹介する論文
    ▪ J. Déziel et al., “PixSet: An Opportunity for 3D Computer Vision to Go Beyond
    Point Clouds With a Full-Waveform LiDAR Dataset,” 2021 IEEE International
    Intelligent Transportation Systems Conference (ITSC), Indianapolis, IN, USA,
    2021, pp. 2987-2993, doi: 10.1109/ITSC48978.2021.9565047.
    ページ 61

    View full-size slide

  62. Full Waveform (FW) LiDARとは
    ▪ FW LiDARとは: 反射強度を記録する時間分解能が高いLiDAR
    ページ 62
    時間


    通常のLiDARでは強度の閾値を超えた
    パルスを記録しピークから点群を作成
    時間


    FW LiDARは波形のように
    連続的に反射強度を記録し
    ピークから点群を作成する
    🤔点群だけでなく、この波形情報も使用して分類したらいいのでは

    View full-size slide

  63. データセットの作成(論文のコントリビューション)
    ▪ マルチモーダルなデータ
    ページ 63
    https://arxiv.org/pdf/2102.12010.pdf より引用
    通常のスキャン式LiDAR
    センサ類
    Flush
    FW LiDAR
    広角カメラ
    レーダー
    カメラ

    View full-size slide

  64. Full Waveform LiDAR データ
    ▪ Flush LiDAR型のFW LiDARを開発
    ページ 64
    https://arxiv.org/pdf/2102.12010.pdf より引用
    図は以下から引用
    https://techcrunch.com/2019/03/22/gates-backed-lumotive-
    upends-lidar-conventions-using-metamaterials/
    センサに近い センサから遠い
    512個の強度が格納
    ピークの位置が点群となる
    前方180度点群を観測できる

    View full-size slide

  65. Full Waveform LiDAR データ
    ▪ マルチバンドの画像として表現される
    ページ 65
    https://arxiv.org/pdf/2102.12010.pdf より引用
    奥行き方向に強度の値が並んでいる画像として扱える

    センサに近い センサから遠い
    512個の強度が格納
    ピークの位置が点群となる

    View full-size slide

  66. 実験結果
    ▪ 物体検出の実験
    ▪ 通常のスキャン式LiDARデータをアノテーションしたデータセットを作った(コントリビューション)
    ページ 66
    アノテーションした結果
    アノテーションしたクラスとBbox数
    https://arxiv.org/pdf/2102.12010.pdf より引用

    View full-size slide

  67. 実験結果
    ▪ 物体検出の実験
    ▪ PointPillarsに通常のLiDARの点群を入力して物体検出を行った
    ページ 67
    アノテーションしたクラスとBbox数
    https://arxiv.org/pdf/2102.12010.pdf

    View full-size slide

  68. 発表者の落胆
    ページ 68
    読む前の私 実験パートを読んだ私

    View full-size slide

  69. やってみた: 波形情報を付与
    ▪ 深度画像と波形の強度をくっつけたマルチバンド画像化
    ページ 69

    8
    96
    1+512
    小さい画像になってしまう……
    XY座標に対して強度がたくさんある

    View full-size slide

  70. やってみた: 実験結果
    ページ 70
    ▪ 学習
    ▪ 物体検出手法はYOLOX
    ▪ 入力画像が小さすぎるので、縦128x横1,536画素四方にアップサンプリング
    ▪ 真値は3次元のBBOXから2次元のBBOXへ変換したもの(MScoco形式)
    ▪ 比較実験として、深度のみの画像を入力したもの
    ▪ テストの結果
    ▪ 波形を加えると,車・歩行者・自転車でAPが向上
    ▪ 車みたいなソリッドな物体では恩恵がないが,人とか自転車のような複雑な形であれば効果がある
    歩行者 車 サイクリスト
    深度のみ 0.633 0.866 0.571
    深度+波形 0.721 0.872 0.639
    テストデータに対するAP(IoU0.5)

    View full-size slide

  71. 論文のまとめ
    ▪ Full Waveform LiDARという照射したレーザ光の反射を高いサンプリングレートで取得する
    LiDARや画像や通常のLiDARを用いたデータセットを作成した
    ▪ 論文の中のベースライン実験では、Full Waveform LiDARは使ってない
    ▪ 個人的にFull Waveform LiDARを触ってみた
    ▪ 3次元的に点群と波形の紐づけができてない
    ▪ Full Waveform LiDARデータの謎バイナリ形式が扱いにくい
    ▪ 2次元のBBOXに次元を落としてしまったので,3次元のBBOX推定ができてない.
    ▪ 波形の波形らしさをCNNで扱えてない
    ▪ 画像にすると、解像度が足りないので3次元的に点群+波形として扱ったほうがよさそう
    ページ 71

    View full-size slide

  72. 全体のまとめと課題
    ▪ 点群の深層学習
    ▪ 幾何学の知識や画像処理の分野のノウハウを点群の深層学習へ入れ込む手法は多いが、
    点群の計測手法に着目した手法が少ない
    ▪ 計測の原理に着目した点群深層学習手法
    ▪ 360度スキャンに着目した方法では,スライスして深層学習モデルに入力すると高速な処理が可能
    ▪ 反射強度に着目した手法では,生信号を加えると性能が向上する(論文では実験していない)
    ▪ 時系列性とか手法の部分で改善できる余地はありそう
    ▪ とはいえ、会議受けが悪いネタなので発展しなさそう
    ページ 72

    View full-size slide

  73. 計測の気持ち論文が増えた☺
    ▪ NeRFの点群版が出たよ
    ▪ NeRFを使用して任意観測点からの点群生成で
    物理シミュレーションよりも良い性能を示した
    ▪ 視点変更
    ▪ Z軸に動かす
    ▪ センサを傾ける
    ▪ 平面的に動かす
    ▪ センサ変更
    ▪ 密なセンサに変更
    ▪ 疎なセンサに変更
    ページ 73
    https://research.nvidia.com/labs/toronto-ai/nfl/

    View full-size slide