Upgrade to Pro — share decks privately, control downloads, hide ads and more …

点群深層学習に計測の気持ちを入れた研究の紹介

teddy
April 30, 2023
540

 点群深層学習に計測の気持ちを入れた研究の紹介

第58回 コンピュータビジョン勉強会@関東
2023.4.30

teddy

April 30, 2023
Tweet

More Decks by teddy

Transcript

  1. 点群深層学習に計測の気持ちを⼊れた
    研究の紹介
    ページ 1
    @shnhrtkyk
    関東CV 2023/4/30

    View Slide

  2. ⾃⼰紹介
    § 名前︓篠原崇之
    § 経歴︓2015年〜 JTC勤務
    2019年〜2022年 東⼯⼤で社D(点群Deep)
    § 仕事︓JTCでツール開発なんでも屋
    ページ 2

    View Slide

  3. 今⽇の話
    ページ 3
    点群の計測と
    深層学習の組み合わせ
    という分野があること
    伝えたい

    View Slide

  4. 何故この話題か
    ページ 4

    View Slide

  5. 何故この話題か
    ページ 5
    点群は
    計測しないと
    得られない

    View Slide

  6. アウトライン
    ページ 6
    1.点群の深層学習
    2.点群の計測⽅法
    3.360度スキャンに着⽬した
    深層学習⼿法
    4.反射強度に着⽬した
    深層学習⼿法

    View Slide

  7. アウトライン
    ページ 7
    1.点群の深層学習
    2.点群の計測⽅法
    3.360度スキャンに着⽬した
    深層学習⼿法
    4.反射強度に着⽬した
    深層学習⼿法

    View Slide

  8. 点群の深層学習
    1. 点群とは
    2. 点群深層学習とは
    3. 点群深層学習のおおまかな流れ
    4. 性能向上の戦略
    ページ 8

    View Slide

  9. 点群とは: XYZの集合
    ページ 9
    図はhttps://www.mdpi.com/2079-9292/8/10/1196のFig1から引用
    点群 Voxel メッシュ

    View Slide

  10. 点群とは: 物体認識が重要
    ページ 10
    現状の工事の進捗確認 走行可能領域
    を把握
    建物の高さの計測
    建物や電線を
    避けて移動
    AR
    3次元可視化・計測 セマンティックな情報付与
    により利活用が進む
    数値計算

    View Slide

  11. 点群深層学習⼿法
    ページ 11
    Deep Learning for 3D Point Clouds: A Survey (IEEE TPAMI 2020)より引用

    View Slide

  12. 点群深層学習⼿法の流れ :PointNet
    ページ 12
    x y z
    2 3 19
    1 3 21
    12 51 20
    5 3 32
    12 11 23
    31 3 1
    19 23 12
    入力する点群
    各点の特徴量
    2 3 19
    1 3 21
    12 51 20
    5 3 32
    12 11 23
    31 3 1
    19 23 12






    SemSeg
    分類
    など

    View Slide

  13. 性能向上の戦略: 畳み込みの定義
    § CNNのような畳み込みを点群にも適⽤
    ページ 13
    簡単な方法 グラフ
    https://www.mdpi.com/2072-4292/12/4/634# より引用

    View Slide

  14. 性能向上の戦略: 畳み込み(⼿前味噌ですが)
    ページ 14
    エッジ強調演算
    https://arxiv.org/pdf/2209.09483.pdf より引用
    微分幾何学の気持ち
    で畳み込みを定義
    https://arxiv.org/pdf/2207.01181.pdf より引用

    View Slide

  15. 性能向上の戦略: 階層性
    § CNNのような階層構造を持たせる
    ページ 15
    http://stanford.edu/~rqi/pointnet2/ より引用

    View Slide

  16. アウトライン
    ページ 16
    1.点群の深層学習
    2.点群の計測⽅法
    3.360度スキャンに着⽬した
    深層学習⼿法
    4.反射強度に着⽬した
    深層学習⼿法

    View Slide

  17. 点群の計測
    1. 計測⽅法
    2. LiDARの仕組み
    3. 点群の深層学習⼿法との関わり
    ページ 17

    View Slide

  18. 計測⽅法: LiDARとSfM/MVS
    § Light Detection And Ranging(LiDAR)
    § レーザー光で距離を測る
    § Structure from Motion/Multi View Stereo(SfM/MVS)
    § 多視点画像によるステレオ計測
    ページ 18

    View Slide

  19. 計測⽅法︓LiDARの種類
    § フラッシュ型︓
    イメージセンサ全体を覆うようなレーザ光を出射し、
    それを受光
    ページ 19
    https://commons.wikimedia.org/wiki/File:LIDAR-scanned-SICK-LMS-
    animation.gif
    § スキャン型︓レーザ光を⾛査
    Quantitative Performance Assessment of LiDAR-based Vehicle Contour
    Estimation Algorithms for Integrated Vehicle Safety Applications の Figure2

    View Slide

  20. 計測⽅法: スキャン or フラッシュ
    ページ 20
    図は以下から引用
    https://techcrunch.com/2019/03/22/gates-backed-lumotive-upends-lidar-conventions-using-metamaterials/

    View Slide

  21. ページ 21
    LiDARの仕組み: 原理
    Time of Flight(今回はdToF)
    レーザ発射
    反射
    照射~反射までの時間で
    センサと物体間の
    距離を算出
    自動運転に使われるLiDARの例
    https://github.com/unitycoder/VelodyneLidarViewer
    センサ 物体

    View Slide

  22. ページ 22
    LiDARの仕組み: 原理
    反射時間
    (センサからの遠さ)


    観測されるデータ
    既知の情報
    • センサの位置・姿勢
    • レーザの照射角度
    • 照射したレーザの情報
    位置情報を計算
    X,Y,Z座標
    ピークの時間

    View Slide

  23. LiDARの仕組み︓特性
    § フットプリントの特性
    § フットプリント内部に複数物体がある場合
    § 材質の影響
    ページ 23

    View Slide

  24. LiDARの仕組み: 特性①(フットプリント)
    ページ 24
    レーザー光は遠くになると照射面積(フットプリント)が広がる

    View Slide

  25. LiDARの仕組み: 特性②(複数物体)
    ページ 25
    複数物体ある場合のレーザ光のふるまい

    View Slide

  26. ページ 26
    照射
    LiDARの仕組み: 特性②(複数物体)

    View Slide

  27. ページ 27
    手前にいる人間にあたる
    LiDARの仕組み: 特性②(複数物体)

    View Slide

  28. ページ 28
    レーザ光は減衰して進む
    LiDARの仕組み: 特性②(複数物体)

    View Slide

  29. ページ 29
    2つ目の物体にレーザ光が当たる
    LiDARの仕組み: 特性②(複数物体)

    View Slide

  30. ページ 30
    時間


    複数物体にレーザ光が当たる場合は反射を複数観測し
    それぞれの反射が時系列的に格納される
    そして、複数のピークから点群を作成する(モードによる)
    LiDARの仕組み: 特性②(複数物体)

    View Slide

  31. LiDARの仕組み: 特性③(材質)
    ページ 31
    物体の違いによる反射の性質

    View Slide

  32. ページ 32
    ソリッドな場合、すべて最初の面で反射
    時間


    LiDARの仕組み: 特性③(材質)

    View Slide

  33. ページ 33
    ふわふわしている場合、内部の物体からも反射するため
    ピークがよくわからない
    時間


    LiDARの仕組み: 特性③(材質)

    View Slide

  34. ページ 34
    レーザ光の照射面積に対して物体が小さい場合
    反射強度は小さい
    時間


    LiDARの仕組み: 特性③(材質)

    View Slide

  35. LiDARの仕組み: 特性③(材質)
    ページ 35
    観測されるデータは
    当たった物体に依存してその形状が異なる
    時間


    時間


    ふわふわした物体
    例:木など
    硬い面を持つ物体
    例:車・建物など

    View Slide

  36. LiDARの仕組み(まとめ)
    § (dToF形式において)レーザ光を照射してその反射光を観測するまでの時間を計測し、
    反射光のピークから点を作成
    § 照射するレーザ光は遠くに⾏くほどフットプリントが広がる
    § レーザ光の照射⾯積内に複数の物体にあたる場合は減衰しながら進む
    § 物体からの反射を時系列的に格納する
    § 物体によって反射の性質が異なる
    § (主に現状の⾃動運転では)照射距離を稼ぐためレーザ光を回転しながら計測することが多い
    § ⾃動運転で特に注意が必要な前⾯だけであれば、フラッシュライダーも使⽤される
    ページ 36

    View Slide

  37. ページ 37
    点群深層学習との関わり
    点群深層学習
    幾何学
    画像の
    アナロジー
    グラフ理論

    View Slide

  38. ページ 38
    点群深層学習との関わり
    点群深層学習
    幾何学
    画像の
    アナロジー
    グラフ理論 計測の気持ち
    ※あまりやっている人が居ないので
    増やしたい

    View Slide

  39. アウトライン
    ページ 39
    1.点群の深層学習
    2.点群の計測⽅法
    3.360度スキャンに着⽬した
    深層学習⼿法
    4.反射強度に着⽬した
    深層学習⼿法

    View Slide

  40. 360度スキャンに着⽬した深層学習⼿法
    1. 点群に対する物体検出
    2. ⾃動運転向けのLiDAR
    3. 論⽂紹介
    ページ 40

    View Slide

  41. ⾃動運転向けのLiDAR
    ページ 41
    図は以下から引用
    https://techcrunch.com/2019/03/22/gates-backed-lumotive-upends-lidar-conventions-using-metamaterials/

    View Slide

  42. 点群に対する物体検出
    § 欲しいスペック
    § 物体検出の処理速度を⾃動運転に使えるくらいにしたい(観測の30fps 以上)
    § 速度と性能のトレードオフをどうにかする
    § 基本戦略
    1. 点群を1周スキャンで取得
    2. スキャンし終わったら,点群を解析
    § 点群を上から⾒た画像に変換して,画像の物体検出の世界に持っていく⼿法(速い)
    § 点群を⼀定間隔の柱で区切って特徴抽出して,それを統合(性能が良い)
    3. 物体のいる位置を矩形で推定
    § 課題
    § 点群のままやると遅いので物体検出を⾼速にしたい
    =>1周待たずに取得された点群から即解析してしまえばいいのでは
    ページ 42

    View Slide

  43. 点群に対する物体検出
    § 1周待たずに取得された点群から即解析してしまえばいいのでは
    ページ 43
    1周待つ
    時間が問題

    View Slide

  44. 点群に対する物体検出
    § 1周待たずに取得された点群から即解析してしまえばいいのでは
    ページ 44
    即点群解析

    View Slide

  45. 点群に対する物体検出
    § 1周待たずに取得された点群から即解析してしまえばいいのでは
    ページ 45
    即点群解析

    View Slide

  46. 点群に対する物体検出
    § 1周待たずに取得された点群から即解析してしまえばいいのでは
    ページ 46
    即点群解析

    View Slide

  47. 点群に対する物体検出
    § 1周待たずに取得された点群から即解析してしまえばいいのでは
    ページ 47
    即点群解析

    View Slide

  48. 点群に対する物体検出
    § 1周待たずに取得された点群から即解析してしまえばいいのでは
    ページ 48
    即点群解析

    View Slide

  49. 該当する論⽂
    § Han, W., Zhang, Z., Caine, B., Yang, B., Sprunk, C., Alsharif, O., ... & Chen, Z.
    (2020, December). Streaming object detection for 3-d point clouds. In Computer
    Vision–ECCV 2020: 16th European Conference, Glasgow, UK, August 23–28,
    2020, Proceedings, Part XVIII (pp. 423-441). Cham: Springer International
    Publishing.
    § Chen, Q., Vora, S., & Beijbom, O. (2021). Polarstream: Streaming object
    detection and segmentation with polar pillars. Advances in Neural Information
    Processing Systems, 34, 26871-26883.
    § Frossard, D., Da Suo, S., Casas, S., Tu, J., & Urtasun, R. (2021, October).
    Strobe: Streaming object detection from lidar packets. In Conference on Robot
    Learning (pp. 1174-1183). PMLR.
    § Abdelfattah, M., Yuan, K., Wang, Z. J., & Ward, R. (2022). Multi-modal
    Streaming 3D Object Detection. arXiv preprint arXiv:2209.04966.
    ページ 49

    View Slide

  50. 紹介する論⽂
    § Han, W., Zhang, Z., Caine, B., Yang, B., Sprunk, C., Alsharif, O., ... & Chen, Z.
    (2020, December). Streaming object detection for 3-d point clouds. In Computer
    Vision–ECCV 2020: 16th European Conference, Glasgow, UK, August 23–28,
    2020, Proceedings, Part XVIII (pp. 423-441). Cham: Springer International
    Publishing.
    § Chen, Q., Vora, S., & Beijbom, O. (2021). Polarstream: Streaming object
    detection and segmentation with polar pillars. Advances in Neural Information
    Processing Systems, 34, 26871-26883.
    § Frossard, D., Da Suo, S., Casas, S., Tu, J., & Urtasun, R. (2021, October).
    Strobe: Streaming object detection from lidar packets. In Conference on Robot
    Learning (pp. 1174-1183). PMLR.
    § Abdelfattah, M., Yuan, K., Wang, Z. J., & Ward, R. (2022). Multi-modal
    Streaming 3D Object Detection. arXiv preprint arXiv:2209.04966.
    ページ 50

    View Slide

  51. 論⽂の概要
    § 円形にスキャンするので、⼀定⾓度ごとに深層学習モデルに⼊⼒する
    ページ 51
    https://arxiv.org/pdf/2005.01864.pdf より引用
    緑の範囲に入る点群ごとに解析
    一周観測を待つと遅延する
    緑の領域ごとに解析すれば遅延が少ない

    View Slide

  52. 通常の物体検出⼿法
    § PointPillars: ベースラインとする
    ページ 52
    https://arxiv.org/abs/1812.05784 より引用
    オレンジの立方体に入る点群ごとに特徴抽出 鳥観図(上から見た図)に変換して画像のSSD

    View Slide

  53. 提案⼿法
    § localized receptive field
    § ⼀定⾓度の領域で点群を区切る
    § LSTM
    § 区切ってしまったので、受容野が減るから
    それを補うように過去の観測の特徴も⽤いたい
    § Stateful NMS
    § 物体が領域をまたぐ場合があるので
    個々の区切った領域でNMSするのではなく
    複数の領域でNMSする
    ページ 53
    https://arxiv.org/pdf/2005.01864.pdf より引用

    View Slide

  54. 実験結果(Waymo Open Dataset)
    § 性能の評価
    ページ 54
    https://arxiv.org/pdf/2005.01864.pdf より引用
    区切ることで
    全体を高速化
    推論も高速になる
    RNNを入れると性能劣化が軽減
    破線がベースライン

    View Slide

  55. § 物体サイズの影響
    ページ 55
    https://arxiv.org/pdf/2005.01864.pdf より引用
    表: 車の抽出性能(mAP)
    車のような大きなサイズでは細切れにすると受容野が不足
    通常のスライスしないPointPollars手法
    提案手法全盛りするとある程度抑制
    スライスすると性能がガタ落ち
    NMSを工夫すると劣化がすこし抑制
    実験結果(Waymo Open Dataset)
    スライスが細かい<--------------------->スライスが雑

    View Slide

  56. 論⽂のまとめ
    § ⾃動運転の際にはできるだけ物体検出を⾼速にしたい
    § 既存⼿法は1回のスキャンを待ってから推論を実⾏するので遅い
    § スキャンを⼀周待たずに⼀定⾓度でスライスして推論したらいいのでは
    § 単純にスライスして深層学習モデルに⼊れると性能が落ちるので、時系列性を考慮した
    § 実験結果として、スキャン1周待つ既存⼿法よりも、性能は落とさずに⾼速な処理を実現した
    § スライスによって受容野が⼩さくなるため,⾞のようなある程度⼤きな物体の抽出には悪影響があるが,
    スライスを細かくしすぎないことで抑制はできる(速度とのトレードオフ)
    ページ 56

    View Slide

  57. アウトライン
    ページ 57
    1.点群の深層学習
    2.点群の計測⽅法
    3.360度スキャンに着⽬した
    深層学習⼿法
    4.反射強度に着⽬した
    深層学習⼿法

    View Slide

  58. 点群に対する物体検出
    § 欲しいスペック
    § なるべく⾼性能な物体検出結果が欲しい
    § 課題
    § 現状のモデルだと,⾒逃しや過剰検出が発⽣する
    =>もう少し深層学習⼿法に⼊⼒する情報を増やせばいいのでは
    ページ 58

    View Slide

  59. 反射強度に着⽬した深層学習⼿法
    1. LiDAR計測で点群を得る⽅法のおさらい
    2. 論⽂紹介
    3. やってみた
    ページ 59

    View Slide

  60. LiDARによる点群の取得⽅法(おさらい)
    § レーザ光の反射が時系列に並んでいる
    ページ 60
    時間


    § 反射のピークから点群を作成する
    時間


    x,y,z座標へ
    もしかして生信号って良い特徴なのでは

    View Slide

  61. 紹介する論⽂
    § J. Déziel et al., “PixSet: An Opportunity for 3D Computer Vision to Go Beyond
    Point Clouds With a Full-Waveform LiDAR Dataset,” 2021 IEEE International
    Intelligent Transportation Systems Conference (ITSC), Indianapolis, IN, USA,
    2021, pp. 2987-2993, doi: 10.1109/ITSC48978.2021.9565047.
    ページ 61

    View Slide

  62. Full Waveform (FW) LiDAR
    § FW: LiDARとは: 反射強度を記録する時間分解能が⾼いLiDAR
    ページ 62
    時間


    通常のLiDARでは
    パルスのピークから点群を作成
    時間


    FW LiDARは波形のように
    連続的に反射強度を記録し
    ピークから点群を作成する
    点群だけでなく、この波形情報も使用して分類したらいいのでは

    View Slide

  63. データセットの作成
    § マルチモーダルなデータ
    ページ 63
    https://arxiv.org/pdf/2102.12010.pdf より引用
    通常のスキャン式LiDAR
    センサ類
    Flush
    FW LiDAR
    広角カメラ
    レーダー
    カメラ

    View Slide

  64. Full Waveform LiDAR データ
    § Flush LiDAR型のFW LiDARを開発
    ページ 64
    https://arxiv.org/pdf/2102.12010.pdf より引用
    図は以下から引用
    https://techcrunch.com/2019/03/22/gates-backed-lumotive-
    upends-lidar-conventions-using-metamaterials/
    センサに近い センサから遠い
    512個の強度が格納
    ピークの位置が点群となる
    前方180度点群を観測できる

    View Slide

  65. Full Waveform LiDAR データ
    § マルチバンドの画像として表現される
    ページ 65
    https://arxiv.org/pdf/2102.12010.pdf より引用
    奥行き方向に強度の値が並んでいる画像として扱える

    センサに近い センサから遠い
    512個の強度が格納
    ピークの位置が点群となる

    View Slide

  66. 実験結果
    § 物体検出の実験
    § 通常のスキャン式LiDARデータをアノテーション
    ページ 66
    アノテーションした結果
    アノテーションしたクラスとBbox数
    https://arxiv.org/pdf/2102.12010.pdf より引用

    View Slide

  67. 実験結果
    § 物体検出の実験
    § PointPillarsに通常のLiDARの点群を⼊⼒して物体検出を⾏った
    ページ 67
    アノテーションしたクラスとBbox数
    https://arxiv.org/pdf/2102.12010.pdf

    View Slide

  68. 発表者の落胆
    ページ 68
    読む前の私 実験パートを読んだ私

    View Slide

  69. やってみた: 波形情報を付与
    § 深度画像と波形をくっつけたマルチバンド画像化
    ページ 69

    8
    96
    1+512
    小さい画像になってしまう……
    XY座標に対して強度がたくさんある

    View Slide

  70. やってみた: 実験結果
    ページ 70
    § 学習
    § 物体検出⼿法はYOLOX
    § ⼊⼒画像が⼩さすぎるので、縦128x横1,536画素四⽅にアップサンプリング
    § 真値は3次元のBBOXから2次元のBBOXへ変換したもの(MScoco形式)
    § ⽐較実験として、深度のみの画像を⼊⼒したもの
    § テストの結果
    § 波形を加えると,⾞・歩⾏者・⾃転⾞でAPが向上
    § ⾞みたいなソリッドな物体では恩恵がないが,⼈とか⾃転⾞のような複雑な形であれば効果がある
    歩行者 車 サイクリスト
    深度のみ 0.633 0.866 0.571
    深度+波形 0.721 0.872 0.639
    テストデータに対するAP(IoU0.5)

    View Slide

  71. 論⽂のまとめ
    § Full Waveform LiDARという照射したレーザ光の反射を⾼いサンプリングレートで取得する
    LiDARや画像や通常のLiDARを⽤いたデータセットを作成した
    § 論⽂の中のベースライン実験では、Full Waveform LiDARは使ってない
    § 個⼈的にFull Waveform LiDARを触ってみた
    § 3次元的に点群と波形の紐づけができてない
    § Full Waveform LiDARデータの謎バイナリ形式が扱いにくい
    § 2次元のBBOXに次元を落としてしまったので,3次元のBBOX推定ができてない.
    § 波形の波形らしさをCNNで扱えてない
    § 画像にすると、解像度が⾜りないので3次元的に点群+波形として扱ったほうがよさそう
    ページ 71

    View Slide

  72. 全体のまとめと課題
    § 点群の深層学習
    § 幾何学の知識や画像処理の分野のノウハウを点群の深層学習へ⼊れ込む⼿法は多いが、
    点群の計測⼿法に着⽬した⼿法が少ない
    § 計測の原理に着⽬した点群深層学習⼿法
    § 360度スキャンに着⽬した⽅法では,スライスして深層学習モデルに⼊⼒すると⾼速な処理が可能
    § 反射強度に着⽬した⼿法では,⽣信号を加えると性能が向上する(論⽂では実験していない)
    § 時系列性とか⼿法の部分で改善できる余地はありそう
    § とはいえ、会議受けが悪いネタなので発展しなさそう
    ページ 72

    View Slide