Upgrade to Pro — share decks privately, control downloads, hide ads and more …

MIRU2024チュートリアル「様々なセンサやモダリティを用いたシーン状態推定」

 MIRU2024チュートリアル「様々なセンサやモダリティを用いたシーン状態推定」

第27回 画像の認識・理解シンポジウム MIRU2024のチュートリアル「様々なセンサやモダリティを用いたシーン状態推定」の講演資料です.

Mariko Isogawa

August 06, 2024
Tweet

Transcript

  1. 五十川 麻理子(Mariko Isogawa) 2 慶應義塾大学 理工学部 情報工学科,准教授,博士(工学) 2013年 大阪大学 基礎工学研究科

    博士前期課程 修了 2013年〜2022年 NTT研究所 • 2016年〜2019年 大阪大学基礎工学研究科 博士後期課程 (2019年3月 学位取得) • 2019年〜2020年 カーネギーメロン大学 訪問研究員 2022年〜2023年 慶應義塾大学 専任講師 2023年〜 慶應義塾大学 准教授
  2. 限られたリソース・様々なシナリオで, できるだけ広い範囲を計測したい 4 Photo Credits: Adobe Stock #88227738, 298460055, 321833192,

    362288071, 135067349, 293938713 カメラが密に設置されていない 場所でどのように計測するか? 自発的に計測されてくれる人以外を どのように計測するか? 個人情報保護にはどのように配慮する?
  3. 本講演に関連するこれまでの研究 • 一般的なカメラでは捉えられないものを計測したい • 限られたリソースでできるだけ広い範囲を計測したい • 様々なシナリオのもとで計測したい • スパースな計測情報から,多くの情報を推定・復元したい というモチベーションで研究しています

    6 Transient Imageを 用いたコーナー越しの 人物三次元姿勢推定 [Isogawa+ CVPR2020] シーン三次元形状推定 [ECCV2020] 音響信号を用いた 人物三次元姿勢推定 [川島+ MIRUフロンティア賞] [Shibata+ CVPR2023] ミリ波を用いた 人物三次元形状推定 [Amaya&Isogawa, ICIP2023] Input : point cloud Proposed Model Output : 3D human mesh イベントカメラを用いた 人物三次元形状推定 [堀ら,CVIM奨励賞,CGVI研究会優 秀研究発表発表賞] [出口・池田ら,MIRUデモ発表賞]
  4. 本チュートリアルで目指すこと • CV技術に活用可能な,様々な入力情報の性質や特性について知っていただく • 一般的なカメラではできないことができるセンサに焦点を当てます • ある計測情報ではうまく解けないタスクも,他のセンサやモダリティを使え ば解決できるかも!という視点で見ていただけますと幸いです • 様々な入力情報を用いたタスクにはどのようなものがあるか?を紹介

    • 異なるモダリティ間で,類似した計測手法を用いている場合がある • 例:アクティブ計測の際の計測用信号に共通点が見られる • 共通した手法を活用できる場合がある • 例:点群ベースの手法は異なるモダリティ間でも流用できる 等により,ご自身が主に扱うセンサ・モダリティ以外についても何かしらご参 考になることがあると嬉しく思います • 本日ご紹介する計測情報を使ってみたくなった場合に手掛かりとなる情報の紹介 • 前処理方法,データセット等 9
  5. 本題に入る前に… 一般的なRGB動画像でできていること 10 GLAMR [Yuan+ CVPR2022] • 非固定な単眼カメラで撮影さ れた動画フレームから人物 メッシュを復元

    • オクルージョンや人物がカメ ラ視野外に出た場合の追跡に も対応 HMR2.0[Goel+ ICCV2023] • Vision TransformerとCross Attentionベースのトランス フォーマーデコーダーから 構成される手法 • 従来手法では高精度な復元 が難しかった人物姿勢やカ メラ視点に対応 動的カメラ,複数人物,遮蔽ありでも 人物姿勢推定が可能! 3D Gaussian Splatting [Kerbl+ SIGGRAPH2023] • 複数視点画像を入力とした, シーンの三次元情報を再構成 する手法 • シーンを無数の3次元ガウス 分布で表現された粒子の集合 として表現 高品質なシーンの 三次元復元が可能! (ただし複数視点必要)
  6. RGB入力を活用する際の課題を解決するには? 15 Transient image 光の到来時刻と強度を記録 レーザー反射光をSingle Photon Avalanche Diode (SPAD)

    センサで計測 [Lindell+ SIGGRAPH2019] 他のセンサやモダリティを活用すれば良いのでは? イベントデータ 輝度に変化が生じた画素でのみ 非同期的に極性情報(輝度の増 減を示す符号)を記録 イベントカメラで撮影 RGBカメラ以外の可視光センサで計測した情報 [Prophesee] 誰が写っているのかは,一般人が目 視で確認するだけでは分かりづらい → (RGB動画像と比較すると) 個人識別性は低い • 暗所耐性を有する • 省電力
  7. RGB入力を活用する際の課題を解決するには? 16 https://en.wikipedia.org/wiki/Frequency 無線信号・音響信号に共通: • 暗所耐性を有する • (会話音声などを除いて)個人識別 可能な情報を含みづらい •

    データ量が少ないため省メモリ 他のセンサやモダリティを活用すれば良いのでは? 可視光以外のモダリティ 音響信号: • 信号波長が長いため, 多くの物体を透過・回 折する →遮蔽耐性を獲得可能 • 無線信号が活用できな いシーン(航空機内や 精密機器の存在する病 室など)でも活用可能 無線信号:信号波長が比較的長いため, 木や紙などの遮蔽物を透過する →遮蔽耐性を獲得可能
  8. 本日主にご紹介する入力情報とその特性 〜一般的なRGB動画像との比較〜 コスト 計測時の 手軽さ 個人情報 保護 暗所 耐性 遮蔽

    耐性 省電力 省メモリ 可視光 RGB ◯ ◎ × × × × × イベント △ ◯ △ ◯ × ◯ △ Transient × × ◯ × × × ◯ 可視光 以外 ミリ波 ◯ △ ◯ ◯ △※ ◯ ◯ 音 ◯ ◯ △* ◯ ◯ ◯ ◯ 19 一般人が目視で計測情報を確認して個人識別ができる かどうか(日本の法的な個人情報の定義)という観点 これらの信号を用いる際の技術的課題は一旦置いておいて,信号特性のみで評価 *会話音声などの意味情報を含む場合は× ※金属に遮蔽されやすい.水に吸収されやすい 量産化が進めば解決するはず
  9. 本日主にご紹介する入力情報とその特性 〜計測方法・計測信号〜 21 Transient image イベントデータ 音響信号 ミリ波信号 パッシブ (能動的に計測用信号を

    発しない) アクティブ (能動的に計測用信号を発する) パルス信号 ※各モダリティについて一般的な方法を記載していますが,これ以外の計測方法も存在します 周波数変調信号
  10. 本日主にご紹介する入力情報とその特性 〜データが有する情報〜 22 Transient image イベントデータ 音響信号 ミリ波信号 パッシブ (能動的に計測用信号を

    発しない) パルス信号 ※各モダリティについて一般的な方法を記載していますが,これ以外の計測方法も存在します 周波数変調信号 アクティブ (能動的に計測用信号を発する) Time of Flight (ToF)情報を有する
  11. イベントデータの特徴 • 高時間分解能(𝜇𝑠オーダー) • 遅延やモーションブラーを軽減可能 • ハイダイナミックレンジ • 白飛び,黒つぶれが軽減可能 •

    暗所環境でのセンシングにも適している • 省電力,省メモリ • エッジデバイスの構築に向いている • 個人情報保護に配慮可能 • 一般的な画像と比較すると,一般人が生 データを閲覧して個人を識別可能な情報を 読み取りづらい 25 Scaramuzza, “Tutorial on Event-based Cameras” [Prophesee]
  12. 輝度に変化があった時のみ計測されるとは? 26 受光した光の対数強度の変化量 log 𝐼 𝒙, 𝑡 − log 𝐼

    𝒙, 𝑡 − Δ𝑡 = ±𝐶 が一定の閾値を超えた時のみ,極性情報が記録される log 𝐼(𝒙, 𝑡) 𝑂𝑁 𝑂𝐹𝐹 𝑂𝐹𝐹 𝑂𝐹𝐹 𝑂𝑁 𝑂𝑁 𝑂𝐹𝐹 𝑂𝐹𝐹 𝑂𝐹𝐹 𝑂𝑁 𝑂𝑁 𝐶 Scaramuzza, “Tutorial on Event-based Cameras”
  13. イベントデータの形式と,活用する際の難しさ 出力形式:点群データ+(輝度画像:同時撮影が可能な機種のみ) 30 𝑥, 𝑦: 画像座標, 𝑡: 時間(タイムスタンプ), 𝑝: 極性(輝度変化方向)

    𝑥1 , 𝑦1 , 𝑡1 , 𝑝1 , 𝑥2 , 𝑦2 , 𝑡2 , 𝑝2 , … , 𝑥𝑁 , 𝑦𝑁 , 𝑡𝑁 , 𝑝𝑁 • 非同期的に撮影された点群データであること • 輝度画像が使用できない場合もあること から,既存の画像ベースの手法をそのまま活用することができない!
  14. 主要なイベントデータ表現 33 時系列情報の保持度(高) メモリ量(大) Event Frame Event Voxel Event Stream

    Time Surface Event Spike Tensor • 一定時間内にイベントが発 生したかどうかのみを極性 情報とともに記録する • 扱いやすいが時系列情報が 失われやすい
  15. 主要なイベントデータ表現 34 時系列情報の保持度(高) メモリ量(大) Event Frame Event Voxel Event Stream

    Time Surface Event Spike Tensor • 直近のイベントほど輝度が高 く(or低く)なるように重み 付けされたイベント表現 • イベント強度のMotion History Image • 時系列情報を保持可能
  16. 主要なイベントデータ表現 36 時系列情報の保持度(高) メモリ量(大) Event Frame Event Voxel Event Stream

    Time Surface Event Spike Tensor • 三次元ボクセルに量子化 • 各ボクセルはその時間内 に生じたイベントの総和 や,重み付き和を記録 Event streamを 三次元ボクセルに量子化
  17. Event Voxelの実装方法の一例 異なる実装方法がいくつか提案されているものの,時空間情報を時間軸方 向に量子化する,というアイデアは共通 実装例: 畳み込みを用いたモデルに入力するために,イベント群を時間情報を損なわない形で3 次元配列V(ボクセル)に変換 [Hidalgo-Carrió+ 3DV2020] •

    V の時系列分割数をbinとする • イベント𝐹𝑒𝑣 𝑡 の時刻t ,その近傍のV のフレームの時刻を 𝑡1 , 𝑡2 ( 𝑡1 < t < 𝑡2 < bin)とする • 𝑡 − 𝑡1 : 𝑡2 − 𝑡 によって,𝐹𝑒𝑣 𝑡 の極性𝑝𝑡を𝑝𝑡1と𝑝𝑡2に分割 𝑝𝑡1 = 𝑡2−𝑡 𝑡2 −𝑡1 𝑝𝑡 𝑝𝑡2 = 𝑡1−𝑡 𝑡2 −𝑡1 𝑝𝑡 37 𝑡1 𝑡2 𝑝𝑡 𝑝𝑡1 𝑝𝑡2 ボクセル化の模式図 Slide Credit: Kenta Horikawa
  18. 主要なイベントデータ表現 38 時系列情報の保持度(高) メモリ量(大) Event Frame Event Voxel Event Stream

    Time Surface Event Spike Tensor • イベント情報(x, y, 極性, タイムスタンプ)を点群形 式で保持 • 時空間情報が保持されるが データ量が大きい • 画像ベース手法は使えない
  19. イベントデータを活用した研究の動向 • 従来のCVタスクを輝度画像とイベントデータを両方入力として解くことで,イ ベントデータの高速性,暗所耐性を獲得 and/or 精度を向上させる研究が多数 • 深度推定[Hidalgo-Carrió+ 3DV2020], SLAM[Chamorro+

    RA-L, 2022], 人物メッシュ推定 [Zou+ ICCV2021], 視線追跡[Angelopoulos+ IEEE TVCG, 2021]など • 上記タスクに活用可能なイベントならではの難しさを解決する手法(セグメンテーション [Stoffregen+ ICCV2019]など)も取り組まれている • 最近では,輝度画像を同時入力することで暗所耐性や個人情報保護性が限定さ れることから,イベントデータのみを入力とした推定手法も提案されている • 主に人物状態推定タスク([Zou+ arXiv preprint]など) • イベントカメラが光量の差分を精度よく検出できることに着目した研究も提案 されている • 二波長測光法による媒質の形状・濃度推定[Takatani+ CVPR2021]など 39 以降のスライドで紹介
  20. 40 イベントカメラを用いた深度推定・三次元復元 [Hidalgo-Carrió+ 3DV2020] • 暗所環境にも頑健な単眼イベン トカメラベースの深度推定 • イベントストリームを三次元ボ クセルに変換することで,時系

    列情報を保持した推定が可能 [Muglikar+ CVPR2023] • 三次元形状推定を偏光を利用して行うShape from Polarization(SfP)を単眼イベントカメラで行うこ とで,計測速度を向上させる試み • 非偏光な光が物体表面に当たると,その形状や材質 に応じて部分的に偏光することを活用し,イベント カメラ前方に置いた高速回転する偏光板で取り出し た偏光を利用して,表面法線と3D形状を推定
  21. 参考:人物メッシュモデルとその推定手法の推移 43 [Tian+ TPAMI2023] Skinned Multi-Person Linear(SMPL) , SMPL-Xモデルを用いる手法が大半 スケルトンモデル

    人体の各関節位置 の座標位置を 示したもの SMPLモデル [Loper+ TOG, 2015] • 6890点の三次元頂点位置で構成される • パラメータは82次元(人物三次元関節位 置23点,人物の向きを示す三次元ベクト ル,人物の体格情報を示す10次元の形状 パラメータの3×23+3+10) SMPL-Xモデル [Pavlakos+ CVPR2019] SMPLに顔と手指 のパラメータを 追加したもの 最もよく使われている
  22. 45 輝度 画像 (参考) 真値 推定 結果 イベントデータのみを入力とした人物形状推定 [堀ら,CVIM奨励賞,CG研究会優秀研究発表賞・学生発表賞,MIRU学生奨励賞] イベント点群から高次元特徴を抽出

    二次元関節位置の推定 & 大域特徴の抽出 Anchor Pointsを元にした時空間グルーピングによる局所特徴の抽出 SMPLモデルの推定 (1)二次元関節位置推定結果をpriorとするcoarse-to-fineなメッシュ推定,(2)イベン トデータを点群として捉えた時空間グルーピングによる時系列情報を保持した局所 特徴抽出,によりイベントのみを入力とした高精度な推定を実現! Ryosuke Hori
  23. ToF情報を取得可能な計測機器の例 • ストリークカメラ • 超高速度(ピコ秒単位)で短時間に発生する光を捉えることが可能 • ToFカメラ • 照明光の反射光を観測し,物体までの距離を計測 •

    主用途:近距離の測距センサ • Lidar • レーザー光を走査しながら照射し距離計測するため比較的疎な計測になりやすい • 主用途:遠距離の測距センサ • etc… 49 ストリークカメラ [Hamamatsu Photonics K.K.] ToFカメラ [Toppan Electronics] Lidar [OUSTER]
  24. Transient Imageのデータ構成 52 [O’Toole+ CVPR2017] レーザー&センサ 光が行って帰ってくる までの時間 光子(フォトン)の数≒光の強度 時間

    光子数 このボリュームの x, y座標1点に対する 各計測が,時間軸に対する カウントされた 光子数のヒストグラム
  25. Transient Imageに関する研究動向 • Transient imageを活用した様々なタスクの提案 • 材質分類[Callenberg+ TOG, 2021],深度推定[Sun+ CVPR2018],Non-Line-of-Sightイ

    メージング[O’Toole+ Nature2018],人物姿勢推定[Isogawa+CVPR2020]など • 上記のための計測システム開発([Callenberg+ TOG, 2021]など) • 上記タスクの計算量削減,高精度化,スキャン方法の工夫などに移行しつつある • 例. NLOSイメージングのためのスキャン点・メモリ量削減[Isogawa+ ECCV2020], 高精 度化[Li+ CVPR2023]など 53 ※論文中にTransient image/measurementという名称を用いているものを挙げていますが,他の計測方法で 取得したToF情報を入力とした同様のタスクを行う研究も多数発表されています
  26. 深度推定・材質分類 54 foam paper towel wax skin 材質推定 [Callenberg+ TOG,

    2021] 素材により反射特性が異なることを利用して,5種類の 材質クラスを分類 推定精度[%] 環境光がない方が良好な結果だが, 環境光があっても良好に推定可能 深度推定 [Sun+ CVPR2018] 圧縮センシング(疎な計測情報からデータを再構成 する技術)を活用して64×32のSPADアレイから, 800×400画素の分解能での深度画像復元を達成 左:復元された深度画像 中央:横からの断面図 右:復元された輝度画像
  27. 1st response at 2.7 ns (visible wall) Sensor Output: 2nd

    response at 4.3 ns (hidden object) Visible Wall Occluder Laser & Sensor Hidden Object 56
  28. 1st response at 2.7 ns (visible wall) Sensor Output: Visible

    Wall Occluder 2nd response at 4.3 ns (hidden object) Laser & Sensor Hidden Object 57
  29. どのような仕組みでイメージングができるのか? [O’Toole+ Nature2018]の共焦点二次元ラスタスキャンによる計測を前提に説明 59 Transient image (計測データ)は被遮蔽シーンで反射して返ってきた光の積分値 Albedo (求めたい被遮蔽 シーン情報)

    光の減衰を考慮する ためのパラメータ Transient image (計測データ) で表現される光円錐(Light cone) 離散化や変数変換などを経て... Transient image (計測データ) Albedo (求めたい被遮蔽 シーン情報) フーリエ・逆フーリエ変換 z/t軸サンプリング関数 Wienerフィルタ
  30. Transient Imageベース手法から 他のモダリティベースの手法への派生の例 Transient imageは,細かい時間・(波長に関する)空間分解能で計測を行う観点では理想的 • 可視光(比較的波長が短い)を用いている • 空間分解能が高い •

    回折や反射の影響を比較的受けにくい • 高時間分解能を有する Transient imageで原理的に何ができるか?を知っておくことが,他のモダリティを用いたタスクを 検討する手掛かりになる(例.可視光パルスレーザを用いたNon-Line-of-Sight Imagingの後,音響 信号やミリ波レーダを用いたNon-Line-of-Sight Imaging/Tracking手法が提案された) 61 [O’Toole+ Nature2018] 音響ベースNLOSイメージング [Lindell+ CVPR2019] ミリ波ベースNLOS検出・追跡 [Scheiner+ CVPR2020]
  31. 64 本日主にご紹介する入力情報とその特性 〜信号波長,周波数帯〜 Transient image イベントデータ 可視光 380~780nm ミリ波 1mm~1cm

    3~300GHz 音波 可聴域: 17mm~17m, 20~20kHz 超音波:~17mm 20kHz~数kMHz 会話音声中の意味情報を含まない 信号波を前提とします
  32. アクティブ音響センシング(計測音源) 周波数が時間と共に変化する信号を用いることが一般的 • 周波数の時間的変化特性により,いくつかの種類がある • Time Stretched Pulse (TSP), Sine

    Sweep, Chirp信号など 67 時間と共に周波数が 上昇(下降)する信号を 用いる,という点では共通! TSP信号の例 周波数 [Hz] 時間[s] なぜこのような信号を用いるのか? • 環境状態推定を,屋内インパルス応答を利用した空間の反響 特性の解析に置き換えるため • システムの周波数特性を求めるために,理想的にはイン パルス応答をとり,フーリエ変換したい • しかし,スピーカーの出力が十分でないなどの制約から 実際には困難 • そこで,インパルスを時間的に引き延ばしたような信号 を用いる
  33. システムの周波数特性を求める,とは? 68 𝑆(𝑘)をフーリエ変換してスピーカーから発するTSP信号を生成し,そのTSP信号を用いてアクティブ 音響センシングした収音信号を𝑦, そのフーリエ変換を𝑌(𝑘)とすると,求める周波数特性H(𝑘)は, 𝑆 𝑘 = exp −𝑗4𝑚𝜋𝑘2

    𝑁2 (0 ≤ 𝑘 ≤ 𝑁 2 ) 𝑆∗ 𝑁 − 𝑘 ( 𝑁 2 < 𝑘 < 𝑁) FFTのサンプリング点数 𝑆の複素共役 Nと4の整数除算 (Nを4で割った結果の整数部分) 周波数領域に おけるTSP信号 Time Stretched Pulse (TSP)信号の場合… 𝑌 𝑘 = 𝐻 𝑘 𝑆 𝑘 ⇔ 𝐻 𝑘 = 𝑌(𝑘)𝑆−1(𝑘) 𝑆−1 𝑘 = exp 𝑗4𝑚𝜋𝑘2 𝑁2 (0 ≤ 𝑘 ≤ 𝑁 2 ) 𝑆−1∗ 𝑁 − 𝑘 ( 𝑁 2 < 𝑘 < 𝑁) TSP信号の逆特性をもつ信号のフーリエ変換と, 出力信号のフーリエ変換との積で求められる! で求められる. ただし,
  34. アクティブ音響センシング(音源出力・収音装置) 音源出力・収音装置:つまりスピーカーとマイクのこと • これはピンキリ • (当然ながら)モノラルマイクよりは,マルチチャンネル情報を取得可 能なマイクを用いた方が精度が上がりやすい 69 音響信号を用いた人物三次元姿勢推定[Shibata+ CVPR2023]では以下の市販デバイスを使用

    • スピーカー(Sanwa Supply MM-SPU9BK):数千円 • アンビソニックスマイク(Zoom H3-VR):数万円 • B-Format形式で4チャンネルの音(𝑤, 𝑥, 𝑦, 𝑧)を収音 • モノラルマイクと異なり,音の到来方向(三次元の各方向) に関する情報を取得可能を認識可能
  35. 主要な音響信号表現 • 音波 • Log Mel Spectrum • Intensity Vector

    70 以降のスライドで紹介 Time Frequency Channel Time Frequency Time Amplitude
  36. Log Mel Spectrum • 音響信号の振幅成分を表現 • フーリエ変換の結果を人間の聴覚に近いメル尺度に直す • 強度の高い周波数に引っ張られることを防ぐため対数変換 71

    s :計測する音響信号 F :フーリエ変換 t :時間 f :周波数 k :メルバンク窓のインデックス H :メルバンクフィルター フーリエ変換 メル尺度変換 対数変換 Time Frequency Code Credit: Yuto Shibata https://colab.research.google.com/drive/11ad_FcTqF 1pPN1H2ckkgErseVONbjyry?usp=sharing
  37. 音響信号を用いた研究動向 • 人の音声[Li+ TVCG2024], や楽器の演奏音[Shlizerman+ CVPR2017],生活音[Gao+ CVPR2020]などの意味的情報 を含む信号を用いるもの • ユーザの身体に侵襲的に計測機器を装着するもの

    ([Kubo+ MobileHCI2019]など) が大半 非侵襲的計測によりシーン状態計測を行う例は比較的少ない • 環境深度マップ推定[Christensen+ ICRA2020] • 人物三次元姿勢推定[Shibata+ CVPR2023] 73 [Kubo+ MobileHCI2019] 以降のスライドで紹介
  38. ミリ波レーダを用いた信号計測とは? 時間の経過に応じて周波数が直線的に上昇するように変調を行った電波(チャープ 信号)をアクティブに送信するFrequency Modulated Continuous Wave (FMCW) 方式を想定して説明 78 アクティブ音響計測のTSP信号と

    類似した性質!だけど活用する モチベーションは少し異なる なぜ変調するのか? 送受信信号間の比較を行うことで物体位置や速度の検出を行うため Amplitude Time Time Frequency
  39. ミリ波レーダ計測の原理(距離) 79 チャープ間の周波数差分 から,Intermediate Frequency(IF)信号を算出 AD変換 フーリエ変換により 周波数スペクトルを得る Time Frequency

    Time Frequency Time Amplitude Frequency Amplitude 𝑓 検知された周波数から,物体との距離 𝑑 = 𝑓 2𝑐 が分かる 光速 信号の往復分 送信信号 受信信号
  40. ミリ波レーダ計測の原理(速度・角度) 80 送信信号 受信信号 1回目計測 Amplitude Time 送信信号 受信信号 2回目計測

    Amplitude IF信号 IF信号 Time IF信号の位相差から,速度が分かる アンテナ間の受信信号の位相差から, 角度が分かる 送信 アンテナ 受信 アンテナ
  41. ミリ波レーダで観測される信号とその表現方法 信号処理前のIF信号をAD変換したrawデータや,それを信号処理することで得ら れた三次元位置,距離,速度,角度,ミリ波信号強度を出力するものが多い 81 主な表現方法 • 二次元画像マップ • Range-Doppler Map,Range-Angle

    Map など,距離/速度/角度とそれに対応した受 信強度を二次元画像で表したもの • 三次元点群 • 反射強度が一定閾値以上の三次元位置を 三次元点群形式にしたもの x z カメラ映像 直交座標系で示した信号強度 角度 距離 速度 距離
  42. ミリ波レーダを用いた研究動向 ミリ波の性質(遮蔽耐性,短波長,個人情報保護に配慮可能)を活かしたタスクが 大半 • 霧の中にあるオブジェクトのイメージング([Guan+ CVPR2020]など) • 呼吸や心拍などのバイタルセンシング([Liu+ IEEE Sensors

    Journal]など) • 人物モニタリング • 人物追跡・個人識別([Zhao+ DCOSS2019]など)や人物姿勢推定([Lee+ WACV2023]など) • ここ3年ほど,人物メッシュ推定に関する研究([Xue+ MobiSys2021], [Amaya&Isogawa ICIP2023], [Xue+ SenSys2022], [Xue+ MobiCom2023]な ど)が急速に発展している印象 82
  43. 単一人物を対象としたメッシュ推定 mmMesh[Xue+ MobiSys2021] ミリ波点群を入力とした人物メッシュ推定 として初の手法.直方体の格子点(アン カーポイント)上に点群を集約することで 効率的に学習 84 [Amaya&Isogawa, ICIP2023]

    多様な姿勢やノイズの多い環境下でも精度良 く推定する目的で,人物の可動域を考慮した ノイズ除去や,上下半身に分割した位置エン コーディングを導入 Kotaro Amaya アンカーポイント による点群の集約
  44. イベント:様々なシーンのサンプルデータセット • ファンの回転 • 手指の動作 • スポーツシーン • 屋内モニタリング などの様々なシーンをDAVIS346カメラで

    撮影したものが含まれている 機械学習用途としては十分なデータ量がな いものの,イベントカメラで撮影された データを確認したい方におすすめ 88 [DAVIS24 dataset] https://sites.google.com/view/davis24-davis-sample-data/home
  45. イベント:人物姿勢・メッシュ推定データセット 89 MMHPSD dataset [Zou+ ICCV2021] • 人物メッシュ推定手法であるEventHPEのデータ セット •

    各15名の被験者の12シーケンスのデータを計測 • 約4時間分(輝度画像で15fps, 240Kフレーム)の データ 比較的被験者数の多いもの(10名以上)は以下の2つ DHP19 dataset [Calabrese+ CVPRW2019] • 人物三次元姿勢推定手法のデータセット • 各17名の被験者の33動作を4台のイベントカメラ (DAVIS240)で計測 • Viconモーションキャプチャカメラと同期させ13点 の三次元間接位置も取得
  46. イベント:屋内外シーンデータセット MVSEC dataset [Zhu+ RA-L, 2018] • 暗所環境を含む屋内外シーンで,撮影されたデータセット.手持ち計測だけでなく,車・バイ ク・ヘキサコプターに載せた状態でも計測されている •

    2台のイベントカメラ,Lidar, IMUセンサ,GPS, Motion Captureシステム(センサの位置・ 姿勢推定用)と同時に撮影されており,ほとんどのシーケンスにおいて,カメラ姿勢,深度 マップの真値がついている 90
  47. Transient Image:NLOSシーンデータセット いずれもNLOS imagingタスクのためのもの.機械学習用途に使用するには量が 不足しているものの,同タスクの評価によく用いられるデータセット 91 ZNLOS dataset [Galindo+ ICCP2019]

    • 既存のtransient rendering手法[Jarabo+ TOG, 2014]を NLOSシーンのレンダリングに拡張して構築した合成 データセット • スキャン点や壁面のスキャン方式,オブジェクトと壁と の距離やサイズなどに,いくつかのバリエーションが用 意されている [Lindell+ TOG2019] • 共焦点ラスタスキャンに基づくtransient imageの高速 なNLOSイメージング手法に関する論文と同時に公開さ れたもの • 屋外シーンや人物動作シーンのデータを含む,9シーン の実測データが公開されている
  48. ミリ波:人物三次元姿勢・形状推定データセット mmBody [Chen+ ACMMM2022] 94 • ミリ波レーダで計測されている人物姿勢・形状推 定データセットは他にも存在([An+ NeurIPS2022], [Xue+

    MobiCom2023]など) • 被験者数(20名),フレーム数(約200,000), 同時計測モダリティ(RGB,depth),シーン数 (暗所,霧,雨)の観点で,現時点で最も多様な データセット
  49. 96 Transient: 深度画像のみからTransient Imageを生成 [Isogawa et al., CVPR2020] ノイズ・ブラーが多く,低時空間解像度な計測からの推定は非常に難しいタスク ↓

    強化学習に必要な大量のデータ(疑似データ)を実計測なしで深度画像のみから合成 MoCapと同期させ たdepth画像 Pseudo-transient image ノイズ・ブラーの付与 • 時間軸方向のブラー • Poissonノイズ 低フレームレートの再現 • 時間軸リサンプリング Data augmentation • 時間軸方向シフト(複数種類) 合成 https://github.com/marikoiso gawa/OpticalNLOSPose
  50. Transient Imageの合成手法・データセット [Mitsuba 2] 97 [Royo+ Computers&Graphics, 2022] • オープンソースの物理ベースレンダラーMitsuba2を利用したtransient

    imageの シミュレーション手法 • 並列化,偏光,微分可能レンダリングをサポート 各時刻におけるtransient image
  51. イベントデータのシミュレータ 98 DVS-Voltmeter [Lin+ ECCV2022] v2e [Hu+ CVPRW2021] ESIM [Rebecq+

    CoRL2018] V2CE [Zhang+ ICRA2024] • 輝度画像動画を入力としてフレーム間の輝度差分に基づきイベントデータを出力 • 入力動画のフレームレートを超えるシミュレーションはできないため,イベントカメラ特有の 高時間分解能なデータを再現することは困難 入力動画 真値イベント v2eイベント v2e 真値 DVS- Voltmeter Vid2E 入力動画フレーム ESIMイベント
  52. 音響信号のシミュレータ SoundSpaces [Chen+ NeurIPS2022, ECCV2020] • Audio-visualナビゲーション等のタスクに活用するための,幾何 学的音響シミュレーションに基づくリアルタイムな音響信号シ ミュレーションプラットフォーム •

    Matterport3Dシーンや任意音源を適用可能 101 Hearing Anything Anywhere [Wang+ CVPR2024] • シーンの音響特性(音源の指向性や物体表面の反射率)をパラメータ で表現し,これらを推定する微分可能な音響信号レンダリング手法 • 4つのシーンで,12個のマイクを用いて室内インパルス応答を収音 したデータで学習 現時点(2024年8月現在)では静的シーンでのシミュレーションのみに対応 (シーン内で人物が動作する,などの動的シーンのシミュレーションには適用できない)
  53. ミリ波データのシミュレータ RF Genesis [Chen+ SenSys2023] 102 • レイトレーシングによって合成した中間表現(深度マップに近い二次元画像表現)からミリ波信号 を生成 •

    4つの環境(と言いつつも,いずれも反射の影響の少ない開けた環境であるという点では類似)で実 測されたデータをもとに学習している
  54. 時間同期をどう取るか? 深層機械学習ベース手法の構築のために大量の教師データ取得は避けて通れない • 実機実験によるデータ取得が前提 • ラクに早く真値ラベル付与やデータ整理を行うことが進捗速度に影響する • そもそも画像と異なり,目視でラベルが付けづらい → 信号同士の時間同期をとる必要がある

    アナログ入出力ユニットを活用し時間同期 • 計測開始信号をPCから送信し,ユニットからアナログ信号を出力 • そのアナログ信号を各計測機器に入力,または可視信号(LED点灯など)を出力 • ただし,クロックレベルの同期は取れない 106 Digital Analog [contec]
  55. MIRU2024での関連発表 109 ぜひご議論を よろしくお願いします! イベントデータ Transient Image IS2-004 Yang Dixin

    IS1-122 Yuto Shibata IS3-111 Tatsuki Arai IS2-116 Yusuke Oumi OS-1E-03 Kenta Horikawa IS1-163 Wataru Ikeda DS-10 Ryosei Hara 音響信号 超低解像度熱画像
  56. まとめ • 一般的なカメラ動画像で解決が難しい課題(暗所・遮蔽シーンでの計測,個人 情報保護,省メモリ・省電力な計測)でも,他のセンサやモダリティを用いる ことで解決可能なケースがある! • イベント,Transient image,音波,ミリ波を対象に,計測の仕組み,表 現方法,タスク,データセット等を紹介 •

    様々なセンサやモダリティを活用してコンピュータビジョン・パターン認識の 課題を解決する研究に少しでもご興味を持っていただけますと幸いです • 様々なモダリティを用いた計測にご興味のある方,スパースなデータの実アプ リケーション応用にご興味がある方,ぜひ共同研究させてください! 110 本発表中の成果の一部は,JSTさきがけ,慶應義塾大学学事振興基金,KLLの補助を受けたものです 学生の皆様,共同研究者の皆様に感謝いたします
  57. 参考文献 Webサイトへの最終アクセス日:2024/08/03 • Ye Yuan et al., "GLAMR: Global Occlusion-Aware

    Human Mesh Recovery with Dynamic Cameras", IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pp. 11028-11039, 2022. • Shubham Goel et al., "Humans in 4D: Reconstructing and Tracking Humans with Transformers", IEEE/CVF International Conference on Computer Vision (ICCV), pp. 14783-14794, 2023. • Bernhard Kerbl et al., "3D Gaussian Splatting for Real-Time Radiance Field Rendering", ACM Trans. Graph (TOG), vol.42, no.4, 2023. • Davide Scaramuzza, "Tutorial on Event-based Cameras", CVPR2020 Tutorial. • Yu Cheng et al., "Occlusion-Aware Networks for 3D Human Pose Estimation in Video", IEEE/CVF International Conference on Computer Vision (ICCV), pp. 723-732, 2019. • Lan Xu et al., "EventCap: Monocular 3D Capture of High-Speed Human Motions • using an Event Camera", IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pp. 4968-4978, 2020. • Prophesee, https://www.prophesee.ai/ • David B. Lindell et al., "Wave-based non-line-of-sight Imaging using fast f−k migration", ACM Trans. Graph (TOG), vol.38, no.4, 2019. • Elias Mueggler et al., "Event-based, 6-DOF pose tracking for high-speed maneuvers," IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS), pp. 2761-2768, 2014. • Javier Hidalgo-Carrio et al., "Learning Monocular Dense Depth from Events", International Conference on 3D Vision (3DV), pp.534-542, 2020. 111
  58. 参考文献 • William Chamorro et al.,"Event-based SLAM in real-time", IEEE

    Robotics and Automation Letters (RA-L), vol.7, no.3, pp.8146-8153, 2022. • Shihao Zou et al., "EventHPE: Event-based 3D Human Pose and Shape Estimation", IEEE/CVF International Conference on Computer Vision (ICCV), pp.10996-11005, 2021. • Anastasios N. Angelopoulos et al., "Event-Based Near-Eye Gaze Tracking Beyond 10,000 Hz", IEEE Transactions on Visualization and Computer Graphics (TVCG), vol.27, no.5, pp.2577-2586, 2021. • Timo Stoffregen et al., "Event-Based Motion Segmentation by Motion Compensation", IEEE/CVF International Conference on Computer Vision (ICCV), pp.7244-7253, 2019. • Shihao Zou et al., "Event-based Human Pose Tracking by Spiking Spatiotemporal Transformer", arXiv preprint arXiv:2303.09681, 2023. • Takatani Tsuyoshi et al., "Event-based Bispectral Photometry using Temporally Modulated Illumination", IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pp.15638-15647, 2021. • Manasi Muglikar et al., "Event-based Shape from Polarization", IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pp.1547-1556, 2023. • Yu Sun et al., "Human Mesh Recovery from Monocular Images via a Skeleton-disentangled Representation", IEEE/CVF International Conference on Computer Vision (ICCV), pp.5349-5358, 2019. • Matthew Loper et al., "SMPL: a skinned multi-person linear model", ACM Trans. Graph (TOG), vol.34, no.6, 2015. • Georgios Pavlakos et al., "Expressive Body Capture: 3D Hands, Face, and Body from a Single Image", IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pp.10975-10985, 2019. 112
  59. 参考文献 • Yating Tian et al., "Recovering 3D Human Mesh

    from Monocular Images: A Survey", IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), vol.45, no.12, pp.15406-15425, 2023. • 堀 涼介ら,"イベントカメラを用いた三次元人物姿勢および形状推定", 第231回 情報処理学会 コンピュータビジョンとイメージメディア研 究会, 2022年11月. • 浜松ホトニクス,https://www.hamamatsu.com/jp/ja/product/photometry-systems/streak-camera.html • TOPPAN株式会社エレクトロニクス,https://www.toppan.com/ja/electronics/device/tof/ • OUSTER, https://ouster.com/ • Matthew O’Toole et al., "Reconstructing Transient Images from Single-Photon Sensors", IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pp.1539-1547, 2017. • キヤノン株式会社, https://global.canon/ja/news/2023/20230403.html • Clara Callenberg et al., "Low-cost SPAD sensing for non-line-of-sight tracking, material classification and depth imaging", ACM Trans. Graph (TOG), vol.40, no.4, 2021. • Qilin Sun et al., "Depth and Transient Imaging With Compressive SPAD Array Cameras", IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pp.273-282, 2018. • Matthew O’Toole et al., "Confocal Non-Line-of-Sight Imaging Based on the Light-Cone Transform", Nature, pp.338–341, 2018. • Mariko Isogawa et al., "Optical Non-Line-of-Sight Physics-Based 3D Human Pose Estimation", IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pp.7013-7022, 2020. • Mariko Isogawa et al., "Efficient Non-Line-of-Sight Imaging from Transient Sinograms", European Conference on Computer Vision (ECCV), pp. 193-208, 2020. 113
  60. 参考文献 • Yue Li et al., "NLOST: Non-Line-of-Sight Imaging with

    Transformer", IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pp.13313-13322, 2023. • David B. Lindell et al., "Acoustic Non-Line-of-Sight Imaging", IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pp.6780-6789, 2019. • Nicolas Scheiner et al., "Seeing Around Street Corners: Non-Line-of-Sight Detection and Tracking In-the-Wild Using Doppler Radar", IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pp.2068-2077, 2020. • 古野電気株式会社, https://www.furuno.com/jp/technology/sonar/basic/ • Jing Li et al., "Audio2Gestures: Generating Diverse Gestures From Audio", IEEE Transactions on Visualization and Computer Graphics (TVCG), vol.30, no.8, pp.4752-4766, 2024. • Eli Shlizerman et al., "Audio to body dynamics", IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pp.7574– 7583, 2017. • Ruohan Gao et al., "Listen to look: Action recognition by previewing audio", IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pp.10457–10467, 2020. • Yuki Kubo et al., "AudioTouch: Minimally invasive sensing of micro-gestures via active bio-acoustic sensing", International Conference on Human-Computer Interaction with Mobile Devices and Services (MobileHCI), no.36, pp.1-13, 2019. • Jesper Haahr Christensen et al., "BatVision: Learning to See 3D Spatial Layout with Two Ears", IEEE International Conference on Robotics and Automation (ICRA), pp.1581-1587, 2020. • Yuto Shibata et al., "Listening Human Behavior: 3D Human Pose Estimation with Acoustic Signals", IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pp.13323-13332, 2023. 114
  61. 参考文献 • Texas Instruments, https://www.ti.com/ja-jp/homepage.html • Junfeng Guan et al.,

    "Through Fog High Resolution Imaging Using Millimeter Wave Radar", IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pp.11464-11473, 2020. • Luyao Liu et al., "mmRH: Noncontact Vital Sign Detection With an FMCW mm-Wave Radar", IEEE Sensors Journal, vol.23, no.8, pp.8856-8866, 2023. • Peijun Zhao et al., "mID: Tracking and Identifying People with Millimeter Wave Radar", International Conference on Distributed Computing in Sensor Systems (DCOSS), pp.33-40, 2019. • Shih-Po Lee et al., "HuPR: A Benchmark for Human Pose Estimation Using Millimeter Wave Radar", IEEE/CVF Winter Conference on Applications of Computer Vision (WACV), pp.5715-5724, 2023. • Hongfei Xue et al., "mmMesh: towards 3D real-time dynamic human mesh construction using millimeter-wave", International Conference on Mobile Systems, Applications, and Services (MobiSys), pp.269–282, 2021. • Kotaro Amaya, Mariko Isogawa. "Adaptive and Robust mmWave-based 3D Human Mesh Estimation for Diverse Poses", IEEE International Conference on Image Processing (ICIP), pp.455-459, 2023. • Hongfei Xue et al., "M4esh: mmWave-Based 3D Human Mesh Construction for Multiple Subjects", ACM Conference on Embedded Networked Sensor Systems (SenSys), pp.391–406, 2023. • Hongfei Xue et al., "Towards Generalized mmWave-based Human Pose Estimation through Signal Augmentation", International Conference on Mobile Computing and Networking (MobiCom), no.88, pp.1–15, 2023. • Tobi Delbruck, "DAVIS24: DAVIS Event Camera Sample Data” • Enrico Calabrese et al., "DHP19: Dynamic Vision Sensor 3D Human Pose Dataset", IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops (CVPRW), 2019. 115
  62. 参考文献 • Alex Zihao Zhu et al., "The Multi Vehicle

    Stereo Event Camera Dataset: An Event Camera Dataset for 3D Perception", IEEE Robotics and Automation Letters (RA-L), vol.3, issue 3, pp.2032-2039, 2018. • David B. Lindell et al., "Wave-based non-line-of-sight Imaging using fast f−k migration", ACM Trans. Graph (TOG), vol.38, no.4, 2019. • Miguel Galindo et al., "A dataset for benchmarking time-resolved non-line-of-sight imaging", IEEE International Conference on Computational Photography (ICCP), no.73, pp.1-2, 2019. • Adrian Jarabo et al., "A Framework for Transient Rendering", ACM Transactions on Graphics (TOG), vol.33, no.6, 2014. • Mason Long Wang et al., "Hearing Anything Anywhere", IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pp.11790-11799, 2024. • Anjun Chen et al., "mmBody Benchmark: 3D Body Reconstruction Dataset and Analysis for Millimeter Wave Radar", ACM International Conference on Multimedia (ACMMM), pp.3501–3510, 2022. • Sizhe An et al., "mRI: Multi-modal 3D Human Pose Estimation Dataset using mmWave, RGB-D, and Inertial Sensors", Neural Information Processing Systems (NeurIPS), vol.35, pp.27414-27426, 2022. • Diego Royo et al., "Non-Line-of-Sight Transient Rendering", ACM SIGGRAPH (SIGGRAPH) Posters, no.39, pp.1–2, 2022. • Henri Rebecq et al., "ESIM: an Open Event Camera Simulator", Conf. on Robotics Learning (CoRL), pp.969-982, 2018. • Yuhuang Hu et al., "v2e: From video frames to realistic DVS event camera streams", IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops (CVPRW), 2021. • Songnan Lin et al., "DVS-Voltmeter: Stochastic Process-based Event Simulator for Dynamic Vision Sensors", European Conference on Computer Vision (ECCV), pp.578–593, 2022. 116
  63. 参考文献 • Zhongyang Zhang et al., "V2CE: Video to Continuous

    Events Simulator", IEEE International Conference on Robotics and Automation (ICRA), to appear, 2024. • Ryosuke Hori et al., "Silhouette-based 3D Human Pose Estimation Using a Single Wrist-mounted 360° Camera", IEEE Access, vol.10, pp.54957-54968, 2022. • Rishabh Dabral et al., "Mofusion: A Framework for Denoising-Diffusion-Based Motion Synthesis", IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pp.9760-9770, 2023. • Changan Chen et al., "SoundSpaces: Audio-Visual Navigation in 3D Environments", European Conference on Computer Vision (ECCV), pp.17–36, 2020. • Changan Chen et al., "SoundSpaces 2.0: A Simulation Platform for Visual-Acoustic Learning", International Conference on Neural Information Processing Systems (NeurIPS), no.647, pp.8896-8911, 2022. • Xingyu Chen and Xinyu Zhang, "RF Genesis: Zero-Shot Generalization of mmWave Sensing through Simulation-Based Data Synthesis and Generative Diffusion Models", ACM Conference on Embedded Networked Sensor Systems (SenSys), pp.28-42, 2023. • Fanglu Xie et al., "Disentangling Subject-Dependent/-Independent Representations for 2D Motion Retargeting", IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), pp.4200-4204, 2021. • CONTEC, https://www.contec.com/jp • iniVation, https://inivation.com/ • OptiTrack, https://www.optitrack.jp/ 117