MIRU2024チュートリアル「様々なセンサやモダリティを用いたシーン状態推定」

様々なセンサやモダリティを用いたシーン状態推定 MIRU2024 チュートリアル講演五十川麻理子慶應義塾大学理工学部情報工学科准教授
2024.8.6

五十川麻理子（Mariko Isogawa） 2 慶應義塾大学理工学部情報工学科，准教授，博士（工学） 2013年大阪大学基礎工学研究科
博士前期課程修了 2013年〜2022年 NTT研究所 • 2016年〜2019年大阪大学基礎工学研究科博士後期課程（2019年3月学位取得） • 2019年〜2020年カーネギーメロン大学訪問研究員 2022年〜2023年慶應義塾大学専任講師 2023年〜慶應義塾大学准教授

3 一般的なカメラでは捉えられない情報を取得したい遮蔽領域や暗所環境，悪天候環境でどのように計測するか？ Photo Credits: Adobe Stock #226520351, 478173158

限られたリソース・様々なシナリオで，できるだけ広い範囲を計測したい 4 Photo Credits: Adobe Stock #88227738, 298460055, 321833192,
362288071, 135067349, 293938713 カメラが密に設置されていない場所でどのように計測するか？自発的に計測されてくれる人以外をどのように計測するか？個人情報保護にはどのように配慮する？

スパースな計測情報をうまく活用し，多くの情報を推定・復元したい 5 スパースな計測情報のみから推定・復元ができると楽しい Photo Credits: Adobe Stock
#251506595

本講演に関連するこれまでの研究 • 一般的なカメラでは捉えられないものを計測したい • 限られたリソースでできるだけ広い範囲を計測したい • 様々なシナリオのもとで計測したい • スパースな計測情報から，多くの情報を推定・復元したいというモチベーションで研究しています
6 Transient Imageを用いたコーナー越しの人物三次元姿勢推定 [Isogawa+ CVPR2020] シーン三次元形状推定 [ECCV2020] 音響信号を用いた人物三次元姿勢推定 [川島+ MIRUフロンティア賞] [Shibata+ CVPR2023] ミリ波を用いた人物三次元形状推定 [Amaya&Isogawa, ICIP2023] Input : point cloud Proposed Model Output : 3D human mesh イベントカメラを用いた人物三次元形状推定 [堀ら，CVIM奨励賞，CGVI研究会優秀研究発表発表賞] [出口・池田ら，MIRUデモ発表賞]

本講演で扱う範囲（センサとモダリティ） 7 様々なセンサやモダリティを用いたシーン状態推定 Transient Image, イベントデータ，音響信号，ミリ波信号

本講演で扱う範囲（計測方法やタスク） 8 様々なセンサやモダリティを用いたシーン状態推定非侵襲的計測（計測対象がデバイスを装着しない） • 人物の状態（姿勢，メッシュ形状．後ほど説明） • シーンの奥行き，三次元形状

本チュートリアルで目指すこと • CV技術に活用可能な，様々な入力情報の性質や特性について知っていただく • 一般的なカメラではできないことができるセンサに焦点を当てます • ある計測情報ではうまく解けないタスクも，他のセンサやモダリティを使えば解決できるかも！という視点で見ていただけますと幸いです • 様々な入力情報を用いたタスクにはどのようなものがあるか？を紹介
• 異なるモダリティ間で，類似した計測手法を用いている場合がある • 例：アクティブ計測の際の計測用信号に共通点が見られる • 共通した手法を活用できる場合がある • 例：点群ベースの手法は異なるモダリティ間でも流用できる等により，ご自身が主に扱うセンサ・モダリティ以外についても何かしらご参考になることがあると嬉しく思います • 本日ご紹介する計測情報を使ってみたくなった場合に手掛かりとなる情報の紹介 • 前処理方法，データセット等 9

本題に入る前に… 一般的なRGB動画像でできていること 10 GLAMR [Yuan+ CVPR2022] • 非固定な単眼カメラで撮影された動画フレームから人物メッシュを復元
• オクルージョンや人物がカメラ視野外に出た場合の追跡にも対応 HMR2.0[Goel+ ICCV2023] • Vision TransformerとCross Attentionベースのトランスフォーマーデコーダーから構成される手法 • 従来手法では高精度な復元が難しかった人物姿勢やカメラ視点に対応動的カメラ，複数人物，遮蔽ありでも人物姿勢推定が可能！ 3D Gaussian Splatting [Kerbl+ SIGGRAPH2023] • 複数視点画像を入力とした，シーンの三次元情報を再構成する手法 • シーンを無数の3次元ガウス分布で表現された粒子の集合として表現高品質なシーンの三次元復元が可能！（ただし複数視点必要）

効果的な手法が多く開発される一方で， RGB動画像ならではの課題も… 11

RGB動画像をシーン状態推定に活用する際の課題（1/3）顔や衣服などの個人の特定に紐づきやすい情報が写り込んでしまうことによる，個人情報・プライバシー保護に関する課題 12 Photo Credit: Adobe Stock #306799720

• 悪照明環境（例．夜道などの暗所） • 遮蔽のある環境（例．テーブルで推定対象物が隠れるなど）において推定精度が低下してしまう 13 RGB動画像をシーン状態推定に活用する際の課題（2/3）人体が遮蔽され姿勢推定に失敗する様子 [Cheng+ ICCV2019]
暗所環境で生じるモーションブラー [Scaramuzza, CVPR2020 Tutorial]

• 計測時に多くの電力やメモリ量を要する • 特にハイフレームレートや4Kなどの高解像度で撮影する際は，大量のデータの保持・処理能力が必要 14 RGB動画像をシーン状態推定に活用する際の課題（3/3）ハイフレームレートカメラ（120fps）で撮影された動画 [Xu+ CVPR2020]

RGB入力を活用する際の課題を解決するには？ 15 Transient image 光の到来時刻と強度を記録レーザー反射光をSingle Photon Avalanche Diode (SPAD)
センサで計測 [Lindell+ SIGGRAPH2019] 他のセンサやモダリティを活用すれば良いのでは？イベントデータ輝度に変化が生じた画素でのみ非同期的に極性情報（輝度の増減を示す符号）を記録イベントカメラで撮影 RGBカメラ以外の可視光センサで計測した情報 [Prophesee] 誰が写っているのかは，一般人が目視で確認するだけでは分かりづらい → （RGB動画像と比較すると）個人識別性は低い • 暗所耐性を有する • 省電力

RGB入力を活用する際の課題を解決するには？ 16 https://en.wikipedia.org/wiki/Frequency 無線信号・音響信号に共通: • 暗所耐性を有する • （会話音声などを除いて）個人識別可能な情報を含みづらい •
データ量が少ないため省メモリ他のセンサやモダリティを活用すれば良いのでは？可視光以外のモダリティ音響信号： • 信号波長が長いため，多くの物体を透過・回折する →遮蔽耐性を獲得可能 • 無線信号が活用できないシーン（航空機内や精密機器の存在する病室など）でも活用可能無線信号：信号波長が比較的長いため，木や紙などの遮蔽物を透過する →遮蔽耐性を獲得可能

17 本日主にご紹介する入力情報とその特性〜信号波長，周波数帯〜 Transient image イベントデータ可視光 380~780nm ミリ波 1mm~1cm
3~300GHz 音波可聴域： 17mm~17m, 20~20kHz 超音波:~17mm 20kHz~数kMHz

具体的な事例紹介に入る前に，一旦整理します 18

本日主にご紹介する入力情報とその特性〜一般的なRGB動画像との比較〜コスト計測時の手軽さ個人情報保護暗所耐性遮蔽
耐性省電力省メモリ可視光 RGB ◯ ◎ × × × × × イベント △ ◯ △ ◯ × ◯ △ Transient × × ◯ × × × ◯ 可視光以外ミリ波 ◯ △ ◯ ◯ △※ ◯ ◯ 音 ◯ ◯ △＊ ◯ ◯ ◯ ◯ 19 一般人が目視で計測情報を確認して個人識別ができるかどうか（日本の法的な個人情報の定義）という観点これらの信号を用いる際の技術的課題は一旦置いておいて，信号特性のみで評価＊会話音声などの意味情報を含む場合は× ※金属に遮蔽されやすい．水に吸収されやすい量産化が進めば解決するはず

20 Transient image イベントデータ音響信号ミリ波信号本日主にご紹介する入力情報とその特性〜データの表現方法〜二次元画像三次元ボリューム/
Voxel 点群

本日主にご紹介する入力情報とその特性〜計測方法・計測信号〜 21 Transient image イベントデータ音響信号ミリ波信号パッシブ（能動的に計測用信号を
発しない）アクティブ（能動的に計測用信号を発する）パルス信号 ※各モダリティについて一般的な方法を記載していますが，これ以外の計測方法も存在します周波数変調信号

本日主にご紹介する入力情報とその特性〜データが有する情報〜 22 Transient image イベントデータ音響信号ミリ波信号パッシブ（能動的に計測用信号を
発しない）パルス信号 ※各モダリティについて一般的な方法を記載していますが，これ以外の計測方法も存在します周波数変調信号アクティブ（能動的に計測用信号を発する） Time of Flight (ToF)情報を有する

イベントカメラとは？生物の網膜から着想を得た，撮影対象の輝度変化を画素毎に非同期的に検知し，イベントデータを出力するカメラ 24 フレームベースカメラ(左)とイベントカメラ(右) との比較 [Prophesee] 撮影方式の比較 [Mueggler+ IROS2014]
本講演中は，“イベントデータ”とはユーザ行動等ではなく，イベントカメラで取得した情報を指すこととします

イベントデータの特徴 • 高時間分解能（𝜇𝑠オーダー） • 遅延やモーションブラーを軽減可能 • ハイダイナミックレンジ • 白飛び，黒つぶれが軽減可能 •
暗所環境でのセンシングにも適している • 省電力，省メモリ • エッジデバイスの構築に向いている • 個人情報保護に配慮可能 • 一般的な画像と比較すると，一般人が生データを閲覧して個人を識別可能な情報を読み取りづらい 25 Scaramuzza, “Tutorial on Event-based Cameras” [Prophesee]

輝度に変化があった時のみ計測されるとは？ 26 受光した光の対数強度の変化量 log 𝐼 𝒙, 𝑡 − log 𝐼
𝒙, 𝑡 − Δ𝑡 = ±𝐶 が一定の閾値を超えた時のみ，極性情報が記録される log 𝐼(𝒙, 𝑡) 𝑂𝑁 𝑂𝐹𝐹 𝑂𝐹𝐹 𝑂𝐹𝐹 𝑂𝑁 𝑂𝑁 𝑂𝐹𝐹 𝑂𝐹𝐹 𝑂𝐹𝐹 𝑂𝑁 𝑂𝑁 𝐶 Scaramuzza, “Tutorial on Event-based Cameras”

Event Camera Output with No Motion イベントカメラで撮れるものシーン中に動きがなければ，背景ノイズだけが出力される Scaramuzza, “Tutorial
on Event-based Cameras” RGBカメライベントカメラ (青：輝度上昇，赤：輝度減少) 27

28 イベントカメラで撮れるものシーン中に動きが生じると，イベントが発生する Scaramuzza, “Tutorial on Event-based Cameras” RGBカメライベントカメラ
(青：輝度上昇，赤：輝度減少)

29 イベントカメラで撮れるものカメラ動作によってもイベントが発生する Scaramuzza, “Tutorial on Event-based Cameras” RGBカメライベントカメラ
(青：輝度上昇，赤：輝度減少)

イベントデータの形式と，活用する際の難しさ出力形式：点群データ＋（輝度画像：同時撮影が可能な機種のみ） 30 𝑥, 𝑦: 画像座標, 𝑡: 時間(タイムスタンプ), 𝑝: 極性(輝度変化方向)
𝑥1 , 𝑦1 , 𝑡1 , 𝑝1 , 𝑥2 , 𝑦2 , 𝑡2 , 𝑝2 , … , 𝑥𝑁 , 𝑦𝑁 , 𝑡𝑁 , 𝑝𝑁 • 非同期的に撮影された点群データであること • 輝度画像が使用できない場合もあることから，既存の画像ベースの手法をそのまま活用することができない！

イベントデータの表現方法 • 計測情報（空間情報・極性・タイムスタンプ）をそのまま保持したいのであれば，もちろんイベントストリームのまま扱いたい • スパイク列と呼ばれる0か1の時系列データを入力とするSpiking Neural Network (SNN)などを活用すれば可能 •
しかし，データ量の大きさが気になる場合や既存手法（一般的な画像を入力としたネットワークなど）を活用したい場合には，他の表現方法も有効 31

主要なイベントデータ表現 32 時系列情報の保持度（高）メモリ量（大） Event Frame Event Voxel Event Stream
Time Surface Event Spike Tensor

Time Surface Event Spike Tensor • 一定時間内にイベントが発生したかどうかのみを極性情報とともに記録する • 扱いやすいが時系列情報が失われやすい

Time Surface Event Spike Tensor • 直近のイベントほど輝度が高く（or低く）なるように重み付けされたイベント表現 • イベント強度のMotion History Image • 時系列情報を保持可能

参考：Motion History Image (MHI)とは • 直近のフレームほど輝度が高くなるように，複数フレームにわたる動きの“履歴”を一枚の画像で表現する方法 • 各フレームの差分画像を時間ともに重み付けし，残像が残ったような画像を生成
35 [Komori+ SportsEngineering, 2023]

Time Surface Event Spike Tensor • 三次元ボクセルに量子化 • 各ボクセルはその時間内に生じたイベントの総和や，重み付き和を記録 Event streamを三次元ボクセルに量子化

Event Voxelの実装方法の一例異なる実装方法がいくつか提案されているものの，時空間情報を時間軸方向に量子化する，というアイデアは共通実装例：畳み込みを用いたモデルに入力するために，イベント群を時間情報を損なわない形で3 次元配列V（ボクセル）に変換 [Hidalgo-Carrió+ 3DV2020] •
V の時系列分割数をbinとする • イベント𝐹𝑒𝑣 𝑡 の時刻t ，その近傍のV のフレームの時刻を 𝑡1 , 𝑡2 （ 𝑡1 < t < 𝑡2 < bin）とする • 𝑡 − 𝑡1 : 𝑡2 − 𝑡 によって，𝐹𝑒𝑣 𝑡 の極性𝑝𝑡を𝑝𝑡1と𝑝𝑡2に分割 𝑝𝑡1 = 𝑡2−𝑡 𝑡2 −𝑡1 𝑝𝑡 𝑝𝑡2 = 𝑡1−𝑡 𝑡2 −𝑡1 𝑝𝑡 37 𝑡1 𝑡2 𝑝𝑡 𝑝𝑡1 𝑝𝑡2 ボクセル化の模式図 Slide Credit: Kenta Horikawa

Time Surface Event Spike Tensor • イベント情報（x, y, 極性，タイムスタンプ）を点群形式で保持 • 時空間情報が保持されるがデータ量が大きい • 画像ベース手法は使えない

イベントデータを活用した研究の動向 • 従来のCVタスクを輝度画像とイベントデータを両方入力として解くことで，イベントデータの高速性，暗所耐性を獲得 and/or 精度を向上させる研究が多数 • 深度推定[Hidalgo-Carrió+ 3DV2020], SLAM[Chamorro+
RA-L, 2022], 人物メッシュ推定 [Zou+ ICCV2021], 視線追跡[Angelopoulos+ IEEE TVCG, 2021]など • 上記タスクに活用可能なイベントならではの難しさを解決する手法（セグメンテーション [Stoffregen+ ICCV2019]など）も取り組まれている • 最近では，輝度画像を同時入力することで暗所耐性や個人情報保護性が限定されることから，イベントデータのみを入力とした推定手法も提案されている • 主に人物状態推定タスク（[Zou+ arXiv preprint]など） • イベントカメラが光量の差分を精度よく検出できることに着目した研究も提案されている • 二波長測光法による媒質の形状・濃度推定[Takatani+ CVPR2021]など 39 以降のスライドで紹介

40 イベントカメラを用いた深度推定・三次元復元 [Hidalgo-Carrió+ 3DV2020] • 暗所環境にも頑健な単眼イベントカメラベースの深度推定 • イベントストリームを三次元ボクセルに変換することで，時系
列情報を保持した推定が可能 [Muglikar+ CVPR2023] • 三次元形状推定を偏光を利用して行うShape from Polarization（SfP）を単眼イベントカメラで行うことで，計測速度を向上させる試み • 非偏光な光が物体表面に当たると，その形状や材質に応じて部分的に偏光することを活用し，イベントカメラ前方に置いた高速回転する偏光板で取り出した偏光を利用して，表面法線と3D形状を推定

41 イベントと輝度画像を用いた人物形状推定 EventHPE [Zou+ ICCV2021] • イベントフレームから推定した画像ベースのフロー（オプティカルフロー）と，イベントフレームおよびオプティカルフローから推定した人体の形状ベースのフロー（人体形状の頂点の動き）との整合性がとれるようにメッシュパラメータを推定 •
推論時にも輝度画像が必要（冒頭フレームのみ）イベント点群を一定時間毎に蓄積させたイベントフレームイベントフレームから推定したオプティカルフロー

42 参考：人物姿勢・メッシュ推定手法とは • 多くの手法で，市販カメラを用いて撮影したRGB動画像を入力として活用 • 他のモダリティを活用する研究も近年盛んに行われている入力情報出力 Model Model
人物姿勢 2D/3D関節位置人物メッシュメッシュモデルパラメータ (例．Skinned Multi-Person Linear model (SMPL) model) [Sun+ ICCV2019]

参考：人物メッシュモデルとその推定手法の推移 43 [Tian+ TPAMI2023] Skinned Multi-Person Linear(SMPL) , SMPL-Xモデルを用いる手法が大半スケルトンモデル
人体の各関節位置の座標位置を示したもの SMPLモデル [Loper+ TOG, 2015] • 6890点の三次元頂点位置で構成される • パラメータは82次元（人物三次元関節位置23点，人物の向きを示す三次元ベクトル，人物の体格情報を示す10次元の形状パラメータの3×23+3+10） SMPL-Xモデル [Pavlakos+ CVPR2019] SMPLに顔と手指のパラメータを追加したもの最もよく使われている

• イベントデータのみに基づく人物形状推定を実現 • イベントデータを0か１の情報のみで構成される“スパイクテンソル”に変換し，スパイクデータを扱うためにSpike-Element-Wise-ResNet [Fang+ NeurIPS2021]や時間的依存関係を上手く捉えるための時空間Transformerを導入 44 イベントデータのみを入力とした人物形状推定
[Zou+ arXiv preprint]

45 輝度画像（参考）真値推定結果イベントデータのみを入力とした人物形状推定 [堀ら，CVIM奨励賞，CG研究会優秀研究発表賞・学生発表賞，MIRU学生奨励賞] イベント点群から高次元特徴を抽出
二次元関節位置の推定＆大域特徴の抽出 Anchor Pointsを元にした時空間グルーピングによる局所特徴の抽出 SMPLモデルの推定 (1)二次元関節位置推定結果をpriorとするcoarse-to-fineなメッシュ推定，(2)イベントデータを点群として捉えた時空間グルーピングによる時系列情報を保持した局所特徴抽出，によりイベントのみを入力とした高精度な推定を実現！ Ryosuke Hori

Time of Flight (ToF)カメラとは • 計測対象にアクティブに信号を照射し，信号が返ってくる時間を取得するセンサ（同時に信号強度を取得するものもあり） • 空間情報（x, y）だけでなく，深度方向（z）方向の情報も取得可能
47 センサと計測対象までの距離 𝑑 = 𝑐×𝑡 2 （𝑡: 光速）光が返ってくるまでにかかった時間: 𝑡 光が返ってくるまでに進んだ距離: 2𝑑

ToF情報を用いたアプリケーションの例 • スマートフォンの顔認証 • AR/MR/VR • 車載測距システム • ロボットの周辺環境・人物認識 •
三次元計測 • 監視・見守り 48

ToF情報を取得可能な計測機器の例 • ストリークカメラ • 超高速度（ピコ秒単位）で短時間に発生する光を捉えることが可能 • ToFカメラ • 照明光の反射光を観測し，物体までの距離を計測 •
主用途：近距離の測距センサ • Lidar • レーザー光を走査しながら照射し距離計測するため比較的疎な計測になりやすい • 主用途：遠距離の測距センサ • etc… 49 ストリークカメラ [Hamamatsu Photonics K.K.] ToFカメラ [Toppan Electronics] Lidar [OUSTER]

微弱な光を，高時間分解能で撮ると何ができる？比較的安価に，ピコ秒単位で光を捉えるには？計測方法と計測情報の一例： • 高感度な光の検出（SPADセンサ）と，高時間分解能をもつ時間‐デジタル変換器（Time-to-Digital Converter：TDC）とを組み合わせると，ピコ秒単位で光の伝搬を計測することが可能！※他のセンサ素子を用いた同様の計測方法も存在します • Transient
imageと呼ばれる 50 SPADセンサとTDCとを組み合わせたシステムを用いて，ペットボトルの端からパルスレーザ光を当てた様子を撮影された計測情報であるtransient imageを可視化したもの [O’Toole+ CVPR2017] “光の経路”が見える！

参考： Single Photon Avalanche Diode(SPAD)センサ 51 非常に微弱な光を検出することが可能なイメージセンサの一種 • 光子が画素に入射すると，雪崩（アバランシェ）のような増幅によって大きな電子パルス信号を出力する仕組みであるため，単一の光子（フォトン）を検出することが可能
• そのため，暗所環境や微弱な光しか得られない環境でも高感度に撮影可能 SPADイメージセンサー [Canon]

Transient Imageのデータ構成 52 [O’Toole+ CVPR2017] レーザー＆センサ光が行って帰ってくるまでの時間光子（フォトン）の数≒光の強度時間
光子数このボリュームの x, y座標1点に対する各計測が，時間軸に対するカウントされた光子数のヒストグラム

Transient Imageに関する研究動向 • Transient imageを活用した様々なタスクの提案 • 材質分類[Callenberg+ TOG, 2021]，深度推定[Sun+ CVPR2018]，Non-Line-of-Sightイ
メージング[O’Toole+ Nature2018]，人物姿勢推定[Isogawa+CVPR2020]など • 上記のための計測システム開発（[Callenberg+ TOG, 2021]など） • 上記タスクの計算量削減，高精度化，スキャン方法の工夫などに移行しつつある • 例． NLOSイメージングのためのスキャン点・メモリ量削減[Isogawa+ ECCV2020]，高精度化[Li+ CVPR2023]など 53 ※論文中にTransient image/measurementという名称を用いているものを挙げていますが，他の計測方法で取得したToF情報を入力とした同様のタスクを行う研究も多数発表されています

深度推定・材質分類 54 foam paper towel wax skin 材質推定 [Callenberg+ TOG,
2021] 素材により反射特性が異なることを利用して，5種類の材質クラスを分類推定精度[%] 環境光がない方が良好な結果だが，環境光があっても良好に推定可能深度推定 [Sun+ CVPR2018] 圧縮センシング（疎な計測情報からデータを再構成する技術）を活用して64×32のSPADアレイから， 800×400画素の分解能での深度画像復元を達成左：復元された深度画像中央：横からの断面図右：復元された輝度画像

Non-Line-of-Sight Imaging [O’Toole+ Nature2018] コーナー越しに遮蔽されたシーンの形状を復元する技術 ①可視光レーザーを壁に照射．反射光が視野外にある人やオブジェクトを照らす ②人やオブジェクトから反射した光が壁→センサに戻ってくる．そのToF情報を計測 55 Transient
Image (Input) Reconstructed Scene (Output) Visible Wall Hidden Object Occluder Laser/SPAD sensor t x y 壁面上の同一点を照射＆観測する共焦点スキャンを前提に話します

1st response at 2.7 ns (visible wall) Sensor Output: 2nd
response at 4.3 ns (hidden object) Visible Wall Occluder Laser & Sensor Hidden Object 56

1st response at 2.7 ns (visible wall) Sensor Output: Visible
Wall Occluder 2nd response at 4.3 ns (hidden object) Laser & Sensor Hidden Object 57

58 どのような仕組みでイメージングができるのか？ [O’Toole+ Nature2018]の共焦点二次元ラスタスキャンによる計測を前提に説明 Transient image (計測データ)は被遮蔽シーンで反射して返ってきた光の積分値 Albedo (求めたい被遮蔽シーン情報)
光の減衰を考慮するためのパラメータ Transient image (計測データ) で表現される光円錐(Light cone)

どのような仕組みでイメージングができるのか？ [O’Toole+ Nature2018]の共焦点二次元ラスタスキャンによる計測を前提に説明 59 Transient image (計測データ)は被遮蔽シーンで反射して返ってきた光の積分値 Albedo (求めたい被遮蔽シーン情報)
光の減衰を考慮するためのパラメータ Transient image (計測データ) で表現される光円錐(Light cone) 離散化や変数変換などを経て... Transient image (計測データ) Albedo (求めたい被遮蔽シーン情報) フーリエ・逆フーリエ変換 z/t軸サンプリング関数 Wienerフィルタ

完全に壁で遮蔽された人物の三次元姿勢の推定 [Isogawa+ CVPR2020] Non-Line-of-Sight Imagingシステムを用いて壁で隠れた人物の三次元姿勢を推定した初の試み • 強化学習により人物動作の物理特性に沿った三次元姿勢を推定 • 深度画像から合成したTransient imageのみを用いてモデルを学習
60

Transient Imageベース手法から他のモダリティベースの手法への派生の例 Transient imageは，細かい時間・（波長に関する）空間分解能で計測を行う観点では理想的 • 可視光（比較的波長が短い）を用いている • 空間分解能が高い •
回折や反射の影響を比較的受けにくい • 高時間分解能を有する Transient imageで原理的に何ができるか？を知っておくことが，他のモダリティを用いたタスクを検討する手掛かりになる（例．可視光パルスレーザを用いたNon-Line-of-Sight Imagingの後，音響信号やミリ波レーダを用いたNon-Line-of-Sight Imaging/Tracking手法が提案された） 61 [O’Toole+ Nature2018] 音響ベースNLOSイメージング [Lindell+ CVPR2019] ミリ波ベースNLOS検出・追跡 [Scheiner+ CVPR2020]

波長が長いと空間分解能が下がる波長内に収まってしまうような微細な動きや，細かな構造を捉えきれない 62 可視光信号波長：nmオーダー音響信号波長：mオーダー無線信号波長：mm~cmオーダー

波長が長いと反射・回折の影響を受けやすい • 多くの物体表面上で，反射波が鏡面反射的なふるまいをする • 計測対象物の表面や，壁などにより強い反射が起こる • 回折（障害物の裏側に信号が回り込んで伝わっていく現象）が起こりやすい →これらの反射・回折等による信号のパス（経路）を考慮した解析が非常に困難 63 可視光の鏡面反射の例
[wikipedia] 信号波長に対して物体表面の凹凸が十分小さい時の鏡面反射のイメージ信号波長に対して物体表面の凹凸が大きい時の拡散反射のイメージ信号回折のイメージ

3~300GHz 音波可聴域： 17mm~17m, 20~20kHz 超音波:~17mm 20kHz~数kMHz 会話音声中の意味情報を含まない信号波を前提とします

自然界でも音響ベースの計測は行われている超音波を能動的に発するエコロケーションにより，環境の三次元構造や物体・他の個体の位置を把握（例．コウモリやイルカ） 65

66 アプリケーションの例ソナー： • 海中に向けてアクティブに超音波を発信し，その反射波を計測することで海中の物体を検知 • ソナーを搭載した船を中心として様々な方向にソナーを向けることで広域を探索 [古野電気株式会社]

アクティブ音響センシング（計測音源）周波数が時間と共に変化する信号を用いることが一般的 • 周波数の時間的変化特性により，いくつかの種類がある • Time Stretched Pulse (TSP), Sine
Sweep, Chirp信号など 67 時間と共に周波数が上昇（下降）する信号を用いる，という点では共通！ TSP信号の例周波数 [Hz] 時間[s] なぜこのような信号を用いるのか？ • 環境状態推定を，屋内インパルス応答を利用した空間の反響特性の解析に置き換えるため • システムの周波数特性を求めるために，理想的にはインパルス応答をとり，フーリエ変換したい • しかし，スピーカーの出力が十分でないなどの制約から実際には困難 • そこで，インパルスを時間的に引き延ばしたような信号を用いる

システムの周波数特性を求める，とは？ 68 𝑆(𝑘)をフーリエ変換してスピーカーから発するTSP信号を生成し，そのTSP信号を用いてアクティブ音響センシングした収音信号を𝑦, そのフーリエ変換を𝑌(𝑘)とすると，求める周波数特性H(𝑘)は， 𝑆 𝑘 = exp −𝑗4𝑚𝜋𝑘2
𝑁2 (0 ≤ 𝑘 ≤ 𝑁 2 ) 𝑆∗ 𝑁 − 𝑘 ( 𝑁 2 < 𝑘 < 𝑁) FFTのサンプリング点数 𝑆の複素共役 Nと4の整数除算（Nを4で割った結果の整数部分）周波数領域におけるTSP信号 Time Stretched Pulse (TSP)信号の場合… 𝑌 𝑘 = 𝐻 𝑘 𝑆 𝑘 ⇔ 𝐻 𝑘 = 𝑌(𝑘)𝑆−1(𝑘) 𝑆−1 𝑘 = exp 𝑗4𝑚𝜋𝑘2 𝑁2 (0 ≤ 𝑘 ≤ 𝑁 2 ) 𝑆−1∗ 𝑁 − 𝑘 ( 𝑁 2 < 𝑘 < 𝑁) TSP信号の逆特性をもつ信号のフーリエ変換と，出力信号のフーリエ変換との積で求められる！で求められる．ただし，

アクティブ音響センシング（音源出力・収音装置）音源出力・収音装置：つまりスピーカーとマイクのこと • これはピンキリ • （当然ながら）モノラルマイクよりは，マルチチャンネル情報を取得可能なマイクを用いた方が精度が上がりやすい 69 音響信号を用いた人物三次元姿勢推定[Shibata+ CVPR2023]では以下の市販デバイスを使用
• スピーカー（Sanwa Supply MM-SPU9BK）：数千円 • アンビソニックスマイク（Zoom H3-VR）：数万円 • B-Format形式で4チャンネルの音(𝑤, 𝑥, 𝑦, 𝑧)を収音 • モノラルマイクと異なり，音の到来方向(三次元の各方向) に関する情報を取得可能を認識可能

主要な音響信号表現 • 音波 • Log Mel Spectrum • Intensity Vector
70 以降のスライドで紹介 Time Frequency Channel Time Frequency Time Amplitude

Log Mel Spectrum • 音響信号の振幅成分を表現 • フーリエ変換の結果を人間の聴覚に近いメル尺度に直す • 強度の高い周波数に引っ張られることを防ぐため対数変換 71
s :計測する音響信号 F :フーリエ変換 t :時間 f :周波数 k :メルバンク窓のインデックス H :メルバンクフィルターフーリエ変換メル尺度変換対数変換 Time Frequency Code Credit: Yuto Shibata https://colab.research.google.com/drive/11ad_FcTqF 1pPN1H2ckkgErseVONbjyry?usp=sharing

Intensity Vector • 音響信号の位相情報を表現 →音響信号が被験者の身体で反射する際に位相が変化することを利用 • 1つのチャンネルを基準に位相遅れを計算しているため，チャンネル数は3 72 W,X,Y,Z :計測する音響信号の各成分
R :実部メル尺度変換正規化位相遅れを計算 Time Frequency Channel Code Credit: Yuto Shibata https://colab.research.goog le.com/drive/11ad_FcTqF1 pPN1H2ckkgErseVONbjyry? usp=sharing

音響信号を用いた研究動向 • 人の音声[Li+ TVCG2024], や楽器の演奏音[Shlizerman+ CVPR2017]，生活音[Gao+ CVPR2020]などの意味的情報を含む信号を用いるもの • ユーザの身体に侵襲的に計測機器を装着するもの
([Kubo+ MobileHCI2019]など) が大半非侵襲的計測によりシーン状態計測を行う例は比較的少ない • 環境深度マップ推定[Christensen+ ICRA2020] • 人物三次元姿勢推定[Shibata+ CVPR2023] 73 [Kubo+ MobileHCI2019] 以降のスライドで紹介

音響信号のみを入力とした環境の三次元情報復元 BatVision [Christensen+ ICRA2020] 74 • 手法名の通り，コウモリのエコロケーションに着想を得ている • チャープ信号を発し，左右スピーカーで収音するというアクティブ音響センシングの枠組みで，環境の深度マップを推定

音響信号のみを入力とした人物の三次元姿勢推定 [Shibata et al., CVPR2023，MIRU2022フロンティア賞] • 信号を遮蔽する位置にいるユーザの三次元姿勢を推定するという，いわば「人の姿勢を“聴く”ことができるか？」を調査する試み • 個人情報保護の観点から会話内容や動作音を含まない音波のみを活用
• 暗所や電波の使用が制限される環境下でも推定可能 75 Yuto Shibata

ミリ波レーダとその特徴ミリ波（30〜300GHz帯の電波）を用いて対象物との距離・角度・速度を検出可能なセンサ • 比較的直進性が高い • 環境光の影響を受けづらい（暗所耐性を有する） • スモッグ，木・紙・プラスチック等による遮蔽の影響を受けづらい •
水分（雨や霧）の影響は受けるものの，Lidarと比較すると影響されづらい 77 [Texas Instruments]

ミリ波レーダを用いた信号計測とは？時間の経過に応じて周波数が直線的に上昇するように変調を行った電波（チャープ信号）をアクティブに送信するFrequency Modulated Continuous Wave (FMCW) 方式を想定して説明 78 アクティブ音響計測のTSP信号と
類似した性質！だけど活用するモチベーションは少し異なるなぜ変調するのか？送受信信号間の比較を行うことで物体位置や速度の検出を行うため Amplitude Time Time Frequency

ミリ波レーダ計測の原理（距離） 79 チャープ間の周波数差分から，Intermediate Frequency(IF)信号を算出 AD変換フーリエ変換により周波数スペクトルを得る Time Frequency
Time Frequency Time Amplitude Frequency Amplitude 𝑓 検知された周波数から，物体との距離 𝑑 = 𝑓 2𝑐 が分かる光速信号の往復分送信信号受信信号

ミリ波レーダ計測の原理（速度・角度） 80 送信信号受信信号 1回目計測 Amplitude Time 送信信号受信信号 2回目計測
Amplitude IF信号 IF信号 Time IF信号の位相差から，速度が分かるアンテナ間の受信信号の位相差から，角度が分かる送信アンテナ受信アンテナ

ミリ波レーダで観測される信号とその表現方法信号処理前のIF信号をAD変換したrawデータや，それを信号処理することで得られた三次元位置，距離，速度，角度，ミリ波信号強度を出力するものが多い 81 主な表現方法 • 二次元画像マップ • Range-Doppler Map，Range-Angle
Map など，距離/速度/角度とそれに対応した受信強度を二次元画像で表したもの • 三次元点群 • 反射強度が一定閾値以上の三次元位置を三次元点群形式にしたもの x z カメラ映像直交座標系で示した信号強度角度距離速度距離

ミリ波レーダを用いた研究動向ミリ波の性質（遮蔽耐性，短波長，個人情報保護に配慮可能）を活かしたタスクが大半 • 霧の中にあるオブジェクトのイメージング（[Guan+ CVPR2020]など） • 呼吸や心拍などのバイタルセンシング（[Liu+ IEEE Sensors
Journal]など） • 人物モニタリング • 人物追跡・個人識別（[Zhao+ DCOSS2019]など）や人物姿勢推定（[Lee+ WACV2023]など） • ここ3年ほど，人物メッシュ推定に関する研究（[Xue+ MobiSys2021], [Amaya&Isogawa ICIP2023], [Xue+ SenSys2022], [Xue+ MobiCom2023]など）が急速に発展している印象 82

霧越しのイメージング [Guan+ CVPR2020] 83 • 自動運転シナリオを想定した，濃い霧越しでも車体のイメージングを可能にする手法 • ミリ波レーダで計測した情報から生成した低解像度のヒートマップから高解像度な深度マップを生成するために，Conditional GAN（3Dミリ波ヒートマップをConditionとして与えてい
る）を活用

単一人物を対象としたメッシュ推定 mmMesh[Xue+ MobiSys2021] ミリ波点群を入力とした人物メッシュ推定として初の手法．直方体の格子点（アンカーポイント）上に点群を集約することで効率的に学習 84 [Amaya&Isogawa, ICIP2023]
多様な姿勢やノイズの多い環境下でも精度良く推定する目的で，人物の可動域を考慮したノイズ除去や，上下半身に分割した位置エンコーディングを導入 Kotaro Amaya アンカーポイントによる点群の集約

複数人物を対象とした人物メッシュ推定 [Xue+ SenSys2022] • ミリ波計測情報から二次元信号強度マップを作成して人物領域を推定し，各被写体の位置に基づいた点群を人物毎に抽出 • それらの点群に基づき，関節間の関係を学習し， coarse-to-fineな骨格推定から徐々に詳細な骨格を推定
するよう特徴量を学習 • 最後に，その特徴量からメッシュパラメータを推定 85 最終的な点群検出された各被写体位置信号強度マップ

点群ベースの手法を他のモダリティに応用した例 86 mmMesh [Xue+ MobiSys2021] ミリ波（x,y,z三次元点群）ベース手法をヒントに，イベント（x,y,t三次元点群）ベース手法を構築

これらの計測情報に関する研究には，実機がないと取り組めないのか？ →（あるに越したことはないけれど）No！既存のデータセットをうまく活用しよう 87

イベント：様々なシーンのサンプルデータセット • ファンの回転 • 手指の動作 • スポーツシーン • 屋内モニタリングなどの様々なシーンをDAVIS346カメラで
撮影したものが含まれている機械学習用途としては十分なデータ量がないものの，イベントカメラで撮影されたデータを確認したい方におすすめ 88 [DAVIS24 dataset] https://sites.google.com/view/davis24-davis-sample-data/home

イベント：人物姿勢・メッシュ推定データセット 89 MMHPSD dataset [Zou+ ICCV2021] • 人物メッシュ推定手法であるEventHPEのデータセット •
各15名の被験者の12シーケンスのデータを計測 • 約4時間分（輝度画像で15fps, 240Kフレーム）のデータ比較的被験者数の多いもの（10名以上）は以下の2つ DHP19 dataset [Calabrese+ CVPRW2019] • 人物三次元姿勢推定手法のデータセット • 各17名の被験者の33動作を4台のイベントカメラ（DAVIS240）で計測 • Viconモーションキャプチャカメラと同期させ13点の三次元間接位置も取得

イベント：屋内外シーンデータセット MVSEC dataset [Zhu+ RA-L, 2018] • 暗所環境を含む屋内外シーンで，撮影されたデータセット．手持ち計測だけでなく，車・バイク・ヘキサコプターに載せた状態でも計測されている •
2台のイベントカメラ，Lidar, IMUセンサ，GPS, Motion Captureシステム（センサの位置・姿勢推定用）と同時に撮影されており，ほとんどのシーケンスにおいて，カメラ姿勢，深度マップの真値がついている 90

Transient Image：NLOSシーンデータセットいずれもNLOS imagingタスクのためのもの．機械学習用途に使用するには量が不足しているものの，同タスクの評価によく用いられるデータセット 91 ZNLOS dataset [Galindo+ ICCP2019]
• 既存のtransient rendering手法[Jarabo+ TOG, 2014]を NLOSシーンのレンダリングに拡張して構築した合成データセット • スキャン点や壁面のスキャン方式，オブジェクトと壁との距離やサイズなどに，いくつかのバリエーションが用意されている [Lindell+ TOG2019] • 共焦点ラスタスキャンに基づくtransient imageの高速なNLOSイメージング手法に関する論文と同時に公開されたもの • 屋外シーンや人物動作シーンのデータを含む，9シーンの実測データが公開されている

音響：室内インパルス応答のデータセット Hearing Anything Anywhere [Wang+ CVPR2024] • 4種類の室内環境（教室，音が減衰しやすい室内，廊下，多くの物体表面が存在する複雑な室内）において，12個のモノラルマイクで収音した室内インパルス応答
(RIR)データセット • スピーカーの位置や向き，室内のオブジェクトの有無や位置を変更したデータも収音されている 92

音響：人物三次元姿勢データセット [Shibata+ CVPR2023] • 人物三次元姿勢推定のためのデータセット • Motion captureデータと同期させた音響信号データを公開 93 https://isogawa.ics.keio.
ac.jp/research_project/a coustic_3dpose.html

ミリ波：人物三次元姿勢・形状推定データセット mmBody [Chen+ ACMMM2022] 94 • ミリ波レーダで計測されている人物姿勢・形状推定データセットは他にも存在（[An+ NeurIPS2022], [Xue+
MobiCom2023]など） • 被験者数（20名），フレーム数（約200,000），同時計測モダリティ（RGB，depth），シーン数（暗所，霧，雨）の観点で，現時点で最も多様なデータセット

これらのモダリティを活用したビジョン応用タスクは比較的最近から取り組まれており，データが不足している… 95 • データ量不足を解決したい場合 • 既存のデータセットがない場合に，既存のRGB動画像ベースのデータセットを活用した合成データが生成できないか？

96 Transient: 深度画像のみからTransient Imageを生成 [Isogawa et al., CVPR2020] ノイズ・ブラーが多く，低時空間解像度な計測からの推定は非常に難しいタスク ↓
強化学習に必要な大量のデータ(疑似データ)を実計測なしで深度画像のみから合成 MoCapと同期させたdepth画像 Pseudo-transient image ノイズ・ブラーの付与 • 時間軸方向のブラー • Poissonノイズ低フレームレートの再現 • 時間軸リサンプリング Data augmentation • 時間軸方向シフト（複数種類）合成 https://github.com/marikoiso gawa/OpticalNLOSPose

Transient Imageの合成手法・データセット [Mitsuba 2] 97 [Royo+ Computers&Graphics, 2022] • オープンソースの物理ベースレンダラーMitsuba2を利用したtransient
imageのシミュレーション手法 • 並列化，偏光，微分可能レンダリングをサポート各時刻におけるtransient image

イベントデータのシミュレータ 98 DVS-Voltmeter [Lin+ ECCV2022] v2e [Hu+ CVPRW2021] ESIM [Rebecq+
CoRL2018] V2CE [Zhang+ ICRA2024] • 輝度画像動画を入力としてフレーム間の輝度差分に基づきイベントデータを出力 • 入力動画のフレームレートを超えるシミュレーションはできないため，イベントカメラ特有の高時間分解能なデータを再現することは困難入力動画真値イベント v2eイベント v2e 真値 DVS- Voltmeter Vid2E 入力動画フレーム ESIMイベント

所望のデータを作るには：仮想環境の活用 • UnityやUnreal Engineなどの仮想環境構築プラットフォームを活用 • 所望の動作を行う人物モデルをインポート/所望のシーンを構築し，仮想カメラを設定してシーンの輝度画像を撮影．それを各モダリティのシミュレータに活用 • 人物のモーションデータはCMU Motion
Capture Database等を活用 • しかし，人間のとりうる非常に多様な動作全てを既存のMoCapデータでカバーできるとは限らない 99 [Hori+ IEEE Access, 2022] Ryosuke Hori

所望のデータを作るには：人物モーション生成 [Dabral+ CVPR2023] テキストや音響信号によって条件付けされた人物の動作を，拡散モデルを用いたフレームワークにより自動生成 100

音響信号のシミュレータ SoundSpaces [Chen+ NeurIPS2022, ECCV2020] • Audio-visualナビゲーション等のタスクに活用するための，幾何学的音響シミュレーションに基づくリアルタイムな音響信号シミュレーションプラットフォーム •
Matterport3Dシーンや任意音源を適用可能 101 Hearing Anything Anywhere [Wang+ CVPR2024] • シーンの音響特性(音源の指向性や物体表面の反射率)をパラメータで表現し，これらを推定する微分可能な音響信号レンダリング手法 • 4つのシーンで，12個のマイクを用いて室内インパルス応答を収音したデータで学習現時点（2024年8月現在）では静的シーンでのシミュレーションのみに対応（シーン内で人物が動作する，などの動的シーンのシミュレーションには適用できない）

ミリ波データのシミュレータ RF Genesis [Chen+ SenSys2023] 102 • レイトレーシングによって合成した中間表現（深度マップに近い二次元画像表現）からミリ波信号を生成 •
4つの環境（と言いつつも，いずれも反射の影響の少ない開けた環境であるという点では類似）で実測されたデータをもとに学習している

様々なモダリティを扱った研究をする上での苦労やその解決方法のTips集 103

データ量が少ないことに起因して汎用性が限定される • 一般的な動画像ベース手法と比較すると研究例が多くないため，データセットが限られる • 「このモダリティでこんなタスクが解けることを示す」という新規タスクへの挑戦系のテーマとなることが多いため，自分達でデータを収集する必要がある →データ量が限定されてしまい，汎用性が限定されてしまう… 104 依存度の高い要素の識別に失敗しつつも所望のタスクをうまく解ける特徴量を抽出する目的で，追加の識別器を導入
[Xie+ ICASSP2021]を参考に複数の研究に導入しており，経験的にはかなり上手くいきます被験者や環境温度の影響を軽減するために，敢えてそれらの識別に失敗する特徴量を学習 [新井ら，MIRU2024] 被験者や環境内位置の影響を軽減するために，それらの識別に失敗する特徴量を学習 [Shibata+ CVPR2020, Oumi+ BMVC2024]

“絶対に解けるはずのタスク・設定”から始める新規タスクへの挑戦系のテーマに取り組む際， • そのタスクに，そのセンサやモダリティで取り組むこと自体が難しいのか • データ量が不足しているのか • センサや環境の設定方法が悪いのかのなどの推定精度が悪化する原因の切り分けが難しいことがよくあります最初から目標シーンで解きたいタスクのデータを収集するのではなくて，必ずう
まくいくであろうシーンから徐々に難易度を上げていくのがおすすめ例．一般的な部屋で音響ベース人物三次元姿勢推定タスクの前に，無響室（反響音が軽減される）で，数クラスのaction recognitionができるかどうかを試す 105

時間同期をどう取るか？深層機械学習ベース手法の構築のために大量の教師データ取得は避けて通れない • 実機実験によるデータ取得が前提 • ラクに早く真値ラベル付与やデータ整理を行うことが進捗速度に影響する • そもそも画像と異なり，目視でラベルが付けづらい → 信号同士の時間同期をとる必要がある
アナログ入出力ユニットを活用し時間同期 • 計測開始信号をPCから送信し，ユニットからアナログ信号を出力 • そのアナログ信号を各計測機器に入力，または可視信号（LED点灯など）を出力 • ただし，クロックレベルの同期は取れない 106 Digital Analog [contec]

計測機器同士の信号干渉問題計測機器の組み合わせによっては，信号波長帯の重複により干渉することも… 例．Motion captureカメラとイベントカメラ • Motion captureカメラが発する850nm波長のIR光源からの光をイベントカメラがイベントとして拾ってしまう… • イベントカメラ側にIRカットフィルタを装着して解決
107 [iniVation] [OptiTrack]

様々なセンサやモダリティを用いたシーン状態推定の課題と今後の展望一般的なカメラではできないことができる！その一方で課題もまだ多くある • （主に深層機械学習ベースの手法構築を想定した）データ量の不足 • 密にセンサが配置できない，波長が長いなどの物理的制約による取得情報のスパースさ • 適用可能なシーンの汎用性の低さ（反射・反響のないシーンでしかうまく動作しない，学習済みの環境でしかうまく動作しない，など）
「このモダリティでこんなことができた！」の一歩先へ進む必要がある実用上の様々な課題（適用シーン拡大，センサ設置条件の緩和，など…）に，データの整備やデータ解析手法など多くの側面からアプローチしていくことで，さらに面白い領域になるのでは 108

MIRU2024での関連発表 109 ぜひご議論をよろしくお願いします！イベントデータ Transient Image IS2-004 Yang Dixin
IS1-122 Yuto Shibata IS3-111 Tatsuki Arai IS2-116 Yusuke Oumi OS-1E-03 Kenta Horikawa IS1-163 Wataru Ikeda DS-10 Ryosei Hara 音響信号超低解像度熱画像

まとめ • 一般的なカメラ動画像で解決が難しい課題（暗所・遮蔽シーンでの計測，個人情報保護，省メモリ・省電力な計測）でも，他のセンサやモダリティを用いることで解決可能なケースがある！ • イベント，Transient image，音波，ミリ波を対象に，計測の仕組み，表現方法，タスク，データセット等を紹介 •
様々なセンサやモダリティを活用してコンピュータビジョン・パターン認識の課題を解決する研究に少しでもご興味を持っていただけますと幸いです • 様々なモダリティを用いた計測にご興味のある方，スパースなデータの実アプリケーション応用にご興味がある方，ぜひ共同研究させてください！ 110 本発表中の成果の一部は，JSTさきがけ，慶應義塾大学学事振興基金，KLLの補助を受けたものです学生の皆様，共同研究者の皆様に感謝いたします

参考文献 Webサイトへの最終アクセス日：2024/08/03 • Ye Yuan et al., "GLAMR: Global Occlusion-Aware
Human Mesh Recovery with Dynamic Cameras", IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pp. 11028-11039, 2022. • Shubham Goel et al., "Humans in 4D: Reconstructing and Tracking Humans with Transformers", IEEE/CVF International Conference on Computer Vision (ICCV), pp. 14783-14794, 2023. • Bernhard Kerbl et al., "3D Gaussian Splatting for Real-Time Radiance Field Rendering", ACM Trans. Graph (TOG), vol.42, no.4, 2023. • Davide Scaramuzza, "Tutorial on Event-based Cameras", CVPR2020 Tutorial. • Yu Cheng et al., "Occlusion-Aware Networks for 3D Human Pose Estimation in Video", IEEE/CVF International Conference on Computer Vision (ICCV), pp. 723-732, 2019. • Lan Xu et al., "EventCap: Monocular 3D Capture of High-Speed Human Motions • using an Event Camera", IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pp. 4968-4978, 2020. • Prophesee, https://www.prophesee.ai/ • David B. Lindell et al., "Wave-based non-line-of-sight Imaging using fast f−k migration", ACM Trans. Graph (TOG), vol.38, no.4, 2019. • Elias Mueggler et al., "Event-based, 6-DOF pose tracking for high-speed maneuvers," IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS), pp. 2761-2768, 2014. • Javier Hidalgo-Carrio et al., "Learning Monocular Dense Depth from Events", International Conference on 3D Vision (3DV), pp.534-542, 2020. 111

参考文献 • William Chamorro et al.,"Event-based SLAM in real-time", IEEE
Robotics and Automation Letters (RA-L), vol.7, no.3, pp.8146-8153, 2022. • Shihao Zou et al., "EventHPE: Event-based 3D Human Pose and Shape Estimation", IEEE/CVF International Conference on Computer Vision (ICCV), pp.10996-11005, 2021. • Anastasios N. Angelopoulos et al., "Event-Based Near-Eye Gaze Tracking Beyond 10,000 Hz", IEEE Transactions on Visualization and Computer Graphics (TVCG), vol.27, no.5, pp.2577-2586, 2021. • Timo Stoffregen et al., "Event-Based Motion Segmentation by Motion Compensation", IEEE/CVF International Conference on Computer Vision (ICCV), pp.7244-7253, 2019. • Shihao Zou et al., "Event-based Human Pose Tracking by Spiking Spatiotemporal Transformer", arXiv preprint arXiv:2303.09681, 2023. • Takatani Tsuyoshi et al., "Event-based Bispectral Photometry using Temporally Modulated Illumination", IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pp.15638-15647, 2021. • Manasi Muglikar et al., "Event-based Shape from Polarization", IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pp.1547-1556, 2023. • Yu Sun et al., "Human Mesh Recovery from Monocular Images via a Skeleton-disentangled Representation", IEEE/CVF International Conference on Computer Vision (ICCV), pp.5349-5358, 2019. • Matthew Loper et al., "SMPL: a skinned multi-person linear model", ACM Trans. Graph (TOG), vol.34, no.6, 2015. • Georgios Pavlakos et al., "Expressive Body Capture: 3D Hands, Face, and Body from a Single Image", IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pp.10975-10985, 2019. 112

参考文献 • Yating Tian et al., "Recovering 3D Human Mesh
from Monocular Images: A Survey", IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), vol.45, no.12, pp.15406-15425, 2023. • 堀涼介ら，"イベントカメラを用いた三次元人物姿勢および形状推定", 第231回情報処理学会コンピュータビジョンとイメージメディア研究会, 2022年11月. • 浜松ホトニクス，https://www.hamamatsu.com/jp/ja/product/photometry-systems/streak-camera.html • TOPPAN株式会社エレクトロニクス，https://www.toppan.com/ja/electronics/device/tof/ • OUSTER, https://ouster.com/ • Matthew O’Toole et al., "Reconstructing Transient Images from Single-Photon Sensors", IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pp.1539-1547, 2017. • キヤノン株式会社, https://global.canon/ja/news/2023/20230403.html • Clara Callenberg et al., "Low-cost SPAD sensing for non-line-of-sight tracking, material classification and depth imaging", ACM Trans. Graph (TOG), vol.40, no.4, 2021. • Qilin Sun et al., "Depth and Transient Imaging With Compressive SPAD Array Cameras", IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pp.273-282, 2018. • Matthew O’Toole et al., "Confocal Non-Line-of-Sight Imaging Based on the Light-Cone Transform", Nature, pp.338–341, 2018. • Mariko Isogawa et al., "Optical Non-Line-of-Sight Physics-Based 3D Human Pose Estimation", IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pp.7013-7022, 2020. • Mariko Isogawa et al., "Efficient Non-Line-of-Sight Imaging from Transient Sinograms", European Conference on Computer Vision (ECCV), pp. 193-208, 2020. 113

参考文献 • Yue Li et al., "NLOST: Non-Line-of-Sight Imaging with
Transformer", IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pp.13313-13322, 2023. • David B. Lindell et al., "Acoustic Non-Line-of-Sight Imaging", IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pp.6780-6789, 2019. • Nicolas Scheiner et al., "Seeing Around Street Corners: Non-Line-of-Sight Detection and Tracking In-the-Wild Using Doppler Radar", IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pp.2068-2077, 2020. • 古野電気株式会社, https://www.furuno.com/jp/technology/sonar/basic/ • Jing Li et al., "Audio2Gestures: Generating Diverse Gestures From Audio", IEEE Transactions on Visualization and Computer Graphics (TVCG), vol.30, no.8, pp.4752-4766, 2024. • Eli Shlizerman et al., "Audio to body dynamics", IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pp.7574– 7583, 2017. • Ruohan Gao et al., "Listen to look: Action recognition by previewing audio", IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pp.10457–10467, 2020. • Yuki Kubo et al., "AudioTouch: Minimally invasive sensing of micro-gestures via active bio-acoustic sensing", International Conference on Human-Computer Interaction with Mobile Devices and Services (MobileHCI), no.36, pp.1-13, 2019. • Jesper Haahr Christensen et al., "BatVision: Learning to See 3D Spatial Layout with Two Ears", IEEE International Conference on Robotics and Automation (ICRA), pp.1581-1587, 2020. • Yuto Shibata et al., "Listening Human Behavior: 3D Human Pose Estimation with Acoustic Signals", IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pp.13323-13332, 2023. 114

参考文献 • Texas Instruments, https://www.ti.com/ja-jp/homepage.html • Junfeng Guan et al.,
"Through Fog High Resolution Imaging Using Millimeter Wave Radar", IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pp.11464-11473, 2020. • Luyao Liu et al., "mmRH: Noncontact Vital Sign Detection With an FMCW mm-Wave Radar", IEEE Sensors Journal, vol.23, no.8, pp.8856-8866, 2023. • Peijun Zhao et al., "mID: Tracking and Identifying People with Millimeter Wave Radar", International Conference on Distributed Computing in Sensor Systems (DCOSS), pp.33-40, 2019. • Shih-Po Lee et al., "HuPR: A Benchmark for Human Pose Estimation Using Millimeter Wave Radar", IEEE/CVF Winter Conference on Applications of Computer Vision (WACV), pp.5715-5724, 2023. • Hongfei Xue et al., "mmMesh: towards 3D real-time dynamic human mesh construction using millimeter-wave", International Conference on Mobile Systems, Applications, and Services (MobiSys), pp.269–282, 2021. • Kotaro Amaya, Mariko Isogawa. "Adaptive and Robust mmWave-based 3D Human Mesh Estimation for Diverse Poses", IEEE International Conference on Image Processing (ICIP), pp.455-459, 2023. • Hongfei Xue et al., "M4esh: mmWave-Based 3D Human Mesh Construction for Multiple Subjects", ACM Conference on Embedded Networked Sensor Systems (SenSys), pp.391–406, 2023. • Hongfei Xue et al., "Towards Generalized mmWave-based Human Pose Estimation through Signal Augmentation", International Conference on Mobile Computing and Networking (MobiCom), no.88, pp.1–15, 2023. • Tobi Delbruck, "DAVIS24: DAVIS Event Camera Sample Data” • Enrico Calabrese et al., "DHP19: Dynamic Vision Sensor 3D Human Pose Dataset", IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops (CVPRW), 2019. 115

参考文献 • Alex Zihao Zhu et al., "The Multi Vehicle
Stereo Event Camera Dataset: An Event Camera Dataset for 3D Perception", IEEE Robotics and Automation Letters (RA-L), vol.3, issue 3, pp.2032-2039, 2018. • David B. Lindell et al., "Wave-based non-line-of-sight Imaging using fast f−k migration", ACM Trans. Graph (TOG), vol.38, no.4, 2019. • Miguel Galindo et al., "A dataset for benchmarking time-resolved non-line-of-sight imaging", IEEE International Conference on Computational Photography (ICCP), no.73, pp.1-2, 2019. • Adrian Jarabo et al., "A Framework for Transient Rendering", ACM Transactions on Graphics (TOG), vol.33, no.6, 2014. • Mason Long Wang et al., "Hearing Anything Anywhere", IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pp.11790-11799, 2024. • Anjun Chen et al., "mmBody Benchmark: 3D Body Reconstruction Dataset and Analysis for Millimeter Wave Radar", ACM International Conference on Multimedia (ACMMM), pp.3501–3510, 2022. • Sizhe An et al., "mRI: Multi-modal 3D Human Pose Estimation Dataset using mmWave, RGB-D, and Inertial Sensors", Neural Information Processing Systems (NeurIPS), vol.35, pp.27414-27426, 2022. • Diego Royo et al., "Non-Line-of-Sight Transient Rendering", ACM SIGGRAPH (SIGGRAPH) Posters, no.39, pp.1–2, 2022. • Henri Rebecq et al., "ESIM: an Open Event Camera Simulator", Conf. on Robotics Learning (CoRL), pp.969-982, 2018. • Yuhuang Hu et al., "v2e: From video frames to realistic DVS event camera streams", IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops (CVPRW), 2021. • Songnan Lin et al., "DVS-Voltmeter: Stochastic Process-based Event Simulator for Dynamic Vision Sensors", European Conference on Computer Vision (ECCV), pp.578–593, 2022. 116

参考文献 • Zhongyang Zhang et al., "V2CE: Video to Continuous
Events Simulator", IEEE International Conference on Robotics and Automation (ICRA), to appear, 2024. • Ryosuke Hori et al., "Silhouette-based 3D Human Pose Estimation Using a Single Wrist-mounted 360° Camera", IEEE Access, vol.10, pp.54957-54968, 2022. • Rishabh Dabral et al., "Mofusion: A Framework for Denoising-Diffusion-Based Motion Synthesis", IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pp.9760-9770, 2023. • Changan Chen et al., "SoundSpaces: Audio-Visual Navigation in 3D Environments", European Conference on Computer Vision (ECCV), pp.17–36, 2020. • Changan Chen et al., "SoundSpaces 2.0: A Simulation Platform for Visual-Acoustic Learning", International Conference on Neural Information Processing Systems (NeurIPS), no.647, pp.8896-8911, 2022. • Xingyu Chen and Xinyu Zhang, "RF Genesis: Zero-Shot Generalization of mmWave Sensing through Simulation-Based Data Synthesis and Generative Diffusion Models", ACM Conference on Embedded Networked Sensor Systems (SenSys), pp.28-42, 2023. • Fanglu Xie et al., "Disentangling Subject-Dependent/-Independent Representations for 2D Motion Retargeting", IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), pp.4200-4204, 2021. • CONTEC, https://www.contec.com/jp • iniVation, https://inivation.com/ • OptiTrack, https://www.optitrack.jp/ 117

MIRU2024チュートリアル「様々なセンサやモダリティを用いたシーン状態推定」

MIRU2024チュートリアル「様々なセンサやモダリティを用いたシーン状態推定」

More Decks by Mariko Isogawa

Other Decks in Research

Featured

Transcript