Slide 1

Slide 1 text

様々なセンサやモダリティを用いた シーン状態推定 MIRU2024 チュートリアル講演 五十川 麻理子 慶應義塾大学 理工学部 情報工学科 准教授 2024.8.6

Slide 2

Slide 2 text

五十川 麻理子(Mariko Isogawa) 2 慶應義塾大学 理工学部 情報工学科,准教授,博士(工学) 2013年 大阪大学 基礎工学研究科 博士前期課程 修了 2013年〜2022年 NTT研究所 • 2016年〜2019年 大阪大学基礎工学研究科 博士後期課程 (2019年3月 学位取得) • 2019年〜2020年 カーネギーメロン大学 訪問研究員 2022年〜2023年 慶應義塾大学 専任講師 2023年〜 慶應義塾大学 准教授

Slide 3

Slide 3 text

3 一般的なカメラでは捉えられない情報を取得したい 遮蔽領域や暗所環境,悪天候環境でどのように計測するか? Photo Credits: Adobe Stock #226520351, 478173158

Slide 4

Slide 4 text

限られたリソース・様々なシナリオで, できるだけ広い範囲を計測したい 4 Photo Credits: Adobe Stock #88227738, 298460055, 321833192, 362288071, 135067349, 293938713 カメラが密に設置されていない 場所でどのように計測するか? 自発的に計測されてくれる人以外を どのように計測するか? 個人情報保護にはどのように配慮する?

Slide 5

Slide 5 text

スパースな計測情報をうまく活用し, 多くの情報を推定・復元したい 5 スパースな計測情報 のみから推定・復元が できると楽しい Photo Credits: Adobe Stock #251506595

Slide 6

Slide 6 text

本講演に関連するこれまでの研究 • 一般的なカメラでは捉えられないものを計測したい • 限られたリソースでできるだけ広い範囲を計測したい • 様々なシナリオのもとで計測したい • スパースな計測情報から,多くの情報を推定・復元したい というモチベーションで研究しています 6 Transient Imageを 用いたコーナー越しの 人物三次元姿勢推定 [Isogawa+ CVPR2020] シーン三次元形状推定 [ECCV2020] 音響信号を用いた 人物三次元姿勢推定 [川島+ MIRUフロンティア賞] [Shibata+ CVPR2023] ミリ波を用いた 人物三次元形状推定 [Amaya&Isogawa, ICIP2023] Input : point cloud Proposed Model Output : 3D human mesh イベントカメラを用いた 人物三次元形状推定 [堀ら,CVIM奨励賞,CGVI研究会優 秀研究発表発表賞] [出口・池田ら,MIRUデモ発表賞]

Slide 7

Slide 7 text

本講演で扱う範囲(センサとモダリティ) 7 様々なセンサやモダリティを用いた シーン状態推定 Transient Image, イベントデータ, 音響信号,ミリ波信号

Slide 8

Slide 8 text

本講演で扱う範囲(計測方法やタスク) 8 様々なセンサやモダリティを用いた シーン状態推定 非侵襲的計測(計測対象がデバイスを装着しない) • 人物の状態(姿勢,メッシュ形状.後ほど説明) • シーンの奥行き,三次元形状

Slide 9

Slide 9 text

本チュートリアルで目指すこと • CV技術に活用可能な,様々な入力情報の性質や特性について知っていただく • 一般的なカメラではできないことができるセンサに焦点を当てます • ある計測情報ではうまく解けないタスクも,他のセンサやモダリティを使え ば解決できるかも!という視点で見ていただけますと幸いです • 様々な入力情報を用いたタスクにはどのようなものがあるか?を紹介 • 異なるモダリティ間で,類似した計測手法を用いている場合がある • 例:アクティブ計測の際の計測用信号に共通点が見られる • 共通した手法を活用できる場合がある • 例:点群ベースの手法は異なるモダリティ間でも流用できる 等により,ご自身が主に扱うセンサ・モダリティ以外についても何かしらご参 考になることがあると嬉しく思います • 本日ご紹介する計測情報を使ってみたくなった場合に手掛かりとなる情報の紹介 • 前処理方法,データセット等 9

Slide 10

Slide 10 text

本題に入る前に… 一般的なRGB動画像でできていること 10 GLAMR [Yuan+ CVPR2022] • 非固定な単眼カメラで撮影さ れた動画フレームから人物 メッシュを復元 • オクルージョンや人物がカメ ラ視野外に出た場合の追跡に も対応 HMR2.0[Goel+ ICCV2023] • Vision TransformerとCross Attentionベースのトランス フォーマーデコーダーから 構成される手法 • 従来手法では高精度な復元 が難しかった人物姿勢やカ メラ視点に対応 動的カメラ,複数人物,遮蔽ありでも 人物姿勢推定が可能! 3D Gaussian Splatting [Kerbl+ SIGGRAPH2023] • 複数視点画像を入力とした, シーンの三次元情報を再構成 する手法 • シーンを無数の3次元ガウス 分布で表現された粒子の集合 として表現 高品質なシーンの 三次元復元が可能! (ただし複数視点必要)

Slide 11

Slide 11 text

効果的な手法が多く開発される一方で, RGB動画像ならではの課題も… 11

Slide 12

Slide 12 text

RGB動画像をシーン状態推定に活用する際の課題(1/3) 顔や衣服などの個人の特定に紐づきやすい情報が写り込んでしまうことによる, 個人情報・プライバシー保護に関する課題 12 Photo Credit: Adobe Stock #306799720

Slide 13

Slide 13 text

• 悪照明環境(例.夜道などの暗所) • 遮蔽のある環境(例.テーブルで推定対象物が隠れるなど) において推定精度が低下してしまう 13 RGB動画像をシーン状態推定に活用する際の課題(2/3) 人体が遮蔽され姿勢推定に失敗する様子 [Cheng+ ICCV2019] 暗所環境で生じるモーションブラー [Scaramuzza, CVPR2020 Tutorial]

Slide 14

Slide 14 text

• 計測時に多くの電力やメモリ量を要する • 特にハイフレームレートや4Kなどの高解像度で撮影する際は,大量のデータの 保持・処理能力が必要 14 RGB動画像をシーン状態推定に活用する際の課題(3/3) ハイフレームレートカメラ(120fps)で撮影された動画 [Xu+ CVPR2020]

Slide 15

Slide 15 text

RGB入力を活用する際の課題を解決するには? 15 Transient image 光の到来時刻と強度を記録 レーザー反射光をSingle Photon Avalanche Diode (SPAD) センサで計測 [Lindell+ SIGGRAPH2019] 他のセンサやモダリティを活用すれば良いのでは? イベントデータ 輝度に変化が生じた画素でのみ 非同期的に極性情報(輝度の増 減を示す符号)を記録 イベントカメラで撮影 RGBカメラ以外の可視光センサで計測した情報 [Prophesee] 誰が写っているのかは,一般人が目 視で確認するだけでは分かりづらい → (RGB動画像と比較すると) 個人識別性は低い • 暗所耐性を有する • 省電力

Slide 16

Slide 16 text

RGB入力を活用する際の課題を解決するには? 16 https://en.wikipedia.org/wiki/Frequency 無線信号・音響信号に共通: • 暗所耐性を有する • (会話音声などを除いて)個人識別 可能な情報を含みづらい • データ量が少ないため省メモリ 他のセンサやモダリティを活用すれば良いのでは? 可視光以外のモダリティ 音響信号: • 信号波長が長いため, 多くの物体を透過・回 折する →遮蔽耐性を獲得可能 • 無線信号が活用できな いシーン(航空機内や 精密機器の存在する病 室など)でも活用可能 無線信号:信号波長が比較的長いため, 木や紙などの遮蔽物を透過する →遮蔽耐性を獲得可能

Slide 17

Slide 17 text

17 本日主にご紹介する入力情報とその特性 〜信号波長,周波数帯〜 Transient image イベントデータ 可視光 380~780nm ミリ波 1mm~1cm 3~300GHz 音波 可聴域: 17mm~17m, 20~20kHz 超音波:~17mm 20kHz~数kMHz

Slide 18

Slide 18 text

具体的な事例紹介に入る前に,一旦整理します 18

Slide 19

Slide 19 text

本日主にご紹介する入力情報とその特性 〜一般的なRGB動画像との比較〜 コスト 計測時の 手軽さ 個人情報 保護 暗所 耐性 遮蔽 耐性 省電力 省メモリ 可視光 RGB ◯ ◎ × × × × × イベント △ ◯ △ ◯ × ◯ △ Transient × × ◯ × × × ◯ 可視光 以外 ミリ波 ◯ △ ◯ ◯ △※ ◯ ◯ 音 ◯ ◯ △* ◯ ◯ ◯ ◯ 19 一般人が目視で計測情報を確認して個人識別ができる かどうか(日本の法的な個人情報の定義)という観点 これらの信号を用いる際の技術的課題は一旦置いておいて,信号特性のみで評価 *会話音声などの意味情報を含む場合は× ※金属に遮蔽されやすい.水に吸収されやすい 量産化が進めば解決するはず

Slide 20

Slide 20 text

20 Transient image イベントデータ 音響信号 ミリ波信号 本日主にご紹介する入力情報とその特性 〜データの表現方法〜 二次元画像 三次元ボリューム/ Voxel 点群

Slide 21

Slide 21 text

本日主にご紹介する入力情報とその特性 〜計測方法・計測信号〜 21 Transient image イベントデータ 音響信号 ミリ波信号 パッシブ (能動的に計測用信号を 発しない) アクティブ (能動的に計測用信号を発する) パルス信号 ※各モダリティについて一般的な方法を記載していますが,これ以外の計測方法も存在します 周波数変調信号

Slide 22

Slide 22 text

本日主にご紹介する入力情報とその特性 〜データが有する情報〜 22 Transient image イベントデータ 音響信号 ミリ波信号 パッシブ (能動的に計測用信号を 発しない) パルス信号 ※各モダリティについて一般的な方法を記載していますが,これ以外の計測方法も存在します 周波数変調信号 アクティブ (能動的に計測用信号を発する) Time of Flight (ToF)情報を有する

Slide 23

Slide 23 text

23 本日主にご紹介する入力情報とその特性 〜信号波長,周波数帯〜 Transient image イベントデータ 可視光 380~780nm ミリ波 1mm~1cm 3~300GHz 音波 可聴域: 17mm~17m, 20~20kHz 超音波:~17mm 20kHz~数kMHz

Slide 24

Slide 24 text

イベントカメラとは? 生物の網膜から着想を得た,撮影対象の輝度変化を画素毎に非同期的に検知し, イベントデータを出力するカメラ 24 フレームベースカメラ(左)とイベントカメラ(右) との比較 [Prophesee] 撮影方式の比較 [Mueggler+ IROS2014] 本講演中は,“イベントデータ”とはユーザ行動等ではなく, イベントカメラで取得した情報を指すこととします

Slide 25

Slide 25 text

イベントデータの特徴 • 高時間分解能(𝜇𝑠オーダー) • 遅延やモーションブラーを軽減可能 • ハイダイナミックレンジ • 白飛び,黒つぶれが軽減可能 • 暗所環境でのセンシングにも適している • 省電力,省メモリ • エッジデバイスの構築に向いている • 個人情報保護に配慮可能 • 一般的な画像と比較すると,一般人が生 データを閲覧して個人を識別可能な情報を 読み取りづらい 25 Scaramuzza, “Tutorial on Event-based Cameras” [Prophesee]

Slide 26

Slide 26 text

輝度に変化があった時のみ計測されるとは? 26 受光した光の対数強度の変化量 log 𝐼 𝒙, 𝑡 − log 𝐼 𝒙, 𝑡 − Δ𝑡 = ±𝐶 が一定の閾値を超えた時のみ,極性情報が記録される log 𝐼(𝒙, 𝑡) 𝑂𝑁 𝑂𝐹𝐹 𝑂𝐹𝐹 𝑂𝐹𝐹 𝑂𝑁 𝑂𝑁 𝑂𝐹𝐹 𝑂𝐹𝐹 𝑂𝐹𝐹 𝑂𝑁 𝑂𝑁 𝐶 Scaramuzza, “Tutorial on Event-based Cameras”

Slide 27

Slide 27 text

Event Camera Output with No Motion イベントカメラで撮れるもの シーン中に動きがなければ,背景ノイズだけが出力される Scaramuzza, “Tutorial on Event-based Cameras” RGBカメラ イベントカメラ (青:輝度上昇,赤:輝度減少) 27

Slide 28

Slide 28 text

28 イベントカメラで撮れるもの シーン中に動きが生じると,イベントが発生する Scaramuzza, “Tutorial on Event-based Cameras” RGBカメラ イベントカメラ (青:輝度上昇,赤:輝度減少)

Slide 29

Slide 29 text

29 イベントカメラで撮れるもの カメラ動作によってもイベントが発生する Scaramuzza, “Tutorial on Event-based Cameras” RGBカメラ イベントカメラ (青:輝度上昇,赤:輝度減少)

Slide 30

Slide 30 text

イベントデータの形式と,活用する際の難しさ 出力形式:点群データ+(輝度画像:同時撮影が可能な機種のみ) 30 𝑥, 𝑦: 画像座標, 𝑡: 時間(タイムスタンプ), 𝑝: 極性(輝度変化方向) 𝑥1 , 𝑦1 , 𝑡1 , 𝑝1 , 𝑥2 , 𝑦2 , 𝑡2 , 𝑝2 , … , 𝑥𝑁 , 𝑦𝑁 , 𝑡𝑁 , 𝑝𝑁 • 非同期的に撮影された点群データであること • 輝度画像が使用できない場合もあること から,既存の画像ベースの手法をそのまま活用することができない!

Slide 31

Slide 31 text

イベントデータの表現方法 • 計測情報(空間情報・極性・タイムスタンプ)をそのまま保持したいのであれ ば,もちろんイベントストリームのまま扱いたい • スパイク列と呼ばれる0か1の時系列データを入力とするSpiking Neural Network (SNN)などを活用すれば可能 • しかし,データ量の大きさが気になる場合や既存手法(一般的な画像を入力と したネットワークなど)を活用したい場合には,他の表現方法も有効 31

Slide 32

Slide 32 text

主要なイベントデータ表現 32 時系列情報の保持度(高) メモリ量(大) Event Frame Event Voxel Event Stream Time Surface Event Spike Tensor

Slide 33

Slide 33 text

主要なイベントデータ表現 33 時系列情報の保持度(高) メモリ量(大) Event Frame Event Voxel Event Stream Time Surface Event Spike Tensor • 一定時間内にイベントが発 生したかどうかのみを極性 情報とともに記録する • 扱いやすいが時系列情報が 失われやすい

Slide 34

Slide 34 text

主要なイベントデータ表現 34 時系列情報の保持度(高) メモリ量(大) Event Frame Event Voxel Event Stream Time Surface Event Spike Tensor • 直近のイベントほど輝度が高 く(or低く)なるように重み 付けされたイベント表現 • イベント強度のMotion History Image • 時系列情報を保持可能

Slide 35

Slide 35 text

参考:Motion History Image (MHI)とは • 直近のフレームほど輝度が高くなるように,複数フレームにわたる動きの“履 歴”を一枚の画像で表現する方法 • 各フレームの差分画像を時間ともに重み付けし,残像が残ったような画像を 生成 35 [Komori+ SportsEngineering, 2023]

Slide 36

Slide 36 text

主要なイベントデータ表現 36 時系列情報の保持度(高) メモリ量(大) Event Frame Event Voxel Event Stream Time Surface Event Spike Tensor • 三次元ボクセルに量子化 • 各ボクセルはその時間内 に生じたイベントの総和 や,重み付き和を記録 Event streamを 三次元ボクセルに量子化

Slide 37

Slide 37 text

Event Voxelの実装方法の一例 異なる実装方法がいくつか提案されているものの,時空間情報を時間軸方 向に量子化する,というアイデアは共通 実装例: 畳み込みを用いたモデルに入力するために,イベント群を時間情報を損なわない形で3 次元配列V(ボクセル)に変換 [Hidalgo-Carrió+ 3DV2020] • V の時系列分割数をbinとする • イベント𝐹𝑒𝑣 𝑡 の時刻t ,その近傍のV のフレームの時刻を 𝑡1 , 𝑡2 ( 𝑡1 < t < 𝑡2 < bin)とする • 𝑡 − 𝑡1 : 𝑡2 − 𝑡 によって,𝐹𝑒𝑣 𝑡 の極性𝑝𝑡を𝑝𝑡1と𝑝𝑡2に分割 𝑝𝑡1 = 𝑡2−𝑡 𝑡2 −𝑡1 𝑝𝑡 𝑝𝑡2 = 𝑡1−𝑡 𝑡2 −𝑡1 𝑝𝑡 37 𝑡1 𝑡2 𝑝𝑡 𝑝𝑡1 𝑝𝑡2 ボクセル化の模式図 Slide Credit: Kenta Horikawa

Slide 38

Slide 38 text

主要なイベントデータ表現 38 時系列情報の保持度(高) メモリ量(大) Event Frame Event Voxel Event Stream Time Surface Event Spike Tensor • イベント情報(x, y, 極性, タイムスタンプ)を点群形 式で保持 • 時空間情報が保持されるが データ量が大きい • 画像ベース手法は使えない

Slide 39

Slide 39 text

イベントデータを活用した研究の動向 • 従来のCVタスクを輝度画像とイベントデータを両方入力として解くことで,イ ベントデータの高速性,暗所耐性を獲得 and/or 精度を向上させる研究が多数 • 深度推定[Hidalgo-Carrió+ 3DV2020], SLAM[Chamorro+ RA-L, 2022], 人物メッシュ推定 [Zou+ ICCV2021], 視線追跡[Angelopoulos+ IEEE TVCG, 2021]など • 上記タスクに活用可能なイベントならではの難しさを解決する手法(セグメンテーション [Stoffregen+ ICCV2019]など)も取り組まれている • 最近では,輝度画像を同時入力することで暗所耐性や個人情報保護性が限定さ れることから,イベントデータのみを入力とした推定手法も提案されている • 主に人物状態推定タスク([Zou+ arXiv preprint]など) • イベントカメラが光量の差分を精度よく検出できることに着目した研究も提案 されている • 二波長測光法による媒質の形状・濃度推定[Takatani+ CVPR2021]など 39 以降のスライドで紹介

Slide 40

Slide 40 text

40 イベントカメラを用いた深度推定・三次元復元 [Hidalgo-Carrió+ 3DV2020] • 暗所環境にも頑健な単眼イベン トカメラベースの深度推定 • イベントストリームを三次元ボ クセルに変換することで,時系 列情報を保持した推定が可能 [Muglikar+ CVPR2023] • 三次元形状推定を偏光を利用して行うShape from Polarization(SfP)を単眼イベントカメラで行うこ とで,計測速度を向上させる試み • 非偏光な光が物体表面に当たると,その形状や材質 に応じて部分的に偏光することを活用し,イベント カメラ前方に置いた高速回転する偏光板で取り出し た偏光を利用して,表面法線と3D形状を推定

Slide 41

Slide 41 text

41 イベントと輝度画像を用いた人物形状推定 EventHPE [Zou+ ICCV2021] • イベントフレームから推定した画像ベースのフロー(オプティカルフロー)と,イベントフ レームおよびオプティカルフローから推定した人体の形状ベースのフロー(人体形状の頂点の 動き)との整合性がとれるようにメッシュパラメータを推定 • 推論時にも輝度画像が必要(冒頭フレームのみ) イベント点群を一定 時間毎に蓄積させた イベントフレーム イベントフレーム から推定したオプ ティカルフロー

Slide 42

Slide 42 text

42 参考:人物姿勢・メッシュ推定手法とは • 多くの手法で,市販カメラを用いて撮影したRGB動画像を入力として活用 • 他のモダリティを活用する研究も近年盛んに行われている 入力情報 出力 Model Model 人物姿勢 2D/3D関節位置 人物メッシュ メッシュモデルパラメータ (例.Skinned Multi-Person Linear model (SMPL) model) [Sun+ ICCV2019]

Slide 43

Slide 43 text

参考:人物メッシュモデルとその推定手法の推移 43 [Tian+ TPAMI2023] Skinned Multi-Person Linear(SMPL) , SMPL-Xモデルを用いる手法が大半 スケルトンモデル 人体の各関節位置 の座標位置を 示したもの SMPLモデル [Loper+ TOG, 2015] • 6890点の三次元頂点位置で構成される • パラメータは82次元(人物三次元関節位 置23点,人物の向きを示す三次元ベクト ル,人物の体格情報を示す10次元の形状 パラメータの3×23+3+10) SMPL-Xモデル [Pavlakos+ CVPR2019] SMPLに顔と手指 のパラメータを 追加したもの 最もよく使われている

Slide 44

Slide 44 text

• イベントデータのみに基づく人物形状推定を実現 • イベントデータを0か1の情報のみで構成される“スパイクテンソル”に変換し,スパ イクデータを扱うためにSpike-Element-Wise-ResNet [Fang+ NeurIPS2021]や時間 的依存関係を上手く捉えるための時空間Transformerを導入 44 イベントデータのみを入力とした人物形状推定 [Zou+ arXiv preprint]

Slide 45

Slide 45 text

45 輝度 画像 (参考) 真値 推定 結果 イベントデータのみを入力とした人物形状推定 [堀ら,CVIM奨励賞,CG研究会優秀研究発表賞・学生発表賞,MIRU学生奨励賞] イベント点群から高次元特徴を抽出 二次元関節位置の推定 & 大域特徴の抽出 Anchor Pointsを元にした時空間グルーピングによる局所特徴の抽出 SMPLモデルの推定 (1)二次元関節位置推定結果をpriorとするcoarse-to-fineなメッシュ推定,(2)イベン トデータを点群として捉えた時空間グルーピングによる時系列情報を保持した局所 特徴抽出,によりイベントのみを入力とした高精度な推定を実現! Ryosuke Hori

Slide 46

Slide 46 text

46 本日主にご紹介する入力情報とその特性 〜信号波長,周波数帯〜 Transient image イベントデータ 可視光 380~780nm ミリ波 1mm~1cm 3~300GHz 音波 可聴域: 17mm~17m, 20~20kHz 超音波:~17mm 20kHz~数kMHz

Slide 47

Slide 47 text

Time of Flight (ToF)カメラとは • 計測対象にアクティブに信号を照射し,信号が返ってくる時間を取得するセ ンサ(同時に信号強度を取得するものもあり) • 空間情報(x, y)だけでなく,深度方向(z)方向の情報も取得可能 47 センサと計測対象までの距離 𝑑 = 𝑐×𝑡 2 (𝑡: 光速) 光が返ってくるまでにかかった時間: 𝑡 光が返ってくるまでに進んだ距離: 2𝑑

Slide 48

Slide 48 text

ToF情報を用いたアプリケーションの例 • スマートフォンの顔認証 • AR/MR/VR • 車載測距システム • ロボットの周辺環境・人物認識 • 三次元計測 • 監視・見守り 48

Slide 49

Slide 49 text

ToF情報を取得可能な計測機器の例 • ストリークカメラ • 超高速度(ピコ秒単位)で短時間に発生する光を捉えることが可能 • ToFカメラ • 照明光の反射光を観測し,物体までの距離を計測 • 主用途:近距離の測距センサ • Lidar • レーザー光を走査しながら照射し距離計測するため比較的疎な計測になりやすい • 主用途:遠距離の測距センサ • etc… 49 ストリークカメラ [Hamamatsu Photonics K.K.] ToFカメラ [Toppan Electronics] Lidar [OUSTER]

Slide 50

Slide 50 text

微弱な光を,高時間分解能で撮ると何ができる? 比較的安価に,ピコ秒単位で光を捉えるには? 計測方法と計測情報の一例: • 高感度な光の検出(SPADセンサ)と,高時間分解能をもつ時間‐デジタル変 換器(Time-to-Digital Converter:TDC)とを組み合わせると,ピコ秒単位で 光の伝搬を計測することが可能!※他のセンサ素子を用いた同様の計測方法も存在します • Transient imageと呼ばれる 50 SPADセンサとTDCとを組み合わせたシステムを用いて, ペットボトルの端からパルスレーザ光を当てた様子を撮影された計測情報 であるtransient imageを可視化したもの [O’Toole+ CVPR2017] “光の経路”が見える!

Slide 51

Slide 51 text

参考: Single Photon Avalanche Diode(SPAD)センサ 51 非常に微弱な光を検出することが可能なイメージセンサの一種 • 光子が画素に入射すると,雪崩(アバランシェ)のような増幅によって大きな電子パル ス信号を出力する仕組みであるため,単一の光子(フォトン)を検出することが可能 • そのため,暗所環境や微弱な光しか得られない環境でも高感度に撮影可能 SPADイメージセンサー [Canon]

Slide 52

Slide 52 text

Transient Imageのデータ構成 52 [O’Toole+ CVPR2017] レーザー&センサ 光が行って帰ってくる までの時間 光子(フォトン)の数≒光の強度 時間 光子数 このボリュームの x, y座標1点に対する 各計測が,時間軸に対する カウントされた 光子数のヒストグラム

Slide 53

Slide 53 text

Transient Imageに関する研究動向 • Transient imageを活用した様々なタスクの提案 • 材質分類[Callenberg+ TOG, 2021],深度推定[Sun+ CVPR2018],Non-Line-of-Sightイ メージング[O’Toole+ Nature2018],人物姿勢推定[Isogawa+CVPR2020]など • 上記のための計測システム開発([Callenberg+ TOG, 2021]など) • 上記タスクの計算量削減,高精度化,スキャン方法の工夫などに移行しつつある • 例. NLOSイメージングのためのスキャン点・メモリ量削減[Isogawa+ ECCV2020], 高精 度化[Li+ CVPR2023]など 53 ※論文中にTransient image/measurementという名称を用いているものを挙げていますが,他の計測方法で 取得したToF情報を入力とした同様のタスクを行う研究も多数発表されています

Slide 54

Slide 54 text

深度推定・材質分類 54 foam paper towel wax skin 材質推定 [Callenberg+ TOG, 2021] 素材により反射特性が異なることを利用して,5種類の 材質クラスを分類 推定精度[%] 環境光がない方が良好な結果だが, 環境光があっても良好に推定可能 深度推定 [Sun+ CVPR2018] 圧縮センシング(疎な計測情報からデータを再構成 する技術)を活用して64×32のSPADアレイから, 800×400画素の分解能での深度画像復元を達成 左:復元された深度画像 中央:横からの断面図 右:復元された輝度画像

Slide 55

Slide 55 text

Non-Line-of-Sight Imaging [O’Toole+ Nature2018] コーナー越しに遮蔽されたシーンの形状を復元する技術 ①可視光レーザーを壁に照射. 反射光が視野外にある人やオブジェクトを照らす ②人やオブジェクトから反射した光が壁→センサに戻ってくる.そのToF情報を計測 55 Transient Image (Input) Reconstructed Scene (Output) Visible Wall Hidden Object Occluder Laser/SPAD sensor t x y 壁面上の同一点を照射&観測 する共焦点スキャンを 前提に話します

Slide 56

Slide 56 text

1st response at 2.7 ns (visible wall) Sensor Output: 2nd response at 4.3 ns (hidden object) Visible Wall Occluder Laser & Sensor Hidden Object 56

Slide 57

Slide 57 text

1st response at 2.7 ns (visible wall) Sensor Output: Visible Wall Occluder 2nd response at 4.3 ns (hidden object) Laser & Sensor Hidden Object 57

Slide 58

Slide 58 text

58 どのような仕組みでイメージングができるのか? [O’Toole+ Nature2018]の共焦点二次元ラスタスキャンによる計測を前提に説明 Transient image (計測データ)は被遮蔽シーンで反射して返ってきた光の積分値 Albedo (求めたい被遮蔽 シーン情報) 光の減衰を考慮する ためのパラメータ Transient image (計測データ) で表現される光円錐(Light cone)

Slide 59

Slide 59 text

どのような仕組みでイメージングができるのか? [O’Toole+ Nature2018]の共焦点二次元ラスタスキャンによる計測を前提に説明 59 Transient image (計測データ)は被遮蔽シーンで反射して返ってきた光の積分値 Albedo (求めたい被遮蔽 シーン情報) 光の減衰を考慮する ためのパラメータ Transient image (計測データ) で表現される光円錐(Light cone) 離散化や変数変換などを経て... Transient image (計測データ) Albedo (求めたい被遮蔽 シーン情報) フーリエ・逆フーリエ変換 z/t軸サンプリング関数 Wienerフィルタ

Slide 60

Slide 60 text

完全に壁で遮蔽された人物の三次元姿勢の推定 [Isogawa+ CVPR2020] Non-Line-of-Sight Imagingシステムを用いて壁で隠れた人物の三次元姿勢を推定した初の試み • 強化学習により人物動作の物理特性に沿った三次元姿勢を推定 • 深度画像から合成したTransient imageのみを用いてモデルを学習 60

Slide 61

Slide 61 text

Transient Imageベース手法から 他のモダリティベースの手法への派生の例 Transient imageは,細かい時間・(波長に関する)空間分解能で計測を行う観点では理想的 • 可視光(比較的波長が短い)を用いている • 空間分解能が高い • 回折や反射の影響を比較的受けにくい • 高時間分解能を有する Transient imageで原理的に何ができるか?を知っておくことが,他のモダリティを用いたタスクを 検討する手掛かりになる(例.可視光パルスレーザを用いたNon-Line-of-Sight Imagingの後,音響 信号やミリ波レーダを用いたNon-Line-of-Sight Imaging/Tracking手法が提案された) 61 [O’Toole+ Nature2018] 音響ベースNLOSイメージング [Lindell+ CVPR2019] ミリ波ベースNLOS検出・追跡 [Scheiner+ CVPR2020]

Slide 62

Slide 62 text

波長が長いと空間分解能が下がる 波長内に収まってしまうような微細な動きや,細かな構造を捉えきれない 62 可視光信号波長 :nmオーダー 音響信号波長 :mオーダー 無線信号波長 :mm~cmオーダー

Slide 63

Slide 63 text

波長が長いと反射・回折の影響を受けやすい • 多くの物体表面上で,反射波が鏡面反射的なふるまいをする • 計測対象物の表面や,壁などにより強い反射が起こる • 回折(障害物の裏側に信号が回り込んで伝わっていく現象)が起こりやすい →これらの反射・回折等による信号のパス(経路)を考慮した解析が非常に困難 63 可視光の鏡面反射の例 [wikipedia] 信号波長に対して物体表面 の凹凸が十分小さい時の 鏡面反射のイメージ 信号波長に対して物体表面 の凹凸が大きい時の 拡散反射のイメージ 信号回折のイメージ

Slide 64

Slide 64 text

64 本日主にご紹介する入力情報とその特性 〜信号波長,周波数帯〜 Transient image イベントデータ 可視光 380~780nm ミリ波 1mm~1cm 3~300GHz 音波 可聴域: 17mm~17m, 20~20kHz 超音波:~17mm 20kHz~数kMHz 会話音声中の意味情報を含まない 信号波を前提とします

Slide 65

Slide 65 text

自然界でも音響ベースの計測は行われている 超音波を能動的に発するエコロケーションにより,環境の三次元構造や 物体・他の個体の位置を把握(例.コウモリやイルカ) 65

Slide 66

Slide 66 text

66 アプリケーションの例 ソナー: • 海中に向けてアクティブに超音波を発信し,そ の反射波を計測することで海中の物体を検知 • ソナーを搭載した船を中心として様々な方向に ソナーを向けることで広域を探索 [古野電気株式会社]

Slide 67

Slide 67 text

アクティブ音響センシング(計測音源) 周波数が時間と共に変化する信号を用いることが一般的 • 周波数の時間的変化特性により,いくつかの種類がある • Time Stretched Pulse (TSP), Sine Sweep, Chirp信号など 67 時間と共に周波数が 上昇(下降)する信号を 用いる,という点では共通! TSP信号の例 周波数 [Hz] 時間[s] なぜこのような信号を用いるのか? • 環境状態推定を,屋内インパルス応答を利用した空間の反響 特性の解析に置き換えるため • システムの周波数特性を求めるために,理想的にはイン パルス応答をとり,フーリエ変換したい • しかし,スピーカーの出力が十分でないなどの制約から 実際には困難 • そこで,インパルスを時間的に引き延ばしたような信号 を用いる

Slide 68

Slide 68 text

システムの周波数特性を求める,とは? 68 𝑆(𝑘)をフーリエ変換してスピーカーから発するTSP信号を生成し,そのTSP信号を用いてアクティブ 音響センシングした収音信号を𝑦, そのフーリエ変換を𝑌(𝑘)とすると,求める周波数特性H(𝑘)は, 𝑆 𝑘 = exp −𝑗4𝑚𝜋𝑘2 𝑁2 (0 ≤ 𝑘 ≤ 𝑁 2 ) 𝑆∗ 𝑁 − 𝑘 ( 𝑁 2 < 𝑘 < 𝑁) FFTのサンプリング点数 𝑆の複素共役 Nと4の整数除算 (Nを4で割った結果の整数部分) 周波数領域に おけるTSP信号 Time Stretched Pulse (TSP)信号の場合… 𝑌 𝑘 = 𝐻 𝑘 𝑆 𝑘 ⇔ 𝐻 𝑘 = 𝑌(𝑘)𝑆−1(𝑘) 𝑆−1 𝑘 = exp 𝑗4𝑚𝜋𝑘2 𝑁2 (0 ≤ 𝑘 ≤ 𝑁 2 ) 𝑆−1∗ 𝑁 − 𝑘 ( 𝑁 2 < 𝑘 < 𝑁) TSP信号の逆特性をもつ信号のフーリエ変換と, 出力信号のフーリエ変換との積で求められる! で求められる. ただし,

Slide 69

Slide 69 text

アクティブ音響センシング(音源出力・収音装置) 音源出力・収音装置:つまりスピーカーとマイクのこと • これはピンキリ • (当然ながら)モノラルマイクよりは,マルチチャンネル情報を取得可 能なマイクを用いた方が精度が上がりやすい 69 音響信号を用いた人物三次元姿勢推定[Shibata+ CVPR2023]では以下の市販デバイスを使用 • スピーカー(Sanwa Supply MM-SPU9BK):数千円 • アンビソニックスマイク(Zoom H3-VR):数万円 • B-Format形式で4チャンネルの音(𝑤, 𝑥, 𝑦, 𝑧)を収音 • モノラルマイクと異なり,音の到来方向(三次元の各方向) に関する情報を取得可能を認識可能

Slide 70

Slide 70 text

主要な音響信号表現 • 音波 • Log Mel Spectrum • Intensity Vector 70 以降のスライドで紹介 Time Frequency Channel Time Frequency Time Amplitude

Slide 71

Slide 71 text

Log Mel Spectrum • 音響信号の振幅成分を表現 • フーリエ変換の結果を人間の聴覚に近いメル尺度に直す • 強度の高い周波数に引っ張られることを防ぐため対数変換 71 s :計測する音響信号 F :フーリエ変換 t :時間 f :周波数 k :メルバンク窓のインデックス H :メルバンクフィルター フーリエ変換 メル尺度変換 対数変換 Time Frequency Code Credit: Yuto Shibata https://colab.research.google.com/drive/11ad_FcTqF 1pPN1H2ckkgErseVONbjyry?usp=sharing

Slide 72

Slide 72 text

Intensity Vector • 音響信号の位相情報を表現 →音響信号が被験者の身体で反射する際に位相が変化することを利用 • 1つのチャンネルを基準に位相遅れを計算しているため,チャンネル数は3 72 W,X,Y,Z :計測する音響信号の各成分 R :実部 メル尺度変換 正規化 位相遅れを計算 Time Frequency Channel Code Credit: Yuto Shibata https://colab.research.goog le.com/drive/11ad_FcTqF1 pPN1H2ckkgErseVONbjyry? usp=sharing

Slide 73

Slide 73 text

音響信号を用いた研究動向 • 人の音声[Li+ TVCG2024], や楽器の演奏音[Shlizerman+ CVPR2017],生活音[Gao+ CVPR2020]などの意味的情報 を含む信号を用いるもの • ユーザの身体に侵襲的に計測機器を装着するもの ([Kubo+ MobileHCI2019]など) が大半 非侵襲的計測によりシーン状態計測を行う例は比較的少ない • 環境深度マップ推定[Christensen+ ICRA2020] • 人物三次元姿勢推定[Shibata+ CVPR2023] 73 [Kubo+ MobileHCI2019] 以降のスライドで紹介

Slide 74

Slide 74 text

音響信号のみを入力とした環境の三次元情報復元 BatVision [Christensen+ ICRA2020] 74 • 手法名の通り,コウモリのエコロケーションに着想を得ている • チャープ信号を発し,左右スピーカーで収音するというアクティブ音響センシ ングの枠組みで,環境の深度マップを推定

Slide 75

Slide 75 text

音響信号のみを入力とした人物の三次元姿勢推定 [Shibata et al., CVPR2023,MIRU2022フロンティア賞] • 信号を遮蔽する位置にいるユーザの三次元姿勢を推定するという, いわば「人の姿勢を“聴く”ことができるか?」を調査する試み • 個人情報保護の観点から会話内容や動作音を含まない音波のみを活用 • 暗所や電波の使用が制限される環境下でも推定可能 75 Yuto Shibata

Slide 76

Slide 76 text

76 本日主にご紹介する入力情報とその特性 〜信号波長,周波数帯〜 Transient image イベントデータ 可視光 380~780nm ミリ波 1mm~1cm 3~300GHz 音波 可聴域: 17mm~17m, 20~20kHz 超音波:~17mm 20kHz~数kMHz

Slide 77

Slide 77 text

ミリ波レーダとその特徴 ミリ波(30〜300GHz帯の電波)を用いて対象物との距離・角度・速度を検出可 能なセンサ • 比較的直進性が高い • 環境光の影響を受けづらい(暗所耐性を有する) • スモッグ,木・紙・プラスチック等による遮蔽の影響を受けづらい • 水分(雨や霧)の影響は受けるものの,Lidarと比較すると影響されづらい 77 [Texas Instruments]

Slide 78

Slide 78 text

ミリ波レーダを用いた信号計測とは? 時間の経過に応じて周波数が直線的に上昇するように変調を行った電波(チャープ 信号)をアクティブに送信するFrequency Modulated Continuous Wave (FMCW) 方式を想定して説明 78 アクティブ音響計測のTSP信号と 類似した性質!だけど活用する モチベーションは少し異なる なぜ変調するのか? 送受信信号間の比較を行うことで物体位置や速度の検出を行うため Amplitude Time Time Frequency

Slide 79

Slide 79 text

ミリ波レーダ計測の原理(距離) 79 チャープ間の周波数差分 から,Intermediate Frequency(IF)信号を算出 AD変換 フーリエ変換により 周波数スペクトルを得る Time Frequency Time Frequency Time Amplitude Frequency Amplitude 𝑓 検知された周波数から,物体との距離 𝑑 = 𝑓 2𝑐 が分かる 光速 信号の往復分 送信信号 受信信号

Slide 80

Slide 80 text

ミリ波レーダ計測の原理(速度・角度) 80 送信信号 受信信号 1回目計測 Amplitude Time 送信信号 受信信号 2回目計測 Amplitude IF信号 IF信号 Time IF信号の位相差から,速度が分かる アンテナ間の受信信号の位相差から, 角度が分かる 送信 アンテナ 受信 アンテナ

Slide 81

Slide 81 text

ミリ波レーダで観測される信号とその表現方法 信号処理前のIF信号をAD変換したrawデータや,それを信号処理することで得ら れた三次元位置,距離,速度,角度,ミリ波信号強度を出力するものが多い 81 主な表現方法 • 二次元画像マップ • Range-Doppler Map,Range-Angle Map など,距離/速度/角度とそれに対応した受 信強度を二次元画像で表したもの • 三次元点群 • 反射強度が一定閾値以上の三次元位置を 三次元点群形式にしたもの x z カメラ映像 直交座標系で示した信号強度 角度 距離 速度 距離

Slide 82

Slide 82 text

ミリ波レーダを用いた研究動向 ミリ波の性質(遮蔽耐性,短波長,個人情報保護に配慮可能)を活かしたタスクが 大半 • 霧の中にあるオブジェクトのイメージング([Guan+ CVPR2020]など) • 呼吸や心拍などのバイタルセンシング([Liu+ IEEE Sensors Journal]など) • 人物モニタリング • 人物追跡・個人識別([Zhao+ DCOSS2019]など)や人物姿勢推定([Lee+ WACV2023]など) • ここ3年ほど,人物メッシュ推定に関する研究([Xue+ MobiSys2021], [Amaya&Isogawa ICIP2023], [Xue+ SenSys2022], [Xue+ MobiCom2023]な ど)が急速に発展している印象 82

Slide 83

Slide 83 text

霧越しのイメージング [Guan+ CVPR2020] 83 • 自動運転シナリオを想定した,濃い霧越しでも車体のイメージングを可能にする手法 • ミリ波レーダで計測した情報から生成した低解像度のヒートマップから高解像度な深度マップ を生成するために,Conditional GAN(3Dミリ波ヒートマップをConditionとして与えてい る)を活用

Slide 84

Slide 84 text

単一人物を対象としたメッシュ推定 mmMesh[Xue+ MobiSys2021] ミリ波点群を入力とした人物メッシュ推定 として初の手法.直方体の格子点(アン カーポイント)上に点群を集約することで 効率的に学習 84 [Amaya&Isogawa, ICIP2023] 多様な姿勢やノイズの多い環境下でも精度良 く推定する目的で,人物の可動域を考慮した ノイズ除去や,上下半身に分割した位置エン コーディングを導入 Kotaro Amaya アンカーポイント による点群の集約

Slide 85

Slide 85 text

複数人物を対象とした人物メッシュ推定 [Xue+ SenSys2022] • ミリ波計測情報から二次元信号強度マップを作成して 人物領域を推定し,各被写体の位置に基づいた点群を 人物毎に抽出 • それらの点群に基づき,関節間の関係を学習し, coarse-to-fineな骨格推定から徐々に詳細な骨格を推定 するよう特徴量を学習 • 最後に,その特徴量からメッシュパラメータを推定 85 最終的な点群 検出された 各被写体位置 信号強度マップ

Slide 86

Slide 86 text

点群ベースの手法を他のモダリティに応用した例 86 mmMesh [Xue+ MobiSys2021] ミリ波(x,y,z三次元点群)ベース手法をヒントに, イベント(x,y,t三次元点群)ベース手法を構築

Slide 87

Slide 87 text

これらの計測情報に関する研究には, 実機がないと取り組めないのか? →(あるに越したことはないけれど)No! 既存のデータセットをうまく活用しよう 87

Slide 88

Slide 88 text

イベント:様々なシーンのサンプルデータセット • ファンの回転 • 手指の動作 • スポーツシーン • 屋内モニタリング などの様々なシーンをDAVIS346カメラで 撮影したものが含まれている 機械学習用途としては十分なデータ量がな いものの,イベントカメラで撮影された データを確認したい方におすすめ 88 [DAVIS24 dataset] https://sites.google.com/view/davis24-davis-sample-data/home

Slide 89

Slide 89 text

イベント:人物姿勢・メッシュ推定データセット 89 MMHPSD dataset [Zou+ ICCV2021] • 人物メッシュ推定手法であるEventHPEのデータ セット • 各15名の被験者の12シーケンスのデータを計測 • 約4時間分(輝度画像で15fps, 240Kフレーム)の データ 比較的被験者数の多いもの(10名以上)は以下の2つ DHP19 dataset [Calabrese+ CVPRW2019] • 人物三次元姿勢推定手法のデータセット • 各17名の被験者の33動作を4台のイベントカメラ (DAVIS240)で計測 • Viconモーションキャプチャカメラと同期させ13点 の三次元間接位置も取得

Slide 90

Slide 90 text

イベント:屋内外シーンデータセット MVSEC dataset [Zhu+ RA-L, 2018] • 暗所環境を含む屋内外シーンで,撮影されたデータセット.手持ち計測だけでなく,車・バイ ク・ヘキサコプターに載せた状態でも計測されている • 2台のイベントカメラ,Lidar, IMUセンサ,GPS, Motion Captureシステム(センサの位置・ 姿勢推定用)と同時に撮影されており,ほとんどのシーケンスにおいて,カメラ姿勢,深度 マップの真値がついている 90

Slide 91

Slide 91 text

Transient Image:NLOSシーンデータセット いずれもNLOS imagingタスクのためのもの.機械学習用途に使用するには量が 不足しているものの,同タスクの評価によく用いられるデータセット 91 ZNLOS dataset [Galindo+ ICCP2019] • 既存のtransient rendering手法[Jarabo+ TOG, 2014]を NLOSシーンのレンダリングに拡張して構築した合成 データセット • スキャン点や壁面のスキャン方式,オブジェクトと壁と の距離やサイズなどに,いくつかのバリエーションが用 意されている [Lindell+ TOG2019] • 共焦点ラスタスキャンに基づくtransient imageの高速 なNLOSイメージング手法に関する論文と同時に公開さ れたもの • 屋外シーンや人物動作シーンのデータを含む,9シーン の実測データが公開されている

Slide 92

Slide 92 text

音響:室内インパルス応答のデータセット Hearing Anything Anywhere [Wang+ CVPR2024] • 4種類の室内環境(教室,音が減衰しやすい室内,廊下,多くの物体表面が存 在する複雑な室内)において,12個のモノラルマイクで収音した室内インパル ス応答 (RIR)データセット • スピーカーの位置や向き,室内のオブジェクトの有無や位置を変更したデータ も収音されている 92

Slide 93

Slide 93 text

音響:人物三次元姿勢データセット [Shibata+ CVPR2023] • 人物三次元姿勢推定のためのデータセット • Motion captureデータと同期させた音響信号データを公開 93 https://isogawa.ics.keio. ac.jp/research_project/a coustic_3dpose.html

Slide 94

Slide 94 text

ミリ波:人物三次元姿勢・形状推定データセット mmBody [Chen+ ACMMM2022] 94 • ミリ波レーダで計測されている人物姿勢・形状推 定データセットは他にも存在([An+ NeurIPS2022], [Xue+ MobiCom2023]など) • 被験者数(20名),フレーム数(約200,000), 同時計測モダリティ(RGB,depth),シーン数 (暗所,霧,雨)の観点で,現時点で最も多様な データセット

Slide 95

Slide 95 text

これらのモダリティを活用したビジョン応用タスクは比較的 最近から取り組まれており,データが不足している… 95 • データ量不足を解決したい場合 • 既存のデータセットがない場合 に,既存のRGB動画像ベースのデータセットを活 用した合成データが生成できないか?

Slide 96

Slide 96 text

96 Transient: 深度画像のみからTransient Imageを生成 [Isogawa et al., CVPR2020] ノイズ・ブラーが多く,低時空間解像度な計測からの推定は非常に難しいタスク ↓ 強化学習に必要な大量のデータ(疑似データ)を実計測なしで深度画像のみから合成 MoCapと同期させ たdepth画像 Pseudo-transient image ノイズ・ブラーの付与 • 時間軸方向のブラー • Poissonノイズ 低フレームレートの再現 • 時間軸リサンプリング Data augmentation • 時間軸方向シフト(複数種類) 合成 https://github.com/marikoiso gawa/OpticalNLOSPose

Slide 97

Slide 97 text

Transient Imageの合成手法・データセット [Mitsuba 2] 97 [Royo+ Computers&Graphics, 2022] • オープンソースの物理ベースレンダラーMitsuba2を利用したtransient imageの シミュレーション手法 • 並列化,偏光,微分可能レンダリングをサポート 各時刻におけるtransient image

Slide 98

Slide 98 text

イベントデータのシミュレータ 98 DVS-Voltmeter [Lin+ ECCV2022] v2e [Hu+ CVPRW2021] ESIM [Rebecq+ CoRL2018] V2CE [Zhang+ ICRA2024] • 輝度画像動画を入力としてフレーム間の輝度差分に基づきイベントデータを出力 • 入力動画のフレームレートを超えるシミュレーションはできないため,イベントカメラ特有の 高時間分解能なデータを再現することは困難 入力動画 真値イベント v2eイベント v2e 真値 DVS- Voltmeter Vid2E 入力動画フレーム ESIMイベント

Slide 99

Slide 99 text

所望のデータを作るには:仮想環境の活用 • UnityやUnreal Engineなどの仮想環境構築プラットフォームを活用 • 所望の動作を行う人物モデルをインポート/所望のシーンを構築し,仮想カメラ を設定してシーンの輝度画像を撮影.それを各モダリティのシミュレータに活用 • 人物のモーションデータはCMU Motion Capture Database等を活用 • しかし,人間のとりうる非常に多様な動作全てを既存のMoCapデータでカ バーできるとは限らない 99 [Hori+ IEEE Access, 2022] Ryosuke Hori

Slide 100

Slide 100 text

所望のデータを作るには:人物モーション生成 [Dabral+ CVPR2023] テキストや音響信号によって条件付けされた人物の動作を,拡散モデルを用いた フレームワークにより自動生成 100

Slide 101

Slide 101 text

音響信号のシミュレータ SoundSpaces [Chen+ NeurIPS2022, ECCV2020] • Audio-visualナビゲーション等のタスクに活用するための,幾何 学的音響シミュレーションに基づくリアルタイムな音響信号シ ミュレーションプラットフォーム • Matterport3Dシーンや任意音源を適用可能 101 Hearing Anything Anywhere [Wang+ CVPR2024] • シーンの音響特性(音源の指向性や物体表面の反射率)をパラメータ で表現し,これらを推定する微分可能な音響信号レンダリング手法 • 4つのシーンで,12個のマイクを用いて室内インパルス応答を収音 したデータで学習 現時点(2024年8月現在)では静的シーンでのシミュレーションのみに対応 (シーン内で人物が動作する,などの動的シーンのシミュレーションには適用できない)

Slide 102

Slide 102 text

ミリ波データのシミュレータ RF Genesis [Chen+ SenSys2023] 102 • レイトレーシングによって合成した中間表現(深度マップに近い二次元画像表現)からミリ波信号 を生成 • 4つの環境(と言いつつも,いずれも反射の影響の少ない開けた環境であるという点では類似)で実 測されたデータをもとに学習している

Slide 103

Slide 103 text

様々なモダリティを扱った研究をする上での 苦労やその解決方法のTips集 103

Slide 104

Slide 104 text

データ量が少ないことに起因して汎用性が限定される • 一般的な動画像ベース手法と比較すると研究例が多くないため,データセットが限られる • 「このモダリティでこんなタスクが解けることを示す」という新規タスクへの挑戦系のテーマ となることが多いため,自分達でデータを収集する必要がある →データ量が限定されてしまい,汎用性が限定されてしまう… 104 依存度の高い要素の識別に失敗しつつも所望のタスクをうまく解ける特徴量を 抽出する目的で,追加の識別器を導入 [Xie+ ICASSP2021]を参考に 複数の研究に導入しており, 経験的にはかなり上手くいきます 被験者や環境温度の影響を軽減する ために,敢えてそれらの識別に 失敗する特徴量を学習 [新井ら,MIRU2024] 被験者や環境内位置の影響を 軽減するために,それらの 識別に失敗する特徴量を学習 [Shibata+ CVPR2020, Oumi+ BMVC2024]

Slide 105

Slide 105 text

“絶対に解けるはずのタスク・設定”から始める 新規タスクへの挑戦系のテーマに取り組む際, • そのタスクに,そのセンサやモダリティで取り組むこと自体が難しいのか • データ量が不足しているのか • センサや環境の設定方法が悪いのか のなどの推定精度が悪化する原因の切り分けが難しいことがよくあります 最初から目標シーンで解きたいタスクのデータを収集するのではなくて,必ずう まくいくであろうシーンから徐々に難易度を上げていくのがおすすめ 例.一般的な部屋で音響ベース人物三次元姿勢推定タスクの前に,無響室(反響音が軽減され る)で,数クラスのaction recognitionができるかどうかを試す 105

Slide 106

Slide 106 text

時間同期をどう取るか? 深層機械学習ベース手法の構築のために大量の教師データ取得は避けて通れない • 実機実験によるデータ取得が前提 • ラクに早く真値ラベル付与やデータ整理を行うことが進捗速度に影響する • そもそも画像と異なり,目視でラベルが付けづらい → 信号同士の時間同期をとる必要がある アナログ入出力ユニットを活用し時間同期 • 計測開始信号をPCから送信し,ユニットからアナログ信号を出力 • そのアナログ信号を各計測機器に入力,または可視信号(LED点灯など)を出力 • ただし,クロックレベルの同期は取れない 106 Digital Analog [contec]

Slide 107

Slide 107 text

計測機器同士の信号干渉問題 計測機器の組み合わせによっては,信号波長帯の重複により干渉することも… 例.Motion captureカメラとイベントカメラ • Motion captureカメラが発する850nm波長のIR光源からの光をイベントカメラ がイベントとして拾ってしまう… • イベントカメラ側にIRカットフィルタを装着して解決 107 [iniVation] [OptiTrack]

Slide 108

Slide 108 text

様々なセンサやモダリティを用いた シーン状態推定の課題と今後の展望 一般的なカメラではできないことができる!その一方で課題もまだ多くある • (主に深層機械学習ベースの手法構築を想定した)データ量の不足 • 密にセンサが配置できない,波長が長いなどの物理的制約による取得情報のスパースさ • 適用可能なシーンの汎用性の低さ(反射・反響のないシーンでしかうまく動作しない,学習済み の環境でしかうまく動作しない,など) 「このモダリティでこんなことができた!」の一歩先へ進む必要がある 実用上の様々な課題(適用シーン拡大,センサ設置条件の緩和,など…)に,デー タの整備やデータ解析手法など多くの側面からアプローチしていくことで,さらに 面白い領域になるのでは 108

Slide 109

Slide 109 text

MIRU2024での関連発表 109 ぜひご議論を よろしくお願いします! イベントデータ Transient Image IS2-004 Yang Dixin IS1-122 Yuto Shibata IS3-111 Tatsuki Arai IS2-116 Yusuke Oumi OS-1E-03 Kenta Horikawa IS1-163 Wataru Ikeda DS-10 Ryosei Hara 音響信号 超低解像度熱画像

Slide 110

Slide 110 text

まとめ • 一般的なカメラ動画像で解決が難しい課題(暗所・遮蔽シーンでの計測,個人 情報保護,省メモリ・省電力な計測)でも,他のセンサやモダリティを用いる ことで解決可能なケースがある! • イベント,Transient image,音波,ミリ波を対象に,計測の仕組み,表 現方法,タスク,データセット等を紹介 • 様々なセンサやモダリティを活用してコンピュータビジョン・パターン認識の 課題を解決する研究に少しでもご興味を持っていただけますと幸いです • 様々なモダリティを用いた計測にご興味のある方,スパースなデータの実アプ リケーション応用にご興味がある方,ぜひ共同研究させてください! 110 本発表中の成果の一部は,JSTさきがけ,慶應義塾大学学事振興基金,KLLの補助を受けたものです 学生の皆様,共同研究者の皆様に感謝いたします

Slide 111

Slide 111 text

参考文献 Webサイトへの最終アクセス日:2024/08/03 • Ye Yuan et al., "GLAMR: Global Occlusion-Aware Human Mesh Recovery with Dynamic Cameras", IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pp. 11028-11039, 2022. • Shubham Goel et al., "Humans in 4D: Reconstructing and Tracking Humans with Transformers", IEEE/CVF International Conference on Computer Vision (ICCV), pp. 14783-14794, 2023. • Bernhard Kerbl et al., "3D Gaussian Splatting for Real-Time Radiance Field Rendering", ACM Trans. Graph (TOG), vol.42, no.4, 2023. • Davide Scaramuzza, "Tutorial on Event-based Cameras", CVPR2020 Tutorial. • Yu Cheng et al., "Occlusion-Aware Networks for 3D Human Pose Estimation in Video", IEEE/CVF International Conference on Computer Vision (ICCV), pp. 723-732, 2019. • Lan Xu et al., "EventCap: Monocular 3D Capture of High-Speed Human Motions • using an Event Camera", IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pp. 4968-4978, 2020. • Prophesee, https://www.prophesee.ai/ • David B. Lindell et al., "Wave-based non-line-of-sight Imaging using fast f−k migration", ACM Trans. Graph (TOG), vol.38, no.4, 2019. • Elias Mueggler et al., "Event-based, 6-DOF pose tracking for high-speed maneuvers," IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS), pp. 2761-2768, 2014. • Javier Hidalgo-Carrio et al., "Learning Monocular Dense Depth from Events", International Conference on 3D Vision (3DV), pp.534-542, 2020. 111

Slide 112

Slide 112 text

参考文献 • William Chamorro et al.,"Event-based SLAM in real-time", IEEE Robotics and Automation Letters (RA-L), vol.7, no.3, pp.8146-8153, 2022. • Shihao Zou et al., "EventHPE: Event-based 3D Human Pose and Shape Estimation", IEEE/CVF International Conference on Computer Vision (ICCV), pp.10996-11005, 2021. • Anastasios N. Angelopoulos et al., "Event-Based Near-Eye Gaze Tracking Beyond 10,000 Hz", IEEE Transactions on Visualization and Computer Graphics (TVCG), vol.27, no.5, pp.2577-2586, 2021. • Timo Stoffregen et al., "Event-Based Motion Segmentation by Motion Compensation", IEEE/CVF International Conference on Computer Vision (ICCV), pp.7244-7253, 2019. • Shihao Zou et al., "Event-based Human Pose Tracking by Spiking Spatiotemporal Transformer", arXiv preprint arXiv:2303.09681, 2023. • Takatani Tsuyoshi et al., "Event-based Bispectral Photometry using Temporally Modulated Illumination", IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pp.15638-15647, 2021. • Manasi Muglikar et al., "Event-based Shape from Polarization", IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pp.1547-1556, 2023. • Yu Sun et al., "Human Mesh Recovery from Monocular Images via a Skeleton-disentangled Representation", IEEE/CVF International Conference on Computer Vision (ICCV), pp.5349-5358, 2019. • Matthew Loper et al., "SMPL: a skinned multi-person linear model", ACM Trans. Graph (TOG), vol.34, no.6, 2015. • Georgios Pavlakos et al., "Expressive Body Capture: 3D Hands, Face, and Body from a Single Image", IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pp.10975-10985, 2019. 112

Slide 113

Slide 113 text

参考文献 • Yating Tian et al., "Recovering 3D Human Mesh from Monocular Images: A Survey", IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), vol.45, no.12, pp.15406-15425, 2023. • 堀 涼介ら,"イベントカメラを用いた三次元人物姿勢および形状推定", 第231回 情報処理学会 コンピュータビジョンとイメージメディア研 究会, 2022年11月. • 浜松ホトニクス,https://www.hamamatsu.com/jp/ja/product/photometry-systems/streak-camera.html • TOPPAN株式会社エレクトロニクス,https://www.toppan.com/ja/electronics/device/tof/ • OUSTER, https://ouster.com/ • Matthew O’Toole et al., "Reconstructing Transient Images from Single-Photon Sensors", IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pp.1539-1547, 2017. • キヤノン株式会社, https://global.canon/ja/news/2023/20230403.html • Clara Callenberg et al., "Low-cost SPAD sensing for non-line-of-sight tracking, material classification and depth imaging", ACM Trans. Graph (TOG), vol.40, no.4, 2021. • Qilin Sun et al., "Depth and Transient Imaging With Compressive SPAD Array Cameras", IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pp.273-282, 2018. • Matthew O’Toole et al., "Confocal Non-Line-of-Sight Imaging Based on the Light-Cone Transform", Nature, pp.338–341, 2018. • Mariko Isogawa et al., "Optical Non-Line-of-Sight Physics-Based 3D Human Pose Estimation", IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pp.7013-7022, 2020. • Mariko Isogawa et al., "Efficient Non-Line-of-Sight Imaging from Transient Sinograms", European Conference on Computer Vision (ECCV), pp. 193-208, 2020. 113

Slide 114

Slide 114 text

参考文献 • Yue Li et al., "NLOST: Non-Line-of-Sight Imaging with Transformer", IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pp.13313-13322, 2023. • David B. Lindell et al., "Acoustic Non-Line-of-Sight Imaging", IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pp.6780-6789, 2019. • Nicolas Scheiner et al., "Seeing Around Street Corners: Non-Line-of-Sight Detection and Tracking In-the-Wild Using Doppler Radar", IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pp.2068-2077, 2020. • 古野電気株式会社, https://www.furuno.com/jp/technology/sonar/basic/ • Jing Li et al., "Audio2Gestures: Generating Diverse Gestures From Audio", IEEE Transactions on Visualization and Computer Graphics (TVCG), vol.30, no.8, pp.4752-4766, 2024. • Eli Shlizerman et al., "Audio to body dynamics", IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pp.7574– 7583, 2017. • Ruohan Gao et al., "Listen to look: Action recognition by previewing audio", IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pp.10457–10467, 2020. • Yuki Kubo et al., "AudioTouch: Minimally invasive sensing of micro-gestures via active bio-acoustic sensing", International Conference on Human-Computer Interaction with Mobile Devices and Services (MobileHCI), no.36, pp.1-13, 2019. • Jesper Haahr Christensen et al., "BatVision: Learning to See 3D Spatial Layout with Two Ears", IEEE International Conference on Robotics and Automation (ICRA), pp.1581-1587, 2020. • Yuto Shibata et al., "Listening Human Behavior: 3D Human Pose Estimation with Acoustic Signals", IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pp.13323-13332, 2023. 114

Slide 115

Slide 115 text

参考文献 • Texas Instruments, https://www.ti.com/ja-jp/homepage.html • Junfeng Guan et al., "Through Fog High Resolution Imaging Using Millimeter Wave Radar", IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pp.11464-11473, 2020. • Luyao Liu et al., "mmRH: Noncontact Vital Sign Detection With an FMCW mm-Wave Radar", IEEE Sensors Journal, vol.23, no.8, pp.8856-8866, 2023. • Peijun Zhao et al., "mID: Tracking and Identifying People with Millimeter Wave Radar", International Conference on Distributed Computing in Sensor Systems (DCOSS), pp.33-40, 2019. • Shih-Po Lee et al., "HuPR: A Benchmark for Human Pose Estimation Using Millimeter Wave Radar", IEEE/CVF Winter Conference on Applications of Computer Vision (WACV), pp.5715-5724, 2023. • Hongfei Xue et al., "mmMesh: towards 3D real-time dynamic human mesh construction using millimeter-wave", International Conference on Mobile Systems, Applications, and Services (MobiSys), pp.269–282, 2021. • Kotaro Amaya, Mariko Isogawa. "Adaptive and Robust mmWave-based 3D Human Mesh Estimation for Diverse Poses", IEEE International Conference on Image Processing (ICIP), pp.455-459, 2023. • Hongfei Xue et al., "M4esh: mmWave-Based 3D Human Mesh Construction for Multiple Subjects", ACM Conference on Embedded Networked Sensor Systems (SenSys), pp.391–406, 2023. • Hongfei Xue et al., "Towards Generalized mmWave-based Human Pose Estimation through Signal Augmentation", International Conference on Mobile Computing and Networking (MobiCom), no.88, pp.1–15, 2023. • Tobi Delbruck, "DAVIS24: DAVIS Event Camera Sample Data” • Enrico Calabrese et al., "DHP19: Dynamic Vision Sensor 3D Human Pose Dataset", IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops (CVPRW), 2019. 115

Slide 116

Slide 116 text

参考文献 • Alex Zihao Zhu et al., "The Multi Vehicle Stereo Event Camera Dataset: An Event Camera Dataset for 3D Perception", IEEE Robotics and Automation Letters (RA-L), vol.3, issue 3, pp.2032-2039, 2018. • David B. Lindell et al., "Wave-based non-line-of-sight Imaging using fast f−k migration", ACM Trans. Graph (TOG), vol.38, no.4, 2019. • Miguel Galindo et al., "A dataset for benchmarking time-resolved non-line-of-sight imaging", IEEE International Conference on Computational Photography (ICCP), no.73, pp.1-2, 2019. • Adrian Jarabo et al., "A Framework for Transient Rendering", ACM Transactions on Graphics (TOG), vol.33, no.6, 2014. • Mason Long Wang et al., "Hearing Anything Anywhere", IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pp.11790-11799, 2024. • Anjun Chen et al., "mmBody Benchmark: 3D Body Reconstruction Dataset and Analysis for Millimeter Wave Radar", ACM International Conference on Multimedia (ACMMM), pp.3501–3510, 2022. • Sizhe An et al., "mRI: Multi-modal 3D Human Pose Estimation Dataset using mmWave, RGB-D, and Inertial Sensors", Neural Information Processing Systems (NeurIPS), vol.35, pp.27414-27426, 2022. • Diego Royo et al., "Non-Line-of-Sight Transient Rendering", ACM SIGGRAPH (SIGGRAPH) Posters, no.39, pp.1–2, 2022. • Henri Rebecq et al., "ESIM: an Open Event Camera Simulator", Conf. on Robotics Learning (CoRL), pp.969-982, 2018. • Yuhuang Hu et al., "v2e: From video frames to realistic DVS event camera streams", IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops (CVPRW), 2021. • Songnan Lin et al., "DVS-Voltmeter: Stochastic Process-based Event Simulator for Dynamic Vision Sensors", European Conference on Computer Vision (ECCV), pp.578–593, 2022. 116

Slide 117

Slide 117 text

参考文献 • Zhongyang Zhang et al., "V2CE: Video to Continuous Events Simulator", IEEE International Conference on Robotics and Automation (ICRA), to appear, 2024. • Ryosuke Hori et al., "Silhouette-based 3D Human Pose Estimation Using a Single Wrist-mounted 360° Camera", IEEE Access, vol.10, pp.54957-54968, 2022. • Rishabh Dabral et al., "Mofusion: A Framework for Denoising-Diffusion-Based Motion Synthesis", IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pp.9760-9770, 2023. • Changan Chen et al., "SoundSpaces: Audio-Visual Navigation in 3D Environments", European Conference on Computer Vision (ECCV), pp.17–36, 2020. • Changan Chen et al., "SoundSpaces 2.0: A Simulation Platform for Visual-Acoustic Learning", International Conference on Neural Information Processing Systems (NeurIPS), no.647, pp.8896-8911, 2022. • Xingyu Chen and Xinyu Zhang, "RF Genesis: Zero-Shot Generalization of mmWave Sensing through Simulation-Based Data Synthesis and Generative Diffusion Models", ACM Conference on Embedded Networked Sensor Systems (SenSys), pp.28-42, 2023. • Fanglu Xie et al., "Disentangling Subject-Dependent/-Independent Representations for 2D Motion Retargeting", IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), pp.4200-4204, 2021. • CONTEC, https://www.contec.com/jp • iniVation, https://inivation.com/ • OptiTrack, https://www.optitrack.jp/ 117