大学見本市2025 JSTさきがけ事業セミナー「顔の見えないセンシング技術：多様なセンサにもとづく個人情報に配慮した人物状態推定」

顔の見えないセンシング技術：多様なセンサにもとづく個人情報に配慮した人物状態推定大学見本市2025 JSTさきがけ事業セミナー信頼されるAIへの挑戦〜人工知能と次世代情報技術の最前線〜五十川麻理子慶應義塾大学理工学部
情報工学科准教授 2025.8.22

自己紹介 2 五十川麻理子（いそがわまりこ），博士（工学）慶應義塾大学理工学部情報工学科，准教授 2013年大阪大学
基礎工学研究科博士前期課程修了 2013年〜2022年 NTT研究所 • 2016年〜2019年大阪大学基礎工学研究科博士後期課程（2019年3月学位取得） • 2019年〜2020年カーネギーメロン大学訪問研究員 2022年〜2023年慶應義塾大学専任講師 2023年〜慶應義塾大学准教授経歴研究分野コンピュータビジョン(CV)およびCV技術に活用するためのセンシング，機械学習

3 被遮蔽領域にいる人物の三次元姿勢推定(CVPR2020) 背景情報がない条件下での被遮蔽領域合成 (IJCV 2019) 音響信号を用いた三次元人物姿勢推定(CVPR2023)
被遮蔽領域のシーン再構成 (ECCV2020) Input : point cloud Proposed Model Output : 3D human mesh ミリ波を用いた人物形状推定 (ICIP2023) イベントカメラを用いた人物形状推定(TVCG 2024) 複数台カメラで撮った手術映像から，遮蔽がない単視点映像を合成(MICCAI2023, 2025) 扱っている研究テーマの例キーコンセプト: 疎な計測情報や遮蔽を含む計測情報のみからシーン情報を推定・復元する

「人を計測し，その状態を知る」ための信頼されるAIを構築するために，顔の見えないセンシングができるか？ 4

本日お話ししたいこと • 一般的なカメラを用いたセンシングの課題 • それを解決するための，「顔の見えない」センシング技術の紹介 • 多様なセンサ情報（イベントベースドカメラ，無線信号，音響信号）に基づく人物状態推定 • 多様なセンサ情報に基づく人物状態推定技術の最新手法の紹介
• 今後の課題や発展可能性 5

人物計測・状態推定とそのアプリケーション人物状態推定とは： • 人物の姿勢・形状推定 • 手指の姿勢・形状推定 • 感情推定 • 視線方向推定
• etc.. 想定されるアプリケーション：人物モニタリング，AR/VR，スポーツ動作解析，etc.. 7 Google Developers, CC BY 4.0. 本日はここにフォーカス

効果的な手法が多く開発される一方で，一般的なカメラを使うと様々な課題も… 8

一般的なカメラに基づく人物状態推定の課題 (1) 顔や衣服などの個人の特定に紐づきやすい情報が写り込んでしまうことによる，個人情報・プライバシー侵害のリスクが生じる 9 Photo Credit: Adobe Stock #306799720

• 悪照明環境（例．夜道などの暗所） • 遮蔽のある環境（例．テーブルで推定対象物が隠れるなど）において推定精度が低下してしまう・または推定できない 10 暗所環境でモーションブラーが生じる映っていないと推定できない
このウラに人一般的なカメラに基づく人物状態推定の課題 (2)

一般的なカメラを活用する際の課題を解決するには？ 12 他のセンサやモダリティを活用すれば良いのでは？

一般的なカメラを活用する際の課題を解決するには？ 13 他のセンサやモダリティを活用すれば良いのでは？例．イベントベースドカメラで計測されたデータ • 輝度に変化が生じた画素でのみ非同期的に輝度の増減を示す極性情報を記録 • 空間情報（x, y）と変化が生じた時刻t, 極性情報pを持つ点群情報
• 暗所耐性を有する，高速に計測可能，省電力 RGBカメラ以外の可視光センサで計測した情報誰が写っているのかは，一般人が目視で確認するだけでは分かりづらい → （一般的なカメラと比較すると）個人識別性が低い

RGB入力を活用する際の課題を解決するには？ 14 EM spectrum by Philip Ronan, Wikimedia Commons, CC
BY-SA 3.0. 無線信号・音響信号に共通: • 暗所耐性を有する • （会話音声などを除いて）個人識別可能な情報を含みづらい • データ量が少ないため省メモリ他のセンサやモダリティを活用すれば良いのでは？可視光以外のモダリティ音響信号： • 信号波長が長いため，多くの物体を透過・回折する →遮蔽耐性を獲得可能 • 無線信号が活用できないシーン（航空機内や精密機器の存在する病室など）でも活用可能無線信号：信号波長が比較的長いため，木や紙などの遮蔽物を透過する →遮蔽耐性を獲得可能

イベントカメラで撮れるものシーン中に動きがなければ，背景ノイズだけが出力されるカメラ動画（グレースケール）イベントカメラ動画 (緑：輝度上昇，赤：輝度減少) 16

17 イベントカメラで撮れるものシーン中に動きが生じると，イベントが発生するカメラ動画（グレースケール）イベントカメラ動画 (緑：輝度上昇，赤：輝度減少)

18 イベントカメラで撮れるものカメラ動作によってもイベントが発生するカメラ動画（グレースケール）イベントカメラ動画 (緑：輝度上昇，赤：輝度減少)

19 イベントデータを入力とした人物形状推定 [堀ら，TVCG2024, CVIM奨励賞，CG研究会優秀研究発表賞・学生発表賞，MIRU学生奨励賞] イベントデータのみを用いて，人物のメッシュ（姿勢・形状）を推定する手法

20 イベントデータを入力とした人物形状推定 [堀ら，TVCG2024, CVIM奨励賞，CG研究会優秀研究発表賞・学生発表賞，MIRU学生奨励賞] 輝度画像（参照用．提案手法では不使用）イベントデータ推定結果イベントデータのみを用いて，人物のメッシュ（姿勢・形状）を推定する手法

21 輝度画像（参考）真値推定結果イベントデータを入力とした人物形状推定 [堀ら，TVCG2024, CVIM奨励賞，CG研究会優秀研究発表賞・学生発表賞，MIRU学生奨励賞]
イベント点群から高次元特徴を抽出二次元関節位置の推定＆大域特徴の抽出 Anchor Pointsを元にした時空間グルーピングによる局所特徴の抽出姿勢・形状モデルの推定 (1)二次元関節位置推定結果をpriorとするcoarse-to-fineなメッシュ推定，(2)イベントデータを点群として捉えた時空間グルーピングによる時系列情報を保持した局所特徴抽出，によりイベントのみを入力とした高精度な推定を実現

22 輝度画像（参考）真値推定結果イベントデータを入力とした人物形状推定 [堀ら，TVCG2024, CVIM奨励賞，CG研究会優秀研究発表賞・学生発表賞，MIRU学生奨励賞]
イベント点群から高次元特徴を抽出二次元関節位置の推定＆大域特徴の抽出 Anchor Pointsを元にした時空間グルーピングによる局所特徴の抽出 (1)二次元関節位置推定結果をpriorとするcoarse-to-fineなメッシュ推定，(2)イベントデータを点群として捉えた時空間グルーピングによる時系列情報を保持した局所特徴抽出，によりイベントのみを入力とした高精度な推定を実現二次元関節位置のみ最初に学習してからフレームワーク全体を学習（簡単なものから学習した方が，最終的な結果が良くなりやすい？）姿勢・形状モデルの推定

一人称視点のイベントカメラを用いた人物手指姿勢推定形状推定[Hara+ IEEE ICIP2025, MIRU口頭発表] 23 従来手法イベントカメラでは輝度の変化を全て捉えてしまうため，手指以外の背景の動的な変化がノイズとなり，推定精度が低下する．手指領域を抽出するモジュールによって動的背景下での手指形状推定精度の向上に貢献
提案手法正解イベント

一人称視点のイベントカメラを用いた人物三次元姿勢推定 [Ikeda+ IEEE ICIP2025, MIRU口頭発表] 同様に，シーン中の背景イベントを除去し，従来手法と比較して頑健に人物姿勢を推定 24 提案手法正解
従来手法 (EgoEgo) イベント動的背景除去後のイベント

ミリ波レーダとその特徴ミリ波（30〜300GHz帯の電波）を用いて対象物との距離・角度・速度を検出可能なセンサ • 比較的直進性が高い • 環境光の影響を受けづらい（暗所耐性を有する） • スモッグ，木・紙・プラスチック等による遮蔽の影響を受けづらい •
水分（雨や霧）の影響は受けるものの，Lidarと比較すると影響されづらい 25

ミリ波レーダを用いた信号計測とは？時間の経過に応じて周波数が直線的に上昇するように変調を行った電波（チャープ信号）をアクティブに送信するFrequency Modulated Continuous Wave (FMCW)方式を用いることが多い 26 なぜ変調するのか？送受信信号間の比較を行うことで物体位置や速度の検出を行うため
Amplitude Time Time Frequency

ミリ波レーダで観測される信号とその表現方法信号処理前の信号をAD変換したrawデータや，それを信号処理することで得られた三次元位置，距離，速度，角度，ミリ波信号強度を出力するものが多い 27 主な表現方法 • 二次元画像マップ • Range-Doppler Map，Range-Angle
Map など，距離/速度/角度とそれに対応した受信強度を二次元画像で表したもの • 三次元点群 • 反射強度が一定閾値以上の三次元位置を三次元点群形式にしたもの x z カメラ映像直交座標系で示した信号強度角度距離速度距離

ミリ波信号のみから人物の形状を推定 [Amaya and Isogawa, ICIP2023] 28 Color coding represents velocity
Red : Denoised point cloud outside the sphere Green : point clouds inside the sphere fast slow ours ( ) 多様な姿勢やノイズの多い環境下でも精度良く推定する目的で，人物の可動域を考慮したノイズ除去や，上下半身に分割した位置エンコーディングを導入提案手法正解従来手法ミリ波点群

自然界でも音響ベースの計測は行われている超音波を能動的に発するエコロケーションにより，環境の三次元構造や物体・他の個体の位置を把握（例．コウモリやイルカ） 29

アクティブ音響センシング（計測音源）周波数が時間と共に変化する信号を用いることが一般的 • 周波数の時間的変化特性により，いくつかの種類がある • Time Stretched Pulse (TSP), Sine
Sweep, Chirp信号など 30 時間と共に周波数が上昇（下降）する信号を用いる，という点では共通！ TSP信号の例周波数 [Hz] 時間[s] なぜこのような信号を用いるのか？ • 環境状態推定を，屋内インパルス応答を利用した空間の反響特性の解析に置き換えるため • システムの周波数特性を求めるために，理想的にはインパルス応答をとり，フーリエ変換したい • しかし，スピーカーの出力が十分でないなどの制約から実際には困難 • そこで，インパルスを時間的に引き延ばしたような信号を用いる

主要な音響信号表現 • 音波 • Log Mel Spectrum • Intensity Vector
31 以降のスライドで紹介 Time Frequency Channel Time Frequency Time Amplitude

Log Mel Spectrum • 音響信号の振幅成分を表現 • フーリエ変換の結果を人間の聴覚に近いメル尺度に直す • 強度の高い周波数に引っ張られることを防ぐため対数変換 32
s :計測する音響信号 F :フーリエ変換 t :時間 f :周波数 k :メルバンク窓のインデックス H :メルバンクフィルターフーリエ変換メル尺度変換対数変換 Time Frequency

Intensity Vector • 音響信号の位相情報を表現 →音響信号が被験者の身体で反射する際に位相が変化することを利用 • 1つのチャンネルを基準に位相遅れを計算しているため，チャンネル数は3 33 W,X,Y,Z :計測する音響信号の各成分
R :実部メル尺度変換正規化位相遅れを計算 Time Frequency Channel

音響信号のみを入力とした人物の三次元姿勢推定 [Shibata et al., CVPR2023，MIRU2022フロンティア賞, Oumi et al., BMVC2024等] •
信号を遮蔽する位置にいるユーザの三次元姿勢を推定するという，いわば「人の姿勢を“聴く”ことができるか？」を調査する試み • 個人情報保護の観点から会話内容や動作音を含まない音波のみを活用 • 暗所や電波の使用が制限される環境下でも推定可能 34

波長が長いと空間分解能が下がる波長内に収まってしまうような微細な動きや，細かな構造を捉えきれない 36 可視光信号波長：nmオーダー音響信号波長：mオーダー無線信号波長：mm~cmオーダー

波長が長いと反射・回折の影響を受けやすい • 多くの物体表面上で，反射波が鏡面反射的なふるまいをする • 計測対象物の表面や，壁などにより強い反射が起こる • 回折（障害物の裏側に信号が回り込んで伝わっていく現象）が起こりやすい →これらの反射・回折等による信号のパス（経路）を考慮した解析が非常に困難 37 可視光の鏡面反射の例
信号波長に対して物体表面の凹凸が十分小さい時の鏡面反射のイメージ信号波長に対して物体表面の凹凸が大きい時の拡散反射のイメージ信号回折のイメージ by Scl Chua, Wikimedia Commons

データセットが小規模 • 一般的なカメラ動画像以外のセンサを活用したビジョン応用タスクは比較的最近から取り組まれており，データが不足している • データ不足が手法の汎用性の低さを招きやすい • 予め計測に使われた部屋でしかうまく動かない，データセットに含まれる姿勢しか良好に推定できないがそのバリエーションが少ない，etc.. •
我々が公開しているものも含め複数存在するが，より大規模化する必要あり 38 音響ベース人物姿勢推定データセット [Shibata+ CVPR2023] イベントベース人物姿勢・形状推定データセット [Hori+ TVCG2024]

まとめ • 一般的なカメラ動画像で解決が難しい課題（個人情報保護，暗所・遮蔽シーンでの計測，省メモリ・省電力な計測）でも，他のセンサを用いることで解決可能なケースがある！ • イベント，音波，ミリ波を対象に，顔の見えないセンシングに基づく人物状態推定への活用例を紹介 • 様々なセンサやモダリティを活用してコンピュータビジョン・パターン認識の
課題を解決する研究に少しでもご興味を持っていただけますと幸いです • 産学連携，共同研究を積極的に行っています．お気軽にお声がけください！ 39 本発表中の成果の一部は，JSTさきがけ，慶應義塾大学学事振興基金，KLLの補助を受けたものです学生の皆様，共同研究者の皆様に感謝いたします

大学見本市2025 JSTさきがけ事業セミナー「顔の見えないセンシング技術：多様なセンサにもと...

大学見本市2025 JSTさきがけ事業セミナー「顔の見えないセンシング技術：多様なセンサにもとづく個人情報に配慮した人物状態推定」

Mariko Isogawa

More Decks by Mariko Isogawa

Other Decks in Research

Featured

Transcript

自己紹介 2 五十川麻理子（いそがわまりこ），博士（工学）慶應義塾大学理工学部情報工学科，准教授 2013年大阪大学

3 被遮蔽領域にいる人物の三次元姿勢推定(CVPR2020) 背景情報がない条件下での被遮蔽領域合成 (IJCV 2019) 音響信号を用いた三次元人物姿勢推定(CVPR2023)

「人を計測し，その状態を知る」ための信頼されるAIを構築するために，顔の見えないセンシングができるか？ 4

人物計測・状態推定とそのアプリケーション人物状態推定とは： • 人物の姿勢・形状推定 • 手指の姿勢・形状推定 • 感情推定 • 視線方向推定

効果的な手法が多く開発される一方で，一般的なカメラを使うと様々な課題も… 8

一般的なカメラに基づく人物状態推定の課題 (1) 顔や衣服などの個人の特定に紐づきやすい情報が写り込んでしまうことによる，個人情報・プライバシー侵害のリスクが生じる 9 Photo Credit: Adobe Stock #306799720

一般的なカメラを活用する際の課題を解決するには？ 12 他のセンサやモダリティを活用すれば良いのでは？

RGB入力を活用する際の課題を解決するには？ 14 EM spectrum by Philip Ronan, Wikimedia Commons, CC

イベントカメラで撮れるものシーン中に動きがなければ，背景ノイズだけが出力されるカメラ動画（グレースケール）イベントカメラ動画 (緑：輝度上昇，赤：輝度減少) 16

17 イベントカメラで撮れるものシーン中に動きが生じると，イベントが発生するカメラ動画（グレースケール）イベントカメラ動画 (緑：輝度上昇，赤：輝度減少)

18 イベントカメラで撮れるものカメラ動作によってもイベントが発生するカメラ動画（グレースケール）イベントカメラ動画 (緑：輝度上昇，赤：輝度減少)

19 イベントデータを入力とした人物形状推定 [堀ら，TVCG2024, CVIM奨励賞，CG研究会優秀研究発表賞・学生発表賞，MIRU学生奨励賞] イベントデータのみを用いて，人物のメッシュ（姿勢・形状）を推定する手法

21 輝度画像（参考）真値推定結果イベントデータを入力とした人物形状推定 [堀ら，TVCG2024, CVIM奨励賞，CG研究会優秀研究発表賞・学生発表賞，MIRU学生奨励賞]

22 輝度画像（参考）真値推定結果イベントデータを入力とした人物形状推定 [堀ら，TVCG2024, CVIM奨励賞，CG研究会優秀研究発表賞・学生発表賞，MIRU学生奨励賞]

一人称視点のイベントカメラを用いた人物三次元姿勢推定 [Ikeda+ IEEE ICIP2025, MIRU口頭発表] 同様に，シーン中の背景イベントを除去し，従来手法と比較して頑健に人物姿勢を推定 24 提案手法正解

ミリ波信号のみから人物の形状を推定 [Amaya and Isogawa, ICIP2023] 28 Color coding represents velocity

自然界でも音響ベースの計測は行われている超音波を能動的に発するエコロケーションにより，環境の三次元構造や物体・他の個体の位置を把握（例．コウモリやイルカ） 29

アクティブ音響センシング（計測音源）周波数が時間と共に変化する信号を用いることが一般的 • 周波数の時間的変化特性により，いくつかの種類がある • Time Stretched Pulse (TSP), Sine

主要な音響信号表現 • 音波 • Log Mel Spectrum • Intensity Vector

Log Mel Spectrum • 音響信号の振幅成分を表現 • フーリエ変換の結果を人間の聴覚に近いメル尺度に直す • 強度の高い周波数に引っ張られることを防ぐため対数変換 32

音響信号のみを入力とした人物の三次元姿勢推定 [Shibata et al., CVPR2023，MIRU2022フロンティア賞, Oumi et al., BMVC2024等] •

波長が長いと空間分解能が下がる波長内に収まってしまうような微細な動きや，細かな構造を捉えきれない 36 可視光信号波長：nmオーダー音響信号波長：mオーダー無線信号波長：mm~cmオーダー