Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
大学見本市2025 JSTさきがけ事業セミナー「顔の見えないセンシング技術:多様なセンサにもと...
Search
Mariko Isogawa
August 21, 2025
0
120
大学見本市2025 JSTさきがけ事業セミナー「顔の見えないセンシング技術:多様なセンサにもとづく個人情報に配慮した人物状態推定」
Mariko Isogawa
August 21, 2025
Tweet
Share
More Decks by Mariko Isogawa
See All by Mariko Isogawa
MIRU2024チュートリアル「様々なセンサやモダリティを用いたシーン状態推定」
miso2024
4
3k
Featured
See All Featured
Reflections from 52 weeks, 52 projects
jeffersonlam
351
21k
GitHub's CSS Performance
jonrohan
1031
460k
The Myth of the Modular Monolith - Day 2 Keynote - Rails World 2024
eileencodes
26
3k
Measuring & Analyzing Core Web Vitals
bluesmoon
9
570
I Don’t Have Time: Getting Over the Fear to Launch Your Podcast
jcasabona
33
2.4k
GraphQLの誤解/rethinking-graphql
sonatard
71
11k
Mobile First: as difficult as doing things right
swwweet
223
9.9k
VelocityConf: Rendering Performance Case Studies
addyosmani
332
24k
Why Our Code Smells
bkeepers
PRO
338
57k
Producing Creativity
orderedlist
PRO
347
40k
Design and Strategy: How to Deal with People Who Don’t "Get" Design
morganepeng
131
19k
Distributed Sagas: A Protocol for Coordinating Microservices
caitiem20
333
22k
Transcript
顔の見えないセンシング技術:多様なセンサに もとづく個人情報に配慮した人物状態推定 大学見本市2025 JSTさきがけ事業セミナー 信頼されるAIへの挑戦 〜人工知能と次世代情報技術の最前線〜 五十川 麻理子 慶應義塾大学 理工学部
情報工学科 准教授 2025.8.22
自己紹介 2 五十川 麻理子(いそがわ まりこ),博士(工学) 慶應義塾大学 理工学部 情報工学科,准教授 2013年 大阪大学
基礎工学研究科 博士前期課程 修了 2013年〜2022年 NTT研究所 • 2016年〜2019年 大阪大学基礎工学研究科 博士後期課程 (2019年3月 学位取得) • 2019年〜2020年 カーネギーメロン大学 訪問研究員 2022年〜2023年 慶應義塾大学 専任講師 2023年〜 慶應義塾大学 准教授 経歴 研究分野 コンピュータビジョン(CV)およびCV技術に活用するためのセンシング,機械学習
3 被遮蔽領域にいる人物の 三次元姿勢推定(CVPR2020) 背景情報がない 条件下での 被遮蔽領域合成 (IJCV 2019) 音響信号を用いた三次元 人物姿勢推定(CVPR2023)
被遮蔽領域のシーン再構成 (ECCV2020) Input : point cloud Proposed Model Output : 3D human mesh ミリ波を用いた人物形状推定 (ICIP2023) イベントカメラを用いた人物 形状推定(TVCG 2024) 複数台カメラで撮った手術映像から,遮蔽がない 単視点映像を合成(MICCAI2023, 2025) 扱っている研究テーマの例 キーコンセプト: 疎な計測情報や遮蔽を含む計測情報のみからシーン情報を推定・復元する
「人を計測し,その状態を知る」 ための信頼されるAIを構築するために, 顔の見えないセンシングができるか? 4
本日お話ししたいこと • 一般的なカメラを用いたセンシングの課題 • それを解決するための,「顔の見えない」センシング技術の紹介 • 多様なセンサ情報(イベントベースドカメラ,無線信号,音響 信号)に基づく人物状態推定 • 多様なセンサ情報に基づく人物状態推定技術の最新手法の紹介
• 今後の課題や発展可能性 5
本日お話ししたいこと • 一般的なカメラを用いたセンシングの課題 • それを解決するための,「顔の見えない」センシング技術の紹介 • 多様なセンサ情報(イベントベースドカメラ,無線信号,音響 信号)に基づく人物状態推定 • 多様なセンサ情報に基づく人物状態推定技術の最新手法の紹介
• 今後の課題や発展可能性 6
人物計測・状態推定とそのアプリケーション 人物状態推定とは: • 人物の姿勢・形状推定 • 手指の姿勢・形状推定 • 感情推定 • 視線方向推定
• etc.. 想定されるアプリケーション: 人物モニタリング,AR/VR,スポーツ動作解析,etc.. 7 Google Developers, CC BY 4.0. 本日はここにフォーカス
効果的な手法が多く開発される一方で, 一般的なカメラを使うと様々な課題も… 8
一般的なカメラに基づく人物状態推定の課題 (1) 顔や衣服などの個人の特定に紐づきやすい情報が写り込んでしまうことによる, 個人情報・プライバシー侵害のリスクが生じる 9 Photo Credit: Adobe Stock #306799720
• 悪照明環境(例.夜道などの暗所) • 遮蔽のある環境(例.テーブルで推定対象物が隠れるなど) において推定精度が低下してしまう・または推定できない 10 暗所環境でモーショ ンブラーが生じる 映っていないと 推定できない
このウラに人 一般的なカメラに基づく人物状態推定の課題 (2)
本日お話ししたいこと • 一般的なカメラを用いたセンシングの課題 • それを解決するための,「顔の見えない」センシング技術の紹介 • 多様なセンサ情報(イベントベースドカメラ,無線信号,音響 信号)に基づく人物状態推定 • 多様なセンサ情報に基づく人物状態推定技術の最新手法の紹介
• 今後の課題や発展可能性 11
一般的なカメラを活用する際の課題を解決するには? 12 他のセンサやモダリティを活用すれば良いのでは?
一般的なカメラを活用する際の課題を解決するには? 13 他のセンサやモダリティを活用すれば良いのでは? 例.イベントベースドカメラで計測されたデータ • 輝度に変化が生じた画素でのみ非同期的に輝度の増減を示す極性情報を記録 • 空間情報(x, y)と変化が生じた時刻t, 極性情報pを持つ点群情報
• 暗所耐性を有する,高速に計測可能,省電力 RGBカメラ以外の可視光センサで計測した情報 誰が写っているのかは,一般人が目視で 確認するだけでは分かりづらい → (一般的なカメラと比較すると) 個人識別性が低い
RGB入力を活用する際の課題を解決するには? 14 EM spectrum by Philip Ronan, Wikimedia Commons, CC
BY-SA 3.0. 無線信号・音響信号に共通: • 暗所耐性を有する • (会話音声などを除いて)個人識別 可能な情報を含みづらい • データ量が少ないため省メモリ 他のセンサやモダリティを活用すれば良いのでは? 可視光以外のモダリティ 音響信号: • 信号波長が長いため, 多くの物体を透過・回 折する →遮蔽耐性を獲得可能 • 無線信号が活用できな いシーン(航空機内や 精密機器の存在する病 室など)でも活用可能 無線信号:信号波長が比較的長いため, 木や紙などの遮蔽物を透過する →遮蔽耐性を獲得可能
本日お話ししたいこと • 一般的なカメラを用いたセンシングの課題 • それを解決するための,「顔の見えない」センシング技術の紹介 • 多様なセンサ情報(イベントベースドカメラ,無線信号,音響 信号)に基づく人物状態推定 • 多様なセンサ情報に基づく人物状態推定技術の最新手法の紹介
• 今後の課題や発展可能性 15
イベントカメラで撮れるもの シーン中に動きがなければ,背景ノイズだけが出力される カメラ動画 (グレースケール) イベントカメラ動画 (緑:輝度上昇,赤:輝度減少) 16
17 イベントカメラで撮れるもの シーン中に動きが生じると,イベントが発生する カメラ動画 (グレースケール) イベントカメラ動画 (緑:輝度上昇,赤:輝度減少)
18 イベントカメラで撮れるもの カメラ動作によってもイベントが発生する カメラ動画 (グレースケール) イベントカメラ動画 (緑:輝度上昇,赤:輝度減少)
19 イベントデータを入力とした人物形状推定 [堀ら,TVCG2024, CVIM奨励賞,CG研究会優秀研究発表賞・学生発表賞,MIRU学生奨励賞] イベントデータのみを用いて,人物のメッシュ(姿勢・形状)を推定する手法
20 イベントデータを入力とした人物形状推定 [堀ら,TVCG2024, CVIM奨励賞,CG研究会優秀研究発表賞・学生発表賞,MIRU学生奨励賞] 輝度画像(参照用. 提案手法では不使用) イベントデータ 推定結果 イベントデータのみを用いて,人物のメッシュ(姿勢・形状)を推定する手法
21 輝度 画像 (参考) 真値 推定 結果 イベントデータを入力とした人物形状推定 [堀ら,TVCG2024, CVIM奨励賞,CG研究会優秀研究発表賞・学生発表賞,MIRU学生奨励賞]
イベント点群から高次元特徴を抽出 二次元関節位置の推定 & 大域特徴の抽出 Anchor Pointsを元にした時空間グルーピングによる局所特徴の抽出 姿勢・形状モデルの推定 (1)二次元関節位置推定結果をpriorとするcoarse-to-fineなメッシュ推定,(2)イベントデータを点群 として捉えた時空間グルーピングによる時系列情報を保持した局所特徴抽出,によりイベントのみを 入力とした高精度な推定を実現
22 輝度 画像 (参考) 真値 推定 結果 イベントデータを入力とした人物形状推定 [堀ら,TVCG2024, CVIM奨励賞,CG研究会優秀研究発表賞・学生発表賞,MIRU学生奨励賞]
イベント点群から高次元特徴を抽出 二次元関節位置の推定 & 大域特徴の抽出 Anchor Pointsを元にした時空間グルーピングによる局所特徴の抽出 (1)二次元関節位置推定結果をpriorとするcoarse-to-fineなメッシュ推定,(2)イベントデータを点群 として捉えた時空間グルーピングによる時系列情報を保持した局所特徴抽出,によりイベントのみを 入力とした高精度な推定を実現 二次元関節位置のみ最初に学習してからフレームワーク 全体を学習(簡単なものから学習した方が,最終的な結 果が良くなりやすい?) 姿勢・形状モデルの推定
一人称視点のイベントカメラを用いた 人物手指姿勢推定形状推定[Hara+ IEEE ICIP2025, MIRU口頭発表] 23 従来手法 イベントカメラでは輝度の変化を全て捉えてしまうため,手指以外の背景の動的な変化がノイズと なり,推定精度が低下する.手指領域を抽出するモジュールによって動的背景下での手指形状推定 精度の向上に貢献
提案手法 正解 イベント
一人称視点のイベントカメラを用いた 人物三次元姿勢推定 [Ikeda+ IEEE ICIP2025, MIRU口頭発表] 同様に,シーン中の背景イベントを除去し,従来手法と比較して頑健に人物姿勢を推定 24 提案手法 正解
従来手法 (EgoEgo) イベント 動的背景除去 後のイベント
ミリ波レーダとその特徴 ミリ波(30〜300GHz帯の電波)を用いて対象物との距離・角度・速度を検出 可能なセンサ • 比較的直進性が高い • 環境光の影響を受けづらい(暗所耐性を有する) • スモッグ,木・紙・プラスチック等による遮蔽の影響を受けづらい •
水分(雨や霧)の影響は受けるものの,Lidarと比較すると影響されづらい 25
ミリ波レーダを用いた信号計測とは? 時間の経過に応じて周波数が直線的に上昇するように変調を行った電波 (チャープ信号)をアクティブに送信するFrequency Modulated Continuous Wave (FMCW)方式を用いることが多い 26 なぜ変調するのか? 送受信信号間の比較を行うことで物体位置や速度の検出を行うため
Amplitude Time Time Frequency
ミリ波レーダで観測される信号とその表現方法 信号処理前の信号をAD変換したrawデータや,それを信号処理することで得られ た三次元位置,距離,速度,角度,ミリ波信号強度を出力するものが多い 27 主な表現方法 • 二次元画像マップ • Range-Doppler Map,Range-Angle
Map など,距離/速度/角度とそれに対応した受 信強度を二次元画像で表したもの • 三次元点群 • 反射強度が一定閾値以上の三次元位置を 三次元点群形式にしたもの x z カメラ映像 直交座標系で示した信号強度 角度 距離 速度 距離
ミリ波信号のみから人物の形状を推定 [Amaya and Isogawa, ICIP2023] 28 Color coding represents velocity
Red : Denoised point cloud outside the sphere Green : point clouds inside the sphere fast slow ours ( ) 多様な姿勢やノイズの多い環境下でも精度良く推定する目的で,人物の可動域を 考慮したノイズ除去や,上下半身に分割した位置エンコーディングを導入 提案手法 正解 従来手法 ミリ波点群
自然界でも音響ベースの計測は行われている 超音波を能動的に発するエコロケーションにより,環境の三次元構造や 物体・他の個体の位置を把握(例.コウモリやイルカ) 29
アクティブ音響センシング(計測音源) 周波数が時間と共に変化する信号を用いることが一般的 • 周波数の時間的変化特性により,いくつかの種類がある • Time Stretched Pulse (TSP), Sine
Sweep, Chirp信号など 30 時間と共に周波数が 上昇(下降)する信号を 用いる,という点では共通! TSP信号の例 周波数 [Hz] 時間[s] なぜこのような信号を用いるのか? • 環境状態推定を,屋内インパルス応答を利用した空間の反響 特性の解析に置き換えるため • システムの周波数特性を求めるために,理想的にはイン パルス応答をとり,フーリエ変換したい • しかし,スピーカーの出力が十分でないなどの制約から 実際には困難 • そこで,インパルスを時間的に引き延ばしたような信号 を用いる
主要な音響信号表現 • 音波 • Log Mel Spectrum • Intensity Vector
31 以降のスライドで紹介 Time Frequency Channel Time Frequency Time Amplitude
Log Mel Spectrum • 音響信号の振幅成分を表現 • フーリエ変換の結果を人間の聴覚に近いメル尺度に直す • 強度の高い周波数に引っ張られることを防ぐため対数変換 32
s :計測する音響信号 F :フーリエ変換 t :時間 f :周波数 k :メルバンク窓のインデックス H :メルバンクフィルター フーリエ変換 メル尺度変換 対数変換 Time Frequency
Intensity Vector • 音響信号の位相情報を表現 →音響信号が被験者の身体で反射する際に位相が変化することを利用 • 1つのチャンネルを基準に位相遅れを計算しているため,チャンネル数は3 33 W,X,Y,Z :計測する音響信号の各成分
R :実部 メル尺度変換 正規化 位相遅れを計算 Time Frequency Channel
音響信号のみを入力とした人物の三次元姿勢推定 [Shibata et al., CVPR2023,MIRU2022フロンティア賞, Oumi et al., BMVC2024等] •
信号を遮蔽する位置にいるユーザの三次元姿勢を推定するという, いわば「人の姿勢を“聴く”ことができるか?」を調査する試み • 個人情報保護の観点から会話内容や動作音を含まない音波のみを活用 • 暗所や電波の使用が制限される環境下でも推定可能 34
本日お話ししたいこと • 一般的なカメラを用いたセンシングの課題 • それを解決するための,「顔の見えない」センシング技術の紹介 • 多様なセンサ情報(イベントベースドカメラ,無線信号,音響 信号)に基づく人物状態推定 • 多様なセンサ情報に基づく人物状態推定技術の最新手法の紹介
• 今後の課題や発展可能性 35
波長が長いと空間分解能が下がる 波長内に収まってしまうような微細な動きや,細かな構造を捉えきれない 36 可視光信号波長 :nmオーダー 音響信号波長 :mオーダー 無線信号波長 :mm~cmオーダー
波長が長いと反射・回折の影響を受けやすい • 多くの物体表面上で,反射波が鏡面反射的なふるまいをする • 計測対象物の表面や,壁などにより強い反射が起こる • 回折(障害物の裏側に信号が回り込んで伝わっていく現象)が起こりやすい →これらの反射・回折等による信号のパス(経路)を考慮した解析が非常に困難 37 可視光の鏡面反射の例
信号波長に対して物体表面 の凹凸が十分小さい時の 鏡面反射のイメージ 信号波長に対して物体表面 の凹凸が大きい時の 拡散反射のイメージ 信号回折のイメージ by Scl Chua, Wikimedia Commons
データセットが小規模 • 一般的なカメラ動画像以外のセンサを活用したビジョン応用タスクは比較的最 近から取り組まれており,データが不足している • データ不足が手法の汎用性の低さを招きやすい • 予め計測に使われた部屋でしかうまく動かない,データセットに含まれ る姿勢しか良好に推定できないがそのバリエーションが少ない,etc.. •
我々が公開しているものも含め複数存在するが,より大規模化する必要あり 38 音響ベース人物姿勢推定データセット [Shibata+ CVPR2023] イベントベース人物姿勢・形状推定データセット [Hori+ TVCG2024]
まとめ • 一般的なカメラ動画像で解決が難しい課題(個人情報保護,暗所・遮蔽シーン での計測,省メモリ・省電力な計測)でも,他のセンサを用いることで解決可 能なケースがある! • イベント,音波,ミリ波を対象に,顔の見えないセンシングに基づく 人物状態推定への活用例を紹介 • 様々なセンサやモダリティを活用してコンピュータビジョン・パターン認識の
課題を解決する研究に少しでもご興味を持っていただけますと幸いです • 産学連携,共同研究を積極的に行っています.お気軽にお声がけください! 39 本発表中の成果の一部は,JSTさきがけ,慶應義塾大学学事振興基金,KLLの補助を受けたものです 学生の皆様,共同研究者の皆様に感謝いたします