Slide 1

Slide 1 text

24/05/16 CVIMチュートリアル 一人称視点映像解析の基礎と応用 産業技術総合研究所 人工知能研究センター 八木 拓真 1

Slide 2

Slide 2 text

八木 拓真(Takuma Yagi) 2 専門:人物行動・シーン理解のためのコンピュータビジョン → 特に一人称視点映像解析(身体に装着したカメラ映像の解析) 2023- 産業技術総合研究所 人工知能研究センター 研究員 2022-23 東京大学 生産技術研究所 特任研究員 2022 博士(情報理工学)東京大学 2017 学士(工学)東京工業大学 LLM物体状態推定 MIRU’23,’24 手操作物体の追跡に 基づく物探し支援 IUI’21, TiiS’22 大規模一人称視点映像DB CVPR’22 Best Paper Finalist 人物位置の予測 CVPR’18 映像からの人物行動理解 シーン認識による行動支援 大規模映像データセットの構築 バイオ実験映像DB CVPRW’23

Slide 3

Slide 3 text

目次 一人称視点映像解析とは何か 一人称視点映像の特徴 一人称視点映像解析のタスク 一人称視点映像解析のデータセット 一人称視点映像解析の応用 将来展望 3

Slide 4

Slide 4 text

目次 一人称視点映像解析とは何か 一人称視点映像の特徴 一人称視点映像解析のタスク 一人称視点映像解析のデータセット 一人称視点映像解析の応用 将来展望 4

Slide 5

Slide 5 text

基盤モデル時代のデータの役割 5 全世界の言語情報 全世界の視覚情報 テキストと比べ 画像・映像データは 十分網羅されている とは言えないのでは? RLHF 未開の大地

Slide 6

Slide 6 text

映像からの人物行動認識 YouTubeやTV/映画映像を用いた引きの映像の行動理解に焦点 6 NTU RGB+D [Sharoudy+, CVPR’16] ActivityNet [Hrilbron+, CVPR’15] MST-VTT [Xu+, CVPR’16] FineGym [Shao+, CVPR’20] Home Action Genome [Rai+, CVPR’20]

Slide 7

Slide 7 text

7 固定視点(三人称視点)からの映像: 人の移動、顔の識別、簡単な行動の識別 個人の動機・興味、詳細な行動 https://www.youtube.com/watch?v=fSo7Lk83uJU

Slide 8

Slide 8 text

一人称ビジョンとは 人の身体に装着したウェアラブルカメラから撮影した、 その人自身の視点から見た映像を用いた技術の総称 装着者に合わせて移動するため使用場所を問わない 装着者の視点から見た行動や環境を精細かつ連続して記録可能 8

Slide 9

Slide 9 text

9 人物視点(一人称視点)からの映像: 手や物体、人の動機、興味や表情、細かな操作、etc... →一人称ビジョンはどんなチャレンジを提供するか? https://www.youtube.com/watch?v=6wzDOg93RDM

Slide 10

Slide 10 text

一人称視点映像記録の道筋 10 1945 [Bush, ‘45] 1991 ©Steve Mann 2023 https://www.projectaria.com/

Slide 11

Slide 11 text

使用されるデバイス 市販のアクションカメラ・スマートグラスおよび専用品 近年は映像だけでなく音声、加速度、カメラ位置なども取れるマルチモーダ ル化が顕著 11 GoPro 超広角映像が簡単に 撮れる万能選手 Vuzix Blade BtoB向け OS搭載スマートグラス Tobii/Pupil 視線データを 高精度で記録可能 THINKLET 首掛け型のハンズフリー ビデオ通話端末

Slide 12

Slide 12 text

カメラの装着位置 用途・目的に応じて様々な位置に取り付けられる 12 頭部 胸部 手首 首元 [Ohnishi+, CVPR’16] 目線に沿っているが重い 安定だが目線から遠い 快適で長時間着用に有利 手元をアップで映せる

Slide 13

Slide 13 text

Aria Glasses: データ収集専用の眼鏡型デバイス 広角RGB映像・6D姿勢、視線などを記録可能で、プライバシー保護も考慮 Meta専用ではなく研究目的で外部機関への貸与も実施中 13 https://www.projectaria.com/ https://www.projectaria.com/datasets/apd/

Slide 14

Slide 14 text

一人称・二人称・三人称の違い 14 対象迄の距離 画像の詳細さ 一人称視点 二人称視点 三人称視点 https://www-users.cse.umn.edu/~hspark/FirstPersonVision/CVPR%20Tutorial_intro.pdf

Slide 15

Slide 15 text

一人称視点映像解析の有用性 アクセシビリティ、作業行動支援、AR/VR、ロボティクスなど生活・産業両方で有用 15 https://openai.com/customer-stories/be-my-eyes https://prtimes.jp/main/html/rd/p/000000054.000042518.html https://www.youtube.com/watch?v=HXkp3ILm5bY https://pc.watch.impress.co.jp/docs/news/1180383.html

Slide 16

Slide 16 text

なぜ一人称視点映像なのか? 16 我々は自分の身体を持ち、物体操作・会話など、一人称視点を通して世界と 関わっている 受動的にしか動けないネコは縞模様を認識できない [Held & Hein, ’63] [Held & Hein, ‘63] [Jayaraman & Grauman, ICCV‘15] 人が能動的に動いた結果何が起こるかを理解する必要がある

Slide 17

Slide 17 text

目次 一人称視点映像解析とは何か 一人称視点映像の特徴 一人称視点映像解析のタスク 一人称視点映像解析のデータセット 一人称視点映像解析の応用 将来展望 17

Slide 18

Slide 18 text

一人称視点映像の特徴 18 手操作 自己運動(ego-motion) 視線(gaze) [Huang+, ECCV’18] [Zimmermann+, ICCV’17] [Zhou+, CVPR’17]

Slide 19

Slide 19 text

視線(gaze) 眼球の中心点が向く方向を2Dカメラ画像に投影したもの サッカード(saccade)により焦点(赤丸)は0.2-3秒ごとに絶え間なく動く 従来は幾何計測に依っていたが近年深層学習の利用で事前の同期が不要に 19 https://pupil-labs.com/products/neon https://docs.pupil-labs.com/neon/hardware/module-technical-overview/ 眼カメラ 虹彩位置の推定に基づく視線推定 [Tsukada+, ICCVW’11]

Slide 20

Slide 20 text

視線はタスク依存である [Yarbus, ‘67] 同じ視覚刺激であっても、対象中の何に注目するかによって視線の軌跡 (gaze scanpath)は変化する 20 Free view Age Clothes Story Positions Summary Wealth 絵画を要素別に注目した際の視線軌跡

Slide 21

Slide 21 text

視線推定 [Huang+, ECCV’18] 一人称視点映像から視線センサなしで視線位置を推定 21

Slide 22

Slide 22 text

物体探索タスクにおける視線軌跡推定 [Yang+, CVPR’20] 逆強化学習を用いた物体探索中の視線軌跡推定 粗い画像を入力として「注視」した領域のみの高解像度画像を繰り返し得る 設定で次にどこに視線を向けるかを予測(例:食器らしい領域にまず注目) 22 視線軌跡(黄枠は探索対象) 予測された視線軌跡 注視回数 注視回数と対象物体にたどり着けたかの関係 対象物体到達の累積確率 逆強化学習 モデルの概要

Slide 23

Slide 23 text

画像と視線軌跡からの探索物体推定 [Nishiyasu+, CVPRW’24] 入力:画像+視線軌跡 → 出力:探索物体の種類およびその存在 23 物体セグメンテーション 注視時間の長さ 注視の順序 注視位置 物体の意味領域 視線と物体の特徴を統合すること で人の意図を推定できる

Slide 24

Slide 24 text

自己運動(ego-motion) 身体に装着されたカメラの3次元移動軌跡、あるいはその画像に反映された 見かけ上の2次元運動のこと 自己運動は固定カメラでは発生しない問題(物体追跡、モーションブラー)を 生み出す一方、装着者の行動・属性に関するユニークな情報を持つ 24 自己運動からの個人識別 [Poleg+, ACCV’14] 密なオプティカルフローの例 (ピクセル単位での動きベクトル場) 入力フレーム 青い領域の見かけ上の移動量

Slide 25

Slide 25 text

自己運動の例 25 自己運動の結果、静止物体であっても画像の見かけ上は動いてしまう

Slide 26

Slide 26 text

自己運動の使い方 自己運動は前景運動(身体の実際の動き)と背景運動(観測点が動くことによ る見かけ上の動き)に分けられる 目的に応じて前景・背景運動を分けて利用することで、行動認識などの精度の 向上につなげられる 26 3次元軌跡・マップを取得したい →SLAM・VO (Visual Odometry)を利用 動きを分類・認識に利用したい →オプティカルフローから特徴抽出 自己運動の影響を省きたい →前景以外の平均運動ベクトルを引く 特徴点の追跡 見かけ上の運動 前景運動 CNN オプティカルフロー ワールド上の 6Dカメラ姿勢

Slide 27

Slide 27 text

手操作(hand manipulation) 一人称視点映像は手を大写しにするた め、手や道具を用いてどのように環境 に働きかけるかの認識をより詳細に行 える タスク例: 手位置(セグメンテーション)推定 手の関節の2次元/3次元位置推定 把持(物の握り方)分類 ジェスチャ認識 手の将来の動きの予測 操作物体・二次物体の検出 27 手-物体インタラクション認識の主なタスク [Bandini+, PAMI’20]

Slide 28

Slide 28 text

3次元手姿勢の推定 [Ohkawa+, CVPR’23] 映像中に映る手の手首を起点とした各関節点の位置の推定 AR・VRデバイスに取り付けられたカメラからのジェスチャ・行動認識に有用 指の位置が角度によって隠れるため多視点映像からいかに真値を得るかに課題 28 https://github.com/facebookresearch/assemblyhands-toolkit 手の3次元関節位置 (21点)の可視化例 3次元手姿勢の推定例 多視点画像からの手姿勢推定モデル

Slide 29

Slide 29 text

目次 一人称視点映像解析とは何か 一人称視点映像の特徴 一人称視点映像解析のタスク 一人称視点映像解析のデータセット 一人称視点映像解析の応用 将来展望 29

Slide 30

Slide 30 text

一人称視点映像解析のタスク 30 自己の理解 他者の理解 環境・時空間構造の理解 装着者自身の行動/状態の理解 • 行動・物体検索 • 自己姿勢推定 • 将来行動予測 • 視線推定 装着者が観察する人の行動の理解 • 発話予測 • アイコンタクト予測 • 他者との位置関係の予測 • 共同注意の認識 • 表情認識 装着者を含めた環境や構造の理解 • 3次元地図の作成 • 操作物体検出 • アフォーダンス認識 • 手順認識 • シーン状態の認識

Slide 31

Slide 31 text

自己の理解:映像-テキスト検索 [Lin+, NeurIPS’22] 31 EgoVLP (Video-Language Pretraining) 数秒間の映像とその説明文(ナ レーション)との間の対照学習 より詳細な差を区別するため、 別の場面で行われた同一行動 (例:ベッドで寝ながら/外を 歩きながらスマホを解除する) に対して明示的にペナルティを 与えるEgoNCEを提案 学習した特徴は複数下流タスク に流用可能 コード: https://github.com/showlab/EgoVLP テキストから映像の検索 (text-to-video) EgoNCEの損失項

Slide 32

Slide 32 text

自己の理解:過去のエピソード(Episodic Memory)の理解 一人称視点映像からの個人の経験に関する誰(who)が何(what)をいつ (when)どこで(where)したかの理解 32 [Grauman+, CVPR’22] Visual Query:画像からの物体検索 Language Query:指示からの事物認識

Slide 33

Slide 33 text

自己の理解:一人称視点映像からの自己姿勢推定[Li+, CVPR’23] ウェアラブルカメラからは通常装着者の姿勢は観測できないが、自己運動か らおおよその全身姿勢を推定できる SLAMを介して推定した頭部姿勢系列を経由して滑らかな全身運動を生成 33 入力映像 頭部姿勢 自己の全身姿勢

Slide 34

Slide 34 text

ウェアラブルカメラからは通常装着者の姿勢は観測できないが、自己運動か らおおよその全身姿勢を推定できる SLAMを介して推定した頭部姿勢系列を経由して滑らかな全身運動を生成 34 自己の理解:一人称視点映像からの自己姿勢推定[Li+, CVPR’23]

Slide 35

Slide 35 text

他者の理解:視線・発話の推定 Looking at Me (LAM): ある人物が装着者を見ている区間の推定 Talking to Me(TTM): ある人物が装着者に話しかけている区間の推定 35 [Grauman+, CVPR’22]

Slide 36

Slide 36 text

他者の理解:アイコンタクトの推定 [Zhang+, UIST’17] 固定/頭部装着カメラからアイコンタクトがあるかどうかを教師なしで推定 36

Slide 37

Slide 37 text

環境の理解:手操作物体検出 [Cheng+, NeurIPS’23] 手、接触物体および二次物体のアノテーションを付与したデータセット 257K枚、401K 手bbox、288K 接触物体bbox、19k 二次物体bbox 画像から手・操作物体(手が触れている物体)・二次物体(操作物体を介して 影響を受けている物体)の位置および接触状態・把持状態を認識 物体検出器(Mask R-CNN)を拡張し物体間の関係性を推論 37

Slide 38

Slide 38 text

事例:もの探し行動支援 [Yagi+, IUI’21;TiiS’22] 38 首に装着したカメラからユーザの行動を記録 ユーザが手で触れた物体を自動で検出・追跡し、インスタンス毎に分類 物体の最終出現タイミングの提示により場所の想起を促す 物体を映像から 自動追跡 物体の最終出現タイミングを提示 スマートフォン上で探したい物の 画像を選ぶことで検索 GoProカメラ

Slide 39

Slide 39 text

環境の理解:手操作に紐づけられたアフォーダンスの認識 [Goyal+, CVPR’22] 物体操作映像中の物体と手の位置・把持形状の関係の学習により特定の把持 形態をアフォードする領域の推定が可能 39

Slide 40

Slide 40 text

構造の理解:手順認識(keystep recognition) 調理、機器組み立てなどで所定の手順を持つ行動の認識 40 手順アノテーションの例 [Bansal+, ECCV’22]

Slide 41

Slide 41 text

事例:バイオ実験の記録と自動化 FineBio [Yagi+, ArXiv’24] 実験行動の自動認識のための 模擬バイオ実験の映像および 階層行動・物体アノテーショ ンデータセット(14.5時間) 41 実験者が作業 手順と結果を自動記録 ロボットが転写・再現 上段:手順レベルの認識 下段:単位動作レベルの認識

Slide 42

Slide 42 text

目次 一人称視点映像解析とは何か 一人称視点映像の特徴 一人称視点映像解析のタスク 一人称視点映像解析のデータセット 一人称視点映像解析の応用 将来展望 42

Slide 43

Slide 43 text

一人称視点映像のデータセット インターネット上に登場しないデータのため、独自に収集する必要がある 近年、多組織連携を通じてより大規模かつ網羅的な映像データセットが整備 43 EPIC-KITCHENS [Damen+, ECCV’18;IJCV’22] Ego4D [Grauman+, CVPR’22] Ego-Exo4D [Grauman+, CVPR’24] 2か国/2組織/著者11人 9か国/13組織/著者85人 10か国/22組織/著者101人

Slide 44

Slide 44 text

EPIC-KITCHENS:一人称調理映像データセット 2ヶ国、45地点、100時間分の調理映像データセット 語彙が統制された行動(verb)および物体(noun)アノテーションを密に提供 44 [Damen+, ECCV’18]

Slide 45

Slide 45 text

EPIC-KITCHENS:一人称調理映像データセット 物体セグメンテーション 、環境音認識、物体追跡(TREK-150 [Dunnhofer+, IJCV’23]) などの様々なベンチマークのベースとして広く使われている 45 VISOR [Darkhalil+, NeurIPS’22] EPIC-SOUNDS [Huh+, ICASSP’23]

Slide 46

Slide 46 text

Ego4D:世界規模の一人称視点映像データベース [Grauman+, CVPR’22] Meta AIと13大学組織からなるデータ基盤構築プロジェクト 多様な一人称視点映像および説明文からなる大規模映像言語コーパスを収集 46 大学院生だけではない、世界中の様々な人たちの様々なアクティビティを収録 3670時間分の 日常生活映像 931人の カメラ装着者 74の地点 9か国 屋内外の 136シナリオ 385万の映像 ナレーション 17の タスク 5つの ベンチマーク

Slide 47

Slide 47 text

地理的多様性 47 [Grauman+, CVPR’22] より引用・翻訳

Slide 48

Slide 48 text

人口統計的多様性 48

Slide 49

Slide 49 text

ベンチマークタスク 過去・現在・未来の理解をカ バーする5つのタスクを用意 アノテーション総所要時間 25万時間超→FAIRリソースの恩恵 各タスクについてベースライン モデルとその結果を提供、チャ レンジ開催 49 過去 エピソード記憶 「私のXはどこ?」 現在 手&物体 「私は今どのように何をしている?」 音声-視覚話者分離 「誰がいつ何をしゃべったか?」 社会的インタラクション 「誰が誰に注意を向けている?」 将来予測 「私は次に何をする?」 未来 [Grauman+, CVPR’22] より引用・翻訳

Slide 50

Slide 50 text

ナレーションのアノテーション 全映像(3,670時間)に対して2種類のナレーションを2人のアノテータが付与 映像中の個別イベントの時刻付きナレーション(単文、平均13.2文/分) 映像全体(5分間)の要約(1-3文) 生情報に構文解析をかけ正規化された動詞(115種類)と名詞(478種類)を提供 本データセットの多様な映像を意味情報と結び付ける基底情報として機能 50

Slide 51

Slide 51 text

東大チームでの収集 調理(40人90時間)および工作(41人50時間)に関するデータを収録 いずれも人材派遣業者を介して有償で雇用(コスト高) 調理:説明会ののち各自家に持ち帰ってもらい参加者自身で収録 工作:研究室で立会いの下収録 51

Slide 52

Slide 52 text

Ego4Dの使用例:LAVILA [Zhao+, CVPR‘23] Ego4Dの字幕情報を使用して通常 のvideo-text modelを訓練したのち、 LLMを併用しながら字幕を補完、 再学習する REPHRASER:字幕を言い換え NARRATOR:短時間の映像を基に キャプションを生成 複数のデータセットにおける映像 -テキスト検索タスクにおいて高 性能 52

Slide 53

Slide 53 text

Ego-Exo4D:技能理解のためのマルチモーダル多視点映像DB [Grauman+, CVPR’24] 技能活動(サッカー/料理/音楽等)における一人称-三人称間の視点遷移に注目 一人称/三人称視点映像および音声・加速度・視線・カメラ姿勢などを記録 装着者の実況および熟練者の技能に関する解説によるより詳細な行動記述 53

Slide 54

Slide 54 text

本研究の狙い 人の技能の理解はAIを用いた作業支援や人に学ぶロボットの実現に不可欠 人が技能を学ぶには、一人称(egocentric)視点と三人称(exocentric)視点の 間を行き来する必要がある 一人称(シーンの詳細)と三人称(人の全身姿勢や周辺環境)は相補的 技能獲得には三人称(教師の観察)から一人称(自身による実行)への転写が必要 54 教師 生徒 三人称→一人称への転写はどうなされるのか? 三人称視点(観察) 一人称視点(実行)

Slide 55

Slide 55 text

概要 多視点映像に加え、音声・加速度・視線・姿勢などのモダリティや、 異なる粒度での行動説明文を付与(のべ1,422時間) 55

Slide 56

Slide 56 text

映像例 56

Slide 57

Slide 57 text

シナリオとデータ分量 8シナリオ、のべ1422時間(実質300時間弱) 15機関よりのべ参加者数839人が収録に参加 各参加者には経験者~プロまでの比較的高い熟練度を要求 57

Slide 58

Slide 58 text

基底アノテーション タスク非依存の教師情報として3種類 の異なる言語アノテーションを付与 1) Expert commentary そのタスクのエキスパート(コーチ、 先生、線専門家)が身体の動きとタ スクの成否の説明を提供 2) Narrate-and-act descriptions 行為者自身による実況 なぜ(why)どのように(how)そ の行動を行ったかを説明 3) Atomic action descriptions 第三者による説明 1つ1つの単位行動について行為者が 何(what)をしたかを説明 58 ナレーションの例

Slide 59

Slide 59 text

各アノテーションの性質の比較 59 エキスパートによる教示が語彙、分量ともに充実

Slide 60

Slide 60 text

Proficiency estimationのアノテーション例 60

Slide 61

Slide 61 text

ベンチマーク 61 Relation:幾何的関係の認識 Keystep Recognition:手順の認識・理解 Proficiency:試行の熟練度/成否の認識 Pose Estimation:映像からの全身姿勢・手姿勢の推定

Slide 62

Slide 62 text

その他のデータセット:EgoObjects [Zhu+, ICCV’23] 一人称視点から撮影された多種多様な物体データセット 368カテゴリ、14.4K インスタンス、114Kフレーム 62

Slide 63

Slide 63 text

その他のデータセット:Aria Digital Twin [Zhu+, ICCV’23] Meta社のAria Glassesおよび3Dスキャナ・モーションキャプチャを併用した 3次元理解のための屋内データセット 63

Slide 64

Slide 64 text

その他のデータセット: EgoGen [Li+, CVPR’24] ARデバイスからの環境認識モデル構築のための人工データジェネレータ 様々な人体/服装/環境/モーションをカバーするリアルな映像を自動生成 64

Slide 65

Slide 65 text

その他のデータセット Assembly101 [Sener+, CVPR’22] おもちゃの模型の組立に関する多視点映像データセット タスク:詳細な組立作業の認識、手順間違いの検出など EgoExoLearn [Zhu+, ICCV’23] 一人称視点から撮影された多種多様な物体データセット 368カテゴリ、14.4K インスタンス、114Kフレーム RefEgo [Kurita+, ICCV’23] テキストによる主観視点動画からの物体追跡 EgoTaskQA [Jia+, NeurIPS’22] (i) 行動の依存関係 (ii) 人の意図と目標 (3) 他者の信念などの要素を含むQA EgoSchema [Mangalam+, NeurIPS‘24] 数分間の映像全ての情報を使用しないと答えられない多肢QA GPT-4oの検証でも採用 65 既存の資産を生かしつつより高度な行動・環境理解のためのベンチマークが多数登場

Slide 66

Slide 66 text

目次 一人称視点映像解析とは何か 一人称視点映像の特徴 一人称視点映像解析のタスク 一人称視点映像解析のデータセット 一人称視点映像解析の応用 将来展望 66

Slide 67

Slide 67 text

一人称視点映像解析の応用先 67 アクセシビリティ AR・作業支援 ロボティクス https://pc.watch.impress.co.jp/docs/news/1180383.html https://openai.com/customer-stories/be-my-eyes [Damen+, BMVC‘14]

Slide 68

Slide 68 text

応用先:アクセシビリティへ AIスーツケース(日本科学未来館) スーツケースにカメラ・LiDARを搭載して視覚障碍者の屋内外の移動をサポート 68

Slide 69

Slide 69 text

応用例:AR作業支援 69 State-Aware Configuration Detection [Stanescu+, ISMAR’23] HoloLensを用いた組立作業のARチュートリアル タスク:Tasks: Assembly Action Detection, Mistake Detection, State Detection

Slide 70

Slide 70 text

応用例:ロボティクス [Nair+, CoRL’22] 70 Ego4Dの教示と時間方向に関する対照学習を行うことで ロボットアーム操作に有用な特徴を学習 CLIP, ImageNetや自己教師あり学習と比べ高効率で転移

Slide 71

Slide 71 text

目次 一人称視点映像解析とは何か 一人称視点映像の特徴 一人称視点映像解析のタスク 一人称視点映像解析のデータセット 一人称視点映像解析の応用 将来展望 71

Slide 72

Slide 72 text

一人称ビジョンの課題 72 → 現状自動でぼかしをかけることで対応 プライバシー 動画の記録解像度が上がるため、 人の顔・スマホ操作・カード番号などの 個人情報が洩れる可能性 個人適応 個人の体験やニーズはそれぞれ異なるため 数日~数か月単位での モデルの個人化(カスタマイズ)が求められる →長時間使われるアプリが欠如、今後の課題 [Singh+, WACV’16]

Slide 73

Slide 73 text

73 https://www.dailymail.co.uk/sciencetech/article- 2323578/Cafes-ban-Google-glasses-protect- customers-privacy-Fears-users-futuristic-eyewear- record-permission.html スマホも含め、 カメラを経由したAI使用 の社会的受容性の確保が ますます重要に

Slide 74

Slide 74 text

一人称視点映像解析の今後 視線 手操作 全身姿勢・運動 発話・注意 力覚・触覚 74 眼に直接見えるものを超えた人間中心のコンピュータビジョンへ 画像信号以外の高次の入力 事物の分類を超えた高次の出力 技能・熟練度 巧みな操作 他者への教示・支援 習慣 3次元デジタルツイン 物体の内部状態 (物理状態・構造) コミュニケーションの促進

Slide 75

Slide 75 text

振り返り 75 全世界の言語情報 全世界の視覚情報 RLHF 従来記録されなかった ・視覚知識 ・知識構造 ・言語知識との紐づけ が求められる →有用な「視点」としての 一人称視点映像解析? 未開の大地

Slide 76

Slide 76 text

この分野へのみなさんの参加をお待ちしています まとめ 一人称視点映像解析:「私」の眼を通じて見た世界の理解 日常・産業の詳細に踏み込むための「視点」としての一人称視点 ユニークさ:視線/自己運動/手操作 タスク:行動・物体検索/発話・注意検出 データセット:EPIC-KITCHENS/Ego4D/Ego-Exo4D 応用先:アクセシビリティ、作業支援/教示、ロボティクス 課題:プライバシー、個人適応 インターネット上に存在しない、人の身体・記憶と結び ついた知識や体験の集積が今後ますます重要になる? 76 CV最前線 Winter 2023 「イマドキノ一人称ビジョン」 よろしくお願いします

Slide 77

Slide 77 text

77 一人称視点映像解析分野の総合ワークショップ 6つのデータセット、30のチャレンジを開催(5/30〆切)

Slide 78

Slide 78 text

参考文献 [Bush, ‘45] Bush, V. (1945). As we may think. The atlantic monthly, 176(1), 101-108. [Ohnishi+, CVPR’16] Ohnishi, K., Kanehira, A., Kanezaki, A., & Harada, T. (2016). Recognizing activities of daily living with a wrist-mounted camera. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (pp. 3103-3111). [Held & Hein, ‘63] Held, R., & Hein, A. (1963). Movement-produced stimulation in the development of visually guided behavior. Journal of comparative and physiological psychology, 56(5), 872. [Jayaraman & Grauman, ICCV’15] Jayaraman, D., & Grauman, K. (2015). Learning image representations tied to ego-motion. In Proceedings of the IEEE International Conference on Computer Vision (pp. 1413-1421). [Huang+, ECCV’18] Y. Huang, M. Cai, Z. Li and Y. Sato, "Predicting Gaze in Egocentric Video by Learning Task-dependent Attention Transition," European Conference on Computer Vision (ECCV), 2018. [Zhou+, CVPR’17] Zhou, T., Brown, M., Snavely, N., & Lowe, D. G. (2017). Unsupervised learning of depth and ego-motion from video. In Proceedings of the IEEE conference on computer vision and pattern recognition (pp. 1851-1858). [Zimmermann+, ICCV’17] Zimmermann, C., & Brox, T. (2017). Learning to estimate 3d hand pose from single rgb images. In Proceedings of the IEEE international conference on computer vision (pp. 4903-4911). [Tsukada+, ICCVW’11] Tsukada, A., Shino, M., Devyver, M., & Kanade, T. (2011, November). Illumination-free gaze estimation method for first-person vision wearable device. In 2011 IEEE International Conference on Computer Vision Workshops (ICCV Workshops) (pp. 2084-2091). IEEE. [Yarbus, ‘67] Yarbus, A. L. Eye Movements and Vision. Plenum. New York. 1967 (Originally published in Russian 1962) [Huang+, ECCV’18] Huang, Y., Cai, M., Li, Z., & Sato, Y. (2018). Predicting gaze in egocentric video by learning task-dependent attention transition. In Proceedings of the European conference on computer vision (ECCV) (pp. 754-769). [Yang+, CVPR’20] Yang, Z., Huang, L., Chen, Y., Wei, Z., Ahn, S., Zelinsky, G., ... & Hoai, M. (2020). Predicting goal-directed human attention using inverse reinforcement learning. In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition (pp. 193-202). [Nishiyasu+, CVPRW’24] Takumi Nishiyasu and Yoichi Sato. Gaze Scanpath Transformer: Predicting Visual Search Target by Spatiotemporal Semantic Modeling of Gaze Scanpath. 6th international workshop on gaze estimation and prediction in the wild in conjunction with CVPR2024. 2024. [Poleg+, ACCV’14] Poleg, Y., Arora, C., & Peleg, S. (2015). Head motion signatures from egocentric videos. In Computer Vision--ACCV 2014: 12th Asian Conference on Computer Vision, Singapore, Singapore, November 1-5, 2014, Revised Selected Papers, Part III 12 (pp. 315-329). Springer International Publishing. [Bandini+, PAMI’20] Bandini, A., & Zariffa, J. (2020). Analysis of the hands in egocentric vision: A survey. IEEE transactions on pattern analysis and machine intelligence, 45(6), 6846-6866. [Ohkawa+, CVPR’23] Ohkawa, T., He, K., Sener, F., Hodan, T., Tran, L., & Keskin, C. (2023). AssemblyHands: Towards egocentric activity understanding via 3d hand pose estimation. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (pp. 12999-13008). [Li+, CVPR’23] Li, J., Liu, K., & Wu, J. (2023). Ego-body pose estimation via ego-head pose estimation. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (pp. 17142-17151). 78

Slide 79

Slide 79 text

参考文献 [Grauman+, CVPR’22] Grauman, K., Westbury, A., Byrne, E., Chavis, Z., Furnari, A., Girdhar, R., ... & Malik, J. (2022). Ego4d: Around the world in 3,000 hours of egocentric video. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (pp. 18995-19012). [Zhang+. UIST’17] Zhang, X., Sugano, Y., & Bulling, A. (2017, October). Everyday eye contact detection using unsupervised gaze target discovery. In Proceedings of the 30th annual ACM symposium on user interface software and technology (pp. 193-203). [Cheng+, NeurIPS’23] Cheng, T., Shan, D., Hassen, A., Higgins, R., & Fouhey, D. (2023). Towards a richer 2d understanding of hands at scale. Advances in Neural Information Processing Systems, 36, 30453-30465. [Yagi+, IUI’21] Yagi, T., Nishiyasu, T., Kawasaki, K., Matsuki, M., & Sato, Y. (2021, April). GO-finder: a registration-free wearable system for assisting users in finding lost objects via hand-held object discovery. In 26th International Conference on Intelligent User Interfaces (pp. 139-149). [Goyal+, CVPR’22] Goyal, M., Modi, S., Goyal, R., & Gupta, S. (2022). Human hands as probes for interactive object understanding. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (pp. 3293-3303). [Bansal+, ECCV’22] Bansal, S., Arora, C., & Jawahar, C. V. (2022, October). My view is the best view: Procedure learning from egocentric videos. In European Conference on Computer Vision (pp. 657-675). Cham: Springer Nature Switzerland. [Yagi+, ArXiv’24] Yagi, T., Ohashi, M., Huang, Y., Furuta, R., Adachi, S., Mitsuyama, T., & Sato, Y. (2024). FineBio: A Fine-Grained Video Dataset of Biological Experiments with Hierarchical Annotation. arXiv preprint arXiv:2402.00293. [Damen+, ECCV’18] Damen, D., Doughty, H., Farinella, G. M., Fidler, S., Furnari, A., Kazakos, E., ... & Wray, M. (2018). Scaling egocentric vision: The epic-kitchens dataset. In Proceedings of the European conference on computer vision (ECCV) (pp. 720-736). [Damen+, IJCV’22] Damen, D., Doughty, H., Farinella, G. M., Furnari, A., Kazakos, E., Ma, J., ... & Wray, M. (2022). Rescaling egocentric vision: Collection, pipeline and challenges for epic-kitchens-100. International Journal of Computer Vision, 1-23. [Grauman+, CVPR’24] Grauman, K., Westbury, A., Torresani, L., Kitani, K., Malik, J., Afouras, T., ... & Wray, M. (2023). Ego-exo4d: Understanding skilled human activity from first-and third-person perspectives. CVPR 2024. [Darkhalil+, NeurIPS’22] Darkhalil, A., Shan, D., Zhu, B., Ma, J., Kar, A., Higgins, R., ... & Damen, D. (2022). Epic-kitchens visor benchmark: Video segmentations and object relations. Advances in Neural Information Processing Systems, 35, 13745-13758. [Huh+ ICASSP’23] Huh, J., Chalk, J., Kazakos, E., Damen, D., & Zisserman, A. (2023, June). Epic-sounds: A large-scale dataset of actions that sound. In ICASSP 2023-2023 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) (pp. 1-5). IEEE. [Dunnhofer+, IJCV’23] Dunnhofer, M., Furnari, A., Farinella, G. M., & Micheloni, C. (2023). Visual object tracking in first person vision. International Journal of Computer Vision, 131(1), 259-283. [Zhao+, CVPR’23] Zhao, Y., Misra, I., Krähenbühl, P., & Girdhar, R. (2023). Learning video representations from large language models. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (pp. 6586-6597). [Zhu+, ICCV’23] Zhu, C., Xiao, F., Alvarado, A., Babaei, Y., Hu, J., El-Mohri, H., ... & Yan, Z. (2023). Egoobjects: A large-scale egocentric dataset for fine-grained object understanding. In Proceedings of the IEEE/CVF International Conference on Computer Vision (pp. 20110-20120). 79

Slide 80

Slide 80 text

参考文献 [Li+, CVPR’24] Li, G., Zhao, K., Zhang, S., Lyu, X., Dusmanu, M., Zhang, Y., ... & Tang, S. (2024). EgoGen: An Egocentric Synthetic Data Generator. CVPR2024. [Sener+, CVPR’22] Sener, F., Chatterjee, D., Shelepov, D., He, K., Singhania, D., Wang, R., & Yao, A. (2022). Assembly101: A large-scale multi-view video dataset for understanding procedural activities. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (pp. 21096-21106). [Zhu+, CVPR’24] Huang, Y., Chen, G., Xu, J., Zhang, M., Yang, L., Pei, B., ... & Qiao, Y. (2024). EgoExoLearn: A Dataset for Bridging Asynchronous Ego-and Exo-centric View of Procedural Activities in Real World. CVPR2024. [Kurita+, ICCV’23] Kurita, S., Katsura, N., & Onami, E. (2023). Refego: Referring expression comprehension dataset from first-person perception of ego4d. In Proceedings of the IEEE/CVF International Conference on Computer Vision (pp. 15214-15224). [Jia+, NeurIPS’22] Jia, B., Lei, T., Zhu, S. C., & Huang, S. (2022). Egotaskqa: Understanding human tasks in egocentric videos. Advances in Neural Information Processing Systems, 35, 3343-3360. [Mangalam+, NeurIPS’24] Mangalam, K., Akshulakov, R., & Malik, J. (2024). Egoschema: A diagnostic benchmark for very long-form video language understanding. Advances in Neural Information Processing Systems, 36. [Damen+, BMVC’14] Damen, D., Leelasawassuk, T., Haines, O., Calway, A., & Mayol-Cuevas, W. W. (2014, September). You-Do, I-Learn: Discovering Task Relevant Objects and their Modes of Interaction from Multi-User Egocentric Video. In BMVC (Vol. 2, p. 3). [Stanescu+, ISMAR’23] Stanescu, A., Mohr, P., Kozinski, M., Mori, S., Schmalstieg, D., & Kalkofen, D. (2023, October). State-Aware Configuration Detection for Augmented Reality Step-by-Step Tutorials. In 2023 IEEE International Symposium on Mixed and Augmented Reality (ISMAR) (pp. 157-166). IEEE. [Nair+, CoRL’22] Nair, S., Rajeswaran, A., Kumar, V., Finn, C., & Gupta, A. (2022, August). R3M: A Universal Visual Representation for Robot Manipulation. In 6th Annual Conference on Robot Learning. [Singh+, WACV’16] Singh, K. K., Fatahalian, K., & Efros, A. A. (2016, March). Krishnacam: Using a longitudinal, single-person, egocentric dataset for scene understanding tasks. In 2016 IEEE Winter Conference on Applications of Computer Vision (WACV) (pp. 1-9). IEEE. 80