一人称視点映像解析の基礎と応用（CVIMチュートリアル）

24/05/16 CVIMチュートリアル一人称視点映像解析の基礎と応用産業技術総合研究所人工知能研究センター八木拓真 1

八木拓真（Takuma Yagi） 2 専門：人物行動・シーン理解のためのコンピュータビジョン → 特に一人称視点映像解析（身体に装着したカメラ映像の解析） 2023- 産業技術総合研究所人工知能研究センター
研究員 2022-23 東京大学生産技術研究所特任研究員 2022 博士（情報理工学）東京大学 2017 学士（工学）東京工業大学 LLM物体状態推定 MIRU’23,’24 手操作物体の追跡に基づく物探し支援 IUI’21, TiiS’22 大規模一人称視点映像DB CVPR’22 Best Paper Finalist 人物位置の予測 CVPR’18 映像からの人物行動理解シーン認識による行動支援大規模映像データセットの構築バイオ実験映像DB CVPRW’23

目次一人称視点映像解析とは何か一人称視点映像の特徴一人称視点映像解析のタスク一人称視点映像解析のデータセット一人称視点映像解析の応用将来展望 3

基盤モデル時代のデータの役割 5 全世界の言語情報全世界の視覚情報テキストと比べ画像・映像データは十分網羅されているとは言えないのでは？ RLHF 未開の大地

映像からの人物行動認識 YouTubeやTV/映画映像を用いた引きの映像の行動理解に焦点 6 NTU RGB+D [Sharoudy+, CVPR’16] ActivityNet [Hrilbron+, CVPR’15]
MST-VTT [Xu+, CVPR’16] FineGym [Shao+, CVPR’20] Home Action Genome [Rai+, CVPR’20]

7 固定視点（三人称視点）からの映像：人の移動、顔の識別、簡単な行動の識別個人の動機・興味、詳細な行動 https://www.youtube.com/watch?v=fSo7Lk83uJU

一人称ビジョンとは人の身体に装着したウェアラブルカメラから撮影した、その人自身の視点から見た映像を用いた技術の総称装着者に合わせて移動するため使用場所を問わない装着者の視点から見た行動や環境を精細かつ連続して記録可能 8

9 人物視点（一人称視点）からの映像：手や物体、人の動機、興味や表情、細かな操作、etc... →一人称ビジョンはどんなチャレンジを提供するか？ https://www.youtube.com/watch?v=6wzDOg93RDM

一人称視点映像記録の道筋 10 1945 [Bush, ‘45] 1991 ©Steve Mann 2023 https://www.projectaria.com/

使用されるデバイス市販のアクションカメラ・スマートグラスおよび専用品近年は映像だけでなく音声、加速度、カメラ位置なども取れるマルチモーダル化が顕著 11 GoPro 超広角映像が簡単に撮れる万能選手 Vuzix Blade
BtoB向け OS搭載スマートグラス Tobii/Pupil 視線データを高精度で記録可能 THINKLET 首掛け型のハンズフリービデオ通話端末

カメラの装着位置用途・目的に応じて様々な位置に取り付けられる 12 頭部胸部手首首元 [Ohnishi+, CVPR’16] 目線に沿っているが重い
安定だが目線から遠い快適で長時間着用に有利手元をアップで映せる

Aria Glasses: データ収集専用の眼鏡型デバイス広角RGB映像・6D姿勢、視線などを記録可能で、プライバシー保護も考慮 Meta専用ではなく研究目的で外部機関への貸与も実施中 13 https://www.projectaria.com/ https://www.projectaria.com/datasets/apd/

一人称・二人称・三人称の違い 14 対象迄の距離画像の詳細さ一人称視点二人称視点三人称視点 https://www-users.cse.umn.edu/~hspark/FirstPersonVision/CVPR%20Tutorial_intro.pdf

一人称視点映像解析の有用性アクセシビリティ、作業行動支援、AR/VR、ロボティクスなど生活・産業両方で有用 15 https://openai.com/customer-stories/be-my-eyes https://prtimes.jp/main/html/rd/p/000000054.000042518.html https://www.youtube.com/watch?v=HXkp3ILm5bY https://pc.watch.impress.co.jp/docs/news/1180383.html

なぜ一人称視点映像なのか？ 16 我々は自分の身体を持ち、物体操作・会話など、一人称視点を通して世界と関わっている受動的にしか動けないネコは縞模様を認識できない [Held & Hein, ’63] [Held
& Hein, ‘63] [Jayaraman & Grauman, ICCV‘15] 人が能動的に動いた結果何が起こるかを理解する必要がある

一人称視点映像の特徴 18 手操作自己運動（ego-motion）視線（gaze） [Huang+, ECCV’18] [Zimmermann+, ICCV’17] [Zhou+,
CVPR’17]

視線（gaze）眼球の中心点が向く方向を2Dカメラ画像に投影したものサッカード（saccade）により焦点（赤丸）は0.2-3秒ごとに絶え間なく動く従来は幾何計測に依っていたが近年深層学習の利用で事前の同期が不要に 19 https://pupil-labs.com/products/neon https://docs.pupil-labs.com/neon/hardware/module-technical-overview/ 眼カメラ虹彩位置の推定に基づく視線推定 [Tsukada+,
ICCVW’11]

視線はタスク依存である [Yarbus, ‘67] 同じ視覚刺激であっても、対象中の何に注目するかによって視線の軌跡（gaze scanpath）は変化する 20 Free view Age
Clothes Story Positions Summary Wealth 絵画を要素別に注目した際の視線軌跡

視線推定 [Huang+, ECCV’18] 一人称視点映像から視線センサなしで視線位置を推定 21

物体探索タスクにおける視線軌跡推定 [Yang+, CVPR’20] 逆強化学習を用いた物体探索中の視線軌跡推定粗い画像を入力として「注視」した領域のみの高解像度画像を繰り返し得る設定で次にどこに視線を向けるかを予測（例：食器らしい領域にまず注目） 22 視線軌跡（黄枠は探索対象）予測された視線軌跡注視回数
注視回数と対象物体にたどり着けたかの関係対象物体到達の累積確率逆強化学習モデルの概要

画像と視線軌跡からの探索物体推定 [Nishiyasu+, CVPRW’24] 入力：画像+視線軌跡 → 出力：探索物体の種類およびその存在 23 物体セグメンテーション注視時間の長さ注視の順序
注視位置物体の意味領域視線と物体の特徴を統合することで人の意図を推定できる

自己運動（ego-motion）身体に装着されたカメラの3次元移動軌跡、あるいはその画像に反映された見かけ上の2次元運動のこと自己運動は固定カメラでは発生しない問題（物体追跡、モーションブラー）を生み出す一方、装着者の行動・属性に関するユニークな情報を持つ 24 自己運動からの個人識別 [Poleg+, ACCV’14] 密なオプティカルフローの例
（ピクセル単位での動きベクトル場）入力フレーム青い領域の見かけ上の移動量

自己運動の例 25 自己運動の結果、静止物体であっても画像の見かけ上は動いてしまう

自己運動の使い方自己運動は前景運動（身体の実際の動き）と背景運動（観測点が動くことによる見かけ上の動き）に分けられる目的に応じて前景・背景運動を分けて利用することで、行動認識などの精度の向上につなげられる 26 3次元軌跡・マップを取得したい →SLAM・VO (Visual Odometry)を利用
動きを分類・認識に利用したい →オプティカルフローから特徴抽出自己運動の影響を省きたい →前景以外の平均運動ベクトルを引く特徴点の追跡見かけ上の運動前景運動 CNN オプティカルフローワールド上の 6Dカメラ姿勢

手操作（hand manipulation）一人称視点映像は手を大写しにするため、手や道具を用いてどのように環境に働きかけるかの認識をより詳細に行えるタスク例：手位置（セグメンテーション）推定手の関節の2次元/3次元位置推定把持（物の握り方）分類
ジェスチャ認識手の将来の動きの予測操作物体・二次物体の検出 27 手-物体インタラクション認識の主なタスク [Bandini+, PAMI’20]

3次元手姿勢の推定 [Ohkawa+, CVPR’23] 映像中に映る手の手首を起点とした各関節点の位置の推定 AR・VRデバイスに取り付けられたカメラからのジェスチャ・行動認識に有用指の位置が角度によって隠れるため多視点映像からいかに真値を得るかに課題 28 https://github.com/facebookresearch/assemblyhands-toolkit 手の3次元関節位置（21点）の可視化例
3次元手姿勢の推定例多視点画像からの手姿勢推定モデル

一人称視点映像解析のタスク 30 自己の理解他者の理解環境・時空間構造の理解装着者自身の行動/状態の理解 • 行動・物体検索 • 自己姿勢推定
• 将来行動予測 • 視線推定装着者が観察する人の行動の理解 • 発話予測 • アイコンタクト予測 • 他者との位置関係の予測 • 共同注意の認識 • 表情認識装着者を含めた環境や構造の理解 • ３次元地図の作成 • 操作物体検出 • アフォーダンス認識 • 手順認識 • シーン状態の認識

自己の理解：映像-テキスト検索 [Lin+, NeurIPS’22] 31 EgoVLP (Video-Language Pretraining) 数秒間の映像とその説明文（ナレーション）との間の対照学習より詳細な差を区別するため、
別の場面で行われた同一行動（例：ベッドで寝ながら/外を歩きながらスマホを解除する）に対して明示的にペナルティを与えるEgoNCEを提案学習した特徴は複数下流タスクに流用可能コード： https://github.com/showlab/EgoVLP テキストから映像の検索（text-to-video） EgoNCEの損失項

自己の理解：過去のエピソード（Episodic Memory）の理解一人称視点映像からの個人の経験に関する誰（who）が何（what）をいつ（when）どこで（where）したかの理解 32 [Grauman+, CVPR’22] Visual Query：画像からの物体検索 Language
Query：指示からの事物認識

自己の理解：一人称視点映像からの自己姿勢推定[Li+, CVPR’23] ウェアラブルカメラからは通常装着者の姿勢は観測できないが、自己運動からおおよその全身姿勢を推定できる SLAMを介して推定した頭部姿勢系列を経由して滑らかな全身運動を生成 33 入力映像頭部姿勢自己の全身姿勢

ウェアラブルカメラからは通常装着者の姿勢は観測できないが、自己運動からおおよその全身姿勢を推定できる SLAMを介して推定した頭部姿勢系列を経由して滑らかな全身運動を生成 34 自己の理解：一人称視点映像からの自己姿勢推定[Li+, CVPR’23]

他者の理解：視線・発話の推定 Looking at Me (LAM): ある人物が装着者を見ている区間の推定 Talking to Me(TTM): ある人物が装着者に話しかけている区間の推定
35 [Grauman+, CVPR’22]

他者の理解：アイコンタクトの推定 [Zhang+, UIST’17] 固定/頭部装着カメラからアイコンタクトがあるかどうかを教師なしで推定 36

環境の理解：手操作物体検出 [Cheng+, NeurIPS’23] 手、接触物体および二次物体のアノテーションを付与したデータセット 257K枚、401K 手bbox、288K 接触物体bbox、19k 二次物体bbox 画像から手・操作物体（手が触れている物体）・二次物体（操作物体を介して影響を受けている物体）の位置および接触状態・把持状態を認識
物体検出器（Mask R-CNN）を拡張し物体間の関係性を推論 37

事例：もの探し行動支援 [Yagi+, IUI’21;TiiS’22] 38 首に装着したカメラからユーザの行動を記録ユーザが手で触れた物体を自動で検出・追跡し、インスタンス毎に分類物体の最終出現タイミングの提示により場所の想起を促す物体を映像から自動追跡物体の最終出現タイミングを提示
スマートフォン上で探したい物の画像を選ぶことで検索 GoProカメラ

環境の理解：手操作に紐づけられたアフォーダンスの認識 [Goyal+, CVPR’22] 物体操作映像中の物体と手の位置・把持形状の関係の学習により特定の把持形態をアフォードする領域の推定が可能 39

構造の理解：手順認識（keystep recognition）調理、機器組み立てなどで所定の手順を持つ行動の認識 40 手順アノテーションの例 [Bansal+, ECCV’22]

事例：バイオ実験の記録と自動化 FineBio [Yagi+, ArXiv’24] 実験行動の自動認識のための模擬バイオ実験の映像および階層行動・物体アノテーションデータセット（14.5時間） 41 実験者が作業
手順と結果を自動記録ロボットが転写・再現上段：手順レベルの認識下段：単位動作レベルの認識

一人称視点映像のデータセットインターネット上に登場しないデータのため、独自に収集する必要がある近年、多組織連携を通じてより大規模かつ網羅的な映像データセットが整備 43 EPIC-KITCHENS [Damen+, ECCV’18;IJCV’22] Ego4D [Grauman+, CVPR’22]
Ego-Exo4D [Grauman+, CVPR’24] 2か国/2組織/著者11人 9か国/13組織/著者85人 10か国/22組織/著者101人

EPIC-KITCHENS：一人称調理映像データセット 2ヶ国、45地点、100時間分の調理映像データセット語彙が統制された行動（verb）および物体（noun）アノテーションを密に提供 44 [Damen+, ECCV’18]

EPIC-KITCHENS：一人称調理映像データセット物体セグメンテーション、環境音認識、物体追跡（TREK-150 [Dunnhofer+, IJCV’23]）などの様々なベンチマークのベースとして広く使われている 45 VISOR [Darkhalil+, NeurIPS’22]
EPIC-SOUNDS [Huh+, ICASSP’23]

Ego4D：世界規模の一人称視点映像データベース [Grauman+, CVPR’22] Meta AIと13大学組織からなるデータ基盤構築プロジェクト多様な一人称視点映像および説明文からなる大規模映像言語コーパスを収集 46 大学院生だけではない、世界中の様々な人たちの様々なアクティビティを収録 3670時間分の日常生活映像
931人のカメラ装着者 74の地点 9か国屋内外の 136シナリオ 385万の映像ナレーション 17のタスク 5つのベンチマーク

地理的多様性 47 [Grauman+, CVPR’22] より引用・翻訳

人口統計的多様性 48

ベンチマークタスク過去・現在・未来の理解をカバーする5つのタスクを用意アノテーション総所要時間 25万時間超→FAIRリソースの恩恵各タスクについてベースラインモデルとその結果を提供、チャレンジ開催 49 過去
エピソード記憶「私のＸはどこ？」現在手＆物体「私は今どのように何をしている？」音声-視覚話者分離「誰がいつ何をしゃべったか？」社会的インタラクション「誰が誰に注意を向けている？」将来予測「私は次に何をする？」未来 [Grauman+, CVPR’22] より引用・翻訳

ナレーションのアノテーション全映像（3,670時間）に対して2種類のナレーションを2人のアノテータが付与映像中の個別イベントの時刻付きナレーション（単文、平均13.2文/分）映像全体（5分間）の要約（1-3文）生情報に構文解析をかけ正規化された動詞（115種類）と名詞（478種類）を提供本データセットの多様な映像を意味情報と結び付ける基底情報として機能 50

東大チームでの収集調理（40人90時間）および工作（41人50時間）に関するデータを収録いずれも人材派遣業者を介して有償で雇用（コスト高）調理：説明会ののち各自家に持ち帰ってもらい参加者自身で収録工作：研究室で立会いの下収録 51

Ego4Dの使用例：LAVILA [Zhao+, CVPR‘23] Ego4Dの字幕情報を使用して通常のvideo-text modelを訓練したのち、 LLMを併用しながら字幕を補完、再学習する REPHRASER：字幕を言い換え NARRATOR：短時間の映像を基に
キャプションを生成複数のデータセットにおける映像 -テキスト検索タスクにおいて高性能 52

Ego-Exo4D：技能理解のためのマルチモーダル多視点映像DB [Grauman+, CVPR’24] 技能活動（サッカー/料理/音楽等）における一人称-三人称間の視点遷移に注目一人称/三人称視点映像および音声・加速度・視線・カメラ姿勢などを記録装着者の実況および熟練者の技能に関する解説によるより詳細な行動記述 53

本研究の狙い人の技能の理解はAIを用いた作業支援や人に学ぶロボットの実現に不可欠人が技能を学ぶには、一人称（egocentric）視点と三人称（exocentric）視点の間を行き来する必要がある一人称（シーンの詳細）と三人称（人の全身姿勢や周辺環境）は相補的技能獲得には三人称（教師の観察）から一人称（自身による実行）への転写が必要 54 教師生徒三人称→一人称への転写はどうなされるのか？
三人称視点（観察）一人称視点（実行）

概要多視点映像に加え、音声・加速度・視線・姿勢などのモダリティや、異なる粒度での行動説明文を付与（のべ1,422時間） 55

映像例 56

シナリオとデータ分量 8シナリオ、のべ1422時間（実質300時間弱） 15機関よりのべ参加者数839人が収録に参加各参加者には経験者～プロまでの比較的高い熟練度を要求 57

基底アノテーションタスク非依存の教師情報として3種類の異なる言語アノテーションを付与 1) Expert commentary そのタスクのエキスパート（コーチ、先生、線専門家）が身体の動きとタスクの成否の説明を提供 2)
Narrate-and-act descriptions 行為者自身による実況なぜ（why）どのように（how）その行動を行ったかを説明 3) Atomic action descriptions 第三者による説明 1つ1つの単位行動について行為者が何（what）をしたかを説明 58 ナレーションの例

各アノテーションの性質の比較 59 エキスパートによる教示が語彙、分量ともに充実

Proficiency estimationのアノテーション例 60

ベンチマーク 61 Relation：幾何的関係の認識 Keystep Recognition：手順の認識・理解 Proficiency：試行の熟練度/成否の認識 Pose Estimation：映像からの全身姿勢・手姿勢の推定

その他のデータセット：EgoObjects [Zhu+, ICCV’23] 一人称視点から撮影された多種多様な物体データセット 368カテゴリ、14.4K インスタンス、114Kフレーム 62

その他のデータセット：Aria Digital Twin [Zhu+, ICCV’23] Meta社のAria Glassesおよび3Dスキャナ・モーションキャプチャを併用した３次元理解のための屋内データセット 63

その他のデータセット： EgoGen [Li+, CVPR’24] ARデバイスからの環境認識モデル構築のための人工データジェネレータ様々な人体/服装/環境/モーションをカバーするリアルな映像を自動生成 64

その他のデータセット Assembly101 [Sener+, CVPR’22] おもちゃの模型の組立に関する多視点映像データセットタスク：詳細な組立作業の認識、手順間違いの検出など EgoExoLearn [Zhu+, ICCV’23] 一人称視点から撮影された多種多様な物体データセット
368カテゴリ、14.4K インスタンス、114Kフレーム RefEgo [Kurita+, ICCV’23] テキストによる主観視点動画からの物体追跡 EgoTaskQA [Jia+, NeurIPS’22] (i) 行動の依存関係 (ii) 人の意図と目標 (3) 他者の信念などの要素を含むQA EgoSchema [Mangalam+, NeurIPS‘24] 数分間の映像全ての情報を使用しないと答えられない多肢QA GPT-4oの検証でも採用 65 既存の資産を生かしつつより高度な行動・環境理解のためのベンチマークが多数登場

一人称視点映像解析の応用先 67 アクセシビリティ AR・作業支援ロボティクス https://pc.watch.impress.co.jp/docs/news/1180383.html https://openai.com/customer-stories/be-my-eyes [Damen+, BMVC‘14]

応用先：アクセシビリティへ AIスーツケース（日本科学未来館）スーツケースにカメラ・LiDARを搭載して視覚障碍者の屋内外の移動をサポート 68

応用例：AR作業支援 69 State-Aware Configuration Detection [Stanescu+, ISMAR’23] HoloLensを用いた組立作業のARチュートリアルタスク：Tasks: Assembly
Action Detection, Mistake Detection, State Detection

応用例：ロボティクス [Nair+, CoRL’22] 70 Ego4Dの教示と時間方向に関する対照学習を行うことでロボットアーム操作に有用な特徴を学習 CLIP, ImageNetや自己教師あり学習と比べ高効率で転移

一人称ビジョンの課題 72 → 現状自動でぼかしをかけることで対応プライバシー動画の記録解像度が上がるため、人の顔・スマホ操作・カード番号などの個人情報が洩れる可能性個人適応個人の体験やニーズはそれぞれ異なるため
数日～数か月単位でのモデルの個人化（カスタマイズ）が求められる →長時間使われるアプリが欠如、今後の課題 [Singh+, WACV’16]

73 https://www.dailymail.co.uk/sciencetech/article- 2323578/Cafes-ban-Google-glasses-protect- customers-privacy-Fears-users-futuristic-eyewear- record-permission.html スマホも含め、カメラを経由したAI使用の社会的受容性の確保がますます重要に

一人称視点映像解析の今後視線手操作全身姿勢・運動発話・注意力覚・触覚 74 眼に直接見えるものを超えた人間中心のコンピュータビジョンへ画像信号以外の高次の入力事物の分類を超えた高次の出力
技能・熟練度巧みな操作他者への教示・支援習慣 3次元デジタルツイン物体の内部状態（物理状態・構造）コミュニケーションの促進

振り返り 75 全世界の言語情報全世界の視覚情報 RLHF 従来記録されなかった・視覚知識・知識構造・言語知識との紐づけが求められる
→有用な「視点」としての一人称視点映像解析？未開の大地

この分野へのみなさんの参加をお待ちしていますまとめ一人称視点映像解析：「私」の眼を通じて見た世界の理解日常・産業の詳細に踏み込むための「視点」としての一人称視点ユニークさ：視線/自己運動/手操作タスク：行動・物体検索/発話・注意検出データセット：EPIC-KITCHENS/Ego4D/Ego-Exo4D 応用先：アクセシビリティ、作業支援/教示、ロボティクス課題：プライバシー、個人適応インターネット上に存在しない、人の身体・記憶と結び
ついた知識や体験の集積が今後ますます重要になる？ 76 CV最前線 Winter 2023 「イマドキノ一人称ビジョン」よろしくお願いします

77 一人称視点映像解析分野の総合ワークショップ 6つのデータセット、30のチャレンジを開催（5/30〆切）

参考文献 [Bush, ‘45] Bush, V. (1945). As we may think.
The atlantic monthly, 176(1), 101-108. [Ohnishi+, CVPR’16] Ohnishi, K., Kanehira, A., Kanezaki, A., & Harada, T. (2016). Recognizing activities of daily living with a wrist-mounted camera. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (pp. 3103-3111). [Held & Hein, ‘63] Held, R., & Hein, A. (1963). Movement-produced stimulation in the development of visually guided behavior. Journal of comparative and physiological psychology, 56(5), 872. [Jayaraman & Grauman, ICCV’15] Jayaraman, D., & Grauman, K. (2015). Learning image representations tied to ego-motion. In Proceedings of the IEEE International Conference on Computer Vision (pp. 1413-1421). [Huang+, ECCV’18] Y. Huang, M. Cai, Z. Li and Y. Sato, "Predicting Gaze in Egocentric Video by Learning Task-dependent Attention Transition," European Conference on Computer Vision (ECCV), 2018. [Zhou+, CVPR’17] Zhou, T., Brown, M., Snavely, N., & Lowe, D. G. (2017). Unsupervised learning of depth and ego-motion from video. In Proceedings of the IEEE conference on computer vision and pattern recognition (pp. 1851-1858). [Zimmermann+, ICCV’17] Zimmermann, C., & Brox, T. (2017). Learning to estimate 3d hand pose from single rgb images. In Proceedings of the IEEE international conference on computer vision (pp. 4903-4911). [Tsukada+, ICCVW’11] Tsukada, A., Shino, M., Devyver, M., & Kanade, T. (2011, November). Illumination-free gaze estimation method for first-person vision wearable device. In 2011 IEEE International Conference on Computer Vision Workshops (ICCV Workshops) (pp. 2084-2091). IEEE. [Yarbus, ‘67] Yarbus, A. L. Eye Movements and Vision. Plenum. New York. 1967 (Originally published in Russian 1962) [Huang+, ECCV’18] Huang, Y., Cai, M., Li, Z., & Sato, Y. (2018). Predicting gaze in egocentric video by learning task-dependent attention transition. In Proceedings of the European conference on computer vision (ECCV) (pp. 754-769). [Yang+, CVPR’20] Yang, Z., Huang, L., Chen, Y., Wei, Z., Ahn, S., Zelinsky, G., ... & Hoai, M. (2020). Predicting goal-directed human attention using inverse reinforcement learning. In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition (pp. 193-202). [Nishiyasu+, CVPRW’24] Takumi Nishiyasu and Yoichi Sato. Gaze Scanpath Transformer: Predicting Visual Search Target by Spatiotemporal Semantic Modeling of Gaze Scanpath. 6th international workshop on gaze estimation and prediction in the wild in conjunction with CVPR2024. 2024. [Poleg+, ACCV’14] Poleg, Y., Arora, C., & Peleg, S. (2015). Head motion signatures from egocentric videos. In Computer Vision--ACCV 2014: 12th Asian Conference on Computer Vision, Singapore, Singapore, November 1-5, 2014, Revised Selected Papers, Part III 12 (pp. 315-329). Springer International Publishing. [Bandini+, PAMI’20] Bandini, A., & Zariffa, J. (2020). Analysis of the hands in egocentric vision: A survey. IEEE transactions on pattern analysis and machine intelligence, 45(6), 6846-6866. [Ohkawa+, CVPR’23] Ohkawa, T., He, K., Sener, F., Hodan, T., Tran, L., & Keskin, C. (2023). AssemblyHands: Towards egocentric activity understanding via 3d hand pose estimation. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (pp. 12999-13008). [Li+, CVPR’23] Li, J., Liu, K., & Wu, J. (2023). Ego-body pose estimation via ego-head pose estimation. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (pp. 17142-17151). 78

参考文献 [Grauman+, CVPR’22] Grauman, K., Westbury, A., Byrne, E., Chavis,
Z., Furnari, A., Girdhar, R., ... & Malik, J. (2022). Ego4d: Around the world in 3,000 hours of egocentric video. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (pp. 18995-19012). [Zhang+. UIST’17] Zhang, X., Sugano, Y., & Bulling, A. (2017, October). Everyday eye contact detection using unsupervised gaze target discovery. In Proceedings of the 30th annual ACM symposium on user interface software and technology (pp. 193-203). [Cheng+, NeurIPS’23] Cheng, T., Shan, D., Hassen, A., Higgins, R., & Fouhey, D. (2023). Towards a richer 2d understanding of hands at scale. Advances in Neural Information Processing Systems, 36, 30453-30465. [Yagi+, IUI’21] Yagi, T., Nishiyasu, T., Kawasaki, K., Matsuki, M., & Sato, Y. (2021, April). GO-finder: a registration-free wearable system for assisting users in finding lost objects via hand-held object discovery. In 26th International Conference on Intelligent User Interfaces (pp. 139-149). [Goyal+, CVPR’22] Goyal, M., Modi, S., Goyal, R., & Gupta, S. (2022). Human hands as probes for interactive object understanding. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (pp. 3293-3303). [Bansal+, ECCV’22] Bansal, S., Arora, C., & Jawahar, C. V. (2022, October). My view is the best view: Procedure learning from egocentric videos. In European Conference on Computer Vision (pp. 657-675). Cham: Springer Nature Switzerland. [Yagi+, ArXiv’24] Yagi, T., Ohashi, M., Huang, Y., Furuta, R., Adachi, S., Mitsuyama, T., & Sato, Y. (2024). FineBio: A Fine-Grained Video Dataset of Biological Experiments with Hierarchical Annotation. arXiv preprint arXiv:2402.00293. [Damen+, ECCV’18] Damen, D., Doughty, H., Farinella, G. M., Fidler, S., Furnari, A., Kazakos, E., ... & Wray, M. (2018). Scaling egocentric vision: The epic-kitchens dataset. In Proceedings of the European conference on computer vision (ECCV) (pp. 720-736). [Damen+, IJCV’22] Damen, D., Doughty, H., Farinella, G. M., Furnari, A., Kazakos, E., Ma, J., ... & Wray, M. (2022). Rescaling egocentric vision: Collection, pipeline and challenges for epic-kitchens-100. International Journal of Computer Vision, 1-23. [Grauman+, CVPR’24] Grauman, K., Westbury, A., Torresani, L., Kitani, K., Malik, J., Afouras, T., ... & Wray, M. (2023). Ego-exo4d: Understanding skilled human activity from first-and third-person perspectives. CVPR 2024. [Darkhalil+, NeurIPS’22] Darkhalil, A., Shan, D., Zhu, B., Ma, J., Kar, A., Higgins, R., ... & Damen, D. (2022). Epic-kitchens visor benchmark: Video segmentations and object relations. Advances in Neural Information Processing Systems, 35, 13745-13758. [Huh+ ICASSP’23] Huh, J., Chalk, J., Kazakos, E., Damen, D., & Zisserman, A. (2023, June). Epic-sounds: A large-scale dataset of actions that sound. In ICASSP 2023-2023 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) (pp. 1-5). IEEE. [Dunnhofer+, IJCV’23] Dunnhofer, M., Furnari, A., Farinella, G. M., & Micheloni, C. (2023). Visual object tracking in first person vision. International Journal of Computer Vision, 131(1), 259-283. [Zhao+, CVPR’23] Zhao, Y., Misra, I., Krähenbühl, P., & Girdhar, R. (2023). Learning video representations from large language models. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (pp. 6586-6597). [Zhu+, ICCV’23] Zhu, C., Xiao, F., Alvarado, A., Babaei, Y., Hu, J., El-Mohri, H., ... & Yan, Z. (2023). Egoobjects: A large-scale egocentric dataset for fine-grained object understanding. In Proceedings of the IEEE/CVF International Conference on Computer Vision (pp. 20110-20120). 79

参考文献 [Li+, CVPR’24] Li, G., Zhao, K., Zhang, S., Lyu,
X., Dusmanu, M., Zhang, Y., ... & Tang, S. (2024). EgoGen: An Egocentric Synthetic Data Generator. CVPR2024. [Sener+, CVPR’22] Sener, F., Chatterjee, D., Shelepov, D., He, K., Singhania, D., Wang, R., & Yao, A. (2022). Assembly101: A large-scale multi-view video dataset for understanding procedural activities. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (pp. 21096-21106). [Zhu+, CVPR’24] Huang, Y., Chen, G., Xu, J., Zhang, M., Yang, L., Pei, B., ... & Qiao, Y. (2024). EgoExoLearn: A Dataset for Bridging Asynchronous Ego-and Exo-centric View of Procedural Activities in Real World. CVPR2024. [Kurita+, ICCV’23] Kurita, S., Katsura, N., & Onami, E. (2023). Refego: Referring expression comprehension dataset from first-person perception of ego4d. In Proceedings of the IEEE/CVF International Conference on Computer Vision (pp. 15214-15224). [Jia+, NeurIPS’22] Jia, B., Lei, T., Zhu, S. C., & Huang, S. (2022). Egotaskqa: Understanding human tasks in egocentric videos. Advances in Neural Information Processing Systems, 35, 3343-3360. [Mangalam+, NeurIPS’24] Mangalam, K., Akshulakov, R., & Malik, J. (2024). Egoschema: A diagnostic benchmark for very long-form video language understanding. Advances in Neural Information Processing Systems, 36. [Damen+, BMVC’14] Damen, D., Leelasawassuk, T., Haines, O., Calway, A., & Mayol-Cuevas, W. W. (2014, September). You-Do, I-Learn: Discovering Task Relevant Objects and their Modes of Interaction from Multi-User Egocentric Video. In BMVC (Vol. 2, p. 3). [Stanescu+, ISMAR’23] Stanescu, A., Mohr, P., Kozinski, M., Mori, S., Schmalstieg, D., & Kalkofen, D. (2023, October). State-Aware Configuration Detection for Augmented Reality Step-by-Step Tutorials. In 2023 IEEE International Symposium on Mixed and Augmented Reality (ISMAR) (pp. 157-166). IEEE. [Nair+, CoRL’22] Nair, S., Rajeswaran, A., Kumar, V., Finn, C., & Gupta, A. (2022, August). R3M: A Universal Visual Representation for Robot Manipulation. In 6th Annual Conference on Robot Learning. [Singh+, WACV’16] Singh, K. K., Fatahalian, K., & Efros, A. A. (2016, March). Krishnacam: Using a longitudinal, single-person, egocentric dataset for scene understanding tasks. In 2016 IEEE Winter Conference on Applications of Computer Vision (WACV) (pp. 1-9). IEEE. 80

一人称視点映像解析の基礎と応用（CVIMチュートリアル）

一人称視点映像解析の基礎と応用（CVIMチュートリアル）

More Decks by Takuma Yagi

Other Decks in Research

Featured

Transcript