Upgrade to Pro — share decks privately, control downloads, hide ads and more …

一人称視点映像解析の基礎と応用(CVIMチュートリアル)

 一人称視点映像解析の基礎と応用(CVIMチュートリアル)

CVIM2024年5月研究会 チュートリアル講演

Takuma Yagi

May 23, 2024
Tweet

Other Decks in Research

Transcript

  1. 八木 拓真(Takuma Yagi) 2 専門:人物行動・シーン理解のためのコンピュータビジョン → 特に一人称視点映像解析(身体に装着したカメラ映像の解析) 2023- 産業技術総合研究所 人工知能研究センター

    研究員 2022-23 東京大学 生産技術研究所 特任研究員 2022 博士(情報理工学)東京大学 2017 学士(工学)東京工業大学 LLM物体状態推定 MIRU’23,’24 手操作物体の追跡に 基づく物探し支援 IUI’21, TiiS’22 大規模一人称視点映像DB CVPR’22 Best Paper Finalist 人物位置の予測 CVPR’18 映像からの人物行動理解 シーン認識による行動支援 大規模映像データセットの構築 バイオ実験映像DB CVPRW’23
  2. 自己運動の使い方 自己運動は前景運動(身体の実際の動き)と背景運動(観測点が動くことによ る見かけ上の動き)に分けられる 目的に応じて前景・背景運動を分けて利用することで、行動認識などの精度の 向上につなげられる 26 3次元軌跡・マップを取得したい →SLAM・VO (Visual Odometry)を利用

    動きを分類・認識に利用したい →オプティカルフローから特徴抽出 自己運動の影響を省きたい →前景以外の平均運動ベクトルを引く 特徴点の追跡 見かけ上の運動 前景運動 CNN オプティカルフロー ワールド上の 6Dカメラ姿勢
  3. 一人称視点映像解析のタスク 30 自己の理解 他者の理解 環境・時空間構造の理解 装着者自身の行動/状態の理解 • 行動・物体検索 • 自己姿勢推定

    • 将来行動予測 • 視線推定 装着者が観察する人の行動の理解 • 発話予測 • アイコンタクト予測 • 他者との位置関係の予測 • 共同注意の認識 • 表情認識 装着者を含めた環境や構造の理解 • 3次元地図の作成 • 操作物体検出 • アフォーダンス認識 • 手順認識 • シーン状態の認識
  4. 自己の理解:映像-テキスト検索 [Lin+, NeurIPS’22] 31 EgoVLP (Video-Language Pretraining) 数秒間の映像とその説明文(ナ レーション)との間の対照学習 より詳細な差を区別するため、

    別の場面で行われた同一行動 (例:ベッドで寝ながら/外を 歩きながらスマホを解除する) に対して明示的にペナルティを 与えるEgoNCEを提案 学習した特徴は複数下流タスク に流用可能 コード: https://github.com/showlab/EgoVLP テキストから映像の検索 (text-to-video) EgoNCEの損失項
  5. ベンチマークタスク 過去・現在・未来の理解をカ バーする5つのタスクを用意 アノテーション総所要時間 25万時間超→FAIRリソースの恩恵 各タスクについてベースライン モデルとその結果を提供、チャ レンジ開催 49 過去

    エピソード記憶 「私のXはどこ?」 現在 手&物体 「私は今どのように何をしている?」 音声-視覚話者分離 「誰がいつ何をしゃべったか?」 社会的インタラクション 「誰が誰に注意を向けている?」 将来予測 「私は次に何をする?」 未来 [Grauman+, CVPR’22] より引用・翻訳
  6. 基底アノテーション タスク非依存の教師情報として3種類 の異なる言語アノテーションを付与 1) Expert commentary そのタスクのエキスパート(コーチ、 先生、線専門家)が身体の動きとタ スクの成否の説明を提供 2)

    Narrate-and-act descriptions 行為者自身による実況 なぜ(why)どのように(how)そ の行動を行ったかを説明 3) Atomic action descriptions 第三者による説明 1つ1つの単位行動について行為者が 何(what)をしたかを説明 58 ナレーションの例
  7. その他のデータセット Assembly101 [Sener+, CVPR’22] おもちゃの模型の組立に関する多視点映像データセット タスク:詳細な組立作業の認識、手順間違いの検出など EgoExoLearn [Zhu+, ICCV’23] 一人称視点から撮影された多種多様な物体データセット

    368カテゴリ、14.4K インスタンス、114Kフレーム RefEgo [Kurita+, ICCV’23] テキストによる主観視点動画からの物体追跡 EgoTaskQA [Jia+, NeurIPS’22] (i) 行動の依存関係 (ii) 人の意図と目標 (3) 他者の信念などの要素を含むQA EgoSchema [Mangalam+, NeurIPS‘24] 数分間の映像全ての情報を使用しないと答えられない多肢QA GPT-4oの検証でも採用 65 既存の資産を生かしつつより高度な行動・環境理解のためのベンチマークが多数登場
  8. 一人称視点映像解析の今後 視線 手操作 全身姿勢・運動 発話・注意 力覚・触覚 74 眼に直接見えるものを超えた人間中心のコンピュータビジョンへ 画像信号以外の高次の入力 事物の分類を超えた高次の出力

    技能・熟練度 巧みな操作 他者への教示・支援 習慣 3次元デジタルツイン 物体の内部状態 (物理状態・構造) コミュニケーションの促進
  9. 参考文献 [Bush, ‘45] Bush, V. (1945). As we may think.

    The atlantic monthly, 176(1), 101-108. [Ohnishi+, CVPR’16] Ohnishi, K., Kanehira, A., Kanezaki, A., & Harada, T. (2016). Recognizing activities of daily living with a wrist-mounted camera. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (pp. 3103-3111). [Held & Hein, ‘63] Held, R., & Hein, A. (1963). Movement-produced stimulation in the development of visually guided behavior. Journal of comparative and physiological psychology, 56(5), 872. [Jayaraman & Grauman, ICCV’15] Jayaraman, D., & Grauman, K. (2015). Learning image representations tied to ego-motion. In Proceedings of the IEEE International Conference on Computer Vision (pp. 1413-1421). [Huang+, ECCV’18] Y. Huang, M. Cai, Z. Li and Y. Sato, "Predicting Gaze in Egocentric Video by Learning Task-dependent Attention Transition," European Conference on Computer Vision (ECCV), 2018. [Zhou+, CVPR’17] Zhou, T., Brown, M., Snavely, N., & Lowe, D. G. (2017). Unsupervised learning of depth and ego-motion from video. In Proceedings of the IEEE conference on computer vision and pattern recognition (pp. 1851-1858). [Zimmermann+, ICCV’17] Zimmermann, C., & Brox, T. (2017). Learning to estimate 3d hand pose from single rgb images. In Proceedings of the IEEE international conference on computer vision (pp. 4903-4911). [Tsukada+, ICCVW’11] Tsukada, A., Shino, M., Devyver, M., & Kanade, T. (2011, November). Illumination-free gaze estimation method for first-person vision wearable device. In 2011 IEEE International Conference on Computer Vision Workshops (ICCV Workshops) (pp. 2084-2091). IEEE. [Yarbus, ‘67] Yarbus, A. L. Eye Movements and Vision. Plenum. New York. 1967 (Originally published in Russian 1962) [Huang+, ECCV’18] Huang, Y., Cai, M., Li, Z., & Sato, Y. (2018). Predicting gaze in egocentric video by learning task-dependent attention transition. In Proceedings of the European conference on computer vision (ECCV) (pp. 754-769). [Yang+, CVPR’20] Yang, Z., Huang, L., Chen, Y., Wei, Z., Ahn, S., Zelinsky, G., ... & Hoai, M. (2020). Predicting goal-directed human attention using inverse reinforcement learning. In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition (pp. 193-202). [Nishiyasu+, CVPRW’24] Takumi Nishiyasu and Yoichi Sato. Gaze Scanpath Transformer: Predicting Visual Search Target by Spatiotemporal Semantic Modeling of Gaze Scanpath. 6th international workshop on gaze estimation and prediction in the wild in conjunction with CVPR2024. 2024. [Poleg+, ACCV’14] Poleg, Y., Arora, C., & Peleg, S. (2015). Head motion signatures from egocentric videos. In Computer Vision--ACCV 2014: 12th Asian Conference on Computer Vision, Singapore, Singapore, November 1-5, 2014, Revised Selected Papers, Part III 12 (pp. 315-329). Springer International Publishing. [Bandini+, PAMI’20] Bandini, A., & Zariffa, J. (2020). Analysis of the hands in egocentric vision: A survey. IEEE transactions on pattern analysis and machine intelligence, 45(6), 6846-6866. [Ohkawa+, CVPR’23] Ohkawa, T., He, K., Sener, F., Hodan, T., Tran, L., & Keskin, C. (2023). AssemblyHands: Towards egocentric activity understanding via 3d hand pose estimation. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (pp. 12999-13008). [Li+, CVPR’23] Li, J., Liu, K., & Wu, J. (2023). Ego-body pose estimation via ego-head pose estimation. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (pp. 17142-17151). 78
  10. 参考文献 [Grauman+, CVPR’22] Grauman, K., Westbury, A., Byrne, E., Chavis,

    Z., Furnari, A., Girdhar, R., ... & Malik, J. (2022). Ego4d: Around the world in 3,000 hours of egocentric video. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (pp. 18995-19012). [Zhang+. UIST’17] Zhang, X., Sugano, Y., & Bulling, A. (2017, October). Everyday eye contact detection using unsupervised gaze target discovery. In Proceedings of the 30th annual ACM symposium on user interface software and technology (pp. 193-203). [Cheng+, NeurIPS’23] Cheng, T., Shan, D., Hassen, A., Higgins, R., & Fouhey, D. (2023). Towards a richer 2d understanding of hands at scale. Advances in Neural Information Processing Systems, 36, 30453-30465. [Yagi+, IUI’21] Yagi, T., Nishiyasu, T., Kawasaki, K., Matsuki, M., & Sato, Y. (2021, April). GO-finder: a registration-free wearable system for assisting users in finding lost objects via hand-held object discovery. In 26th International Conference on Intelligent User Interfaces (pp. 139-149). [Goyal+, CVPR’22] Goyal, M., Modi, S., Goyal, R., & Gupta, S. (2022). Human hands as probes for interactive object understanding. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (pp. 3293-3303). [Bansal+, ECCV’22] Bansal, S., Arora, C., & Jawahar, C. V. (2022, October). My view is the best view: Procedure learning from egocentric videos. In European Conference on Computer Vision (pp. 657-675). Cham: Springer Nature Switzerland. [Yagi+, ArXiv’24] Yagi, T., Ohashi, M., Huang, Y., Furuta, R., Adachi, S., Mitsuyama, T., & Sato, Y. (2024). FineBio: A Fine-Grained Video Dataset of Biological Experiments with Hierarchical Annotation. arXiv preprint arXiv:2402.00293. [Damen+, ECCV’18] Damen, D., Doughty, H., Farinella, G. M., Fidler, S., Furnari, A., Kazakos, E., ... & Wray, M. (2018). Scaling egocentric vision: The epic-kitchens dataset. In Proceedings of the European conference on computer vision (ECCV) (pp. 720-736). [Damen+, IJCV’22] Damen, D., Doughty, H., Farinella, G. M., Furnari, A., Kazakos, E., Ma, J., ... & Wray, M. (2022). Rescaling egocentric vision: Collection, pipeline and challenges for epic-kitchens-100. International Journal of Computer Vision, 1-23. [Grauman+, CVPR’24] Grauman, K., Westbury, A., Torresani, L., Kitani, K., Malik, J., Afouras, T., ... & Wray, M. (2023). Ego-exo4d: Understanding skilled human activity from first-and third-person perspectives. CVPR 2024. [Darkhalil+, NeurIPS’22] Darkhalil, A., Shan, D., Zhu, B., Ma, J., Kar, A., Higgins, R., ... & Damen, D. (2022). Epic-kitchens visor benchmark: Video segmentations and object relations. Advances in Neural Information Processing Systems, 35, 13745-13758. [Huh+ ICASSP’23] Huh, J., Chalk, J., Kazakos, E., Damen, D., & Zisserman, A. (2023, June). Epic-sounds: A large-scale dataset of actions that sound. In ICASSP 2023-2023 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) (pp. 1-5). IEEE. [Dunnhofer+, IJCV’23] Dunnhofer, M., Furnari, A., Farinella, G. M., & Micheloni, C. (2023). Visual object tracking in first person vision. International Journal of Computer Vision, 131(1), 259-283. [Zhao+, CVPR’23] Zhao, Y., Misra, I., Krähenbühl, P., & Girdhar, R. (2023). Learning video representations from large language models. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (pp. 6586-6597). [Zhu+, ICCV’23] Zhu, C., Xiao, F., Alvarado, A., Babaei, Y., Hu, J., El-Mohri, H., ... & Yan, Z. (2023). Egoobjects: A large-scale egocentric dataset for fine-grained object understanding. In Proceedings of the IEEE/CVF International Conference on Computer Vision (pp. 20110-20120). 79
  11. 参考文献 [Li+, CVPR’24] Li, G., Zhao, K., Zhang, S., Lyu,

    X., Dusmanu, M., Zhang, Y., ... & Tang, S. (2024). EgoGen: An Egocentric Synthetic Data Generator. CVPR2024. [Sener+, CVPR’22] Sener, F., Chatterjee, D., Shelepov, D., He, K., Singhania, D., Wang, R., & Yao, A. (2022). Assembly101: A large-scale multi-view video dataset for understanding procedural activities. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (pp. 21096-21106). [Zhu+, CVPR’24] Huang, Y., Chen, G., Xu, J., Zhang, M., Yang, L., Pei, B., ... & Qiao, Y. (2024). EgoExoLearn: A Dataset for Bridging Asynchronous Ego-and Exo-centric View of Procedural Activities in Real World. CVPR2024. [Kurita+, ICCV’23] Kurita, S., Katsura, N., & Onami, E. (2023). Refego: Referring expression comprehension dataset from first-person perception of ego4d. In Proceedings of the IEEE/CVF International Conference on Computer Vision (pp. 15214-15224). [Jia+, NeurIPS’22] Jia, B., Lei, T., Zhu, S. C., & Huang, S. (2022). Egotaskqa: Understanding human tasks in egocentric videos. Advances in Neural Information Processing Systems, 35, 3343-3360. [Mangalam+, NeurIPS’24] Mangalam, K., Akshulakov, R., & Malik, J. (2024). Egoschema: A diagnostic benchmark for very long-form video language understanding. Advances in Neural Information Processing Systems, 36. [Damen+, BMVC’14] Damen, D., Leelasawassuk, T., Haines, O., Calway, A., & Mayol-Cuevas, W. W. (2014, September). You-Do, I-Learn: Discovering Task Relevant Objects and their Modes of Interaction from Multi-User Egocentric Video. In BMVC (Vol. 2, p. 3). [Stanescu+, ISMAR’23] Stanescu, A., Mohr, P., Kozinski, M., Mori, S., Schmalstieg, D., & Kalkofen, D. (2023, October). State-Aware Configuration Detection for Augmented Reality Step-by-Step Tutorials. In 2023 IEEE International Symposium on Mixed and Augmented Reality (ISMAR) (pp. 157-166). IEEE. [Nair+, CoRL’22] Nair, S., Rajeswaran, A., Kumar, V., Finn, C., & Gupta, A. (2022, August). R3M: A Universal Visual Representation for Robot Manipulation. In 6th Annual Conference on Robot Learning. [Singh+, WACV’16] Singh, K. K., Fatahalian, K., & Efros, A. A. (2016, March). Krishnacam: Using a longitudinal, single-person, egocentric dataset for scene understanding tasks. In 2016 IEEE Winter Conference on Applications of Computer Vision (WACV) (pp. 1-9). IEEE. 80