Upgrade to Pro — share decks privately, control downloads, hide ads and more …

SSII2024 [OS1] 画像認識におけるモデル・データの共進化

SSII2024 [OS1] 画像認識におけるモデル・データの共進化

More Decks by 画像センシングシンポジウム

Other Decks in Research

Transcript

  1. 講演概要 【1-12 / 25連発】動画認識・⼈物⾏動解析 (2009 – 現在) p プロジェクト︓単眼カメラによるリアルタイム複数選⼿追跡,交通シーンにおける⼈物検出と追跡,産業応⽤タスクにおける詳細⾏動認識, 屋内外シーンでの⼈物⾏動予測,交通ニアミスデータ構築による危険シーン検出および予測,時空間3D畳み込みネットの開発

    p 主な論⽂︓CVPR 2018 x2, ICRA 2018, WACV 2021, ECCV 2016 Workshop p 主な業績︓慶應義塾⼤学 藤原賞 2014, ECCV 2016 Workshop Brave New Idea, AIST Best Paper 2019FY, 2012FY 電気学会論⽂奨励賞, CVPR 引⽤数上位0.5%(3D ResNet) p プロジェクト︓数式ドリブン教師あり学習,ボケをかますAI,世界規模の位置情報付き⼈物画像収集と解析 p 論⽂︓IJCV, CVPR 2022 x2, CVPR 2023, ICCV 2023 x2, IROS 2021, AAAI 2022, BMVC 2023 (Oral) p 主な業績︓ACCV 2020 Best Paper Honorable Mention, AIST Best Paper 2022FY, MIRU 2017 学⽣奨励賞 【13-21 / 25連発】データセット構築・視覚的事前学習 (2016 – 現在) p プロジェクト︓合成データセットによる変化シーン検出・説明,距離場を⽤いたNeRF,著作権保護を考慮したDiffusion Model,マルチ モーダルFDSL p 論⽂︓ICCV 2021, ECCV 2022, CVPR 2023, CVPR 2024 【22-25 / 25連発】視覚・⾔語 / ⽣成AI (2020 – 現在) 30+の学術雑誌, 80+の査読あり国際会議論⽂から厳選
  2. 【1/25】Football Players and Ball Trajectories Projection from Single Camera’s Image

    Author︓Hirokatsu Kataoka, Yoshimitsu Aoki Conference︓Korea-Japan Joint Workshop on Frontiers of Computer Vision (FCV), 2011 p単眼カメラからの複数選⼿追跡 p Color-based Particle Filterによる個⼈選⼿追跡 p 遮蔽発⽣時には選⼿検出と速度考慮による重⼼再配置 p 選⼿の相対的な位置関係や前のフレームの速度を考慮 リアルタイム複数選⼿追跡(20fps) とグローバル位置推定 ボロノイ図による ⽀配領域可視化 Homographyによる⿃瞰図⽣成 複数⼈物追跡と遮蔽判定 選⼿の速度・シーン認識
  3. 【2/25】Extended Feature Descriptor and Vehicle Motion Model with Tracking-by- detection

    for Pedestrian Active Safety Author︓Hirokatsu Kataoka, Kimimasa Tamura, Yasuhiro Matsui, Yoshimitsu Aoki Conference︓IEICE Trans. On Information and Systems, 2014 p共起勾配特徴CoHOGによる歩⾏者検出と歩⾏者追跡 p共起特徴 + 識別器による歩⾏者検出 pTracking-by-detectionに⾞両運動モデルや識別器を適⽤ ⾶出し⾏動 歩道を移動 「⾶出し」前の特徴変化 実世界の複雑背景・動的物体検出および追跡が可能な枠組み
  4. 【3/25】 Extended Co-occurrence HOG with Dense Trajectories for Fine- grained

    Activity Recognition Author:Hirokatsu Kataoka, Kiyoshi Hashimoto, Kenji Iwata, Yutaka Satoh, Nassir Navab, Slobodan Ilic, Yoshimitsu Aoki Conference:Asian Conference on Computer Vision (ACCV), 2014 p密な動画特徴抽出による⼈物⾏動認識 pDenseTraj.: フロー検出と形状・動き特徴サンプリング p作業現場など詳細⾏動認識向けに共起特徴量を適⽤ ӈखɾࠨखͱ͍͏ҟͳ Δಈ࡞୯Ґʹލͬͯ ಛ௃நग़͞Ε͍ͯΔྫ ࣮ར༻࣌ʹൃੜ͢Δਓ෺ͷৄࡉߦಈೝࣝʹΑΓ࢈ۀԠ༻֦େ
  5. 【4/25】⼈を観る技術の先端的研究 Author︓⽚岡裕雄 Conference︓ 画像センシングシンポジウム(SSII 2015) 新鋭研究者スポットライトセッション pDBの事前解析により⼈物⾏動予測 p⾏動の流れから次に何の⾏動が⽣起するかを事前に解析 p知識(DB)と観測(⾏動認識)による相互改善 ???

    Daytime (Time Zone) Walking (Previous Activity) Sitting (Current Activity) ??? (Next Activity) xtimezone xprevious xcurrent θ = “Using a PC” Given Not given Time series ⾏動履歴DB ஝ੵσʔλ͔ΒͷϚΠχϯάͰߦಈͷҙਤ΍श׳౳Λೝࣝɾ༧ଌ
  6. 【5/25】Recognition of Transitional Action for Short-Term Action Prediction using Discriminative

    Temporal CNN Feature Author︓Hirokatsu Kataoka, Yudai Miyashita, Masaki Hayashi, Kenji Iwata, Yutaka Satoh Conference︓British Machine Vision Conference (BMVC), 2016 p遷移⾏動認識の提案︓⾏動予測のヒントを認識する p交通シーン︓従来は横断中認識するが提案は⽅向転換時点で横断予測 p微細な⾏動特徴を捉える特徴量(SMD: Subtle Motion Descriptor)の提案 Δt 【提案】遷移⾏動認識による短期 ⾏動予測(横断をt5で予測) 【従来】早期⾏動認 (横断をt9で予測) Walk straight (Action) Cross (Action) Walk straight – Cross (Transitional action) t1 t2 t3 t4 t5 t6 t7 t8 t9 t10 t11 t12 従来不安定・低精度だった⾏動予測を⾼確度・⾼性能で実⾏ SMD: 特徴ベクトルの時間差分と量⼦化
  7. 【6/25】Human Action Recognition without Human Author︓Yun He, Soma Shirakabe, Yutaka

    Satoh, Hirokatsu Kataoka Conference︓ECCV 2016 Workshop, 2016 (Brave New Idea Award) p⼈を⾒なくても⼈物⾏動は認識されてしまう p背景領域のみでも100カテゴリを約50%正答(Chace rate: 1.0%) p⼈物領域よりも⽐較的⼤きい背景領域から⾒てしまう Tennis Swing Motion Descriptor Tennis Swing? Motion Descriptor 動画認識における深層学習の背景依存性を浮き彫りにした 動画の中央領域を隠した状態で動画認識モデル学習 (RGB・フロー動画を⼊⼒)
  8. 【7/25】Unsupervised Out-of-context Action Understanding Author:Hirokatsu Kataoka, Yutaka Satoh Conference:International Conference

    on Robotics Automation (ICRA), 2019 p背景依存性を逆⼿に取りコンテキストの教師なし学習 p 野球場でバットを振るのは正常,台所でバットを振るのは異常 p 異常⾏動が外れ値になることを利⽤して異常ラベルを抽出 ⼈物⾏動・画像背景のミスマッチから教師ラベル⽣成
  9. 【8/25】Drive Video Analysis for the Detection of Traffic Near-Miss Incidents

    Author︓Hirokatsu Kataoka, Teppei Suzuki, Shoko Oikawa, Yasuhiro Matsui, Yutaka Satoh Conference︓IEEE International Conference on Robotics and Automation (ICRA), 2018 p世界初の動画像認識による⼤規模ニアミスDB p⼈間に迫る認識精度の深層学習モデルを実現(提案 64.5 vs. ⼈間 68.4) 6,200+ videos, 1,300,000+ images, 7 near-miss/bg categories # イメージ図 NIDB Near-Miss Incident DB 交通シーンにおいて直接的に危険検出可能にしたデータセット DenseTraj. と深層学習特徴の合わせ技で認識
  10. 【9/25】Anticipating Traffic Accidents with Adaptive Loss and Large-scale Incident DB

    Author︓Tomoyuki Suzuki*, Hirokatsu Kataoka*, Yoshimitsu Aoki, Yutaka Satoh Conference︓IEEE/CVF International Conferences on Computer Vision and Pattern Recognition (CVPR) p交通事故を予測して可能な限り早期予測 pNIDBにいつ危険が起こるかを追加ラベル付 p学習進度に応じて時間軸に重みを調整する誤差(AdaLEA)を提案 事故/ニアミス区間 できる限り早期に予測したい︕ (予測する時間軸が⼿前であるほどよい) 対象物体の座標,区間をラベル付
  11. 【10/25】Can Spatiotemporal 3D CNNs Retrace the History of 2D CNNs

    and ImageNet? Author︓Kensho Hara, Hirokatsu Kataoka, Yutaka Satoh Conference︓IEEE/CVF International Conferences on Computer Vision and Pattern Recognition (CVPR), 2018 (AIST Best Paper 2019FY, CVPR 引⽤数上 位0.5%; 8840論⽂中の第47位) p動画数が⼗分なら動画認識には3D畳み込みが有効と実証 p当時の動画深層学習には2D畳み込みの認識結果を時間軸積分 p時空間3D認識でもResNetが152層まで精度向上することを世界初確認 3D畳み込み 3Dフィルタ 畳み込みマップ (3D) 識別 2D畳み込み 2Dフィルタ 畳み込みマップ (2D) 識別 動画認識のベースライン3D ResNetを世界に先駆け提案
  12. 【11/25】Would mega-scale datasets further enhance spatiotemporal 3D CNNs? Author︓Hirokatsu Kataoka,

    Tenga Wakamiya, Kensho Hara, Yutaka Satoh Conference︓ arXiv pre-print:2004.04968 p動画データを4倍(130万動画)にして3D ResNetの性能最⼤化 ResNet-200まで精度向上 データ効率も約3倍 従来データは学習困難 動画認識は事前学習データ次第でさらに性能向上
  13. 【12/25】Alleviating Over-segmentation Errors by Detecting Action Boundaries Author︓Yuchi Ishikawa, Seito

    Kasai, Yoshimitsu Aoki, Hirokatsu Kataoka Conference︓Winter Conference on Applications of Computer Vision (WACV), 2021 pAction Segmention(⾏動開始•終了を正答)の効果的な⼿法を提案 p ⾏動認識器と⾏動変化点認識器の結果を統合して最終結果を獲得 ⾏動セグメンテーションでは変わり⽬を特定する⼿法が⾼効果 変わり⽬を特定
  14. 【13/25】 Dynamic Fashion Cultures Author︓Kaori Abe, Teppei Suzuki, Shunya Ueta,

    Akio Nakamura, Yutaka Satoh, Hirokatsu Kataoka Conference︓ MIRU 2017 (Oral, Best Student Paper) p世界のファッショントレンドを予測するFCDBFashion Culture Database 提案 pSNSから世界21都市, 時間・位置・⼈物枠情報付きのデータ取得 p時間軸ごとにファッションの傾向解析 ⼤規模データにより世界規模のトレンドを解析可能 スポーツトレンド・アニメキャラ の出現も抽出
  15. 【14/25】Neural Joking Machine: An image captioning for a humor Author︓Kota

    Yoshida, Munetaka Minoguchi, Kenichiro Wani, Akio Nakamura, Hirokatsu Kataoka Conference︓CVPR 2018 Workshop on Language and Vision pボケをかますAI “Neural Joking Machine” の誕⽣ p ⼤喜利WEBサイト「ボケて」を師匠に修⾏ (BoketeDB構築) p 師匠からのフィードバックを Funny Score (⾮線形な誤差関数)として学習 「この⼦、私のこ と好きなんですけ ど」 「この中に⼀⼈だけ男がいます。」 ⽇本の「お笑い」はAIに実装可能であることを実証
  16. 【15/25】 Pre-training without Natural Images Author︓Hirokatsu Kataoka, Kazushige Okayasu, Asato

    Matsumoto, Eisuke Yamagata, Ryosuke Yamada, Nakamasa Inoue, Akio Nakamura, Yutaka Satoh Conference︓Asian Conference on Computer Vision (ACCV), 2020 (ACCV 2020 Best Paper Honorable Mention, AIST Best Paper FY2022) p数式ドリブン教師あり学習(FDSL)の提案 pフラクタル幾何から画像と教師ラベルを同時⽣成 p⼈間による教師ラベル付付与・実画像を⼀切⽤いず事前学習に成功 実画像なしに画像認識の事前学習が完結
  17. 【16/25】Replacing Labeled Real-image Datasets with Auto-generated Contours Author︓Hirokatsu Kataoka, Ryo

    Hayamizu, Ryosuke Yamada, Kodai Nakashima, Sora Takashima, Xinyu Zhang, Edgar Josafat M.-N., Nakamasa Inoue, Rio Yokota Conference︓IEEE/CVF International Conference on Computer Vision and Pattern Recognition (CVPR), 2022 p画像事前学習タスクは輪郭形状の識別が重要と証明 p 画像中に輪郭成分のみを含む放射輪郭画像を実装 ⼀般物体認識の性能 ImageNet における精度 81.8% 82.7% 82.4% 実画像: ImageNet-21k ExFractalDB-21k 放射輪郭画像: RCDB-21k 数式駆動の学習データが実画像・⼈間教師を凌駕︕
  18. 【17/25】Visual Atoms: Pre-training Vision Transformers with Sinusoidal Waves Author︓Sora Takashima,

    Ryo Hayamizu, Nakamasa Inoue, Hirokatsu Kataoka, Rio Yokota Conference︓IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2023 p輪郭形状の複雑性・多様性を鍛えるとさらに⾼い事前学習効果 p 2種類の正弦波を組み合わせるのみで実装した VisualAtom フラクタル幾何以外でも⾼い事前学習効果は出せる
  19. 【18/25】Pre-training Vision Transformers with Very Limited Synthesized Images Author︓Ryo Nakamura*,

    Hirokatsu Kataoka*, Sora Takashima, Edgar Josafat Martinez Noriega, Rio Yokota, Nakamasa Inoue Conference︓International Conference on Computer Vision (ICCV), 2023 p 1,000枚の⼈⼯⽣成画像のみでVision Transformerを事前学習 p 従来は最⼤3億枚の実画像が必要 p さらにGPU計算量を75%程度削減 データ量を削減 しつつ精度向上 • カテゴリあたり1,000→1画像でOK • データ拡張に任せる⽅がデータの多様性向上 少量の計算・データ資源のみでも基盤モデル開発可能 Better
  20. 【19/25】SegRCDB: Semantic Segmentation via Formula-Driven Supervised Learning Author:Risa Shinoda, Ryo

    Hayamizu, Kodai Nakashima, Nakamasa Inoue, Rio Yokota, Hirokatsu Kataoka Conference:International Conference on Computer Vision (ICCV), 2023 pFDSL事前学習を領域分割タスクにも⽔平展開 p 適応先に応じて柔軟にパラメータ調整 p すでに実画像データよりも⾼い事前学習効果を記録 ަ௨/෺ྲྀࣗಈӡసɾϩϘοτɾҩྍͳͲͷ࢈ۀԠ༻Մೳ
  21. 【20/25】 Point Cloud Pre-training with Natural 3D Structures Author︓Ryosuke Yamada*,

    Hirokatsu Kataoka*, Naoya Chiba, Yukiyasu Domae Tetsuya Ogata Conference︓IEEE/CVF International Conference on Computer Vision and Pattern Recognition (CVPR), 2022 p3D物体認識向けにフラクタル事前学習を改良 p ⽣成関数を3Dに拡張, ⾼効率な3D点群事前学習を実現 収集困難な3Dデータを無数に⽣成可能, 提案当時最⾼精度記録
  22. 【21/25】Primitive Geometry Segment Pre-training for 3D Medical Image Segmentation Author︓Ryu

    Tadokoro, Ryosuke Yamada, Kodai Nakashima, Ryo Nakamura, Hirokatsu Kataoka Conference︓British Machine Vision Conference (BMVC), 2023 (Oral Presentation) p 3D医⽤画像セグメンテーション向けの事前学習タスク p シンプルな3D図形を⾃動⽣成・ランダム配置しつつラベル付与するのみ p 従来の実データ + ⾃⼰教師ラベルを上回る事前学習効果 Real Organ PrimGeoSeg 産業応⽤先の特性を踏まえつつ学習することが重要
  23. 【22/25】 Describing and Localizing Multiple Changes with Transformers Author︓Yue Qiu*,

    Shintaro Yamamoto*, Kodai Nakashima, Ryota Suzuki, Kenji Iwata, Hirokatsu Kataoka, Yutaka Satoh Conference︓International Conference on Computer Vision (ICCV), 2021 p Transformerによる時間変化シーンの詳細説明 p 変化・説明⽂向けのTransformerを実装 p 実シーンでも適⽤可能と実証 変化を捉え的確に説明するマルチモーダルモデルを実現
  24. 【23/25】 Neural Density-Distance Fields Author︓Itsuki Ueda, Yoshihiro Fukuhara, Hirokatsu Kataoka,

    Hiroaki Aizawa, Hidehiko Shishido, Itaru Kitahara Conference︓European Conference on Computer Vision (ECCV), 2022 p 密度場のみでなく, 距離場を⽤いたNeRF 距離場の利⽤により物体境界をより鮮明に捉える
  25. 【24/25】Watermark-embedded Adversarial Examples for Copyright Protection against Diffusion Models Author︓Peifei

    Zhu, Tsubasa Takahashi, Hirokatsu Kataoka Conference︓IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2024 p 画像⽣成AIに電⼦透かしを実装 p Diffusion Model 内で埋め込み画像とテキストを分解 著作権保護のDiffusion Modelが可能
  26. 【25/25】⼈⼯画像を⽤いた Text-to-Image モデルの事前学習 Author︓中尾純平, 磯沼⼤, ⽚岡裕雄, 森純⼀郎, 坂⽥⼀郎 Conference︓⾔語処理学会, 2024

    p FDSLの⽂脈で視覚・⾔語の事前学習⼿法を提案 p ⼈⼯⽣成画像と擬似キャプションベクトル⽣成とペアリング p フラクタル画像⽣成とCLIP埋め込みベクトル抽出が最適なペア マルチモーダル事前学習⼿法が認識/⽣成AIの機能獲得を強化
  27. まとめ p 本質を捉えた視覚モデル・視覚⾔語モデルの改善が重要 p 【6】⼈を⾒ない⼈物⾏動認識(ECCV 2016 Workshop Brave New Idea)

    p 【8,9】交通ニアミスデータセット(ICRA 2018, CVPR 2018) データの性質・認識タスクに応じてモデル・データを設計 Tennis Swing Motion Descriptor Tennis Swing? Motion Descriptor 6,200+ videos, 1,300,000+ images, 7 near-miss/bg categories # イメージ図 NIDB Near-Miss Incident DB
  28. まとめ p ⼈⼯⽣成データでも実データを超える⽅法はある p 【16】数式ドリブン教師あり学習でImageNet-21k超え(CVPR 2022) p 【19,20,21】領域分割・3D物体検出・医⽤画像でも同様(CVPR 2022, ICCV

    2023, BMVC 2023) ⽣成AIを⽤いた⽣成的事前学習は⼗分可能 (⽣成モデル⾃体が適応的なデータセットに柔軟変化) ⼀般物体認識の性能 ImageNet における精度 81.8% 82.7% 実画像: ImageNet-21k ExFractalDB-21k PrimGeoSeg