Slide 1

Slide 1 text

光学・物理原理に基づく深層画像生成 〜光学・物理モデルと深層学習の融合による自然な画像の生成〜 2024. 5. 28 金子 卓弘 (日本電信電話株式会社)

Slide 2

Slide 2 text

1 Copyright 2025 NTT CORPORATION 略歴 • 2014.03 東大 知能機械 下坂研 修士卒 • 2014.04 NTT コミュニケーション科学基礎研究所 入所 • 2020.04 特別研究員(管理職) 就任 新規テーマ立上げ 制御可能な画像生成 ACMMM2016, CVPR2017, CVPR2018 音声研究との出会い 音声合成・音声変換 ICASSP2017, Interspeech2017x2 EUSIPCO2018, ICASSP2019, Interspeech2019 機械学習・画像認識 • 2017.04 東大 知能機械 原田研 博士入学 • 2020.03 東大 博士修了 社会人博士 不完全データからの画像生成 CVPR2019, BMVC2019, CVPR2020, CVPR2021 光学・物理原理に基づく画像生成 CVPR2021, CVPR2022, ICCV2023, CVPR2024, CVPR2025 音声合成・音声変換 Interspeech2020, ICASSP2021, ICASSP2022, Interspeech2022, ICASSP2023, Interspeech2023, ICASSP2024, Interspeech2024, Interspeech2025x2

Slide 3

Slide 3 text

2 Copyright 2025 NTT CORPORATION 研究内容 深層生成モデルを用いた画像生成,音声合成・変換 音声合成 音声変換 CFGAN [CVPR2017] DTLC-GAN [CVPR2018] 制御可能な画像生成 AR-GAN [CVPR2021] CycleGAN-VC GAN-PF [ICASSP2017] [Interspeech2017] CycleGAN-VC [EUSIPCO2018] CycleGAN-VC2 [ICASSP2019] StarGAN-VC2 [Interspeech2019] CycleGAN-VC3 [Interspeech2020] MaskCycleGAN-VC [ICASSP2021] MISRNet [Interspeech2022] PAC-NeRF+LPO [CVPR2024] GAN-VC [Interspeech2017] iSTFTNet [ICASSP2022] [Interspeech2023] Wave-U-Net D [ICASSP2023] 光学・物理原理に基づく画像生成 研究紹介サイト: https://www.kecl.ntt.co.jp/people/kaneko.takuhiro/ †社会人博士@東京大学の研究成果 画像生成 音声合成・変換 AR-NeRF [CVPR2022] MIMO-NeRF [ICCV2023] AugCondD [ICASSP2024] FastVoiceGrad [Interspeech2024] rGAN† [CVPR2019] CP-GAN† [BMVC2019] NR-GAN† [CVPR2020] BNCR-GAN† [CVPR2021] 不完全データからの画像生成 SfC-NeRF [CVPR2025]

Slide 4

Slide 4 text

3 Copyright 2025 NTT CORPORATION 研究内容 深層生成モデルを用いた画像生成,音声合成・変換 音声合成 音声変換 CFGAN [CVPR2017] DTLC-GAN [CVPR2018] 制御可能な画像生成 AR-GAN [CVPR2021] CycleGAN-VC GAN-PF [ICASSP2017] [Interspeech2017] CycleGAN-VC [EUSIPCO2018] CycleGAN-VC2 [ICASSP2019] StarGAN-VC2 [Interspeech2019] CycleGAN-VC3 [Interspeech2020] MaskCycleGAN-VC [ICASSP2021] MISRNet [Interspeech2022] PAC-NeRF+LPO [CVPR2024] GAN-VC [Interspeech2017] iSTFTNet [ICASSP2022] [Interspeech2023] Wave-U-Net D [ICASSP2023] 光学・物理原理に基づく画像生成 研究紹介サイト: https://www.kecl.ntt.co.jp/people/kaneko.takuhiro/ †社会人博士@東京大学の研究成果 画像生成 音声合成・変換 AR-NeRF [CVPR2022] MIMO-NeRF [ICCV2023] AugCondD [ICASSP2024] FastVoiceGrad [Interspeech2024] rGAN† [CVPR2019] CP-GAN† [BMVC2019] NR-GAN† [CVPR2020] BNCR-GAN† [CVPR2021] 不完全データからの画像生成 SfC-NeRF [CVPR2025] 本日のトピック

Slide 5

Slide 5 text

4 Copyright 2025 NTT CORPORATION 研究背景 画像生成への期待の高まり • 近年の深層生成モデルの発展により高精細な画像の生成が可能に T. Karras et al., “Analyzing and Improving the Training Dynamics of Diffusion Models,” CVPR 2024. Q. 生成画像はどれ?

Slide 6

Slide 6 text

5 Copyright 2025 NTT CORPORATION 研究背景 画像生成への期待の高まり • 近年の深層生成モデルの発展により高精細な画像の生成が可能に T. Karras et al., “Analyzing and Improving the Training Dynamics of Diffusion Models,” CVPR 2024. A. 全部 by EDM2

Slide 7

Slide 7 text

6 Copyright 2025 NTT CORPORATION 研究背景 動画生成への期待の高まり • 近年では動画生成も商用レベルに › 例:OpenAI Sora, Google Veo 2, Kuaishou Kling, Luma Ray2, … Q. 生成動画はどれ? X. Peng et al., “Open-Sora 2.0: Training a Commercial-Level Video Generation Model in $200k,” arXiv 2025. 動画:https://github.com/hpcaitech/Open-Sora

Slide 8

Slide 8 text

7 Copyright 2025 NTT CORPORATION 研究背景 動画生成への期待の高まり • 近年では動画生成も商用レベルに › 例:OpenAI Sora, Google Veo 2, Kuaishou Kling, Luma Ray2, … X. Peng et al., “Open-Sora 2.0: Training a Commercial-Level Video Generation Model in $200k,” arXiv 2025. A. 全部 by Open-Sora 2.0 動画:https://github.com/hpcaitech/Open-Sora

Slide 9

Slide 9 text

8 Copyright 2025 NTT CORPORATION 研究課題 しかし、まだ難しいケースも多く存在 • 光学・物理的に自然な動画の生成にはまだ課題が存在 H. Bansal et al., “VideoPhy-2: A Challenging Action-Centric Physical Commonsense Evaluation in Video Generation,” arXiv 2025. Model: Wan2.1 Text Prompt: A small rock tumbles down a steep, rocky hillside, displacing soil and small stones. 重力を無視 Model: Hunyuan Text Prompt: A leaf blower is pointed at a patch of leaves on a lawn; the leaves are forcefully displaced in a specific direction. 運動量保存則を無視 Model: Sora Text Prompt: A canoeist uses a single-bladed paddle to propel their canoe across a lake, the paddle's movement visible against the still water. 反射を無視 動画:https://videophy2.github.io/

Slide 10

Slide 10 text

9 Copyright 2025 NTT CORPORATION 研究課題 しかし、まだ難しいケースも多く存在 • 挑戦的なデータセット(VideoPhy-2のHard Subset [Bansal+2025])では、 ベストなモデルを使ったとしてもヒトの基準を満たす動画は22%程度 H. Bansal et al., “VideoPhy-2: A Challenging Action-Centric Physical Commonsense Evaluation in Video Generation,” arXiv 2025. 人の基準を満たすのは~22% 保存則を満たすのが特に困難

Slide 11

Slide 11 text

10 Copyright 2025 NTT CORPORATION 研究課題 しかし、まだ難しいケースも多く存在 • 挑戦的なデータセット(VideoPhy-2のHard Subset [Bansal+2025])では、 ベストなモデルを使ったとしてもヒトの基準を満たす動画は22%程度 H. Bansal et al., “VideoPhy-2: A Challenging Action-Centric Physical Commonsense Evaluation in Video Generation,” arXiv 2025. 人の基準を満たすのは~22% 保存則を満たすのが特に困難 キーアイディア 光学・物理原理をモデルに導入しては?

Slide 12

Slide 12 text

11 Copyright 2025 NTT CORPORATION 研究アプローチ 代表的な2つのアプローチ • 光学・物理原理を陰に表現 or 陽に表現 陰に表現 DNNのみ モデル/データのスケールアップにより知識獲得 DNN 画像 学習 データ 陰に様々な光学・ 物理現象を含む スケールアップ スケールアップ 光学・物理モデルの事前設計が不要 大量の学習データが必要 対象現象に対する仮定が不要 モデルの解釈・制御が困難 ・いずれも一長一短あり ・ハイブリッド手法もあり

Slide 13

Slide 13 text

12 Copyright 2025 NTT CORPORATION 研究アプローチ 代表的な2つのアプローチ • 光学・物理原理を陰に表現 or 陽に表現 陰に表現 陽に表現 DNNのみ モデル/データのスケールアップにより知識獲得 DNN 画像 学習 データ 陰に様々な光学・ 物理現象を含む スケールアップ スケールアップ DNN + 光学・物理モデル 光学・物理原理に基づきDNNを制約 光学・物理モデルの事前設計が不要 大量の学習データが必要 対象現象に対する仮定が不要 モデルの解釈・制御が困難 光学・物理モデルの事前設計が必要 対象現象は光学・物理モデルに従う必要 ・いずれも一長一短あり ・ハイブリッド手法もあり DNN 画像 光学 物理 比較的少ない学習データで学習可能 モデルの解釈・制御が容易

Slide 14

Slide 14 text

13 Copyright 2025 NTT CORPORATION 研究アプローチ 代表的な2つのアプローチ • 光学・物理原理を陰に表現 or 陽に表現 陰に表現 陽に表現 DNNのみ モデル/データのスケールアップにより知識獲得 DNN 画像 学習 データ 陰に様々な光学・ 物理現象を含む スケールアップ スケールアップ DNN + 光学・物理モデル 光学・物理原理に基づきDNNを制約 光学・物理モデルの事前設計が不要 大量の学習データが必要 対象現象に対する仮定が不要 モデルの解釈・制御が困難 光学・物理モデルの事前設計が必要 対象現象は光学・物理モデルに従う必要 ・いずれも一長一短あり ・ハイブリッド手法もあり DNN 画像 光学 物理 比較的少ない学習データで学習可能 モデルの解釈・制御が容易 本日はこちらに フォーカス

Slide 15

Slide 15 text

14 Copyright 2025 NTT CORPORATION 目次 事前知識 • 光学原理に基づくモデル › Neural Radiance Fields (NeRF) › 3D Gaussian Splatting (3DGS) • 物理原理に基づくモデル › Material Point Method (MPM) メイントピック • 光学・物理原理に基づく画像生成 › Forward Engineering » 静止画 → ダイナミクスの生成 › Reverse Engineering » 動画 → 内部状態の推定 PhysGaussian PAC-NeRF 物理パラメータ • ヤング率 • ポアソン比 物理モデル 物理モデル

Slide 16

Slide 16 text

15 Copyright 2025 NTT CORPORATION 目次 事前知識 • 光学原理に基づくモデル › Neural Radiance Fields (NeRF) › 3D Gaussian Splatting (3DGS) • 物理原理に基づくモデル › Material Point Method (MPM) メイントピック • 光学・物理原理に基づく画像生成 › Forward Engineering » 静止画 → ダイナミクスの生成 › Reverse Engineering » 動画 → 内部状態の推定 PhysGaussian PAC-NeRF 物理パラメータ • ヤング率 • ポアソン比 物理モデル 物理モデル

Slide 17

Slide 17 text

16 Copyright 2025 NTT CORPORATION 光学に基づくモデル アプリケーション:新規画像生成 • 多視点画像から3次元表現を学習し、それに基づき画像を生成することで、 光学的・幾何的に整合性のある画像を生成 B. Mildenhall et al., “NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis,” ECCV 2020. 観測データ 多視点画像 カメラパラメータ 学習対象 3次元表現 (NeRF、GSなど) アプリケーション 新規画像生成 (観測データにない視点からの画像を生成) 光学的・幾何的 制約の下最適化 光学的・幾何的に整合性 のある画像を生成

Slide 18

Slide 18 text

17 Copyright 2025 NTT CORPORATION 光学に基づくモデル 研究課題 • Q1. どのように3次元表現? • Q2. どのようにして2次元画像に投影? • Q3. どのようにして学習? 3次元表現 2次元画像 訓練画像 投影 目的関数

Slide 19

Slide 19 text

18 Copyright 2025 NTT CORPORATION 例1:NeRF Neural Radiance Fields (NeRF) [Mildenhall+2020] • 陰関数による3次元表現 + Volume Renderingによる画像への投影 B. Mildenhall et al., “NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis,” ECCV 2020.

Slide 20

Slide 20 text

19 Copyright 2025 NTT CORPORATION 例1:NeRF Neural Radiance Fields (NeRF) [Mildenhall+2020] • 陰関数による3次元表現 + Volume Renderingによる画像への投影 B. Mildenhall et al., “NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis,” ECCV 2020. Q1. どのように3次元表現? 陰関数(全空間共通の1つのMLP)により 「3次元位置・向き」と「色・密度」の対応を表現 コンパクトで連続的な 3次元表現を実現

Slide 21

Slide 21 text

20 Copyright 2025 NTT CORPORATION 例1:NeRF Neural Radiance Fields (NeRF) [Mildenhall+2020] • 陰関数による3次元表現 + Volume Renderingによる画像への投影 B. Mildenhall et al., “NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis,” ECCV 2020. Q1. どのように3次元表現? 陰関数(全空間共通の1つのMLP)により 「3次元位置・向き」と「色・密度」の対応を表現 Q2. どのようにして2次元画像投影? Volume Renderingにより 光線上の点を密度を考慮しながら集積 物体の3次元的な広がり も考慮して物体を表現

Slide 22

Slide 22 text

21 Copyright 2025 NTT CORPORATION 例1:NeRF Neural Radiance Fields (NeRF) [Mildenhall+2020] • 陰関数による3次元表現 + Volume Renderingによる画像への投影 B. Mildenhall et al., “NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis,” ECCV 2020. Q3. どのようにして学習? 投影画像と観測画像の差が小さくなるように3次元表現を最適化 Q1. どのように3次元表現? 陰関数(全空間共通の1つのMLP)により 「3次元位置・向き」と「色・密度」の対応を表現 Q2. どのようにして2次元画像投影? Volume Renderingにより 光線上の点を密度を考慮しながら集積

Slide 23

Slide 23 text

22 Copyright 2025 NTT CORPORATION 例1:NeRF 画像生成例 学習も遅い 高精細な画像を生成可能 レンダリングが遅い(3次元上の各点ごとにMLPの実行が必要) モデルが軽量(全空間共通の1つのMLPのみ) B. Mildenhall et al., “NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis,” ECCV 2020. 動画:https://www.matthewtancik.com/nerf

Slide 24

Slide 24 text

23 Copyright 2025 NTT CORPORATION 例2:Voxel NeRF Direct Voxel Grid Optimization (DVGO) [Sun+2022] • 陰関数+ボクセルによる3次元表現 + Volume Renderingによる画像への投影 C. Sun et al., “Direct Voxel Grid Optimization: Super-fast Convergence for Radiance Fields Reconstruction,” CVPR 2022. 視点変化による色の変化のみMLPで表現

Slide 25

Slide 25 text

24 Copyright 2025 NTT CORPORATION 例2:Voxel NeRF Direct Voxel Grid Optimization (DVGO) [Sun+2022] • 陰関数+ボクセルによる3次元表現 + Volume Renderingによる画像への投影 C. Sun et al., “Direct Voxel Grid Optimization: Super-fast Convergence for Radiance Fields Reconstruction,” CVPR 2022. Q1. どのように3次元表現? Voxelと陰関数のハイブリッドで表現 MLPの繰り返し計算を削減 視点変化による色の変化のみMLPで表現

Slide 26

Slide 26 text

25 Copyright 2025 NTT CORPORATION 例2:Voxel NeRF Direct Voxel Grid Optimization (DVGO) [Sun+2022] • 陰関数+ボクセルによる3次元表現 + Volume Renderingによる画像への投影 C. Sun et al., “Direct Voxel Grid Optimization: Super-fast Convergence for Radiance Fields Reconstruction,” CVPR 2022. Q1. どのように3次元表現? Voxelと陰関数のハイブリッドで表現 視点変化による色の変化のみMLPで表現 Q2. どのようにして 2次元画像に投影? Volume Rendering

Slide 27

Slide 27 text

26 Copyright 2025 NTT CORPORATION 例2:Voxel NeRF Direct Voxel Grid Optimization (DVGO) [Sun+2022] • 陰関数+ボクセルによる3次元表現 + Volume Renderingによる画像への投影 C. Sun et al., “Direct Voxel Grid Optimization: Super-fast Convergence for Radiance Fields Reconstruction,” CVPR 2022. Q1. どのように3次元表現? Voxelと陰関数のハイブリッドで表現 視点変化による色の変化のみMLPで表現 Q2. どのようにして 2次元画像に投影? Volume Rendering Q3. どのようにして学習? 投影画像と観測画像の差が小さくなるように3次元表現を最適化

Slide 28

Slide 28 text

27 Copyright 2025 NTT CORPORATION 例2:Voxel NeRF 画像生成例 C. Sun et al., “Direct Voxel Grid Optimization: Super-fast Convergence for Radiance Fields Reconstruction,” CVPR 2022. 学習時間を49倍〜183倍短縮 高精細な画像を生成可能 学習も速い レンダリングが速い モデルサイズは大きい(解像度の3乗に比例) 動画:https://sunset1995.github.io/dvgo/

Slide 29

Slide 29 text

28 Copyright 2025 NTT CORPORATION 例3:3DGS 3D Gaussian Splatting (3DGS) [Kerbl+2023] • 3D Gaussianによる3次元表現 + Tile Rasterizerによる画像への投影 B. Kerbl et al., “3D Gaussian Splatting for Real-Time Radiance Field Rendering,” SIGGRAPH 2023.

Slide 30

Slide 30 text

29 Copyright 2025 NTT CORPORATION 例3:3DGS 3D Gaussian Splatting (3DGS) [Kerbl+2023] • 3D Gaussianによる3次元表現 + Tile Rasterizerによる画像への投影 B. Kerbl et al., “3D Gaussian Splatting for Real-Time Radiance Field Rendering,” SIGGRAPH 2023. Q1. どのように3次元表現? 多視点画像からSfMにより点群を抽出 → 点群を初期値にして3D Gaussianを形成 パラメータ:位置、大きさ、傾き、色、不透明度 特に、3D Gaussianを物体存在領域に 重点的に配置することで効率的に表現

Slide 31

Slide 31 text

30 Copyright 2025 NTT CORPORATION 例3:3DGS 3D Gaussian Splatting (3DGS) [Kerbl+2023] • 3D Gaussianによる3次元表現 + Tile Rasterizerによる画像への投影 B. Kerbl et al., “3D Gaussian Splatting for Real-Time Radiance Field Rendering,” SIGGRAPH 2023. Q1. どのように3次元表現? 多視点画像からSfMにより点群を抽出 → 点群を初期値にして3D Gaussianを形成 パラメータ:位置、大きさ、傾き、色、不透明度 Q2. どのようにして2次元画像に投影? Tile Rasterizerにより効率的にレンダリング 1. スクリーンを16×16のタイルに分割して並列処理 2. 各タイルごとに3D Gaussianをαブレンディング 3. α(不透明度)が閾値に達したら処理をストップ NeRF:光線ごとに処理 → 3DGS:タイルごとの処理 高速化

Slide 32

Slide 32 text

31 Copyright 2025 NTT CORPORATION 例3:3DGS 3D Gaussian Splatting (3DGS) [Kerbl+2023] • 3D Gaussianによる3次元表現 + Tile Rasterizerによる画像への投影 B. Kerbl et al., “3D Gaussian Splatting for Real-Time Radiance Field Rendering,” SIGGRAPH 2023. Q1. どのように3次元表現? 多視点画像からSfMにより点群を抽出 → 点群を初期値にして3D Gaussianを形成 パラメータ:位置、大きさ、傾き、色、不透明度 Q2. どのようにして2次元画像に投影? Tile Rasterizerにより効率的にレンダリング 1. スクリーンを16×16のタイルに分割して並列処理 2. 各タイルごとに3D Gaussianをαブレンディング 3. α(不透明度)が閾値に達したら処理をストップ Q3. どのようにして学習? 投影画像と観測画像の差が小さくなるように3次元表現を最適化

Slide 33

Slide 33 text

32 Copyright 2025 NTT CORPORATION 例3:3DGS 画像生成例 B. Kerbl et al., “3D Gaussian Splatting for Real-Time Radiance Field Rendering,” SIGGRAPH 2023. 高精細な画像を生成可能 学習も速い レンダリングがより速い(1080p解像度画像を≥100fpsでレンダリング) モデルサイズは大きい 動画:https://repo-sam.inria.fr/fungraph/3d-gaussian-splatting/

Slide 34

Slide 34 text

33 Copyright 2025 NTT CORPORATION ここまでのまとめ 事前知識 • 光学原理に基づくモデル:どのように3次元表現? どのようにして2次元画像に投影? NeRF [Mildenhall+2020] Voxel NeRF [Sun+2022] 3DGS [Kerbl+2023] 陰関数 ボクセル +陰関数 3D Gaussian 高精細な画像を生成可能 学習も速い レンダリングがより速い モデルサイズは大きい 学習も遅い 高精細な画像を生成可能 レンダリングが遅い モデルが軽量 高精細な画像を生成可能 学習も速い レンダリングが速い モデルサイズは大きい 非常に活発な研究領域で他にも様々なモデルあり

Slide 35

Slide 35 text

34 Copyright 2025 NTT CORPORATION 目次 事前知識 • 光学原理に基づくモデル › Neural Radiance Fields (NeRF) › 3D Gaussian Splatting (3DGS) • 物理原理に基づくモデル › Material Point Method (MPM) メイントピック • 光学・物理原理に基づく画像生成 › Forward Engineering » 静止画 → ダイナミクスの生成 › Reverse Engineering » 動画 → 内部状態の推定 PhysGaussian PAC-NeRF 物理パラメータ • ヤング率 • ポアソン比 物理モデル 物理モデル

Slide 36

Slide 36 text

35 Copyright 2025 NTT CORPORATION 物理に基づくモデル アプリケーション:物理に基づくシミュレーション Y. Hu et al., “A Moving Least Squares Material Point Method with Displacement Discontinuity and Two-Way Rigid Body Coupling,” SIGGRAPH 2018. パラメータを変えた時の挙動の比較 挙動予測 動画: https://github.com/yuanming-hu/taichi_mpm

Slide 37

Slide 37 text

36 Copyright 2025 NTT CORPORATION 物理に基づくモデル 研究課題 • Q1. どのように物体を表現? • Q2. どのように支配方程式(質量保存則・運動量保存則など)を解く? • Q3. どのように物体を変形? 物体 物体 時間 経過 力

Slide 38

Slide 38 text

37 Copyright 2025 NTT CORPORATION 例:MPM Material Point Method (MPM):格子法と粒子法のハイブリッド 図はhttps://geomechanics.berkeley.edu/research/comp-geo/mpm/から引用 Step 1:粒子から格子へ投影 物体を物理量(質量、体積、位置、速度など) を持つ粒子(物質点)の集まりで表現 ↓ 粒子同士の力学的作用を直接計算するのは 困難たため物理量を格子のノードに投影

Slide 39

Slide 39 text

38 Copyright 2025 NTT CORPORATION 例:MPM Material Point Method (MPM):格子法と粒子法のハイブリッド 図はhttps://geomechanics.berkeley.edu/research/comp-geo/mpm/から引用 Step 1:粒子から格子へ投影 物体を物理量(質量、体積、位置、速度など) を持つ粒子(物質点)の集まりで表現 ↓ 粒子同士の力学的作用を直接計算するのは 困難たため物理量を格子のノードに投影 Step 2:格子上で支配方程式を解く 支配方程式(質量保存則、運動量保存則) に基づき各ノードの物理量を計算

Slide 40

Slide 40 text

39 Copyright 2025 NTT CORPORATION 例:MPM Material Point Method (MPM):格子法と粒子法のハイブリッド 図はhttps://geomechanics.berkeley.edu/research/comp-geo/mpm/から引用 Step 1:粒子から格子へ投影 物体を物理量(質量、体積、位置、速度など) を持つ粒子(物質点)の集まりで表現 ↓ 粒子同士の力学的作用を直接計算するのは 困難たため物理量を格子のノードに投影 Step 2:格子上で支配方程式を解く 支配方程式(質量保存則、運動量保存則) に基づき各ノードの物理量を計算 Step 3:ノードの情報を物質点へ補間 形状関数(補間関数)に基づき ノードの物理量を物質点へ補間

Slide 41

Slide 41 text

40 Copyright 2025 NTT CORPORATION 例:MPM Material Point Method (MPM):格子法と粒子法のハイブリッド 図はhttps://geomechanics.berkeley.edu/research/comp-geo/mpm/から引用 Step 1:粒子から格子へ投影 物体を物理量(質量、体積、位置、速度など) を持つ粒子(物質点)の集まりで表現 ↓ 粒子同士の力学的作用を直接計算するのは 困難たため物理量を格子のノードに投影 Step 2:格子上で支配方程式を解く 支配方程式(質量保存則、運動量保存則) に基づき各ノードの物理量を計算 Step 3:ノードの情報を物質点へ補間 形状関数(補間関数)に基づき ノードの物理量を物質点へ補間 Step 4:物質点の更新と格子のリセット Step 3に基づき物質点の物理量を 更新することで物体を変形 & 格子はリセット

Slide 42

Slide 42 text

41 Copyright 2025 NTT CORPORATION 例:MPM MPMの特長1:様々な材料特性の物体を表現可能 MPMの特長2:微分可能なモデルも存在 • Differentiabl MPM (DiffMPM) [Hu+2020] › 物理シミュレーションの結果から勾配伝播を行い、物理パラメータなどを最適化可能 ニュートン流体 非ニュートン流体 弾性体 可塑性体 粒状体 Droplet Letter Cream Toothpaste Torus Bird Playdoh Cat Trophy X. Li et al., “PAC-NeRF: Physics Augmented Continuum Neural Radiance Fields for Geometry-Agnostic System Identification,” ICLR 2023. Y. Hu et al., “DiffTaichi: Differentiable Programming for Physical Simulation,” ICLR 2020. 物理パラメータ DiffMPM シミュレーション 順伝播 勾配の逆伝播 動画: https://sites.google.com/view/PAC-NeRF

Slide 43

Slide 43 text

42 Copyright 2025 NTT CORPORATION ここまでのまとめ 事前知識 • 物理原理に基づくモデル:どのように物体を表現? 支配方程式を解く? Material Point Method 図はhttps://geomechanics.berkeley.edu/research/comp-geo/mpm/から引用 格子法 +粒子法 様々な材料特性の物体を表現可能 微分可能なモデルも存在 非常に活発な研究領域で他にも様々なモデルあり

Slide 44

Slide 44 text

43 Copyright 2025 NTT CORPORATION 目次 事前知識 • 光学原理に基づくモデル › Neural Radiance Fields (NeRF) › 3D Gaussian Splatting (3DGS) • 物理原理に基づくモデル › Material Point Method (MPM) メイントピック • 光学・物理原理に基づく画像生成 › Forward Engineering » 静止画 → ダイナミクスの生成 › Reverse Engineering » 動画 → 内部状態の推定 PhysGaussian PAC-NeRF 物理パラメータ • ヤング率 • ポアソン比 物理モデル 物理モデル

Slide 45

Slide 45 text

44 Copyright 2025 NTT CORPORATION 目次 事前知識 • 光学原理に基づくモデル › Neural Radiance Fields (NeRF) › 3D Gaussian Splatting (3DGS) • 物理原理に基づくモデル › Material Point Method (MPM) メイントピック • 光学・物理原理に基づく画像生成 › Forward Engineering » 静止画 → ダイナミクスの生成 › Reverse Engineering » 動画 → 内部状態の推定 PhysGaussian PAC-NeRF 物理パラメータ • ヤング率 • ポアソン比 物理モデル 物理モデル

Slide 46

Slide 46 text

45 Copyright 2025 NTT CORPORATION Forward Engeneering 問題:ダイナミクス生成 • 多視点画像から得た3次元表現を物理モデルに基づき変形し、ダイナミクスを生成 観測データ 多視点画像 カメラパラメータ 生成対象 ダイナミクス T. Xie et al., “PhysGaussian: Physics-Integrated 3D Gaussians for Generative Dynamics,” CVPR 2024. 物理モデルに基づき変形 物理モデル 動画: https://xpandora.github.io/PhysGaussian/

Slide 47

Slide 47 text

46 Copyright 2025 NTT CORPORATION 例:PhysGaussian Physics-Integrated 3D Gaussians [Xie+2024] • 3DGS [Kerbl+2023] による3次元表現 + MPMによる物理シミュレーション T. Xie et al., “PhysGaussian: Physics-Integrated 3D Gaussians for Generative Dynamics,” CVPR 2024.

Slide 48

Slide 48 text

47 Copyright 2025 NTT CORPORATION 例:PhysGaussian Physics-Integrated 3D Gaussians [Xie+2024] T. Xie et al., “PhysGaussian: Physics-Integrated 3D Gaussians for Generative Dynamics,” CVPR 2024. Step 1:3次元表現の獲得 3D Gaussian Splattingを用いて 多視点画像から3D Gaussianを獲得

Slide 49

Slide 49 text

48 Copyright 2025 NTT CORPORATION 例:PhysGaussian Physics-Integrated 3D Gaussians [Xie+2024] T. Xie et al., “PhysGaussian: Physics-Integrated 3D Gaussians for Generative Dynamics,” CVPR 2024. Step 1:3次元表現の獲得 3D Gaussian Splattingを用いて 多視点画像から3D Gaussianを獲得 Step 2:MPMの適用 3D Gaussianに対してMPMを適用し 物理シミュレーション 3D Gaussian (位置、大きさ、向き) の変形の定式化 球面調和関数 (視点依存の色)の 変形による変化も考慮

Slide 50

Slide 50 text

49 Copyright 2025 NTT CORPORATION 例:PhysGaussian Physics-Integrated 3D Gaussians [Xie+2024] T. Xie et al., “PhysGaussian: Physics-Integrated 3D Gaussians for Generative Dynamics,” CVPR 2024. Step 1:3次元表現の獲得 3D Gaussian Splattingを用いて 多視点画像から3D Gaussianを獲得 Step 3:動画の生成 3次元的な物理シミュレーションの 結果を画像に投影して動画を生成 Step 2:MPMの適用 3D Gaussianに対してMPMを適用し 物理シミュレーション

Slide 51

Slide 51 text

50 Copyright 2025 NTT CORPORATION 例:PhysGaussian ダイナミクス生成例 T. Xie et al., “PhysGaussian: Physics-Integrated 3D Gaussians for Generative Dynamics,” CVPR 2024. 物理法則に基づき静止画からダイナミクスを生成 動画: https://xpandora.github.io/PhysGaussian/

Slide 52

Slide 52 text

51 Copyright 2025 NTT CORPORATION PhysGaussianの限界 Physics-Integrated 3D Gaussians [Xie+2024] T. Xie et al., “PhysGaussian: Physics-Integrated 3D Gaussians for Generative Dynamics,” CVPR 2024. Step 1:3次元表現の獲得 3D Gaussian Splattingを用いて 多視点画像から3D Gaussianを獲得 Step 3:動画の生成 3次元的な物理シミュレーションの 結果を画像に投影して動画を生成 Step 2:MPMの適用 3D Gaussianに対してMPMを適用し 物理シミュレーション 物理パラメータは 人手で設定が必要

Slide 53

Slide 53 text

52 Copyright 2025 NTT CORPORATION 目次 事前知識 • 光学原理に基づくモデル › Neural Radiance Fields (NeRF) › 3D Gaussian Splatting (3DGS) • 物理原理に基づくモデル › Material Point Method (MPM) メイントピック • 光学・物理原理に基づく画像生成 › Forward Engineering » 静止画 → ダイナミクスの生成 › Reverse Engineering » 動画 → 内部状態の推定 PhysGaussian PAC-NeRF 物理パラメータ • ヤング率 • ポアソン比 物理モデル 物理モデル

Slide 54

Slide 54 text

53 Copyright 2025 NTT CORPORATION Reverse Engeneering 問題:システム同定 • 多視点動画から対象物体の物理パラメータを推定 観測データ 多視点動画 カメラパラメータ 推定対象 物理パラメータ 物理パラメータ • ヤング率 • ポアソン比 など 観測データを再現できる ように物理パラメータを最適化 X. Li et al., “PAC-NeRF: Physics Augmented Continuum Neural Radiance Fields for Geometry-Agnostic System Identification,” ICLR 2023. 物理モデル 動画: https://sites.google.com/view/PAC-NeRF

Slide 55

Slide 55 text

54 Copyright 2025 NTT CORPORATION Reverse Engeneering 目的:実世界を正確に把握 → サイバー世界上で再現 • アプリケーション:未来予測、物理量を変えた時のシミュレーションなど J. Cai et al., “GIC: Gaussian-Informed Continuum for Physical Property Identification and Simulation,” NeurIPS 2024. 真値 再構成 + 未来予測 硬質化 重力ゼロ化 動画:https://jukgei.github.io/project/gic/

Slide 56

Slide 56 text

55 Copyright 2025 NTT CORPORATION 例1:PAC-NeRF Physics Augmented Continuum NeRF (PAC-NeRF) [Li+2023] • Voxel NeRF [Sun+2022] による3次元表現 + DIffMPM [Hu+2020] による物理シミュレーション X. Li et al., “PAC-NeRF: Physics Augmented Continuum Neural Radiance Fields for Geometry-Agnostic System Identification,” ICLR 2023.

Slide 57

Slide 57 text

56 Copyright 2025 NTT CORPORATION 例1:PAC-NeRF Physics Augmented Continuum NeRF (PAC-NeRF) [Li+2023] X. Li et al., “PAC-NeRF: Physics Augmented Continuum Neural Radiance Fields for Geometry-Agnostic System Identification,” ICLR 2023. Step 1:初期フレームの3次元形状を最適化 通常のVoxel NeRFと同様に投影画像と観測画像の差が小さくなるように初期フレームの3次元形状を最適化 ポイント1:Grid to Particle 粒子に基づくシミュレーション(MPM)を実行する ため格子から粒子にサンプリング ポイント2:Particle to Grid 格子ベースのVolume Renderinigを実行する ため粒子を格子に集約

Slide 58

Slide 58 text

57 Copyright 2025 NTT CORPORATION 例1:PAC-NeRF Physics Augmented Continuum NeRF (PAC-NeRF) [Li+2023] X. Li et al., “PAC-NeRF: Physics Augmented Continuum Neural Radiance Fields for Geometry-Agnostic System Identification,” ICLR 2023. Step 2:物理パラメータの最適化 MPMによるシミュレーション結果と観測動画の差が小さくなるように物理パラメータを最適化 ポイント:微分可能なMPMを利用 微分可能なMPM(DiffMPM [Hu+2020])を用いる ことで物理パラメータに勾配を伝播して更新可能

Slide 59

Slide 59 text

58 Copyright 2025 NTT CORPORATION 例1:PAC-NeRF システム同定例 X. Li et al., “PAC-NeRF: Physics Augmented Continuum Neural Radiance Fields for Geometry-Agnostic System Identification,” ICLR 2023. 真値 PAC-NeRF 粒子再構成 ニュートン流体 流体粘度 2.00 × 102 体積弾性率 1.00 × 105 流体粘度 2.09 × 102 体積弾性率 1.08 × 105 真値 PAC-NeRF 粒子再構成 非ニュートン流体 剛性率 1.00 × 104 体積弾性率 1.00 × 106 降伏応力 3.00 × 103 可塑性粘度 10 剛性率 1.21 × 105 体積弾性率 1.57 × 106 降伏応力 3.16 × 103 可塑性粘度 5.6 真値 PAC-NeRF 粒子再構成 弾性体 ヤング率 1.00 × 106 ポアソン比 0.300 ヤング率 1.04 × 106 ポアソン比 0.322 動画: https://sites.google.com/view/PAC-NeRF

Slide 60

Slide 60 text

59 Copyright 2025 NTT CORPORATION 例1:PAC-NeRF システム同定例 X. Li et al., “PAC-NeRF: Physics Augmented Continuum Neural Radiance Fields for Geometry-Agnostic System Identification,” ICLR 2023. 真値 PAC-NeRF 粒子再構成 可塑性体 ヤング率 2.00 × 106 ポアソン比 0.300 降伏応力 1.54 × 104 ヤング率 3.84 × 106 ポアソン比 0.272 降伏応力 1.69 × 104 真値 PAC-NeRF 粒子再構成 粒状体 摩擦角 40° 摩擦角 36.1° 様々な材料特性の物体の物理パラメータを動画から特定 動画: https://sites.google.com/view/PAC-NeRF

Slide 61

Slide 61 text

60 Copyright 2025 NTT CORPORATION 例2:LPO Lagrangian Particle Optimization (LPO) [Kaneko+2024] • PAC-NeRF + LPOによる3次元表現の動画全体での最適化 T. Kaneko, “Improving Physics-Augmented Continuum Neural Radiance Field-Based Geometry-Agnostic System Identification with Lagrangian Particle Optimization,” CVPR 2024. 𝑡 𝐸 = 1.00 × 106 𝜈 = 0.300 𝐸 = 1.89 × 106 𝜈 = 0.215 Ground truth PAC-NeRF Statically 𝐸 = 1.15 × 106 𝜈 = 0.299 +LPO4 Dynamically 3次元表現は 初期フレームのみ 使って最適化 初期フレーム の推定誤差が 後のフレームに影響 物理パラメータの 推定精度も悪化 3次元表現を 動画全体で 最適化 後のフレームの 誤差を修正 物理パラメータの 推定精度も改善 特に、3次元表現の学習が難しい時 (カメラが少数の時など) に問題

Slide 62

Slide 62 text

61 Copyright 2025 NTT CORPORATION 例2:LPO Lagrangian Particle Optimization (LPO) [Kaneko+2024] T. Kaneko, “Improving Physics-Augmented Continuum Neural Radiance Field-Based Geometry-Agnostic System Identification with Lagrangian Particle Optimization,” CVPR 2024. Step 1:初期フレームの3次元形状を最適化(PAC-NeRFと同様) 投影画像と観測画像の差が小さくなるように初期フレームの3次元形状を最適化 Eulerian Lagrangian Frozen Optimized

Slide 63

Slide 63 text

62 Copyright 2025 NTT CORPORATION 例2:LPO Lagrangian Particle Optimization (LPO) [Kaneko+2024] T. Kaneko, “Improving Physics-Augmented Continuum Neural Radiance Field-Based Geometry-Agnostic System Identification with Lagrangian Particle Optimization,” CVPR 2024. Eulerian Lagrangian Frozen Optimized Step 2: 物理パラメータの最適化(PAC-NeRFと同様) MPMによるシミュレーション結果と観測動画の差が小さくなるように物理パラメータを最適化

Slide 64

Slide 64 text

63 Copyright 2025 NTT CORPORATION 例2:LPO Lagrangian Particle Optimization (LPO) [Kaneko+2024] T. Kaneko, “Improving Physics-Augmented Continuum Neural Radiance Field-Based Geometry-Agnostic System Identification with Lagrangian Particle Optimization,” CVPR 2024. Eulerian Lagrangian Frozen Optimized Step 3: 3次元形状の修正(LPOで導入) MPMによるシミュレーション結果と観測動画の差が小さくなるように3次元形状(粒子形状)を修正 ポイント:Lagrangian空間で最適化 Lagrangian(粒子)空間で最適化を行うことで MPMによる物理制約を課しながら最適化が可能

Slide 65

Slide 65 text

64 Copyright 2025 NTT CORPORATION 例2:LPO システム同定例 ※ カメラの数が少数(3つ)の時の性能を検証 真値 PAC-NeRF +LPO4 弾性体 ヤング率 1.00 × 106 ポアソン比 0.300 ヤング率 1.89 × 106 ポアソン比 0.215 真値 PAC-NeRF 非ニュートン流体 剛性率 1.00 × 104 体積弾性率 1.00 × 106 降伏応力 3.00 × 103 可塑性粘度 10 剛性率 1.51 × 104 体積弾性率 2.17 × 106 降伏応力 2.94 × 103 可塑性粘度 15.67 ヤング率 1.15 × 106 ポアソン比 0.299 剛性率 1.26 × 104 体積弾性率 1.32 × 106 降伏応力 3.04 × 103 可塑性粘度 10.80 +LPO4 PSNR: 23.99 PSNR: 30.07 PSNR: 27.43 PSNR: 30.23 3次元形状の復元精度と物理パラメータの推定精度をともに改善 T. Kaneko, “Improving Physics-Augmented Continuum Neural Radiance Field-Based Geometry-Agnostic System Identification with Lagrangian Particle Optimization,” CVPR 2024. 動画:https://www.kecl.ntt.co.jp/people/kaneko.takuhiro/projects/lpo/

Slide 66

Slide 66 text

65 Copyright 2025 NTT CORPORATION 例3:GIC Gaussian-Informed Continuum (GIC) [Cai+2024] • 3DGS [Kerbl+2023] による3次元表現 + MPMによる物理シミュレーション J. Cai et al., “GIC: Gaussian-Informed Continuum for Physical Property Identification and Simulation,” NeurIPS 2024.

Slide 67

Slide 67 text

66 Copyright 2025 NTT CORPORATION 例3:GIC Gaussian-Informed Continuum (GIC) [Cai+2024] J. Cai et al., “GIC: Gaussian-Informed Continuum for Physical Property Identification and Simulation,” NeurIPS 2024. Step 1:動画全体で3次元形状を最適化 モーション分解型動的3D Gaussian Networkを使って投影動画と観測動画の差が小さくなるように3D Gaussianを最適化 ポイント1:モーションを複数の基底の集合で表現 ポイント2: モーションの 差分をモデル化

Slide 68

Slide 68 text

67 Copyright 2025 NTT CORPORATION 例3:GIC Gaussian-Informed Continuum (GIC) [Cai+2024] J. Cai et al., “GIC: Gaussian-Informed Continuum for Physical Property Identification and Simulation,” NeurIPS 2024. Step 2:連続体の算出と表面の抽出 物理シミュレーションを行うため連続体を算出、また、表面も抽出し目的関数の算出に利用

Slide 69

Slide 69 text

68 Copyright 2025 NTT CORPORATION 例3:GIC Gaussian-Informed Continuum (GIC) [Cai+2024] J. Cai et al., “GIC: Gaussian-Informed Continuum for Physical Property Identification and Simulation,” NeurIPS 2024. Step 3:物理パラメータの最適化 MPMによるシミュレーション結果と対象データの差が小さくなるように物理パラメータを最適化 ポイント 物体の2次元マスクに加えて 3次元表面も一致するようにすることで 高精度化

Slide 70

Slide 70 text

69 Copyright 2025 NTT CORPORATION 例3:GIC アプリケーション例 J. Cai et al., “GIC: Gaussian-Informed Continuum for Physical Property Identification and Simulation,” NeurIPS 2024. 真値 再構成 + 未来予測 軟質化 初期速度 の変更 真値 再構成 + 未来予測 硬質化 重力ゼロ化 一度モデルが学習できれば未来予測や物理量を変えた時のシミュレーションなどが可能 真値 再構成 + 未来予測 液化 可塑化 真値 再構成 + 未来予測 弾性体化 可塑化 動画:https://jukgei.github.io/project/gic/

Slide 71

Slide 71 text

70 Copyright 2025 NTT CORPORATION PAC-NeRF, LPO, GICの限界 物体は密であることを仮定 • 見た目は同じだけれども内部構造が異なる物体があった場合 › 常に密の物体(左側)を仮定し、中空の物体(右側)は対応困難 ↑ 密であること(こちら)を仮定 ↑ 中空の物体は対応困難 T. Kaneko, “Structure from Collision,” CVPR 2025 to appear .

Slide 72

Slide 72 text

71 Copyright 2025 NTT CORPORATION 内部形状のReverse Engineering 問題:Structure from Collision (SfC) [Kaneko+2025] • 衝突時の外部形状の変化から内部形状を推定 T. Kaneko, “Structure from Collision,” CVPR 2025 to appear . 観測データ 多視点動画 カメラパラメータ 推定対象 内部形状 観測データを再現できる ように内部形状を最適化 観測データ 多視点動画 カメラパラメータ 推定対象 内部形状 観測データを再現できる ように内部形状を最適化 動画:https://www.kecl.ntt.co.jp/people/kaneko.takuhiro/projects/sfc/

Slide 73

Slide 73 text

72 Copyright 2025 NTT CORPORATION SfC-NeRF Structure from Collision NeRF (SfC-NeRF) [Kaneko+2025] • モデルはPAC-NeRFと同様(Voxel NeRF [Sun+2022] による3次元表現 + DIffMPM [Hu+2020] による物理シミュレーション) • 最適化方法が異なる T. Kaneko, “Structure from Collision,” CVPR 2025 to appear .

Slide 74

Slide 74 text

73 Copyright 2025 NTT CORPORATION SfC-NeRF Structure from Collision NeRF (SfC-NeRF) [Kaneko+2025] T. Kaneko, “Structure from Collision,” CVPR 2025 to appear . Step 1:初期フレームの外部形状を最適化(PAC-NeRFと同様) 投影画像と観測画像の差が小さくなるように初期フレームの3次元形状を最適化

Slide 75

Slide 75 text

74 Copyright 2025 NTT CORPORATION ポイント4: 体積アニーリング 定期的に膨張処理を行う ことで局所解から脱却 SfC-NeRF Structure from Collision NeRF (SfC-NeRF) [Kaneko+2025] T. Kaneko, “Structure from Collision,” CVPR 2025 to appear . Step 2:初期フレームの内部形状を最適化(SfC-NeRFで導入) MPMによるシミュレーション結果と観測動画の差が小さくなるように初期フレームの3次元形状を最適化 ポイント1:画像損失 投影動画と観測動画の 差を最小化 ポイント2:外部形状保持損失 Step 2で内部形状を最適化する過程で Step 1で得た外部形状が 保持されるように制約 ポイント3:質量損失 質量が分かっている場合は 推定質量と観測質量の差を最小化

Slide 76

Slide 76 text

75 Copyright 2025 NTT CORPORATION SfC-NeRF 内部形状の推定例 T. Kaneko, “Structure from Collision,” CVPR 2025 to appear . 観測データ 真値 内部形状の 最適化なし 内部形状の 最適化あり 観測データ 真値 内部形状の 最適化なし 内部形状の 最適化あり 観測データ 真値 内部形状の 最適化なし 内部形状の 最適化あり 観測データ 真値 内部形状の 最適化なし 内部形状の 最適化あり 動画だけから物体内部の空洞の大きさ・偏りを推定 動画:https://www.kecl.ntt.co.jp/people/kaneko.takuhiro/projects/sfc/

Slide 77

Slide 77 text

76 Copyright 2025 NTT CORPORATION ここまでのまとめ メイントピック • Forward Engineering › 静止画 → ダイナミクスを生成 • Reverse Engineering › 動画 → 内部状態の推定 物理モデル PhysGaussian 物理モデルを組み込むことで 物理的に整合性のあるダイナミクスを生成 PAC-NeRF 物理パラメータ • ヤング率 • ポアソン比 物理モデル 物理モデル SfC-NeRF 内部形状 物理モデルを組み込むことで 物理的制約下で内部状態を推定

Slide 78

Slide 78 text

77 Copyright 2025 NTT CORPORATION 発展的な話題 1. Video Diffusionの導入 2. Multi-modal Foundation Modelsの導入 PhysDreamer PhysFlow

Slide 79

Slide 79 text

78 Copyright 2025 NTT CORPORATION 発展的な話題 1. Video Diffusionの導入 2. Multi-modal Foundation Modelsの導入 PhysDreamer PhysFlow

Slide 80

Slide 80 text

79 Copyright 2025 NTT CORPORATION Video Diffusionの導入:PhysDreamer Physics-Based Simulation + Video Diffusion Prior [Zhang+2024] • Q. 静止画だけからReverse Engeneering(物理パラメータの推定)するためには? → A. Video Diffusionで動画を生成して動画のPriorとして利用 T. Zhang et al., “PhysDreamer: Physics-Based Interaction with 3D Objects via Video Generation,” ECCV 2024.

Slide 81

Slide 81 text

80 Copyright 2025 NTT CORPORATION Video Diffusionの導入:PhysDreamer Physics-Based Simulation + Video Diffusion Prior [Zhang+2024] T. Zhang et al., “PhysDreamer: Physics-Based Interaction with 3D Objects via Video Generation,” ECCV 2024. Step 1:3次元表現の獲得 3DGSを用いて多視点画像から 3D Gaussianを獲得

Slide 82

Slide 82 text

81 Copyright 2025 NTT CORPORATION Video Diffusionの導入:PhysDreamer Physics-Based Simulation + Video Diffusion Prior [Zhang+2024] T. Zhang et al., “PhysDreamer: Physics-Based Interaction with 3D Objects via Video Generation,” ECCV 2024. Step 1:3次元表現の獲得 3DGSを用いて多視点画像から 3D Gaussianを獲得 Step 2:Image-to-Video Video Diffusionを使って画像から動画を生成し 動画のPriorとして利用

Slide 83

Slide 83 text

82 Copyright 2025 NTT CORPORATION Video Diffusionの導入:PhysDreamer Physics-Based Simulation + Video Diffusion Prior [Zhang+2024] T. Zhang et al., “PhysDreamer: Physics-Based Interaction with 3D Objects via Video Generation,” ECCV 2024. Step 1:3次元表現の獲得 3DGSを用いて多視点画像から 3D Gaussianを獲得 Step 2:Image-to-Video Video Diffusionを使って画像から動画を生成し 動画のPriorとして利用 Step 3:物理パラメータの最適化 MPMによるシミュレーション結果とVideo Diffusionの生成動画 の差が小さくなるように物理パラメータを最適化

Slide 84

Slide 84 text

83 Copyright 2025 NTT CORPORATION Video Diffusionの導入:PhysDreamer ダイナミクス生成例 T. Zhang et al., “PhysDreamer: Physics-Based Interaction with 3D Objects via Video Generation,” ECCV 2024. 実データ PhysDreamer PhysGaussian DreamGaussian4D 静止画だけからより自然なダイナミクスを生成 動画:https://physdreamer.github.io/

Slide 85

Slide 85 text

84 Copyright 2025 NTT CORPORATION 発展的な話題 1. Video Diffusionの導入 2. Multi-modal Foundation Modelsの導入 PhysDreamer PhysFlow

Slide 86

Slide 86 text

85 Copyright 2025 NTT CORPORATION MMFMの導入:PhysFlow MPM + Video Diffusion + Muti-modal Foundation Models [Liu+2025] • Q. 物理パラメータのよい初期値を得るためには? → A. Multi-modal Foundation Models (MMFMs) を利用 Z. Liu et al., “Unleashing the Potential of Multi-modal Foundation Models and Video Diffusion for 4D Dynamic Physical Scene Simulation,” CVPR 2025 to appear .

Slide 87

Slide 87 text

86 Copyright 2025 NTT CORPORATION MMFMの導入:PhysFlow MPM + Video Diffusion + Muti-modal Foundation Models [Liu+2025] Z. Liu et al., “Unleashing the Potential of Multi-modal Foundation Models and Video Diffusion for 4D Dynamic Physical Scene Simulation,” CVPR 2025 to appear . Step 1:3次元表現の獲得 3DGSを用いて多視点画像から 3D Gaussianを獲得

Slide 88

Slide 88 text

87 Copyright 2025 NTT CORPORATION MMFMの導入:PhysFlow MPM + Video Diffusion + Muti-modal Foundation Models [Liu+2025] Z. Liu et al., “Unleashing the Potential of Multi-modal Foundation Models and Video Diffusion for 4D Dynamic Physical Scene Simulation,” CVPR 2025 to appear . Step 1:3次元表現の獲得 3DGSを用いて多視点画像から 3D Gaussianを獲得 Step 2:Image-to-Video(オプション:入力が静止画の場合) Video Diffusionを使って画像から生成した動画をPriorとして利用 (入力が動画の場合は、その動画をそのまま利用)

Slide 89

Slide 89 text

88 Copyright 2025 NTT CORPORATION MMFMの導入:PhysFlow MPM + Video Diffusion + Muti-modal Foundation Models [Liu+2025] Z. Liu et al., “Unleashing the Potential of Multi-modal Foundation Models and Video Diffusion for 4D Dynamic Physical Scene Simulation,” CVPR 2025 to appear . Step 1:3次元表現の獲得 3DGSを用いて多視点画像から 3D Gaussianを獲得 Step 3:物理パラメータの初期値の獲得 MMFMを用いて画像から 物理パラメータの初期値を獲得 Step 2:Image-to-Video(オプション:入力が静止画の場合) Video Diffusionを使って画像から生成した動画をPriorとして利用 (入力が動画の場合は、その動画をそのまま利用)

Slide 90

Slide 90 text

89 Copyright 2025 NTT CORPORATION MMFMの導入:PhysFlow MPM + Video Diffusion + Muti-modal Foundation Models [Liu+2025] Z. Liu et al., “Unleashing the Potential of Multi-modal Foundation Models and Video Diffusion for 4D Dynamic Physical Scene Simulation,” CVPR 2025 to appear . Step 1:3次元表現の獲得 3DGSを用いて多視点画像から 3D Gaussianを獲得 Step 3:物理パラメータの初期値の獲得 MMFMを用いて画像から 物理パラメータの初期値を獲得 Step 4:物理パラメータの最適化 MPMによるシミュレーション結果とVideo Diffusionの 生成動画の差が小さくなるように物理パラメータを最適化 Step 2:Image-to-Video(オプション:入力が静止画の場合) Video Diffusionを使って画像から生成した動画をPriorとして利用 (入力が動画の場合は、その動画をそのまま利用)

Slide 91

Slide 91 text

90 Copyright 2025 NTT CORPORATION MMFMの導入:PhysFlow ダイナミクス生成例 Z. Liu et al., “Unleashing the Potential of Multi-modal Foundation Models and Video Diffusion for 4D Dynamic Physical Scene Simulation,” CVPR 2025 to appear . 入力画像 PhysFlow PhysGaussian PhysDreamer Physics3D 静止画だけからさらに自然なダイナミクスを生成 動画:https://zhuomanliu.github.io/PhysFlow/

Slide 92

Slide 92 text

91 Copyright 2025 NTT CORPORATION おわりに

Slide 93

Slide 93 text

92 Copyright 2025 NTT CORPORATION まとめ 研究課題 • 光学・物理的に自然な動画の生成にはまだ課題が存在 事前知識 • 光学原理に基づくモデル(NeRF, 3DGS) • 物理原理に基づくモデル(MPM) メイントピック:光学・物理原理に基づくモデル • Forward Engeneering:静止画→ダイナミクス生成(PhysGaussian) • Reverse Engeneering:動画→内部状態の推定(PAC-NeRF, LPO, GIC, SfC-NeRF) 発展的な話題 • Video Diffusionの活用(PhysDreamer) • Multi-modal Foundation Modelの活用(PhysFlow) 非常に活発な研究領域で他にも様々な興味深い研究あり

Slide 94

Slide 94 text

93 Copyright 2025 NTT CORPORATION 今後の展望 自然性の更なる改善 • 自然性は向上しているがまだ改善の余地あり 実データでの性能向上 • 物理モデルの改善が進んでいるがまだ実現象との乖離あり PhysFlowの論文より引用 最新の手法(PhysFlow@CVPR2025) でも主観評価(5段階評価)で4未満 最新の手法(SpringGaus@ECCV2024) でも実現象の完璧な再現は困難 動画:https://zlicheng.com/spring_gaus/

Slide 95

Slide 95 text

94 Copyright 2025 NTT CORPORATION 関連情報 • 金子の研究紹介ページ › https://www.kecl.ntt.co.jp/people/kaneko.takuhiro/ 音声合成 音声変換 CFGAN [CVPR2017] DTLC-GAN [CVPR2018] 制御可能な画像生成 AR-GAN [CVPR2021] CycleGAN-VC GAN-PF [ICASSP2017] [Interspeech2017] CycleGAN-VC [EUSIPCO2018] CycleGAN-VC2 [ICASSP2019] StarGAN-VC2 [Interspeech2019] CycleGAN-VC3 [Interspeech2020] MaskCycleGAN-VC [ICASSP2021] MISRNet [Interspeech2022] PAC-NeRF+LPO [CVPR2024] GAN-VC [Interspeech2017] iSTFTNet [ICASSP2022] [Interspeech2023] Wave-U-Net D [ICASSP2023] 光学・物理原理に基づく画像生成 画像生成 音声合成・変換 AR-NeRF [CVPR2022] MIMO-NeRF [ICCV2023] AugCondD [ICASSP2024] FastVoiceGrad [Interspeech2024] rGAN† [CVPR2019] CP-GAN† [BMVC2019] NR-GAN† [CVPR2020] BNCR-GAN† [CVPR2021] 不完全データからの画像生成 SfC-NeRF [CVPR2025]