Upgrade to Pro — share decks privately, control downloads, hide ads and more …

動画生成と三次元生成を融合して最強の生成モデルを作ろう

Sponsored · Your Podcast. Everywhere. Effortlessly. Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.

 動画生成と三次元生成を融合して最強の生成モデルを作ろう

Avatar for 小島瑞貴

小島瑞貴

June 01, 2026

More Decks by 小島瑞貴

Other Decks in Science

Transcript

  1. 5 アプローチ (概要) 映像生成モデル VGGT テキスト 動画 画像たち 3次元 2つの手法を合わせて、最強のモデルを作ろう!!

    でも、構造的に全然違くない…??? → 「創造的」な「3次元生成モデル」が構築
  2. 7 アプローチ (概要) 映像生成モデル VGGT テキスト 動画 画像たち 3次元 もし「共通する何か」があれば..??

    繋がる!! 何か 何か テキスト 何か 3次元 映像生成モデル×VGGT or 動画
  3. 16 ③ テキスト→潜在表現部分(潜在拡散モデル)をファインチューニング 現状: テキスト 潜在表現 3次元 学習対象: 潜在拡散モデル ※テキストから潜在表現を生成

    潜在表現 テキスト 想定疑問:テキストから潜在変数への変換は事前学習済みでは? A.テキスト→3次元部分の整合性に関してftする
  4. 19 ③ テキスト→潜在表現部分(潜在拡散モデル)をファインチューニング 全体像: 損失関数 ❶ 動画品質 ・CLIPでのキャプションと の整合性 ・HSPv2での人間の好みス

    コア ❷ レンダリング画像品質 ・レンダリング画像に❶と 同じ評価 ❸ 動画と3Dの整合性 ・同じ視点でのレンダリン グ 画 像 の 類 似 度 を L2, LPIPSで評価 ❶ ❷ ❸ 潜在 表現