紹介する論文
5
Cosmos World Foundation Model Platform for Physical AI
NVIDIA開発の世界「基盤」モデル
Fine-tuningによって、様々なアプリケーションに適用可能
共著者:77人, 75ページ
Slide 4
Slide 4 text
紹介する論文
6
Cosmos World Foundation Model Platform for Physical AI
NVIDIA開発の世界「基盤」モデル
Fine-tuningによって、様々なアプリケーションに適用可能
Web site
https://www.nvidia.com/en-us/ai/cosmos/
コード
https://github.com/nvidia-cosmos
Slide 5
Slide 5 text
Cosmos World Foundation Model
7
物理AI(Physical AI)の大きな課題はデータを集めるのが
大変なこと。
特にアクションで現実世界に影響をあたえてデータ取るのは
ハードルが高い
物理AIが安全に相互作用できる「デジタルツイン」となる
世界基盤モデル(World Foundation Model)によって
データの問題を解決!
Slide 6
Slide 6 text
Cosmos World Foundation Model
8
大量の動画から学習したPre-trained World Foundation
Modelを少量のプロンプト/動画ペアのデータFine-tuning
事前学習済み世
界基盤モデル
Slide 7
Slide 7 text
Cosmos World Foundation Model
9
過去の動画にCtという摂動を与えたらどうなるかを、未
来の動画として予測する。
摂動の例:
カメラの姿勢変化
ロボットのアクション
etc
Cosmosの構成
12
Pre-trained World Foundation Models(事前学習された
世界基盤モデル)
拡散世界モデル(Diffusion-based World Foundation Model)
Diffusion Transformer (DiT)を元に事前学習した世界基盤モデル
自己回帰世界モデル(Autoregressive-based World Foundation
Model)
自己回帰モデルを元に事前学習した世界基盤モデル
Autoregression-based World Foundation
Model
33
トレーニング
1. 最初のフレームから、続きの動画を生成するよう学習
17フレーム予測→34フレーム予測と2段階で学習
2. プロンプトによる条件付け
Cross Attentionを用いてプロンプト+画像から、続きの動画を
生成するようにFine-tuning
過去のフレーム数はランダムに変更
Slide 32
Slide 32 text
Autoregression-based World Foundation
Model
34
自己回帰世界基盤モデルの事前学習
入力動画 続きの動画
H,W,TのPE
学習可能
なPE
離散トークン
因果的
Attention
プロンプト
による制御
float vectorへ
変換(学習可)
Slide 33
Slide 33 text
Autoregression-based World Foundation
Model
35
離散トークンは圧縮率は高いが、自己回帰WFMによって
生成した動画に、ボケやアーティファクトが発生
拡散WFMで利用した連続トークンのデコーダを利用したい
離散トークンから連続トークンへの変換方法を学習させる
Diffusion Decoder