Cosmos World Foundation Model Platform for Physical AI

by Takuya MINAGAWA

Embed

Start on current slide

Slide 1

Slide 1 text

第66回 CV勉強会@関東「世界モデル論文読み会」 Cosmos World Foundation Model Platform for Physical AI 2026/02/08 takmin

Slide 2

Slide 2 text

自己紹介 2 株式会社ビジョン＆ITラボ代表取締役皆川卓也（みながわたくや）博士（工学）「コンピュータビジョン勉強会＠関東」主催株式会社フューチャースタンダード技術顧問略歴： 1999-2003年日本HP（後にアジレント・テクノロジーへ分社）にて、ITエンジニアとしてシステム構築、プリセールス、プロジェクトマネジメント、サポート等の業務に従事 2004-2009年コンピュータビジョンを用いたシステム/アプリ/サービス開発等に従事 2007-2010年慶應義塾大学大学院後期博士課程にて、コンピュータビジョンを専攻単位取得退学後、博士号取得（2014年） 2009年-現在フリーランスとして、コンピュータビジョンのコンサル/研究/開発等に従事（2018年法人化） http://visitlab.jp お仕事の依頼はこちらから→

Slide 3

Slide 3 text

紹介する論文 5  Cosmos World Foundation Model Platform for Physical AI  NVIDIA開発の世界「基盤」モデル  Fine-tuningによって、様々なアプリケーションに適用可能共著者:77人, 75ページ

Slide 4

Slide 4 text

紹介する論文 6  Cosmos World Foundation Model Platform for Physical AI  NVIDIA開発の世界「基盤」モデル  Fine-tuningによって、様々なアプリケーションに適用可能  Web site  https://www.nvidia.com/en-us/ai/cosmos/  コード  https://github.com/nvidia-cosmos

Slide 5

Slide 5 text

Cosmos World Foundation Model 7  物理AI(Physical AI)の大きな課題はデータを集めるのが大変なこと。  特にアクションで現実世界に影響をあたえてデータ取るのはハードルが高い  物理AIが安全に相互作用できる「デジタルツイン」となる世界基盤モデル（World Foundation Model）によってデータの問題を解決！

Slide 6

Slide 6 text

Cosmos World Foundation Model 8  大量の動画から学習したPre-trained World Foundation Modelを少量のプロンプト/動画ペアのデータFine-tuning 事前学習済み世界基盤モデル

Slide 7

Slide 7 text

Cosmos World Foundation Model 9  過去の動画にCtという摂動を与えたらどうなるかを、未来の動画として予測する。  摂動の例：  カメラの姿勢変化  ロボットのアクション  etc

Slide 8

Slide 8 text

Cosmosの構成 10  Video Curator  動画をシーンチェンジがない単位に分割  動的な高品質動画のみ選択  VLMによるアノテーション  重複動画の削除

Slide 9

Slide 9 text

Cosmosの構成 11  Video Tokenizers  動画を異なる圧縮比率でトークン化  現在のフレームのトークンを過去の動画から計算  連続トークンと離散型トークンの２種類

Slide 10

Slide 10 text

Cosmosの構成 12  Pre-trained World Foundation Models（事前学習された世界基盤モデル）  拡散世界モデル(Diffusion-based World Foundation Model)  Diffusion Transformer (DiT)を元に事前学習した世界基盤モデル  自己回帰世界モデル(Autoregressive-based World Foundation Model)  自己回帰モデルを元に事前学習した世界基盤モデル

Slide 11

Slide 11 text

Cosmosの構成 13  WFM Post-Training  Pre-trained WFMをfine-tuningしてアプリケーションに適用  カメラ姿勢を入力とした視点生成  ロボット操作  自動運転

Slide 12

Slide 12 text

Cosmosの構成 14  Guardrail  有害な入出力のブロック

Slide 13

Slide 13 text

Data Curation 15  Split  動画を2秒から60秒に分割  １つの動画が複数のシーンを含まないように  動画のコーデックを統一

Slide 14

Slide 14 text

Data Curation 16  Filtering  品質の悪い動画の除去  Fine-tuning用の高画質動画の選択  動画のカテゴリ分布の調整  自動運転や手元の操作、自然のダイナミクス等

Slide 15

Slide 15 text

Data Curation 17  Annotation  VLMで動画にアノテーション  客観的な事実、視覚的・叙事的な要素を抽出  分類ラベル  世界基盤モデルの事前学習に利用される

Slide 16

Slide 16 text

Data Curation 18  Deduplication  重複した動画の削除

Slide 17

Slide 17 text

Data Curation 19  Sharding  動画クリップをWebへアップロードし、モデルトレーナーが直接アクセスできるようにする

Slide 18

Slide 18 text

Tokenizer 20  動画は情報量が膨大であるため、学習効率を高めるためにコンパクトなトークン列に圧縮  動画からEncoderで生成したトークンをDecoderで復元し、２つの動画の差が小さくなるようにEncoder/Decoderを学習

Slide 19

Slide 19 text

Tokenizer 21  連続トークンと離散トークンの２種類を生成  連続トークンは拡散世界基盤モデル（Diffusion WFM）用  離散トークンは自己回帰世界基盤モデル（Autoregressive WFM）用

Slide 20

Slide 20 text

Tokenizer 22  Causal Design (因果的設計)  未来のフレームを参照せず、過去のフレームのみから現在をトークン化  これにより、常に時間が順方向に進む物理AIシステムとの整合性を確保

Slide 21

Slide 21 text

Tokenizer 23  Causal Design (因果的設計)  未来のフレームを参照せず、過去のフレームのみから現在をトークン化  これにより、常に時間が順方向に進む物理AIシステムとの整合性を確保ｖｖ最初のフレーム𝑥0 を独立して扱い、以後４フレームずつグループ化して、3D Haarウェーブレット変換

Slide 22

Slide 22 text

Tokenizer 24  Causal Design (因果的設計)  未来のフレームを参照せず、過去のフレームのみから現在をトークン化  これにより、常に時間が順方向に進む物理AIシステムとの整合性を確保ｖｖ時間軸方向に畳み込む際、カーネルサイズkに対しk-1の左パディングを適用し、未来のフレームが参照されないようにする

Slide 23

Slide 23 text

Tokenizer 25  Causal Design (因果的設計)  未来のフレームを参照せず、過去のフレームのみから現在をトークン化  これにより、常に時間が順方向に進む物理AIシステムとの整合性を確保ｖｖ現在のステップが過去のステップのみ参考にするようにSelf-Attentionを行う

Slide 24

Slide 24 text

Tokenizer 26  Causal Design (因果的設計)  未来のフレームを参照せず、過去のフレームのみから現在をトークン化  これにより、常に時間が順方向に進む物理AIシステムとの整合性を確保ｖｖ Decoderで、Encoderと対称な処理で元の動画を復元

Slide 25

Slide 25 text

Tokenizer 27  連続トークン  学習したEncoderの出力そのまま  離散トークン  連続トークンをFinite-Scalar-Quantization (FSQ)でベクトル量子化 → 64,000語 Continuous Token

Slide 26

Slide 26 text

Diffusion-based World Foundation Model 28 ２種類の世界基盤モデル（World Foundation Model）  拡散世界基盤モデル（Diffusion WFM）  Diffusion Transformer (DiT)をベースとしたアーキテクチャ  ガウシアンノイズから徐々にノイズを除去して動画を生成  連続トークン（Continuous Token）を使用  自己回帰世界基盤モデル（Autoregressive WFM）  テキスト生成LLMのように、離散トークンを用いて、過去のトークンからその次のトークンを順次予測・生成

Slide 27

Slide 27 text

Diffusion-based World Foundation Model 29 拡散世界基盤モデルのトレーニング 1. Text2Worldを学習  プロンプトから動画を生成するよう学習 2. Video2Worldを学習  Text2Worldを、プロンプトと過去のフレームから未来のフレームを予測するようFine-tuning  過去のフレームと生成されるフレームを時間軸で結合(Concatenate)  損失計算から過去のフレームは除外  過去のフレーム数はランダムに変更

Slide 28

Slide 28 text

Diffusion-based World Foundation Model 30  拡散世界基盤モデルの事前学習連続トークンにノイズ付与ノイズ除去されたトークンノイズ除去 H,W,TのPE 学習可能なPE W,H,Tでさらに分割プロンプトによる制御入力動画復元動画

Slide 29

Slide 29 text

Text2World結果例 31  プロンプトから動画を生成動画はここで見れる https://research.nvidia.com/labs/dir/cosmos-predict1/

Slide 30

Slide 30 text

Video2World結果例 32  画像とプロンプトから動画を生成

Slide 31

Slide 31 text

Autoregression-based World Foundation Model 33 トレーニング 1. 最初のフレームから、続きの動画を生成するよう学習  17フレーム予測→34フレーム予測と２段階で学習 2. プロンプトによる条件付け  Cross Attentionを用いてプロンプト＋画像から、続きの動画を生成するようにFine-tuning  過去のフレーム数はランダムに変更

Slide 32

Slide 32 text

Autoregression-based World Foundation Model 34  自己回帰世界基盤モデルの事前学習入力動画続きの動画 H,W,TのPE 学習可能なPE 離散トークン因果的 Attention プロンプトによる制御 float vectorへ変換（学習可）

Slide 33

Slide 33 text

Autoregression-based World Foundation Model 35 離散トークンは圧縮率は高いが、自己回帰WFMによって生成した動画に、ボケやアーティファクトが発生拡散WFMで利用した連続トークンのデコーダを利用したい離散トークンから連続トークンへの変換方法を学習させる Diffusion Decoder

Slide 34

Slide 34 text

Diffusion Decoder 36  学習連続トークンへの変換を学習離散トークン（変換済み）を条件として Fine-tuning 復元された連続トークン

Slide 35

Slide 35 text

Diffusion Decoder 37  推論時復元された連続トークン

Slide 36

Slide 36 text

Diffusion Decoder導入の結果 38  Diffusion Decoderにより、映像が鮮明になっている（下段）

Slide 37

Slide 37 text

自己回帰WFMの結果例 39

Slide 38

Slide 38 text

Cosmos-Predict1 models 40  事前学習済みWorld Foundation Models 自己回帰自己回帰拡散モデル拡散モデル

Slide 39

Slide 39 text

Pre-Trained Modelの評価 42  生成した動画の３次元的な一貫性を評価

Slide 40

Slide 40 text

Pre-Trained Modelの評価 43  物理シミュレーションとの比較

Slide 41

Slide 41 text

Pre-Trained Modelの評価 44  物理シミュレーションとの比較

Slide 42

Slide 42 text

Pre-Trained Modelの評価 45  物理シミュレーションとの比較

Slide 43

Slide 43 text

Pre-Trained Modelの評価 46  物理シミュレーションとの比較

Slide 44

Slide 44 text

Post-trained World Foundation Model 47  Cosmos WFMをfine-tuningして、以下のアプリケーションに適用  カメラ制御による3D世界ナビゲーション  ロボットの操作  自動運転カメラロボット自動運転

Slide 45

Slide 45 text

Post-training: カメラ制御 48  目的：  １枚の入力画像とカメラの軌跡から、動画を生成カメラ位置（位置＋向き）静止画次のフレーム Cosmos-Predict1-7B-Video2World- Sample-CameraCond（拡散型）

Slide 46

Slide 46 text

Post-training: カメラ制御 49  目的：  １枚の入力画像とカメラの軌跡から、動画を生成  学習データ  DL3DV-10Kデータセット  静的なシーンに対する動画データセット  動画を256フレームずつ分割し、それぞれに対しGLOMAPでカメラの位置/姿勢を計算  Fine-tuning  各トークンの潜在ピクセルに、位置＋視線方向の6次元を割り当て（Plucker embeddings）  トークンのチャネル方向に埋め込み

Slide 47

Slide 47 text

Post-training: カメラ制御 50  Fine-tuning チャネルにカメラ情報を埋め込み

Slide 48

Slide 48 text

51  静止画+カメラの軌跡を入力とした動画生成結果 Post-training: カメラ制御

Slide 49

Slide 49 text

Post-training: カメラ制御 52  カメラをジョイスティックコントローラーで動かす場合の予測画像

Slide 50

Slide 50 text

Post-training: カメラ制御 53  カメラをジョイスティックコントローラーで動かす場合の予測画像

Slide 51

Slide 51 text

Post-training: カメラ制御 54  カメラをジョイスティックコントローラーで動かす場合の予測画像

Slide 52

Slide 52 text

Post-training: ロボット操作1 55  目的：  １枚の入力画像とロボットへの指示文から、続きの動画を生成する  学習データ  Cosmos-1Xデータセット  1X Technologies社のヒューマノイドロボット「EVE」が捉えた約200時間の一人称視点ビデオから抽出された約12,000のエピソード  各エピソードには指示文が１つついている  Fine-tuning  Cosmos-1Xデータセットの動画＋指示文を用いてFine-tuning  Cosmos-Predict1-7B-Video2World-Sample-Instruction (拡散型)  Cosmos-Predict1-5B-Video2World-Sample-Instruction (自己回帰型)

Slide 53

Slide 53 text

Post-training: ロボット操作1 56

Slide 54

Slide 54 text

Post-training: ロボット操作1 57  人間による評価を行い、ベースラインを大幅に上回る

Slide 55

Slide 55 text

Post-training: ロボット操作2 58  目的：  １枚のロボットから見た視覚画像とアクションベクトルから、次のフレームを生成する  学習データ  Bridgeデータセット  台所で作業するロボットアームを三人称視点で撮影した20,000エピソードの動画  各フレームにアクションがついている。アクションはグリッパーの座標変化を含む７次元ベクトル  Fine-tuning  データセットの動画を入力都市、アクションをプロンプト化（自己回帰型）、またはtime stepに埋め込んで学習  Cosmos-Predict1-7B-Video2World-Sample-ActionCond (拡散型)  Cosmos-Predict1-5B-Video2World-Sample-ActionCond (自己回帰型)

Slide 56

Slide 56 text

Post-training: ロボット操作2 59  Fine-tuning  Cosmos-Predict1-7B-Video2World-Sample-ActionCond (拡散型) MLP Action +

Slide 57

Slide 57 text

Post-training: ロボット操作2 60  Fine-tuning  Cosmos-Predict1-5B-Video2World-Sample-ActionCond (自己回帰型) MLP Action

Slide 58

Slide 58 text

Post-training: ロボット操作2 61

Slide 59

Slide 59 text

Post-training: ロボット操作2 62  画質指標で従来法を上回る評価

Slide 60

Slide 60 text

Post-training: 自動運転 63  目的：  自動運転用に、車両に異なる方向を向いて取り付けられた、複数のカメラの映像を生成する。  学習データ  Real Driving Scene (RDS)データセット  約360万個の20秒ビデオクリップ（合計約20,000時間分）。  構成: 6つのカメラ視点（前方、左、右、後方、左後方、右後方）と、自車の動き（ego-motion）情報  車両密度、天候（雨、雪、霧など）、時間帯（昼夜）、道路の種類（田舎道、市街地、高速道路）などが網羅

Slide 61

Slide 61 text

Post-training: 自動運転 64  Fine-tuning  Cosmos-Predict1-7B-Text2World-Sample-MultiView  テキストプロンプトから6つの視点の映像を同時に生成  Cosmos-Predict1-7B-Text2World-Sample-MultiView- TrajectoryCond  テキストに加え、「将来の走行軌道（3D空間上の64個の座標点列）」を条件として入力し、その経路に沿った映像を生成  Cosmos-Predict1-7B-Video2World-Sample-MultiView  過去のフレームを条件とし、既存の映像を延長して生成

Slide 62

Slide 62 text

Post-training: 自動運転 65 視点情報 6視点 6視点分のトークン  Fine-tuning  6視点間でSelf-Attentionを取ることで、相互に関係のある映像を生成関係する視点とプロンプト同士でAttentionを取れるよう改良軌跡

Slide 63

Slide 63 text

Slide 64

Slide 64 text

Slide 65

Slide 65 text

Guardrail 68 世界基盤モデルを安全に使用するために、有害な入出力を遮断する包括的な安全性システム  pre-Guard（入力段階の防御）  キーワード・ブロッキング: 不適切な単語が含まれていたら拒絶  Aegis（イージス）ガードレール: LLMで暴力、性的内容、犯罪計画、薬物乱用、嫌がらせなどの有害プロンプトを検知してブロック  post-Guard（出力段階の防御）  ビデオ・コンテンツ安全性フィルター: 各フレームをSigLIPというモデルでベクトル化し、分類器（MLP）によって有害な内容が含まれていないかを判定  顔ぼかしフィルター: プライバシー保護のため、顔検出モデル（RetinaFace）を使用して映像内の顔を特定し、モザイク処理

Slide 66

Slide 66 text

まとめ 69  汎用的に使用可能な世界モデル基盤、Cosmos World Foundation Modelsを提案  Fine-tuningによって、3Dナビゲーション、ロボット、自動運転などに応用可能  拡散WFMと自己回帰WFMの２つの方式を提案  拡散WFMは、高品質な生成によって、高精細なシミュレーションや、複雑なシーン生成向き  自己回帰WFMはリアルタイム処理に向いており、ロボットの計画策定や対話的な制御向き

Slide 67

Slide 67 text

個人的な感想 70  ただ動画生成を学習しただけなのに世界モデルが物理法則を理解している、と言われるともやもやする。  人間も視覚から世界の理解を深めているし、動きの予測の時運動方程式を意識しているわけではないので、動画生成が世界モデルで重要というのはわかる。  人間が物体の動きを予測できるのは、心の中で空間的な配置などを理解しているためだと思うが、Cosmosの潜在表現はただの動画エンコードとしか思えない。  著者自身も時に正確な物理的ふるまいが動画に反映されていないことを認めている。  動画生成に留まらず、論文”World Models”のように潜在空間上で強化学習をして行動最適化できるところまで見たかった。  世界モデルが重要な理由は、そこにあると思っている  その場合、そこまで精緻な動画生成に意味はあるのか？