Slide 1

Slide 1 text

第66回 CV勉強会@関東「世界モデル論文読み会」 Cosmos World Foundation Model Platform for Physical AI 2026/02/08 takmin

Slide 2

Slide 2 text

自己紹介 2 株式会社ビジョン&ITラボ 代表取締役 皆川 卓也(みながわ たくや) 博士(工学) 「コンピュータビジョン勉強会@関東」主催 株式会社フューチャースタンダード 技術顧問 略歴: 1999-2003年 日本HP(後にアジレント・テクノロジーへ分社)にて、ITエンジニアとしてシステム構築、プリ セールス、プロジェクトマネジメント、サポート等の業務に従事 2004-2009年 コンピュータビジョンを用いたシステム/アプリ/サービス開発等に従事 2007-2010年 慶應義塾大学大学院 後期博士課程にて、コンピュータビジョンを専攻 単位取得退学後、博士号取得(2014年) 2009年-現在 フリーランスとして、コンピュータビジョンのコンサル/研究/開発等に従事(2018年法人化) http://visitlab.jp お仕事の依頼はこちらから→

Slide 3

Slide 3 text

紹介する論文 5  Cosmos World Foundation Model Platform for Physical AI  NVIDIA開発の世界「基盤」モデル  Fine-tuningによって、様々なアプリケーションに適用可能 共著者:77人, 75ページ

Slide 4

Slide 4 text

紹介する論文 6  Cosmos World Foundation Model Platform for Physical AI  NVIDIA開発の世界「基盤」モデル  Fine-tuningによって、様々なアプリケーションに適用可能  Web site  https://www.nvidia.com/en-us/ai/cosmos/  コード  https://github.com/nvidia-cosmos

Slide 5

Slide 5 text

Cosmos World Foundation Model 7  物理AI(Physical AI)の大きな課題はデータを集めるのが 大変なこと。  特にアクションで現実世界に影響をあたえてデータ取るのは ハードルが高い  物理AIが安全に相互作用できる「デジタルツイン」となる 世界基盤モデル(World Foundation Model)によって データの問題を解決!

Slide 6

Slide 6 text

Cosmos World Foundation Model 8  大量の動画から学習したPre-trained World Foundation Modelを少量のプロンプト/動画ペアのデータFine-tuning 事前学習済み世 界基盤モデル

Slide 7

Slide 7 text

Cosmos World Foundation Model 9  過去の動画にCtという摂動を与えたらどうなるかを、未 来の動画として予測する。  摂動の例:  カメラの姿勢変化  ロボットのアクション  etc

Slide 8

Slide 8 text

Cosmosの構成 10  Video Curator  動画をシーンチェンジがない単位に分割  動的な高品質動画のみ選択  VLMによるアノテーション  重複動画の削除

Slide 9

Slide 9 text

Cosmosの構成 11  Video Tokenizers  動画を異なる圧縮比率でトークン化  現在のフレームのトークンを過去の動画から計算  連続トークンと離散型トークンの2種類

Slide 10

Slide 10 text

Cosmosの構成 12  Pre-trained World Foundation Models(事前学習された 世界基盤モデル)  拡散世界モデル(Diffusion-based World Foundation Model)  Diffusion Transformer (DiT)を元に事前学習した世界基盤モデル  自己回帰世界モデル(Autoregressive-based World Foundation Model)  自己回帰モデルを元に事前学習した世界基盤モデル

Slide 11

Slide 11 text

Cosmosの構成 13  WFM Post-Training  Pre-trained WFMをfine-tuningしてアプリケーションに適用  カメラ姿勢を入力とした視点生成  ロボット操作  自動運転

Slide 12

Slide 12 text

Cosmosの構成 14  Guardrail  有害な入出力のブロック

Slide 13

Slide 13 text

Data Curation 15  Split  動画を2秒から60秒に分割  1つの動画が複数のシーンを含まないように  動画のコーデックを統一

Slide 14

Slide 14 text

Data Curation 16  Filtering  品質の悪い動画の除去  Fine-tuning用の高画質動画の選択  動画のカテゴリ分布の調整  自動運転や手元の操作、自然のダイナミクス等

Slide 15

Slide 15 text

Data Curation 17  Annotation  VLMで動画にアノテーション  客観的な事実、視覚的・叙事的な要素を抽出  分類ラベル  世界基盤モデルの事前学習に利用される

Slide 16

Slide 16 text

Data Curation 18  Deduplication  重複した動画の削除

Slide 17

Slide 17 text

Data Curation 19  Sharding  動画クリップをWebへアップロードし、モデルトレーナーが直接 アクセスできるようにする

Slide 18

Slide 18 text

Tokenizer 20  動画は情報量が膨大であるため、学習効率を高めるた めにコンパクトなトークン列に圧縮  動画からEncoderで生成したトークンをDecoderで復元し、 2つの動画の差が小さくなるようにEncoder/Decoderを学 習

Slide 19

Slide 19 text

Tokenizer 21  連続トークンと離散トークンの2種類を生成  連続トークンは拡散世界基盤モデル(Diffusion WFM)用  離散トークンは自己回帰世界基盤モデル(Autoregressive WFM)用

Slide 20

Slide 20 text

Tokenizer 22  Causal Design (因果的設計)  未来のフレームを参照せず、過去のフレームのみから現在をトーク ン化  これにより、常に時間が順方向に進む物理AIシステムとの整合性を 確保

Slide 21

Slide 21 text

Tokenizer 23  Causal Design (因果的設計)  未来のフレームを参照せず、過去のフレームのみから現在をトーク ン化  これにより、常に時間が順方向に進む物理AIシステムとの整合性を 確保 v v 最初のフレーム𝑥0 を独立して扱い、以後4フレームずつグループ化して、3D Haarウェー ブレット変換

Slide 22

Slide 22 text

Tokenizer 24  Causal Design (因果的設計)  未来のフレームを参照せず、過去のフレームのみから現在をトーク ン化  これにより、常に時間が順方向に進む物理AIシステムとの整合性を 確保 v v 時間軸方向に畳み込む際、カーネルサイズkに対しk-1の左パディングを適用し、未来の フレームが参照されないようにする

Slide 23

Slide 23 text

Tokenizer 25  Causal Design (因果的設計)  未来のフレームを参照せず、過去のフレームのみから現在をトーク ン化  これにより、常に時間が順方向に進む物理AIシステムとの整合性を 確保 v v 現在のステップが過去のステップのみ参考にするようにSelf-Attentionを行う

Slide 24

Slide 24 text

Tokenizer 26  Causal Design (因果的設計)  未来のフレームを参照せず、過去のフレームのみから現在をトーク ン化  これにより、常に時間が順方向に進む物理AIシステムとの整合性を 確保 v v Decoderで、Encoderと対称な処理で元の動画を復元

Slide 25

Slide 25 text

Tokenizer 27  連続トークン  学習したEncoderの出力そのまま  離散トークン  連続トークンをFinite-Scalar-Quantization (FSQ)でベクトル量子化 → 64,000語 Continuous Token

Slide 26

Slide 26 text

Diffusion-based World Foundation Model 28 2種類の世界基盤モデル(World Foundation Model)  拡散世界基盤モデル(Diffusion WFM)  Diffusion Transformer (DiT)をベースとしたアーキテクチャ  ガウシアンノイズから徐々にノイズを除去して動画を生成  連続トークン(Continuous Token)を使用  自己回帰世界基盤モデル(Autoregressive WFM)  テキスト生成LLMのように、離散トークンを用いて、過去のトー クンからその次のトークンを順次予測・生成

Slide 27

Slide 27 text

Diffusion-based World Foundation Model 29 拡散世界基盤モデルのトレーニング 1. Text2Worldを学習  プロンプトから動画を生成するよう学習 2. Video2Worldを学習  Text2Worldを、プロンプトと過去のフレームから未来のフレー ムを予測するようFine-tuning  過去のフレームと生成されるフレームを時間軸で結合(Concatenate)  損失計算から過去のフレームは除外  過去のフレーム数はランダムに変更

Slide 28

Slide 28 text

Diffusion-based World Foundation Model 30  拡散世界基盤モデルの事前学習 連続トークンに ノイズ付与 ノイズ除去され たトークン ノイズ除去 H,W,TのPE 学習可能 なPE W,H,Tでさ らに分割 プロンプト による制御 入力動画 復元動画

Slide 29

Slide 29 text

Text2World結果例 31  プロンプトから動画を生成 動画はここで見れる https://research.nvidia.com/labs/dir/cosmos-predict1/

Slide 30

Slide 30 text

Video2World結果例 32  画像とプロンプトから動画を生成

Slide 31

Slide 31 text

Autoregression-based World Foundation Model 33 トレーニング 1. 最初のフレームから、続きの動画を生成するよう学習  17フレーム予測→34フレーム予測と2段階で学習 2. プロンプトによる条件付け  Cross Attentionを用いてプロンプト+画像から、続きの動画を 生成するようにFine-tuning  過去のフレーム数はランダムに変更

Slide 32

Slide 32 text

Autoregression-based World Foundation Model 34  自己回帰世界基盤モデルの事前学習 入力動画 続きの動画 H,W,TのPE 学習可能 なPE 離散トークン 因果的 Attention プロンプト による制御 float vectorへ 変換(学習可)

Slide 33

Slide 33 text

Autoregression-based World Foundation Model 35 離散トークンは圧縮率は高いが、自己回帰WFMによって 生成した動画に、ボケやアーティファクトが発生 拡散WFMで利用した連続トークンのデコーダを利用したい 離散トークンから連続トークンへの変換方法を学習させる Diffusion Decoder

Slide 34

Slide 34 text

Diffusion Decoder 36  学習 連続トークン への変換を 学習 離散トークン (変換済み)を 条件として Fine-tuning 復元された 連続トークン

Slide 35

Slide 35 text

Diffusion Decoder 37  推論時 復元された 連続トークン

Slide 36

Slide 36 text

Diffusion Decoder導入の結果 38  Diffusion Decoderにより、 映像が鮮明になっている(下 段)

Slide 37

Slide 37 text

自己回帰WFMの結果例 39

Slide 38

Slide 38 text

Cosmos-Predict1 models 40  事前学習済みWorld Foundation Models 自己回帰 自己回帰 拡散モデル 拡散モデル

Slide 39

Slide 39 text

Pre-Trained Modelの評価 42  生成した動画の3次元的な一貫性を評価

Slide 40

Slide 40 text

Pre-Trained Modelの評価 43  物理シミュレーションとの比較

Slide 41

Slide 41 text

Pre-Trained Modelの評価 44  物理シミュレーションとの比較

Slide 42

Slide 42 text

Pre-Trained Modelの評価 45  物理シミュレーションとの比較

Slide 43

Slide 43 text

Pre-Trained Modelの評価 46  物理シミュレーションとの比較

Slide 44

Slide 44 text

Post-trained World Foundation Model 47  Cosmos WFMをfine-tuningして、以下のアプリケーション に適用  カメラ制御による3D世界ナビゲーション  ロボットの操作  自動運転 カメラ ロボット 自動運転

Slide 45

Slide 45 text

Post-training: カメラ制御 48  目的:  1枚の入力画像とカメラの軌跡から、動画を生成 カメラ位置(位置+向き) 静止画 次のフ レーム Cosmos-Predict1-7B-Video2World- Sample-CameraCond(拡散型)

Slide 46

Slide 46 text

Post-training: カメラ制御 49  目的:  1枚の入力画像とカメラの軌跡から、動画を生成  学習データ  DL3DV-10Kデータセット  静的なシーンに対する動画データセット  動画を256フレームずつ分割し、それぞれに対しGLOMAPでカ メラの位置/姿勢を計算  Fine-tuning  各トークンの潜在ピクセルに、位置+視線方向の6次元を割り 当て(Plucker embeddings)  トークンのチャネル方向に埋め込み

Slide 47

Slide 47 text

Post-training: カメラ制御 50  Fine-tuning チャネルに カメラ情報 を埋め込み

Slide 48

Slide 48 text

51  静止画+カメラの 軌跡を入力とした 動画生成結果 Post-training: カメラ制御

Slide 49

Slide 49 text

Post-training: カメラ制御 52  カメラをジョイスティックコントローラーで動かす場合の予 測画像

Slide 50

Slide 50 text

Post-training: カメラ制御 53  カメラをジョイスティックコントローラーで動かす場合の予 測画像

Slide 51

Slide 51 text

Post-training: カメラ制御 54  カメラをジョイスティックコントローラーで動かす場合の予 測画像

Slide 52

Slide 52 text

Post-training: ロボット操作1 55  目的:  1枚の入力画像とロボットへの指示文から、続きの動画を生成する  学習データ  Cosmos-1Xデータセット  1X Technologies社のヒューマノイドロボット「EVE」が捉えた約200時間の 一人称視点ビデオから抽出された約12,000のエピソード  各エピソードには指示文が1つついている  Fine-tuning  Cosmos-1Xデータセットの動画+指示文を用いてFine-tuning  Cosmos-Predict1-7B-Video2World-Sample-Instruction (拡散型)  Cosmos-Predict1-5B-Video2World-Sample-Instruction (自己回帰型)

Slide 53

Slide 53 text

Post-training: ロボット操作1 56

Slide 54

Slide 54 text

Post-training: ロボット操作1 57  人間による評価を行い、ベースラインを大幅に上回る

Slide 55

Slide 55 text

Post-training: ロボット操作2 58  目的:  1枚のロボットから見た視覚画像とアクションベクトルから、次のフ レームを生成する  学習データ  Bridgeデータセット  台所で作業するロボットアームを三人称視点で撮影した20,000エピソー ドの動画  各フレームにアクションがついている。アクションはグリッパーの座標変 化を含む7次元ベクトル  Fine-tuning  データセットの動画を入力都市、アクションをプロンプト化(自己回帰 型)、またはtime stepに埋め込んで学習  Cosmos-Predict1-7B-Video2World-Sample-ActionCond (拡散型)  Cosmos-Predict1-5B-Video2World-Sample-ActionCond (自己回帰型)

Slide 56

Slide 56 text

Post-training: ロボット操作2 59  Fine-tuning  Cosmos-Predict1-7B-Video2World-Sample-ActionCond (拡散 型) MLP Action +

Slide 57

Slide 57 text

Post-training: ロボット操作2 60  Fine-tuning  Cosmos-Predict1-5B-Video2World-Sample-ActionCond (自己 回帰型) MLP Action

Slide 58

Slide 58 text

Post-training: ロボット操作2 61

Slide 59

Slide 59 text

Post-training: ロボット操作2 62  画質指標で従来法を上回る評価

Slide 60

Slide 60 text

Post-training: 自動運転 63  目的:  自動運転用に、車両に異なる方向を向いて取り付けられた、 複数のカメラの映像を生成する。  学習データ  Real Driving Scene (RDS)データセット  約360万個の20秒ビデオクリップ(合計約20,000時間分)。  構成: 6つのカメラ視点(前方、左、右、後方、左後方、右後方)と、自 車の動き(ego-motion)情報  車両密度、天候(雨、雪、霧など)、時間帯(昼夜)、道路の種類(田 舎道、市街地、高速道路)などが網羅

Slide 61

Slide 61 text

Post-training: 自動運転 64  Fine-tuning  Cosmos-Predict1-7B-Text2World-Sample-MultiView  テキストプロンプトから6つの視点の映像を同時に生成  Cosmos-Predict1-7B-Text2World-Sample-MultiView- TrajectoryCond  テキストに加え、「将来の走行軌道(3D空間上の64個の座標点列)」 を条件として入力し、その経路に沿った映像を生成  Cosmos-Predict1-7B-Video2World-Sample-MultiView  過去のフレームを条件とし、既存の映像を延長して生成

Slide 62

Slide 62 text

Post-training: 自動運転 65 視点情報 6視点 6視点分のトークン  Fine-tuning  6視点間でSelf-Attentionを取ることで、相互に関係のある映像 を生成 関係する視点とプロンプト同士 でAttentionを取れるよう改良 軌跡

Slide 63

Slide 63 text

66

Slide 64

Slide 64 text

67

Slide 65

Slide 65 text

Guardrail 68 世界基盤モデルを安全に使用するために、有害な入出力を遮 断する包括的な安全性システム  pre-Guard(入力段階の防御)  キーワード・ブロッキング: 不適切な単語が含まれていたら拒絶  Aegis(イージス)ガードレール: LLMで暴力、性的内容、犯罪計画、 薬物乱用、嫌がらせなどの有害プロンプトを検知してブロック  post-Guard(出力段階の防御)  ビデオ・コンテンツ安全性フィルター: 各フレームをSigLIPというモデ ルでベクトル化し、分類器(MLP)によって有害な内容が含まれてい ないかを判定  顔ぼかしフィルター: プライバシー保護のため、顔検出モデル (RetinaFace)を使用して映像内の顔を特定し、モザイク処理

Slide 66

Slide 66 text

まとめ 69  汎用的に使用可能な世界モデル基盤、Cosmos World Foundation Modelsを提案  Fine-tuningによって、3Dナビゲーション、ロボット、自動 運転などに応用可能  拡散WFMと自己回帰WFMの2つの方式を提案  拡散WFMは、高品質な生成によって、高精細なシミュレーショ ンや、複雑なシーン生成向き  自己回帰WFMはリアルタイム処理に向いており、ロボットの 計画策定や対話的な制御向き

Slide 67

Slide 67 text

個人的な感想 70  ただ動画生成を学習しただけなのに世界モデルが物理法則 を理解している、と言われるともやもやする。  人間も視覚から世界の理解を深めているし、動きの予測の時運動 方程式を意識しているわけではないので、動画生成が世界モデル で重要というのはわかる。  人間が物体の動きを予測できるのは、心の中で空間的な配置など を理解しているためだと思うが、Cosmosの潜在表現はただの動画 エンコードとしか思えない。  著者自身も時に正確な物理的ふるまいが動画に反映されていない ことを認めている。  動画生成に留まらず、論文”World Models”のように潜在空間 上で強化学習をして行動最適化できるところまで見たかった。  世界モデルが重要な理由は、そこにあると思っている  その場合、そこまで精緻な動画生成に意味はあるのか?