Gaming & PhisicalAI

Gaming & PhisicalAI Gaming & PhisicalAI MESAの制作工程を参考にしたゲームエンジンのAIへの関わり方 MESA の制作工程を参考にしたゲーム
エンジンのAI への関わり方 Fumitoshi Ogata Fumitoshi Ogata

ゲームエンジンにおけ
る A I の活用事例

Radiant AIは、ゲーム内のNPC（ノンプレイヤーキャラクター）の行動をより自然で動的なものにするために開発された人工知能システムです [2]。主にThe Elder Scrollsシリーズで使用されており、NPCに独自の目標や行動パターンを与えることで、よりリアルな世界観を作り出すことを目的としています。 Radient AI

Teammatesは、2024年のNeo NPCプロジェクトの進化版として開発された、生成AI駆動の実験的なゲーム体験です。一人称シューティングゲーム形式で、リアルタイム音声コマンドに反応する高度なAI機能を持つNPCが特徴です Variety Ubisoft 。現在、限定的なクローズドプレイテストで数百人のプレイヤーがテストしています。
主要機能 1. Jaspar - AIアシスタント Jasparは、プレイヤーをミッション全体でサポートするゲーム内AIアシスタントです。プレイヤーを名前で認識し、オンボーディングを支援し、ゲームの世界観を理解し、環境内の脅威や重要なオブジェクトをハイライトできます。ミッション目標を思い出させ、次のステップを提案し、プレイヤーが迷ったときの戦術ガイドとして機能します Ubisoft 。 2. Sofia & Pablo - AI チームメイトプレイヤーには、SofiaとPabloという2人のNPCチームメンバーが同行します。彼らは Jasparと同様に、直接コマンドを受けたり、会話したりできますが、物理的にゲーム世界に存在する点が異なります Ubisoft 。 3. 音声コマンドシステム NPCはリアルタイムでプレイヤーの音声指示を解釈し、状況に反応し、環境やプレイヤーのペースに適応できます。プレイヤーの戦略、気分、さらには個人的なスラングにも自然に反応します Variety 。 Teammates by Ubisoft

企業/プラットフォーム主要技術独自の特徴採用企業/タイトル Ubisoft Teammates Google Gemini + 独自ミドルウェア
行動ツリー+LLMハイブリッド、 Snowdrop/Anvil統合社内研究プロジェクト NVIDIA ACE NeMo, Riva, Audio2Face 音声・表情の完全統合、オンデバイス/クラウド Ubisoft, Tencent, NetEase, miHoYo, GSC, Fallen Leaf Inworld AI Character Brain, Contextual Mesh 感情・関係性・記憶管理、独自データセット Xbox, Ubisoft, Niantic, NetEase, Vaudeville Convai エンドツーエンドプラットフォーム NPC間相互作用、空間認識、低レイテンシ NVIDIA Kairos デモ Microsoft Xbox Azure OpenAI + Inworld AI設計コパイロット、Narrative Graph 全Xboxスタジオ向けツール EA SEED 機械学習、クラウドAI パスファインディング、PBR生成、研究主導 Project Atlas, Stability AI提携 Charisma.ai NLP + 独自ML ライター中心、ハルシネーション防止、 LLM非依存 Keywords Studios, 独立開発者 Artificial Agency 監督エージェントシステムゲーム全体のAI統合、動的チュートリアル独立開発者向け業界全体の動向ハイブリッドアプローチ: Ubisoftのように、従来の行動ツリーとLLMを組み合わせるアプローチが主流責任あるAI: Charisma.aiやMicrosoftのように、ハルシネーション防止とコンテンツ制御を重視マルチモーダル統合: 音声、表情、アニメーション、感情を統合したシステムが標準にクラウド vs オンデバイス: 現在はクラウド中心だが、商用化にはオフライン対応が必須コスト最適化: 使用量ベースの課金モデルと、スケーラビリティが主要な課題 AIを活用したゲーム基盤例

MLASを用いたSmallville型シミュレーション 1. Smallvilleとは何か：AI社会シミュレーションの革命 2023年、スタンフォード大学とGoogleの研究チームが発表した「Generative Agents: Interactive Simulacra of
Human Behavior」は、AI分野における社会シミュレーションの概念を根本的に変革しました。このプロジェクトでは、The Simsにインスパイアされた仮想世界「Smallville」に25のAIエージェントを配置し、人間らしい行動をシミュレートする画期的な実験が行われました。従来のコンピュータシミュレーションと決定的に異なるのは、エージェントの行動が事前にプログラムされたルールに従うのではなく、大規模言語モデル（LLM）による自然言語処理によって動的に生成されることです。これにより、研究者が予想もしなかった複雑で自然な社会的相互作用が創発的に現れるようになりました。 Smallville

Genie3 by Google DeepMind 開発企業: Google DeepMind 概要: テキストプロンプトから多様なインタラクティブ環境を生成できる汎用世界モデ
ルリアルタイムで24FPS、720p解像度で数分間の一貫性を保ちながら動作リアルタイムインタラクティブ機能を持つ初の汎用世界モデルフォトリアリスティックから想像上の世界まで幅広く生成可能プロンプト可能なワールドイベント機能により、生成中の世界をテキストで変更可能 AGI(汎用人工知能)への重要なステップとして位置づけられているリリース時期: 2025年8月5日発表(限定研究プレビュー)

開発企業: NVIDIA 概要: 物理AIのためのプラットフォームで、最先端の生成的世界基盤モデル(WFM)を特徴とする自律走行車(AV)とロボット向けに設計テキスト、画像、ビデオ、ロボットセンサーデータから物理ベースのビデオを生成モデルファミリー: Nano:
リアルタイム、低遅延推論とエッジデプロイメント用に最適化 Super: 高性能ベースラインモデル Ultra: 最高品質と忠実度、カスタムモデルの蒸留に最適拡散モデルと自己回帰モデルの両方を含む 200億時間の実世界の人間の相互作用、環境、産業、ロボティクス、運転データから9000兆トークンで訓練 NVIDIA Omniverseの3D出力と組み合わせることで、制御可能で高品質な合成ビデオデータを生成最新リリース: Cosmos Predict-2、Cosmos Transfer-2、Cosmos Reason(70億パラメータの視覚言語モデル) リリース時期: 2025年1月(CES 2025で発表) NVIDIA - Cosmos World Foundation Models

M E S A ( M u l t i
- E n t i t y S i m u l a t i o n A r c h i t e c t u r e

技術仕様・システム要件推奨動作環境 OS: Windows 10/11, macOS 12+, Linux (Ubuntu 20.04+)
CPU: Intel Core i7 / AMD Ryzen 7 以上 RAM: 16GB以上（32GB推奨） GPU: NVIDIA GTX 1660 / AMD RX 5600 以上ストレージ: SSD 20GB以上の空き容量ネットワーク: API使用時は安定したインターネット接続

1. フィールド自動生成機能 3Dフィールド自動生成機能上空写真からのセグメンテーションと3Dモデル生成概要実際の地図や上空写真から自動的に3D空間を生成する強力なツールです。セグメンテーション技術を用いて、建物、道路、公園などの要素を自動認識し、シミュレーション用の3Dフィールドを構築します。機能の特徴自動化されたワークフロー
1.上空写真・地図画像の読み込み 2.AIによる自動セグメンテーション 3.各領域の分類と識別 4.3Dジオメトリの生成 5.テクスチャとマテリアルの適用 6.シミュレーション可能なフィールドとして出力

V i s i o n M o d e
l s V i s i o n T r a n s f o r m e r ( V i T ) ├── 【ビジョンモデル】 │ │ │ ├── Vision Transformer (ViT)系 │ │ ├── オリジナルViT (Google, 2021) │ │ ├── DeiT (Data-efficient ViT) │ │ ├── BEiT (BERT Pre-training of Image Transformers) │ │ ├── DINOv2 / DINOv3 (Meta) │ │ ├── MAE (Masked Autoencoder, Meta) │ │ ├── SimMIM (Microsoft) │ │ ├── Swin Transformer (階層的ViT) │ │ ├── CSWin Transformer │ │ ├── CrossViT │ │ ├── PVT (Pyramid Vision Transformer) │ │ ├── CvT (Convolutional vision Transformer) │ │ └── MobileViT (エッジデバイス用) │ │ │ ├── CNNベースモデル（参考：ViT以前の主流） │ │ ├── ResNet │ │ ├── EfficientNet │ │ ├── VGG │ │ ├── Inception │ │ └── DenseNet │ │ │ ├── ハイブリッドモデル（CNN + Transformer） │ │ ├── RT-DETR │ │ ├── CoAtNet │ │ └── LeViT │ │ │ ├── 画像エンコーダー（VLMの構成要素） │ │ ├── CLIP ViT (OpenAI) │ │ ├── SigLIP (Google) │ │ ├── EVA-CLIP │ │ └── OpenCLIP 画像認識に Transformer アーキテクチャを適用したモデル。仕組み : 画像を小さなパッチ ( 例 :16 × 16 ピクセル ) に分割各パッチを単語のように扱い、 Transformer で処理従来の CNN( 畳み込みニューラルネットワーク ) とは異なるアプローチ利点 : 大規模データで学習すると高精度画像全体の関係性を効率的に捉える多くの最新 VLM の視覚部分の基礎技術影響 : 2020 年の Google 研究で登場後、画像認識の主流に現在の多くのビジョン AI の基盤技術

自己教師あり学習でトレーニングされたモデルであるDINOv2を使って、セマンティック画像セグメンテーション（画像から物体をきりわける）を行った例。

2. エージェントの作成 1. ログイン画面接続設定システムの起動時に、使用するLLMプロバイダーを選択します。推奨設定：Ollama（ローカル接続）接続先: localhost メリット:
完全にオフラインで動作データのプライバシーが保護される APIコストが発生しないレスポンスが高速（ローカル処理のため）事前準備: Ollamaのインストールが必要推奨モデル（例：llama2, mistral）のダウンロード Ollamaサーバーの起動（通常はポート11434）代替オプション1：OpenAI 接続方法: APIキーによる認証必要情報: OpenAI APIキー使用モデルの選択（GPT-3.5-turbo, GPT-4など）メリット: 高性能なモデルが利用可能安定したサービス注意点: 使用量に応じた課金インターネット接続が必須代替オプション2：Google Gemini 接続方法: APIキーによる認証必要情報: Google Cloud APIキー Geminiモデルの選択メリット: Googleの最新AI技術を活用多言語対応に優れる注意点: 使用量に応じた課金インターネット接続が必須接続設定の手順 1.プロバイダー選択ドロップダウンから接続先を選択 2.必要に応じてAPIキーまたは接続URLを入力 3.「接続テスト」ボタンで接続を確認 4.接続成功後、「開始」ボタンでシミュレーション画面へ移動

2. エージェント設定画面エージェントの作成シミュレーション内で行動する各エージェント（仮想人物）を作成・管理します。基本設定項目エージェント名: エージェントの識別名アバター: 視覚的な外見の選択初期配置:
マップ上の開始位置ペルソナ設定各エージェントには詳細なバックグラウンド（ペルソナ）を設定できます。これらの設定がエージェントの行動パターンや意思決定に影響を与えます。ペルソナの構成要素: 基本属性年齢性別職業居住地性格特性外向性／内向性協調性冒険心計画性興味・関心趣味好きな場所好きな活動社交性のレベル行動パターン日常的なルーティン優先順位意思決定の傾向背景ストーリー生い立ち重要な経験現在の目標や課題２. エージェントの作成

const prompt = `あなたは自律的なエージェントの詳細なペルソナ生成システムです。以下の条件に基づいて、新しいエージェントの詳細なペルソナと特徴を生成してください。出力は必ず有効なJSON形式のみで、余分な説明やテキストは含めないでください。$ {userRequirements} 条件： 1. 名前（日本語の一般的な苗字と名前の組み合わせ、例：田中太郎、佐藤花子など）
2. 年齢（20-70歳の範囲の整数） 3. 出身地（日本の都道府県、または海外の国名） 4. 学歴（最終学歴、大学名や専門学校名など具体的に） 5. 職業経歴（過去の仕事や現在の職業、職種を具体的に） 6. 趣味・嗜好（3-5個の具体的な趣味） 7. 宗教・信仰（無宗教、仏教、キリスト教、神道など、または具体的な宗派） 8. 家族構成（配偶者の有無、子供の有無、同居家族など） 9. 性格の詳細説明（3-4文程度で詳しく） 10. 性格特性（0-1の範囲の数値、小数点以下2桁まで）： - 社交性（sociability） - 活動的さ（energy） - ルーチン重視度（routine） - 好奇心（curiosity） - 共感性（empathy） - 責任感（responsibility） - 創造性（creativity） - 論理的思考（logic） 11. 価値観・信念（人生観や大切にしている価値観） 12. 目標・夢（将来の目標や夢） 13. 日課（各時間帯で2つまでの場所）有効な場所： - カフェ - 公園 - 図書館 - スポーツジム - 町の広場 - 自宅出力形式（必ずこの形式のJSONのみを出力）： { "name": "苗字名前", "age": 年齢, "background": { "birthplace": "出身地", "education": "学歴", "career": "職業経歴", "hobbies": ["趣味1", "趣味2", "趣味3"], "religion": "宗教・信仰", "family": "家族構成" }, "personality": { "description": "性格の詳細説明", "traits": { "sociability": 0.00, "energy": 0.00, "routine": 0.00, "curiosity": 0.00, "empathy": 0.00, "responsibility": 0.00, "creativity": 0.00, "logic": 0.00 }, "values": "価値観・信念", "goals": "目標・夢" }, "dailyRoutine": { "morning": ["場所1", "場所2"], "afternoon": ["場所1", "場所2"], "evening": ["場所1", "場所2"], "night": ["自宅"] } }`;

3.経路設定 3. シミュレーション画面メイン画面の構成 3D空間でエージェントたちが自律的に行動する様子をリアルタイムで観察できます。エージェント活性度の設定各エージェントの活動レベルを個別に調整できます。この設定により、外出頻度や行動の積極性が変化します。活性度レベルの詳細:
低活性度（1）行動特性: 1日の大部分を自宅で過ごす外出は必要最小限（週に1〜2回程度）近隣の施設のみ利用短時間の外出が中心想定される人物像: 在宅ワーカー引きこもり傾向のある人体調不良や高齢者リモート生活を送る人中活性度（10）行動特性: バランスの取れた生活パターン 1日1〜2回の外出決まったルーティンに従う複数の施設を定期的に訪問想定される人物像: 一般的な会社員学生主婦／主夫規則的な生活を送る人高活性度（50）行動特性: 非常に活発な行動パターン 1日に複数回外出様々な施設を積極的に訪問予測不可能な行動も含む長時間の外出も厭わない想定される人物像: 営業職社交的な学生フリーランサーアクティブなライフスタイルの人

現在のAIは次の単語やピクセルを予測することには長けているが、物理世界を理解し、行動の結果を予測する能力が欠けているチェスのような複雑なゲームはできても、物を掴んだり、状況に応じて適切に行動したりといった、人間の幼児でも自然にできることが逆に苦手。ヤン・ルカ
ン氏による現在の課題「人間や動物の学習の大部分は教師なし学習によって行われています。知能をケーキに例えると教師なし学習はケーキそのもの、教師あり学習はケーキの上に塗るクリーム、強化学習はその上に乗せる飾りのさくらんぼにあたります。私たちはクリームやさくらんぼの作り方は知っていますが、ケーキ本体の作り方はまだよく分かっていません。本当のAIを目指すには、まずケーキ＝教師なし学習の問題を解く必要があります。」 —ヤン・ルカン

インターネット上の情報を全て読むには40万年から50万年かかる膨大な量 30兆トークン 10 14乗バイト 1.1×10の15乗バイト満4歳になるまでに起きている時間（1.6万時間）と、視覚から得るデータ量を基にしています。視神経の数（200万本、1本＝1バイト）と、その伝送頻度（毎秒10回）から算出された数字５０倍
インターネット上の全てのデータは４歳児以下？ 4歳児

ロボットの転倒防止やバランス制御に教師あり学習が向いていない 1. 正解データの収集が困難教師あり学習には「正しい答え」のラベル付きデータが大量に必要ですが、ロボットのバランス制御では: 転倒せずに済んだ動作の「正解」を事前に網羅的に用意することが現実的に難しい実際にロボットを転倒させてデータ収集すると、ハードウェアが破損するリスクがあるシミュレーションで作成したデータは現実世界との物理的な差異(sim-to-real gap)が大きい 2.
リアルタイム性と連続的な意思決定バランス制御は: 刻一刻と変化する状態に対して、連続的かつ即座に制御入力を調整する必要がある単発の入力→出力のマッピングではなく、時系列の動的な制御が求められる教師あり学習は静的なパターン認識には強いが、このような動的制御には不向き 3. 報酬の遅延性「転倒しなかった」という結果は一連の動作の最後にしか判明しないどの時点のどの動作が成功/失敗に寄与したのか特定しにくい(credit assignment problem) 教師あり学習では各入力に対する即座の正解が必要だが、バランス制御ではこれが得られないロボットの転倒防止やバランス制御には教師あり学習は向いていない教師あり学習から、自己教師あり学習へ！

h t t p s : / / w w
w . y o u t u b e . c o m / w a t c h ? v = n 3 2 O m y o Q k f s 子供が学習するとき、模倣から始まる

人間の空間ナビゲーションは複数のシステムで構成: L L M は「意図」と
「サブゴール」のみ生成 " キッチンに行って食材を取ってくる " → [ " キッチンに移動 ", " 冷蔵庫に近づく " , " 食材を取る " ] M i d - L e v e l で幾何学的計画従来の経路プランニングアルゴリズム（ A* , D i j k s t r a , R R T ）地図データを使った最適経路計算 L o w - L e v e l で視覚ベース制御 D I N O v 2 や C L I P などの視覚特徴抽出リアルタイムな障害物認識局所的な軌道修正 S u r v e y k n o w l e d g e ( 地図的知識 ) R o u t e k n o w l e d g e ( 手続き的知識 ) L a n d m a r k k n o w l e d g e ( 視覚ランドマーク ) 階層的ナビゲーション（ H i e r a r c h i c a l N a v i g a t i o n ）階層的計画（ H i e r a r c h i c a l P l a n n i n g ） 1 . G l o b a l P l a n n i n g （大局的計画） + L o c a l P l a n n i n g （局所的制御）ロボティクスでは古くから標準的なアプローチです：

H i g h - L e v e l
P l a n n e r ← L l a m a ( 軽量 ) ( L l a m a - 3 . 2 - 1 B ) 階層的ナビゲーション（ H i e r a r c h i c a l N a v i g a t i o n ） M i d - L e v e l N a v i g a t o r ← A* アルゴリズム ( A* P a t h f i n d i n g ) V i s i o n S y s t e m ← D I N O v 2 ( D I N O v 2 F e a t u r e E x t r a c t o r ) L o w - L e v e l C o n t r o l l e r ← L l a m a + V i s i o n ( L l a m a - 3 . 2 - 1 B + D I N O v 2 )

階層的ナビゲーション
（ H i e r a r c h i c a l N a v i g a t i o n ） ┌─────────────────────────────┐ │ High-Level Planner (LLM) │ ← 俯瞰的な経路計画 │ - ゴール設定 │ - 意図理解 │ - サブゴール生成 │ - 文脈推論 └──────────┬──────────────────┘ │ サブゴール指示 ↓ ┌─────────────────────────────┐ │ Mid-Level Navigator │ │ - 経路プランニング(A*, RRT等)│ │ - サブゴールへのパス生成 │ └──────────┬──────────────────┘ │ ウェイポイント ↓ ┌─────────────────────────────┐ │ Low-Level Controller │ ← 一人称視点での制御 │ - Vision Model (DINOv2等) │ - 視覚認識 │ - 障害物回避 │ - リアルタイム制御 │ - 局所的な意思決定 │ └─────────────────────────────┘ 「俯瞰視点での経路決定」一人称視点での行動

C o m f y U I に見る
複数の L L M の接続による出力

V i s i o n L a n g
u a g e M o d e l s 【Vision Language Models (VLM)】 │ │ │ ├── プロプライエタリ（企業提供） │ │ ├── GPT-4V / GPT-4o (OpenAI, 2023/2024) │ │ ├── Claude 3.5 Sonnet (Anthropic) ←今話してる私！ │ │ ├── Claude 4 Opus / Sonnet 4.5 (Anthropic, 2024/2025) │ │ ├── Gemini 1.5 Pro / Flash (Google) │ │ ├── Gemini 2.5 Pro (Google, 2025) │ │ ├── Gemini 2.0 Flash (Google, 2024) │ │ └── Reka (Reka AI) │ │ │ ├── オープンソース - 大規模 │ │ ├── Qwen2.5-VL (7B, 72B) (Alibaba) │ │ ├── Qwen3-VL (Alibaba, 2025) │ │ ├── LLaMA 3.2 Vision (11B, 90B) (Meta) │ │ ├── InternVL 2.5 (OpenGVLab) │ │ ├── CogVLM2 (清華大学) │ │ ├── Yi-VL (01.AI) │ │ └── DeepSeek-VL (DeepSeek) │ │ │ ├── オープンソース - 中小規模 │ │ ├── Phi-4 Vision (Microsoft) │ │ ├── Gemma 3 (4B, 27B) (Google) │ │ ├── MiniCPM-V (OpenBMB) │ │ ├── Molmo (1B, 7B, 72B) (Allen AI) │ │ ├── PaliGemma (Google) │ │ └── LLaVA (各種サイズ) │ │ │ ├── 推論特化VLM │ │ ├── QVQ-72B (Qwen, マルチモーダル推論) │ │ └── Kimi-VL-A3B-Thinking (Moonshot AI) │ │ │ │ │ ├── 動画対応VLM │ │ ├── Qwen2.5-VL (動画理解可能) │ │ ├── Gemini 2.5 Pro (長時間動画対応) │ │ ├── Video-LLaMA │ │ └── VideoChat │ │ │ └── マルチモーダル安全モデル │ ├── ShieldGemma 2 (Google) │ └── Llama Guard 4 (Meta) │ 視覚と言語を統合した AI モデルです。特徴 : 画像・動画を理解し、それについて自然言語で会話できる例 : 「この画像には何が写っていますか ? 」と聞くと詳しく説明してくれる画像からテキスト生成、テキストから画像検索など双方向の処理が可能代表例 : GPT-4V 、 Claude( 私自身 ) 、 Gemini など画像認識と言語理解を組み合わせた多様なタスクに対応 VLA との違い : VLM: 視覚 + 言語 ( 理解・説明が中心 ) VLA: 視覚 + 言語 + 行動 ( ロボット制御まで含む )

写真に写っているのは何？猫です VLM V L M の仕組
み Link: [2103.00020] Learning Transferable Visual Models From Natural Language Supervision

動物園のキリン舎からキリンを撮影。キリンは柵の向こう側にいて、首を伸ばしてカメラの方を見ている。キリンの首には斑点があり、黒い尾と足には白い斑点がある。柵の向こう側には、キリンの体の大部分を覆っている横長の金網があり、その下にはセメントの地面がある。フェンスの反対側には、キリンを囲むように木が生い茂っている。 Image is Hotwheels

│ ├── 動画理解モデル │ │ ├── VideoMAE (動画版MAE) │ │
├── TimeSformer │ │ ├── ViViT (Video Vision Transformer) │ │ ├── MViT (Multiscale Vision Transformer) │ │ └── Uniformer │ ├── ワールドモデル（理解+予測+プランニング） │ │ ├── V-JEPA 2 (Meta, 2025) │ │ ├── V-JEPA (Meta, 2024) │ │ └── JEPA (Joint Embedding Predictive Architecture) │ V i s i o n M o d e l s ( V - J E PA 2 ) Meta(Facebook) が開発した動画理解のための自己教師あり学習モデルです。特徴 : ラベル付きデータなしで動画から学習動画の一部を隠して、その部分を予測することで学習物理法則や物体の動きなど、世界の仕組みを理解 V-JEPA2: V-JEPA の改良版 ( より高性能・効率的 ) より長い動画やより複雑な動きの理解が可能重要性 : 少ないデータで効率的に学習できる動画理解の基盤モデルとして、様々なタスクに応用可能 Yann LeCun(AI 研究の第一人者 ) が提唱するアプローチ

真の理解 vs パターン認識 ViT系は「何が写っているか」は分かるが、「なぜそうなるか」「次に何が起こるか」は理解しない物理法則、因果関係、時間的な変化の理解が欠如ロボティクスや自律システムには不十分

# OpenCVだと... # 手の位置を検出して... # 物体の動きを追跡して... # ルールを大量に書いて... # →
新しい動作ごとに再実装が必要 OpenCVでは難しいが、V-JEPA 2なら可能：「コップを持ち上げる」vs「コップを倒す」の区別「ドアを押す」vs「ドアを引く」の違い # V-JEPA 2だと... outputs = model(video) # それだけ！ # 学習済みの知識で複雑な動作を理解 O p e n C V v s V - J E PA 2 https://ai.meta.com/vjepa/ から引用

====================================================================== ステップ5：V-JEPA 2の学習内容 ====================================================================== 📊 予測精度: 1.0000 🎉 優秀！ V-JEPA
2は以下を理解しています： ✅ ミニカーが右下方向に移動し続ける ✅ 動きが加速している ✅ 坂道の傾斜に沿って移動するつまり：物理法則をプログラムしていないのに、動画を見るだけで「物が坂を転がる」という物理現象を理解しました！ ---------------------------------------------------------------------- 💡 重要なポイント：従来の方法: プログラマーが書く: 「位置 = 初速度 × 時間 + 0.5 × 加速度 × 時間²」 V-JEPA 2: 動画を見て学習: 「このパターンだと、次はこうなる」 → どちらも結果は同じだが、アプローチが全く違う！ → V-JEPA 2は「データから学ぶ」新しいパラダイム V - J E PA ２による物理法則の補完

動画の出力 7. 動画作成機能レコーディングとエクスポートシミュレーションの様子を高品質な動画として記録・出力できます。動画作成の準備録画設定 1.解像度の選択: 720p（HD）: 軽量、プレビュー用
1080p（Full HD）: 標準品質 1440p（2K）: 高品質 2160p（4K）: 最高品質 2.フレームレート: 24 fps: 映画的 30 fps: 標準 60 fps: 滑らか（アクション向け） 3.ビットレート: 低（5 Mbps）: ファイルサイズ優先中（10 Mbps）: バランス型高（20 Mbps）: 品質優先最高（50 Mbps）: 最高品質

G e n e r a t i v e
M o d e l s 【生成モデル】（コンテンツを作る） │ ├── 動画生成（Text/Image to Video） │ ├── Sora (OpenAI, 2024) │ ├── Wan 2.2 (Alibaba, 2025) │ │ ├── T2V (Text to Video) │ │ ├── I2V (Image to Video) │ │ ├── S2V (Speech to Video) │ │ └── Animate (キャラクターアニメーション) │ ├── Wan 2.1 (Alibaba, 2024) │ ├── Pika 2.0 (Pika Labs) │ ├── Runway Gen-3 (Runway) │ ├── Luma Ray 2 (Luma AI) │ ├── Kling 2.0 (快手/Kuaishou) │ ├── Veo 2 (Google) │ ├── Movie Gen (Meta) │ ├── CogVideoX (清華大学) │ ├── Hunyuan Video (Tencent) │ └── Seedance (Bytedance) │ ├── 画像生成（Text to Image） │ ├── DALL-E 3 (OpenAI) │ ├── Midjourney v6 │ ├── Stable Diffusion (v1.5, v2, SDXL, SD3) │ ├── Imagen 3 (Google) │ └── Flux (Black Forest Labs) │ └── Diffusion Transformer (DiT) ├── Stable Diffusion 3 (DiTベース) └── Sora (DiTベース) データから新しいコンテンツを生成する AI モデルの総称です。種類 : テキスト生成 : GPT 、 Claude など画像生成 : Stable Diffusion 、 DALL-E 、 Midjourney など動画生成 : Sora 、 Gen-2 など音声生成 : 音声合成、音楽生成など 3D 生成 : 3D モデル生成特徴 : 学習データのパターンを学び、新しいコンテンツを創造創作、デザイン、プログラミング支援など幅広い応用近年の AI ブームの中心技術

Use a video model Traditional programming LoRA Modeling Programming Rendering
従来のプログラミング v s 動画生成モデル入力 → 処理 → 出力 (テキスト/画像) → (拡散プロセス) → (動画フレーム)

Use a video model Traditional programming Modeling Programming Rendering 従
来のプログラミング v s 動画生成モデル入力 → 処理 → 出力 (テキスト/画像) → (拡散プロセス) → (動画フレーム)

来のプログラミング v s 動画生成モデル

Use a video model Traditional programming Programming Rendering Modeling 従

リアルタイムに動画を
生成する https://oasis-model.github.io

概要: 世界初のプレイ可能な「オープンワールド」 AIモデルと主張 Minecraftのゲームプレイビデオで訓練され、リアルタイムでMinecraft風のゲームを生成キーボードとマウスの入力を受け取り、物理、ルール、グラフィックスをリアルタイムでシミュレート 20FPS、360p解像度で動作(Nvidia
H100 GPU使用) フレームごとに自己回帰的に生成 Oasis 2.0: Minecraftのリアルタイムモッド版プレイ中に世界をリアルタイムで変換(ベネチア、インド、ニューヨーク、中世など) ビデオtoビデオモデル「MirageLSD」を使用 D e c a r t - O a s i s

M o d u l e r v s E
n d To E n d

テスラ FSD version 12 30万行のC++コード > AIに置き換え There is no
line of code that says there is a roundabout, which is what we have in the explicit control stack in version 11. There are over 300,000 lines of C++ in version 11, and there’s basically none of that in version 12. バージョン11の明示的な制御スタックにあるような、ラウンドアバウトが存在することを示すコード行は存在しません。バージョン11には30万行以上のC++コードがありますが、バージョン12には基本的にそのようなものは一切ありません。

モジュラーアプローチエンドツーエンドアプローチ人間が運転するときの思考プロセスを細かく分解して、それぞれを別々のモジュール（部品）として作る方法。認識 → カメラで周囲を見て、車・人・信号を検出地図作成 → 自分の位置と周囲の地図を作る
経路計画 → スタートからゴールまでの大まかなルートを決める行動決定 → 「右折する」「追い越す」などを判断制御 → ハンドルやアクセルの操作量を計算特徴： ✅ 各ステップが明確で、どこで間違えたか分かりやすい ✅ 人間の知識やルールを組み込みやすい ❌ 各モジュールのエラーが積み重なる ❌ モジュール間の連携が複雑センサーの入力から運転操作まで、一つのニューラルネットワークが直接学習する方法。具体的な流れ：カメラ画像 → ブラックボックス（深層学習） → ハンドル角度・速度自己教師あり学習との組み合わせ：大量の走行データから、AIが自動的にパターンを学習「この状況ではこう運転すべき」を明示的に教えなくても、データから自動で学ぶ特徴： ✅ シンプルな構造 ✅ データがあれば複雑な状況にも対応できる可能性 ❌ なぜその判断をしたのか説明しにくい（ブラックボックス） ❌ 訓練データにない状況に弱いエンジニア ↓ デバッグ / コード変更（ソースコード主体） ↓ 改善 AI ↓ データをキュレーション / トレーニング（人間の行動観察） ↓ 改善 # 地図ベースの経路計画 class MapBasedController: def __init__(self, map_data): self.map = map_data # 事前に与えられた地図 self.path_planner = AStarPlanner(self.map) self.localizer = GPSLocalizer() self.controller = PIDController() def drive(self, frame): # 1. 自己位置推定 position = self.localizer.get_position() # 2. 地図から経路計画 path = self.path_planner.plan(position, goal) # 3. 経路追従 control = self.controller.follow_path(path, position) return control # 視覚のみのエンドツーエンド学習 class EndToEndController(nn.Module): def __init__(self): # DINOv2で特徴抽出（自己教師あり学習済み） self.vision_encoder = Dinov2Model.from_pretrained('facebook/dinov2-base') # 時系列パターン学習 self.temporal_model = nn.LSTM(768, 256, 2) # 行動出力 self.action_head = nn.Linear(256, 3) # [ハンドル, アクセル, ブレーキ] def forward(self, frames): # 画像 → 特徴（自動で道路の概念を獲得） features = self.vision_encoder(frames).last_hidden_state[:, 0] # 時系列パターン → 行動（自動で運転戦略を学習） temporal_features, _ = self.temporal_model(features) # 直接制御信号を出力 actions = self.action_head(temporal_features) return actions # 学習（自己教師あり） model = EndToEndController() # データ収集: 人間が運転するだけ（アノテーション不要） for video_frame, steering_angle in driving_dataset: predicted_angle = model(video_frame) loss = (predicted_angle - steering_angle) ** 2 loss.backward()

モジュラーアプローチエンドツーエンドアプローチ３Dモデルの作成アニメーション作成プログラミング出力出力拡散プロセステキスト /
画像ゲームエンジンにおけるアプローチの違い

ニューラルネットワーク（深層学習）センサー入力物体検出・認識経路計画制御コマンド生成センサー入力自動運
転におけるアプローチの違い車両制御モジュラーアプローチエンドツーエンドアプローチ車両制御

ロボットアーム動作（直接制御）ビジョンシステム（物体認識）位置・姿勢推定動作計画（軌道生成）衝突回避チェックカメラ入力（作業環境）
工場ロボットにおけるアプローチの違いモーター制御コマンドロボットアーム動作モジュラーアプローチエンドツーエンドアプローチニューラルネットワーク（深層学習）

W o r l d M o d e l
s 物理世界の仕組みや法則を学習し、未来を予測・シミュレーションできる AI モデルです。基本概念 : 現実世界がどう動くかを理解する ( 物理法則、物体の動き、因果関係など ) 「もし〇〇したら、次に何が起こるか ? 」を予測ゲームエンジンのように、仮想的に世界をシミュレーション重要性 : ロボットが行動を計画する際の基盤少ない実データで効率的に学習人間のような直感的な物理理解を AI に与える

Genie3 by Google DeepMind 開発企業: Google DeepMind 概要: テキストプロンプトから多様なインタラクティブ環境を生成できる汎用世界モデ
ルリアルタイムで24FPS、720p解像度で数分間の一貫性を保ちながら動作リアルタイムインタラクティブ機能を持つ初の汎用世界モデルフォトリアリスティックから想像上の世界まで幅広く生成可能プロンプト可能なワールドイベント機能により、生成中の世界をテキストで変更可能 AGI(汎用人工知能)への重要なステップとして位置づけられているリリース時期: 2025年8月5日発表(限定研究プレビュー)

Video generation models as world simulators ～SORA 開発企業: OpenAI 概要:
テキストから高品質なビデオを生成するテキストコンディショナル拡散モデル物理世界の一般的なシミュレーターとして機能 Sora(初代): 最大1分の高忠実度ビデオを生成、 1080p・20秒まで対応 Sora 2(2025年9月発表): より物理的に正確で、リアルで制御可能同期した対話と効果音を生成複数ショットにわたって世界の状態を正確に維持オリンピック体操ルーチンなど、極めて難しい動作をモデル化可能実世界の要素(人物、動物、オブジェクト)を任意のSora生成環境に注入可能 3D一貫性、長距離コヒーレンス、オブジェクトの永続性などの創発的能力を示す Minecraftのようなゲームをシミュレート可能

開発企業: Midjourney, Inc. 現状: 画像生成AIとして有名だが、世界モデルは現在開発中創業者David Holtzは3D、ビデオ、リアルタイム生成機能を統合した「世界シミュレーション」の構築を目指していると表明
「オープンワールドサンドボックス」のビジョン - 人々がビデオゲームを作ったり、映画を撮影したりできる環境バージョン7の画像モデルを訓練中 3D生成機能はビデオ機能より先に到着する可能性があると言及 NeRF(Neural Radiance Fields)技術をベースにした3Dモデルを開発中ビデオモデル: 2025年6月18日にV1ビデオモデルを発表 Image-to-Videoワークフロー自動および手動アニメーション設定 5秒のビデオを4つ生成 Midjourney

開発企業: Tencent (Hunyuan Team) 概要: 単一画像とユーザー定義のカメラパスから、世界一貫性のある3D点群シーケンスを生成 RGB-D(カラー+深度)ビデオ生成フレームワーク
3D一貫性のあるシーン動画を生成し、カスタムカメラ軌道に従って世界探索が可能ネイティブ3D再構成機能を持ち、 COLMAPなどの追加ツール不要で3D出力が可能超長距離世界探索をサポート(任意の長さのカメラ軌跡に対応) Stanford WorldScoreベンチマークで1 位を獲得(スコア77.62) 10万本以上のビデオクリップ(実写 +Unreal Engineの合成データ)で訓練リリース時期: 2025年9月2日 Tencent - HunyuanWorld-Voyager

開発企業: World Labs(Fei-Fei Li創業) 概要: AI pioneer Fei-Fei Li(ImageNet創設者、スタンフォード大学教授)が2024年に設立
大規模世界モデル(Large World Models - LWM)を開発し、3D世界の認識、生成、相互作用を可能にする「空間知能(Spatial Intelligence)」をAIに与えることに焦点単一画像からインタラクティブな3D環境を生成可能ゲームのようなシーンをブラウザ内で探索・修正可能生成されたシーンは物理法則に従い、堅実性と深度の感覚を持つゲーム会社、映画スタジオ、建築家、デザイナーなどのプロフェッショナル向け W o r l d L a b s b y F e i - F e i L i

AI画像・動画・ロボティクスモデル │ ├── 【ビジョンモデル】（画像・動画の理解・分析） │ │ │ ├── Vision
Transformer (ViT)系 │ │ ├── オリジナルViT (Google, 2021) │ │ ├── DeiT (Data-efficient ViT) │ │ ├── BEiT (BERT Pre-training of Image Transformers) │ │ ├── DINOv2 / DINOv3 (Meta) │ │ ├── MAE (Masked Autoencoder, Meta) │ │ ├── SimMIM (Microsoft) │ │ ├── Swin Transformer (階層的ViT) │ │ ├── CSWin Transformer │ │ ├── CrossViT │ │ ├── PVT (Pyramid Vision Transformer) │ │ ├── CvT (Convolutional vision Transformer) │ │ └── MobileViT (エッジデバイス用) │ │ │ ├── CNNベースモデル（参考：ViT以前の主流） │ │ ├── ResNet │ │ ├── EfficientNet │ │ ├── VGG │ │ ├── Inception │ │ └── DenseNet │ │ │ ├── ハイブリッドモデル（CNN + Transformer） │ │ ├── RT-DETR │ │ ├── CoAtNet │ │ └── LeViT │ │ │ ├── 動画理解モデル │ │ ├── VideoMAE (動画版MAE) │ │ ├── TimeSformer │ │ ├── ViViT (Video Vision Transformer) │ │ ├── MViT (Multiscale Vision Transformer) │ │ └── Uniformer │ │ │ ├── ワールドモデル（理解+予測+プランニング） │ │ ├── V-JEPA 2 (Meta, 2025) │ │ ├── V-JEPA (Meta, 2024) │ │ └── JEPA (Joint Embedding Predictive Architecture) │ │ │ ├── 画像エンコーダー（VLMの構成要素） │ │ ├── CLIP ViT (OpenAI) │ │ ├── SigLIP (Google) │ │ ├── EVA-CLIP │ │ └── OpenCLIP │ │ │ └── 物体検出特化モデル │ ├── YOLO (v5, v7, v8, v11) │ ├── DETR (Detection Transformer) │ ├── Segment Anything (SAM, Meta) │ └── Mask R-CNN │ ├── 【Vision Language Models (VLM)】 │ │ │ ├── 【Vision Language Models (VLM)】 │ │ │ ├── プロプライエタリ（企業提供） │ │ ├── GPT-4V / GPT-4o (OpenAI, 2023/2024) │ │ ├── Claude 3.5 Sonnet (Anthropic) │ │ ├── Claude 4 Opus / Sonnet 4.5 (Anthropic, 2024/2025) │ │ ├── Gemini 1.5 Pro / Flash (Google) │ │ ├── Gemini 2.5 Pro (Google, 2025) │ │ ├── Gemini 2.0 Flash (Google, 2024) │ │ └── Reka (Reka AI) │ │ │ ├── オープンソース - 大規模 │ │ ├── Qwen2.5-VL (7B, 72B) (Alibaba) │ │ ├── Qwen3-VL (Alibaba, 2025) │ │ ├── LLaMA 3.2 Vision (11B, 90B) (Meta) │ │ ├── InternVL 2.5 (OpenGVLab) │ │ ├── CogVLM2 (清華大学) │ │ ├── Yi-VL (01.AI) │ │ └── DeepSeek-VL (DeepSeek) │ │ │ ├── オープンソース - 中小規模 │ │ ├── Phi-4 Vision (Microsoft) │ │ ├── Gemma 3 (4B, 27B) (Google) │ │ ├── MiniCPM-V (OpenBMB) │ │ ├── Molmo (1B, 7B, 72B) (Allen AI) │ │ ├── PaliGemma (Google) │ │ └── LLaVA (各種サイズ) │ │ │ ├── 推論特化VLM │ │ ├── QVQ-72B (Qwen, マルチモーダル推論) │ │ └── Kimi-VL-A3B-Thinking (Moonshot AI) │ │ │ ├── OCR/文書特化VLM │ │ ├── DeepSeek-OCR (DeepSeek, 2025) │ │ ├── Qwen3-VL (32言語OCR対応) │ │ ├── Florence (Microsoft) │ │ └── Donut (Document Understanding Transformer) │ │ │ ├── 動画対応VLM │ │ ├── Qwen2.5-VL (動画理解可能) │ │ ├── Gemini 2.5 Pro (長時間動画対応) │ │ ├── Video-LLaMA │ │ └── VideoChat │ │ │ └── マルチモーダル安全モデル │ ├── ShieldGemma 2 (Google) │ └── Llama Guard 4 (Meta) │ ├── 【Vision-Language-Action Models (VLA)】 │ │（ロボット制御：Vision + Language + Action） │ │ │ ├── シングルシステム（エンドツーエンド） │ │ ├── RT-2 (Robotic Transformer 2, Google DeepMind, 2023) │ │ ├── OpenVLA (Physical Intelligence) │ │ ├── π0 (Pi-Zero, Physical Intelligence) │ │ ├── π0-fast (高速版) │ │ ├── Octo (UC Berkeley) │ │ └── QuartVLA │ │ │ │ │ ├── デュアルシステム（System 1 + System 2） │ │ ├── GR00T N1 (NVIDIA, 2025) - 2.2Bパラメータ │ │ │ ├── System 2: Eagle-2 VLM (理解・推論、10Hz) │ │ │ └── System 1: Diffusion Transformer (行動生成、120Hz) │ │ ├── GR00T N1.5 (NVIDIA, 2025) │ │ └── Helix (Physical Intelligence, 2024) │ │ └── 初のヒューマノイド全身制御VLA │ │ │ ├── クロスエンボディメント対応 │ │ ├── GR00T N1 (卓上ロボット→ヒューマノイド) │ │ └── RT-X (複数ロボット対応) │ │ │ └── 特殊用途VLA │ ├── Mobile ALOHA (モバイル双腕ロボット) │ └── LeRobot (Hugging Face, ロボット学習) │ ├── 【生成モデル】（コンテンツを作る） │ │ │ ├── 動画生成（Text/Image to Video） │ │ ├── Sora (OpenAI, 2024) │ │ ├── Wan 2.2 (Alibaba, 2025) │ │ │ ├── T2V (Text to Video) │ │ │ ├── I2V (Image to Video) │ │ │ ├── S2V (Speech to Video) │ │ │ └── Animate (キャラクターアニメーション) │ │ ├── Wan 2.1 (Alibaba, 2024) │ │ ├── Pika 2.0 (Pika Labs) │ │ ├── Runway Gen-3 (Runway) │ │ ├── Luma Ray 2 (Luma AI) │ │ ├── Kling 2.0 (快手/Kuaishou) │ │ ├── Veo 2 (Google) │ │ ├── Movie Gen (Meta) │ │ ├── CogVideoX (清華大学) │ │ ├── Hunyuan Video (Tencent) │ │ └── Seedance (Bytedance) │ │ │ ├── 画像生成（Text to Image） │ │ ├── DALL-E 3 (OpenAI) │ │ ├── Midjourney v6 │ │ ├── Stable Diffusion (v1.5, v2, SDXL, SD3) │ │ ├── Imagen 3 (Google) │ │ └── Flux (Black Forest Labs) │ │ │ └── Diffusion Transformer (DiT) │ ├── Stable Diffusion 3 (DiTベース) │ └── Sora (DiTベース) │ └── 【合成データ生成】（VLA訓練用） ├── NVIDIA Omniverse (物理シミュレーション) ├── NVIDIA Cosmos (合成データ生成) └── DreamGen (GR00T N1.5用、合成行動生成) オブジェクト検知、セグメンテーション言語を伴う動画や画像処理ロボットなどの動作を主体シミュレーターなどに活用、ワールドモデル物理認識や予測など

Gaming & PhisicalAI

Gaming & PhisicalAI

More Decks by oggata

Featured

Transcript