$30 off During Our Annual Pro Sale. View Details »

Gaming & PhisicalAI

Avatar for oggata oggata
November 01, 2025
35

Gaming & PhisicalAI

Avatar for oggata

oggata

November 01, 2025
Tweet

Transcript

  1. ゲ ー ム エ ン ジ ン に お け

    る A I の 活 用 事 例
  2. Teammatesは、2024年のNeo NPCプロジェクトの進化版として開発された、生成AI駆動 の実験的なゲーム体験です。一人称シューティングゲーム形式で、リアルタイム音声コマ ンドに反応する高度なAI機能を持つNPCが特徴です  Variety  Ubisoft 。現在、限定的なク ローズドプレイテストで数百人のプレイヤーがテストしています。

    主要機能 1. Jaspar - AIアシスタント Jasparは、プレイヤーをミッション全体でサポートするゲーム内AIアシスタントです。プ レイヤーを名前で認識し、オンボーディングを支援し、ゲームの世界観を理解し、環境内 の脅威や重要なオブジェクトをハイライトできます。ミッション目標を思い出させ、次の ステップを提案し、プレイヤーが迷ったときの戦術ガイドとして機能します  Ubisoft 。 2. Sofia & Pablo - AI チームメイト プレイヤーには、SofiaとPabloという2人のNPCチームメンバーが同行します。彼らは Jasparと同様に、直接コマンドを受けたり、会話したりできますが、物理的にゲーム世界 に存在する点が異なります  Ubisoft 。 3. 音声コマンド システム NPCはリアルタイムでプレイヤーの音声指示を解釈し、状況に反応し、環境やプレイヤー のペースに適応できます。プレイヤーの戦略、気分、さらには個人的なスラングにも自然 に反応します  Variety 。 Teammates by Ubisoft
  3. 企業/プラットフォーム 主要技術 独自の特徴 採用企業/タイトル Ubisoft Teammates Google Gemini + 独自ミドルウェア

    行動ツリー+LLMハイブリッド、 Snowdrop/Anvil統合 社内研究プロジェクト NVIDIA ACE NeMo, Riva, Audio2Face 音声・表情の完全統合、オンデバイス/ク ラウド Ubisoft, Tencent, NetEase, miHoYo, GSC, Fallen Leaf Inworld AI Character Brain, Contextual Mesh 感情・関係性・記憶管理、独自データセッ ト Xbox, Ubisoft, Niantic, NetEase, Vaudeville Convai エンドツーエンドプラットフォーム NPC間相互作用、空間認識、低レイテンシ NVIDIA Kairos デモ Microsoft Xbox Azure OpenAI + Inworld AI設計コパイロット、Narrative Graph 全Xboxスタジオ向けツール EA SEED 機械学習、クラウドAI パスファインディング、PBR生成、研究主 導 Project Atlas, Stability AI提携 Charisma.ai NLP + 独自ML ライター中心、ハルシネーション防止、 LLM非依存 Keywords Studios, 独立開発者 Artificial Agency 監督エージェントシステム ゲーム全体のAI統合、動的チュートリアル 独立開発者向け 業界全体の動向 ハイブリッドアプローチ: Ubisoftのように、従来の行動ツリーとLLMを組み合わせるアプローチが主流 責任あるAI: Charisma.aiやMicrosoftのように、ハルシネーション防止とコンテンツ制御を重視 マルチモーダル統合: 音声、表情、アニメーション、感情を統合したシステムが標準に クラウド vs オンデバイス: 現在はクラウド中心だが、商用化にはオフライン対応が必須 コスト最適化: 使用量ベースの課金モデルと、スケーラビリティが主要な課題 AIを活用したゲーム基盤例
  4. MOD

  5. MLASを用いたSmallville型シミュレーション 1. Smallvilleとは何か:AI社会シミュレーシ ョンの革命 2023年、スタンフォード大学とGoogleの研究 チームが発表した「Generative Agents: Interactive Simulacra of

    Human Behavior」 は、AI分野における社会シミュレーションの 概念を根本的に変革しました。このプロジェ クトでは、The Simsにインスパイアされた仮 想世界「Smallville」に25のAIエージェントを 配置し、人間らしい行動をシミュレートする 画期的な実験が行われました。 従来のコンピュータシミュレーションと決定 的に異なるのは、エージェントの行動が事前 にプログラムされたルールに従うのではな く、大規模言語モデル(LLM)による自然言 語処理によって動的に生成されることです。 これにより、研究者が予想もしなかった複雑 で自然な社会的相互作用が創発的に現れるよ うになりました。 Smallville
  6. Genie3 by Google DeepMind 開発企業: Google DeepMind 概要: テキストプロンプトから多様なインタラ クティブ環境を生成できる汎用世界モデ

    ル リアルタイムで24FPS、720p解像度で 数分間の一貫性を保ちながら動作 リアルタイムインタラクティブ機能を持 つ初の汎用世界モデル フォトリアリスティックから想像上の世 界まで幅広く生成可能 プロンプト可能なワールドイベント機能 により、生成中の世界をテキストで変更 可能 AGI(汎用人工知能)への重要なステップ として位置づけられている リリース時期: 2025年8月5日発表(限定研究 プレビュー)
  7. 開発企業: NVIDIA 概要: 物理AIのためのプラットフォームで、最先端の生 成的世界基盤モデル(WFM)を特徴とする 自律走行車(AV)とロボット向けに設計 テキスト、画像、ビデオ、ロボットセンサーデー タから物理ベースのビデオを生成 モデルファミリー: Nano:

    リアルタイム、低遅延推論とエッジデプロ イメント用に最適化 Super: 高性能ベースラインモデル Ultra: 最高品質と忠実度、カスタムモデルの蒸留 に最適 拡散モデルと自己回帰モデルの両方を含む 200億時間の実世界の人間の相互作用、環境、産 業、ロボティクス、運転データから9000兆トーク ンで訓練 NVIDIA Omniverseの3D出力と組み合わせること で、制御可能で高品質な合成ビデオデータを生成 最新リリース: Cosmos Predict-2、Cosmos Transfer-2、Cosmos Reason(70億パラメータの 視覚言語モデル) リリース時期: 2025年1月(CES 2025で発表) NVIDIA - Cosmos World Foundation Models
  8. M E S A ( M u l t i

    - E n t i t y S i m u l a t i o n A r c h i t e c t u r e
  9. 技術仕様・システム要件 推奨動作環境 OS: Windows 10/11, macOS 12+, Linux (Ubuntu 20.04+)

    CPU: Intel Core i7 / AMD Ryzen 7 以上 RAM: 16GB以上(32GB推奨) GPU: NVIDIA GTX 1660 / AMD RX 5600 以上 ストレージ: SSD 20GB以上の空き容量 ネットワーク: API使用時は安定したインターネッ ト接続
  10. V i s i o n M o d e

    l s V i s i o n T r a n s f o r m e r ( V i T ) ├── 【ビジョンモデル】 │ │ │ ├── Vision Transformer (ViT)系 │ │ ├── オリジナルViT (Google, 2021) │ │ ├── DeiT (Data-efficient ViT) │ │ ├── BEiT (BERT Pre-training of Image Transformers) │ │ ├── DINOv2 / DINOv3 (Meta) │ │ ├── MAE (Masked Autoencoder, Meta) │ │ ├── SimMIM (Microsoft) │ │ ├── Swin Transformer (階層的ViT) │ │ ├── CSWin Transformer │ │ ├── CrossViT │ │ ├── PVT (Pyramid Vision Transformer) │ │ ├── CvT (Convolutional vision Transformer) │ │ └── MobileViT (エッジデバイス用) │ │ │ ├── CNNベースモデル(参考:ViT以前の主流) │ │ ├── ResNet │ │ ├── EfficientNet │ │ ├── VGG │ │ ├── Inception │ │ └── DenseNet │ │ │ ├── ハイブリッドモデル(CNN + Transformer) │ │ ├── RT-DETR │ │ ├── CoAtNet │ │ └── LeViT │ │ │ ├── 画像エンコーダー(VLMの構成要素) │ │ ├── CLIP ViT (OpenAI) │ │ ├── SigLIP (Google) │ │ ├── EVA-CLIP │ │ └── OpenCLIP 画 像 認 識 に Transformer ア ー キ テ ク チ ャ を 適 用 し た モ デ ル 。 仕 組 み : 画 像 を 小 さ な パ ッ チ ( 例 :16 × 16 ピ ク セ ル ) に 分 割 各 パ ッ チ を 単 語 の よ う に 扱 い 、 Transformer で 処 理 従 来 の CNN( 畳 み 込 み ニ ュ ー ラ ル ネ ッ ト ワ ー ク ) と は 異 な る ア プ ロ ー チ 利 点 : 大 規 模 デ ー タ で 学 習 す る と 高 精 度 画 像 全 体 の 関 係 性 を 効 率 的 に 捉 え る 多 く の 最 新 VLM の 視 覚 部 分 の 基 礎 技 術 影 響 : 2020 年 の Google 研 究 で 登 場 後 、 画 像 認 識 の 主 流 に 現 在 の 多 く の ビ ジ ョ ン AI の 基 盤 技 術
  11. 2. エージェントの作成 1. ログイン画面 接続設定 システムの起動時に、使用するLLMプロバイダーを選択します。 推奨設定:Ollama(ローカル接続) 接続先: localhost メリット:

    完全にオフラインで動作 データのプライバシーが保護される APIコストが発生しない レスポンスが高速(ローカル処理のため) 事前準備: Ollamaのインストールが必要 推奨モデル(例:llama2, mistral)のダウンロード Ollamaサーバーの起動(通常はポート11434) 代替オプション1:OpenAI 接続方法: APIキーによる認証 必要情報: OpenAI APIキー 使用モデルの選択(GPT-3.5-turbo, GPT-4など) メリット: 高性能なモデルが利用可能 安定したサービス 注意点: 使用量に応じた課金 インターネット接続が必須 代替オプション2:Google Gemini 接続方法: APIキーによる認証 必要情報: Google Cloud APIキー Geminiモデルの選択 メリット: Googleの最新AI技術を活用 多言語対応に優れる 注意点: 使用量に応じた課金 インターネット接続が必須 接続設定の手順 1.プロバイダー選択ドロップダウンから接続先を選択 2.必要に応じてAPIキーまたは接続URLを入力 3.「接続テスト」ボタンで接続を確認 4.接続成功後、 「開始」ボタンでシミュレーション画面へ移動
  12. 2. エージェント設定画面 エージェントの作成 シミュレーション内で行動する各エージェント(仮想人物)を作成・管理します。 基本設定項目 エージェント名: エージェントの識別名 アバター: 視覚的な外見の選択 初期配置:

    マップ上の開始位置 ペルソナ設定 各エージェントには詳細なバックグラウンド(ペルソナ)を設定できます。これら の設定がエージェントの行動パターンや意思決定に影響を与えます。 ペルソナの構成要素: 基本属性年齢 性別 職業 居住地 性格特性外向性/内向性 協調性 冒険心 計画性 興味・関心趣味 好きな場所 好きな活動 社交性のレベル 行動パターン日常的なルーティン 優先順位 意思決定の傾向 背景ストーリー生い立ち 重要な経験 現在の目標や課題 2. エージェントの作成
  13. const prompt = `あなたは自律的なエージェントの詳細なペルソナ生成システムです。 以下の条件に基づいて、新しいエージェントの詳細なペルソナと特徴を生成してください。 出力は必ず有効なJSON形式のみで、余分な説明やテキストは含めないでください。$ {userRequirements} 条件: 1. 名前(日本語の一般的な苗字と名前の組み合わせ、例:田中太郎、佐藤花子など)

    2. 年齢(20-70歳の範囲の整数) 3. 出身地(日本の都道府県、または海外の国名) 4. 学歴(最終学歴、大学名や専門学校名など具体的に) 5. 職業経歴(過去の仕事や現在の職業、職種を具体的に) 6. 趣味・嗜好(3-5個の具体的な趣味) 7. 宗教・信仰(無宗教、仏教、キリスト教、神道など、または具体的な宗派) 8. 家族構成(配偶者の有無、子供の有無、同居家族など) 9. 性格の詳細説明(3-4文程度で詳しく) 10. 性格特性(0-1の範囲の数値、小数点以下2桁まで) : - 社交性(sociability) - 活動的さ(energy) - ルーチン重視度(routine) - 好奇心(curiosity) - 共感性(empathy) - 責任感(responsibility) - 創造性(creativity) - 論理的思考(logic) 11. 価値観・信念(人生観や大切にしている価値観) 12. 目標・夢(将来の目標や夢) 13. 日課(各時間帯で2つまでの場所) 有効な場所: - カフェ - 公園 - 図書館 - スポーツジム - 町の広場 - 自宅 出力形式(必ずこの形式のJSONのみを出力) : { "name": "苗字 名前", "age": 年齢, "background": { "birthplace": "出身地", "education": "学歴", "career": "職業経歴", "hobbies": ["趣味1", "趣味2", "趣味3"], "religion": "宗教・信仰", "family": "家族構成" }, "personality": { "description": "性格の詳細説明", "traits": { "sociability": 0.00, "energy": 0.00, "routine": 0.00, "curiosity": 0.00, "empathy": 0.00, "responsibility": 0.00, "creativity": 0.00, "logic": 0.00 }, "values": "価値観・信念", "goals": "目標・夢" }, "dailyRoutine": { "morning": ["場所1", "場所2"], "afternoon": ["場所1", "場所2"], "evening": ["場所1", "場所2"], "night": ["自宅"] } }`;
  14. 3.経路設定 3. シミュレーション画面 メイン画面の構成 3D空間でエージェントたちが自律的に行動する様子をリアルタイムで観察できま す。 エージェント活性度の設定 各エージェントの活動レベルを個別に調整できます。この設定により、外出頻度や 行動の積極性が変化します。 活性度レベルの詳細:

    低活性度(1) 行動特性: 1日の大部分を自宅で過ごす 外出は必要最小限(週に1〜2回程度) 近隣の施設のみ利用 短時間の外出が中心 想定される人物像: 在宅ワーカー 引きこもり傾向のある人 体調不良や高齢者 リモート生活を送る人 中活性度(10) 行動特性: バランスの取れた生活パターン 1日1〜2回の外出 決まったルーティンに従う 複数の施設を定期的に訪問 想定される人物像: 一般的な会社員 学生 主婦/主夫 規則的な生活を送る人 高活性度(50) 行動特性: 非常に活発な行動パターン 1日に複数回外出 様々な施設を積極的に訪問 予測不可能な行動も含む 長時間の外出も厭わない 想定される人物像: 営業職 社交的な学生 フリーランサー アクティブなライフスタイルの人
  15. 現在のAIは次の単語やピクセルを予測することには長けているが、物理世界を理解し、行 動の結果を予測する能力が欠けている チェスのような複雑なゲームはできても、物を掴んだり、状況に応じて適切に行動したり といった、人間の幼児でも自然にできることが逆に苦手 。 ヤ ン ・ ル カ

    ン 氏 に よ る 現 在 の 課 題 「人間や動物の学習の大部分は教師なし学習によって行われています。 知能をケーキに例えると教師なし学習はケーキそのもの、教師あり学習はケーキの上に塗る クリーム、強化学習はその上に乗せる飾りのさくらんぼにあたります。 私たちはクリームやさくらんぼの作り方は知っていますが、ケーキ本体の作り方はまだよく 分かっていません。本当のAIを目指すには、まずケーキ=教師なし学習の問題を解く必要が あります。 」 —ヤン・ルカン
  16. ロボットの転倒防止やバランス制御に教師あり学習が向いていない 1. 正解データの収集が困難 教師あり学習には「正しい答え」のラベル付きデータが大量に必要ですが、ロボットのバランス 制御では: 転倒せずに済んだ動作の「正解」を事前に網羅的に用意することが現実的に難しい 実際にロボットを転倒させてデータ収集すると、ハードウェアが破損するリスクがある シミュレーションで作成したデータは現実世界との物理的な差異(sim-to-real gap)が大きい 2.

    リアルタイム性と連続的な意思決定 バランス制御は: 刻一刻と変化する状態に対して、連続的かつ即座に制御入力を調整する必要がある 単発の入力→出力のマッピングではなく、時系列の動的な制御が求められる 教師あり学習は静的なパターン認識には強いが、このような動的制御には不向き 3. 報酬の遅延性 「転倒しなかった」という結果は一連の動作の最後にしか判明しない どの時点のどの動作が成功/失敗に寄与したのか特定しにくい(credit assignment problem) 教師あり学習では各入力に対する即座の正解が必要だが、バランス制御ではこれが得られな い ロボットの転倒防止やバランス制御には教師あり学習は向いていない 教師あり学習から、自己教師あり学習へ!
  17. h t t p s : / / w w

    w . y o u t u b e . c o m / w a t c h ? v = n 3 2 O m y o Q k f s 子供が学習するとき、模倣から始まる
  18. 人間の空間ナビゲーションは複数のシステムで構成: L L M は 「 意 図 」 と

    「 サ ブ ゴ ー ル 」 の み 生 成 " キ ッ チ ン に 行 って 食 材 を 取 って く る " → [ " キ ッ チ ン に 移 動 ", " 冷 蔵 庫 に 近 づ く " , " 食 材 を 取 る " ] M i d - L e v e l で 幾 何 学 的 計 画 従 来 の 経 路 プ ラ ン ニ ン グ ア ル ゴ リ ズ ム ( A* , D i j k s t r a , R R T ) 地 図 デ ー タ を 使 っ た 最 適 経 路 計 算 L o w - L e v e l で 視 覚 ベ ース 制 御 D I N O v 2 や C L I P な ど の 視 覚 特 徴 抽 出 リ ア ル タ イ ム な 障 害 物 認 識 局 所 的 な 軌 道 修 正 S u r v e y k n o w l e d g e ( 地 図 的 知 識 ) R o u t e k n o w l e d g e ( 手 続 き 的 知 識 ) L a n d m a r k k n o w l e d g e ( 視 覚 ラ ン ド マ ー ク ) 階 層 的 ナ ビ ゲ ー シ ョ ン ( H i e r a r c h i c a l N a v i g a t i o n ) 階 層 的 計 画 ( H i e r a r c h i c a l P l a n n i n g ) 1 . G l o b a l P l a n n i n g ( 大 局 的 計 画 ) + L o c a l P l a n n i n g ( 局 所 的 制 御 ) ロ ボ ティ ク ス で は 古 く か ら 標 準 的 な ア プ ロ ー チ で す :
  19. H i g h - L e v e l

    P l a n n e r ← L l a m a ( 軽 量 ) ( L l a m a - 3 . 2 - 1 B ) 階 層 的 ナ ビ ゲ ー シ ョ ン ( H i e r a r c h i c a l N a v i g a t i o n ) M i d - L e v e l N a v i g a t o r ← A* ア ル ゴ リ ズ ム ( A* P a t h f i n d i n g ) V i s i o n S y s t e m ← D I N O v 2 ( D I N O v 2 F e a t u r e E x t r a c t o r ) L o w - L e v e l C o n t r o l l e r ← L l a m a + V i s i o n ( L l a m a - 3 . 2 - 1 B + D I N O v 2 )
  20. 階 層 的 ナ ビ ゲ ー シ ョ ン

    ( H i e r a r c h i c a l N a v i g a t i o n ) ┌─────────────────────────────┐ │ High-Level Planner (LLM) │ ← 俯瞰的な経路計画 │ - ゴール設定 │ - 意図理解 │ - サブゴール生成 │ - 文脈推論 └──────────┬──────────────────┘ │ サブゴール指示 ↓ ┌─────────────────────────────┐ │ Mid-Level Navigator │ │ - 経路プランニング(A*, RRT等)│ │ - サブゴールへのパス生成 │ └──────────┬──────────────────┘ │ ウェイポイント ↓ ┌─────────────────────────────┐ │ Low-Level Controller │ ← 一人称視点での制御 │ - Vision Model (DINOv2等) │ - 視覚認識 │ - 障害物回避 │ - リアルタイム制御 │ - 局所的な意思決定 │ └─────────────────────────────┘ 「俯瞰視点での経路決定」 一人称視点での行動
  21. C o m f y U I に 見 る

    複 数 の L L M の 接 続 に よ る 出 力
  22. V i s i o n L a n g

    u a g e M o d e l s 【Vision Language Models (VLM)】 │ │ │ ├── プロプライエタリ(企業提供) │ │ ├── GPT-4V / GPT-4o (OpenAI, 2023/2024) │ │ ├── Claude 3.5 Sonnet (Anthropic) ←今話してる私! │ │ ├── Claude 4 Opus / Sonnet 4.5 (Anthropic, 2024/2025) │ │ ├── Gemini 1.5 Pro / Flash (Google) │ │ ├── Gemini 2.5 Pro (Google, 2025) │ │ ├── Gemini 2.0 Flash (Google, 2024) │ │ └── Reka (Reka AI) │ │ │ ├── オープンソース - 大規模 │ │ ├── Qwen2.5-VL (7B, 72B) (Alibaba) │ │ ├── Qwen3-VL (Alibaba, 2025) │ │ ├── LLaMA 3.2 Vision (11B, 90B) (Meta) │ │ ├── InternVL 2.5 (OpenGVLab) │ │ ├── CogVLM2 (清華大学) │ │ ├── Yi-VL (01.AI) │ │ └── DeepSeek-VL (DeepSeek) │ │ │ ├── オープンソース - 中小規模 │ │ ├── Phi-4 Vision (Microsoft) │ │ ├── Gemma 3 (4B, 27B) (Google) │ │ ├── MiniCPM-V (OpenBMB) │ │ ├── Molmo (1B, 7B, 72B) (Allen AI) │ │ ├── PaliGemma (Google) │ │ └── LLaVA (各種サイズ) │ │ │ ├── 推論特化VLM │ │ ├── QVQ-72B (Qwen, マルチモーダル推論) │ │ └── Kimi-VL-A3B-Thinking (Moonshot AI) │ │ │ │ │ ├── 動画対応VLM │ │ ├── Qwen2.5-VL (動画理解可能) │ │ ├── Gemini 2.5 Pro (長時間動画対応) │ │ ├── Video-LLaMA │ │ └── VideoChat │ │ │ └── マルチモーダル安全モデル │ ├── ShieldGemma 2 (Google) │ └── Llama Guard 4 (Meta) │ 視 覚 と 言 語 を 統 合 し た AI モ デ ル で す 。 特 徴 : 画 像 ・ 動 画 を 理 解 し 、 そ れ に つ い て 自 然 言 語 で 会 話 で き る 例 : 「 こ の 画 像 に は 何 が 写 っ て い ま す か ? 」 と 聞 く と 詳 し く 説 明 し て く れ る 画 像 か ら テ キ ス ト 生 成 、 テ キ ス ト か ら 画 像 検 索 な ど 双 方 向 の 処 理 が 可 能 代 表 例 : GPT-4V 、 Claude( 私 自 身 ) 、 Gemini な ど 画 像 認 識 と 言 語 理 解 を 組 み 合 わ せ た 多 様 な タ ス ク に 対 応 VLA と の 違 い : VLM: 視 覚 + 言 語 ( 理 解 ・ 説 明 が 中 心 ) VLA: 視 覚 + 言 語 + 行 動 ( ロ ボ ッ ト 制 御 ま で 含 む )
  23. 写真に写って いるのは何? 猫です VLM V L M の 仕 組

    み Link: [2103.00020] Learning Transferable Visual Models From Natural Language Supervision
  24. │ ├── 動画理解モデル │ │ ├── VideoMAE (動画版MAE) │ │

    ├── TimeSformer │ │ ├── ViViT (Video Vision Transformer) │ │ ├── MViT (Multiscale Vision Transformer) │ │ └── Uniformer │ ├── ワールドモデル(理解+予測+プランニング) │ │ ├── V-JEPA 2 (Meta, 2025) │ │ ├── V-JEPA (Meta, 2024) │ │ └── JEPA (Joint Embedding Predictive Architecture) │ V i s i o n M o d e l s ( V - J E PA 2 ) Meta(Facebook) が 開 発 し た 動 画 理 解 の た め の 自 己 教 師 あ り 学 習 モ デ ル で す 。 特 徴 : ラ ベ ル 付 き デ ー タ な し で 動 画 か ら 学 習 動 画 の 一 部 を 隠 し て 、 そ の 部 分 を 予 測 す る こ と で 学 習 物 理 法 則 や 物 体 の 動 き な ど 、 世 界 の 仕 組 み を 理 解 V-JEPA2: V-JEPA の 改 良 版 ( よ り 高 性 能 ・ 効 率 的 ) よ り 長 い 動 画 や よ り 複 雑 な 動 き の 理 解 が 可 能 重 要 性 : 少 な い デ ー タ で 効 率 的 に 学 習 で き る 動 画 理 解 の 基 盤 モ デ ル と し て 、 様 々 な タ ス ク に 応 用 可 能 Yann LeCun(AI 研 究 の 第 一 人 者 ) が 提 唱 す る ア プ ロ ー チ
  25. # OpenCVだと... # 手の位置を検出して... # 物体の動きを追跡して... # ルールを大量に書いて... # →

    新しい動作ごとに再実装が必要 OpenCVでは難しいが、V-JEPA 2なら可能: 「コップを持ち上げる」vs「コップを倒す」の区別 「ドアを押す」vs「ドアを引く」の違い # V-JEPA 2だと... outputs = model(video) # それだけ! # 学習済みの知識で複雑な動作を理解 O p e n C V v s V - J E PA 2 https://ai.meta.com/vjepa/ から引用
  26. ====================================================================== ステップ5:V-JEPA 2の学習内容 ====================================================================== 📊 予測精度: 1.0000 🎉 優秀! V-JEPA

    2は以下を理解しています: ✅ ミニカーが右下方向に移動し続ける ✅ 動きが加速している ✅ 坂道の傾斜に沿って移動する つまり: 物理法則をプログラムしていないのに、 動画を見るだけで「物が坂を転がる」という 物理現象を理解しました! ---------------------------------------------------------------------- 💡 重要なポイント: 従来の方法: プログラマーが書く: 「位置 = 初速度 × 時間 + 0.5 × 加速度 × 時間²」 V-JEPA 2: 動画を見て学習: 「このパターンだと、次はこうなる」 → どちらも結果は同じだが、アプローチが全く違う! → V-JEPA 2は「データから学ぶ」新しいパラダイム V - J E PA 2 に よ る 物 理 法 則 の 補 完
  27. 動画の出力 7. 動画作成機能 レコーディングとエクスポート シミュレーションの様子を高品質な動画として記録・出力できます。 動画作成の準備 録画設定 1.解像度の選択: 720p(HD): 軽量、プレビュー用

    1080p(Full HD): 標準品質 1440p(2K): 高品質 2160p(4K): 最高品質 2.フレームレート: 24 fps: 映画的 30 fps: 標準 60 fps: 滑らか(アクション向け) 3.ビットレート: 低(5 Mbps): ファイルサイズ優先 中(10 Mbps): バランス型 高(20 Mbps): 品質優先 最高(50 Mbps): 最高品質
  28. G e n e r a t i v e

    M o d e l s 【生成モデル】 (コンテンツを作る) │ ├── 動画生成(Text/Image to Video) │ ├── Sora (OpenAI, 2024) │ ├── Wan 2.2 (Alibaba, 2025) │ │ ├── T2V (Text to Video) │ │ ├── I2V (Image to Video) │ │ ├── S2V (Speech to Video) │ │ └── Animate (キャラクターアニメーション) │ ├── Wan 2.1 (Alibaba, 2024) │ ├── Pika 2.0 (Pika Labs) │ ├── Runway Gen-3 (Runway) │ ├── Luma Ray 2 (Luma AI) │ ├── Kling 2.0 (快手/Kuaishou) │ ├── Veo 2 (Google) │ ├── Movie Gen (Meta) │ ├── CogVideoX (清華大学) │ ├── Hunyuan Video (Tencent) │ └── Seedance (Bytedance) │ ├── 画像生成(Text to Image) │ ├── DALL-E 3 (OpenAI) │ ├── Midjourney v6 │ ├── Stable Diffusion (v1.5, v2, SDXL, SD3) │ ├── Imagen 3 (Google) │ └── Flux (Black Forest Labs) │ └── Diffusion Transformer (DiT) ├── Stable Diffusion 3 (DiTベース) └── Sora (DiTベース) デ ー タ か ら 新 し い コ ン テ ン ツ を 生 成 す る AI モ デ ル の 総 称 で す 。 種 類 : テ キ ス ト 生 成 : GPT 、 Claude な ど 画 像 生 成 : Stable Diffusion 、 DALL-E 、 Midjourney な ど 動 画 生 成 : Sora 、 Gen-2 な ど 音 声 生 成 : 音 声 合 成 、 音 楽 生 成 な ど 3D 生 成 : 3D モ デ ル 生 成 特 徴 : 学 習 デ ー タ の パ タ ー ン を 学 び 、 新 し い コ ン テ ン ツ を 創 造 創 作 、 デ ザ イ ン 、 プ ロ グ ラ ミ ン グ 支 援 な ど 幅 広 い 応 用 近 年 の AI ブ ー ム の 中 心 技 術
  29. Use a video model Traditional programming LoRA Modeling Programming Rendering

    従 来 の プ ロ グ ラ ミ ン グ v s 動 画 生 成 モ デ ル 入力 → 処理 → 出力 (テキスト/画像) → (拡散プロセス) → (動画フレーム)
  30. Use a video model Traditional programming Modeling Programming Rendering 従

    来 の プ ロ グ ラ ミ ン グ v s 動 画 生 成 モ デ ル 入力 → 処理 → 出力 (テキスト/画像) → (拡散プロセス) → (動画フレーム)
  31. Use a video model Traditional programming Modeling Programming Rendering 従

    来 の プ ロ グ ラ ミ ン グ v s 動 画 生 成 モ デ ル
  32. Use a video model Traditional programming Programming Rendering Modeling 従

    来 の プ ロ グ ラ ミ ン グ v s 動 画 生 成 モ デ ル
  33. Use a video model Traditional programming Modeling Programming Rendering 従

    来 の プ ロ グ ラ ミ ン グ v s 動 画 生 成 モ デ ル
  34. Use a video model Traditional programming Modeling Programming Rendering 従

    来 の プ ロ グ ラ ミ ン グ v s 動 画 生 成 モ デ ル
  35. リ ア ル タ イ ム に 動 画 を

    生 成 す る https://oasis-model.github.io
  36. 概要: 世界初のプレイ可能な「オープンワールド」 AIモデルと主張 Minecraftのゲームプレイビデオで訓練さ れ、リアルタイムでMinecraft風のゲームを 生成 キーボードとマウスの入力を受け取り、物 理、ルール、グラフィックスをリアルタイ ムでシミュレート 20FPS、360p解像度で動作(Nvidia

    H100 GPU使用) フレームごとに自己回帰的に生成 Oasis 2.0: Minecraftのリアルタイムモッド 版 プレイ中に世界をリアルタイムで変換(ベネ チア、インド、ニューヨーク、中世など) ビデオtoビデオモデル「MirageLSD」を使 用 D e c a r t - O a s i s
  37. M o d u l e r v s E

    n d To E n d
  38. テスラ FSD version 12 30万行のC++コード > AIに置き換え There is no

    line of code that says there is a roundabout, which is what we have in the explicit control stack in version 11. There are over 300,000 lines of C++ in version 11, and there’s basically none of that in version 12. バージョン11の明示的な制御スタックにあるような、ラウンドアバウトが存在することを示すコード行は存在しません。 バージョン11には30万行以上のC++コードがありますが、バージョン12には基本的にそのようなものは一切ありません。
  39. モジュラーアプローチ エンドツーエンドアプローチ 人間が運転するときの思考プロセスを細かく分解して、それぞれを別々のモジュー ル(部品)として作る方法。 認識 → カメラで周囲を見て、車・人・信号を検出 地図作成 → 自分の位置と周囲の地図を作る

    経路計画 → スタートからゴールまでの大まかなルートを決める 行動決定 → 「右折する」 「追い越す」などを判断 制御 → ハンドルやアクセルの操作量を計算 特徴: ✅ 各ステップが明確で、どこで間違えたか分かりやすい ✅ 人間の知識やルールを組み込みやすい ❌ 各モジュールのエラーが積み重なる ❌ モジュール間の連携が複雑 センサーの入力から運転操作まで、一つのニューラルネットワークが直接学習 する方法。 具体的な流れ: カメラ画像 → ブラックボックス(深層学習) → ハンドル角度・速度 自己教師あり学習との組み合わせ: 大量の走行データから、AIが自動的にパターンを学習 「この状況ではこう運転すべき」を明示的に教えなくても、データから自 動で学ぶ 特徴: ✅ シンプルな構造 ✅ データがあれば複雑な状況にも対応できる可能性 ❌ なぜその判断をしたのか説明しにくい(ブラックボックス) ❌ 訓練データにない状況に弱い エンジニア ↓ デバッグ / コード変更 (ソースコード主体) ↓ 改善 AI ↓ データをキュレーション / トレーニング (人間の行動観察) ↓ 改善 # 地図ベースの経路計画 class MapBasedController: def __init__(self, map_data): self.map = map_data # 事前に与えられた地図 self.path_planner = AStarPlanner(self.map) self.localizer = GPSLocalizer() self.controller = PIDController() def drive(self, frame): # 1. 自己位置推定 position = self.localizer.get_position() # 2. 地図から経路計画 path = self.path_planner.plan(position, goal) # 3. 経路追従 control = self.controller.follow_path(path, position) return control # 視覚のみのエンドツーエンド学習 class EndToEndController(nn.Module): def __init__(self): # DINOv2で特徴抽出(自己教師あり学習済み) self.vision_encoder = Dinov2Model.from_pretrained('facebook/dinov2-base') # 時系列パターン学習 self.temporal_model = nn.LSTM(768, 256, 2) # 行動出力 self.action_head = nn.Linear(256, 3) # [ハンドル, アクセル, ブレーキ] def forward(self, frames): # 画像 → 特徴(自動で道路の概念を獲得) features = self.vision_encoder(frames).last_hidden_state[:, 0] # 時系列パターン → 行動(自動で運転戦略を学習) temporal_features, _ = self.temporal_model(features) # 直接制御信号を出力 actions = self.action_head(temporal_features) return actions # 学習(自己教師あり) model = EndToEndController() # データ収集: 人間が運転するだけ(アノテーション不要) for video_frame, steering_angle in driving_dataset: predicted_angle = model(video_frame) loss = (predicted_angle - steering_angle) ** 2 loss.backward()
  40. ニューラルネットワー ク(深層学習) センサー入力 物体検出・認識 経路計画 制御コマンド生成 センサー入力 自 動 運

    転 に お け る ア プ ロ ー チ の 違 い 車両制御 モジュラーアプローチ エンドツーエンドアプローチ 車両制御
  41. ロボットアーム動作 (直接制御) ビジョンシステ ム(物体認識) 位置・姿勢推定 動作計画 (軌道生成) 衝突回避チ ェック カメラ入力(作業環境)

    工 場 ロ ボ ッ ト に お け る ア プ ロ ー チ の 違 い モーター制御 コマンド ロボットアーム動作 モジュラーアプローチ エンドツーエンドアプローチ ニューラルネットワー ク(深層学習)
  42. W o r l d M o d e l

    s 物 理 世 界 の 仕 組 み や 法 則 を 学 習 し 、 未 来 を 予 測 ・ シ ミ ュ レ ー シ ョ ン で き る AI モ デ ル で す 。 基 本 概 念 : 現 実 世 界 が ど う 動 く か を 理 解 す る ( 物 理 法 則 、 物 体 の 動 き 、 因 果 関 係 な ど ) 「 も し 〇 〇 し た ら 、 次 に 何 が 起 こ る か ? 」 を 予 測 ゲ ー ム エ ン ジ ン の よ う に 、 仮 想 的 に 世 界 を シ ミ ュ レ ー シ ョ ン 重 要 性 : ロ ボ ッ ト が 行 動 を 計 画 す る 際 の 基 盤 少 な い 実 デ ー タ で 効 率 的 に 学 習 人 間 の よ う な 直 感 的 な 物 理 理 解 を AI に 与 え る
  43. Genie3 by Google DeepMind 開発企業: Google DeepMind 概要: テキストプロンプトから多様なインタラ クティブ環境を生成できる汎用世界モデ

    ル リアルタイムで24FPS、720p解像度で 数分間の一貫性を保ちながら動作 リアルタイムインタラクティブ機能を持 つ初の汎用世界モデル フォトリアリスティックから想像上の世 界まで幅広く生成可能 プロンプト可能なワールドイベント機能 により、生成中の世界をテキストで変更 可能 AGI(汎用人工知能)への重要なステップ として位置づけられている リリース時期: 2025年8月5日発表(限定研究 プレビュー)
  44. Video generation models as world simulators ~SORA 開発企業: OpenAI 概要:

    テキストから高品質なビデオを生成するテキストコ ンディショナル拡散モデル 物理世界の一般的なシミュレーターとして機能 Sora(初代): 最大1分の高忠実度ビデオを生成、 1080p・20秒まで対応 Sora 2(2025年9月発表): より物理的に正確で、リアルで制御可能 同期した対話と効果音を生成 複数ショットにわたって世界の状態を正確に維 持 オリンピック体操ルーチンなど、極めて難しい 動作をモデル化可能 実世界の要素(人物、動物、オブジェクト)を任 意のSora生成環境に注入可能 3D一貫性、長距離コヒーレンス、オブジェクトの 永続性などの創発的能力を示す Minecraftのようなゲームをシミュレート可能
  45. 開発企業: Midjourney, Inc. 現状: 画像生成AIとして有名だが、世界モデルは 現在開発中 創業者David Holtzは3D、ビデオ、リアル タイム生成機能を統合した「世界シミュレ ーション」の構築を目指していると表明

    「オープンワールドサンドボックス」のビ ジョン - 人々がビデオゲームを作ったり、 映画を撮影したりできる環境 バージョン7の画像モデルを訓練中 3D生成機能はビデオ機能より先に到着する 可能性があると言及 NeRF(Neural Radiance Fields)技術をベー スにした3Dモデルを開発中 ビデオモデル: 2025年6月18日にV1ビデオ モデルを発表 Image-to-Videoワークフロー 自動および手動アニメーション設定 5秒のビデオを4つ生成 Midjourney
  46. 開発企業: Tencent (Hunyuan Team) 概要: 単一画像とユーザー定義のカメラパスか ら、世界一貫性のある3D点群シーケン スを生成 RGB-D(カラー+深度)ビデオ生成フレー ムワーク

    3D一貫性のあるシーン動画を生成し、 カスタムカメラ軌道に従って世界探索が 可能 ネイティブ3D再構成機能を持ち、 COLMAPなどの追加ツール不要で3D出 力が可能 超長距離世界探索をサポート(任意の長 さのカメラ軌跡に対応) Stanford WorldScoreベンチマークで1 位を獲得(スコア77.62) 10万本以上のビデオクリップ(実写 +Unreal Engineの合成データ)で訓練 リリース時期: 2025年9月2日 Tencent - HunyuanWorld-Voyager
  47. 開発企業: World Labs(Fei-Fei Li創業) 概要: AI pioneer Fei-Fei Li(ImageNet創設者、 スタンフォード大学教授)が2024年に設立

    大規模世界モデル(Large World Models - LWM)を開発し、3D世界の認識、生成、相 互作用を可能にする 「空間知能(Spatial Intelligence)」をAIに 与えることに焦点 単一画像からインタラクティブな3D環境を 生成可能 ゲームのようなシーンをブラウザ内で探 索・修正可能 生成されたシーンは物理法則に従い、堅実 性と深度の感覚を持つ ゲーム会社、映画スタジオ、建築家、デザ イナーなどのプロフェッショナル向け W o r l d L a b s b y F e i - F e i L i
  48. AI画像・動画・ロボティクスモデル │ ├── 【ビジョンモデル】 (画像・動画の理解・分析) │ │ │ ├── Vision

    Transformer (ViT)系 │ │ ├── オリジナルViT (Google, 2021) │ │ ├── DeiT (Data-efficient ViT) │ │ ├── BEiT (BERT Pre-training of Image Transformers) │ │ ├── DINOv2 / DINOv3 (Meta) │ │ ├── MAE (Masked Autoencoder, Meta) │ │ ├── SimMIM (Microsoft) │ │ ├── Swin Transformer (階層的ViT) │ │ ├── CSWin Transformer │ │ ├── CrossViT │ │ ├── PVT (Pyramid Vision Transformer) │ │ ├── CvT (Convolutional vision Transformer) │ │ └── MobileViT (エッジデバイス用) │ │ │ ├── CNNベースモデル(参考:ViT以前の主流) │ │ ├── ResNet │ │ ├── EfficientNet │ │ ├── VGG │ │ ├── Inception │ │ └── DenseNet │ │ │ ├── ハイブリッドモデル(CNN + Transformer) │ │ ├── RT-DETR │ │ ├── CoAtNet │ │ └── LeViT │ │ │ ├── 動画理解モデル │ │ ├── VideoMAE (動画版MAE) │ │ ├── TimeSformer │ │ ├── ViViT (Video Vision Transformer) │ │ ├── MViT (Multiscale Vision Transformer) │ │ └── Uniformer │ │ │ ├── ワールドモデル(理解+予測+プランニング) │ │ ├── V-JEPA 2 (Meta, 2025) │ │ ├── V-JEPA (Meta, 2024) │ │ └── JEPA (Joint Embedding Predictive Architecture) │ │ │ ├── 画像エンコーダー(VLMの構成要素) │ │ ├── CLIP ViT (OpenAI) │ │ ├── SigLIP (Google) │ │ ├── EVA-CLIP │ │ └── OpenCLIP │ │ │ └── 物体検出特化モデル │ ├── YOLO (v5, v7, v8, v11) │ ├── DETR (Detection Transformer) │ ├── Segment Anything (SAM, Meta) │ └── Mask R-CNN │ ├── 【Vision Language Models (VLM)】 │ │ │ ├── 【Vision Language Models (VLM)】 │ │ │ ├── プロプライエタリ(企業提供) │ │ ├── GPT-4V / GPT-4o (OpenAI, 2023/2024) │ │ ├── Claude 3.5 Sonnet (Anthropic) │ │ ├── Claude 4 Opus / Sonnet 4.5 (Anthropic, 2024/2025) │ │ ├── Gemini 1.5 Pro / Flash (Google) │ │ ├── Gemini 2.5 Pro (Google, 2025) │ │ ├── Gemini 2.0 Flash (Google, 2024) │ │ └── Reka (Reka AI) │ │ │ ├── オープンソース - 大規模 │ │ ├── Qwen2.5-VL (7B, 72B) (Alibaba) │ │ ├── Qwen3-VL (Alibaba, 2025) │ │ ├── LLaMA 3.2 Vision (11B, 90B) (Meta) │ │ ├── InternVL 2.5 (OpenGVLab) │ │ ├── CogVLM2 (清華大学) │ │ ├── Yi-VL (01.AI) │ │ └── DeepSeek-VL (DeepSeek) │ │ │ ├── オープンソース - 中小規模 │ │ ├── Phi-4 Vision (Microsoft) │ │ ├── Gemma 3 (4B, 27B) (Google) │ │ ├── MiniCPM-V (OpenBMB) │ │ ├── Molmo (1B, 7B, 72B) (Allen AI) │ │ ├── PaliGemma (Google) │ │ └── LLaVA (各種サイズ) │ │ │ ├── 推論特化VLM │ │ ├── QVQ-72B (Qwen, マルチモーダル推論) │ │ └── Kimi-VL-A3B-Thinking (Moonshot AI) │ │ │ ├── OCR/文書特化VLM │ │ ├── DeepSeek-OCR (DeepSeek, 2025) │ │ ├── Qwen3-VL (32言語OCR対応) │ │ ├── Florence (Microsoft) │ │ └── Donut (Document Understanding Transformer) │ │ │ ├── 動画対応VLM │ │ ├── Qwen2.5-VL (動画理解可能) │ │ ├── Gemini 2.5 Pro (長時間動画対応) │ │ ├── Video-LLaMA │ │ └── VideoChat │ │ │ └── マルチモーダル安全モデル │ ├── ShieldGemma 2 (Google) │ └── Llama Guard 4 (Meta) │ ├── 【Vision-Language-Action Models (VLA)】 │ │(ロボット制御:Vision + Language + Action) │ │ │ ├── シングルシステム(エンドツーエンド) │ │ ├── RT-2 (Robotic Transformer 2, Google DeepMind, 2023) │ │ ├── OpenVLA (Physical Intelligence) │ │ ├── π0 (Pi-Zero, Physical Intelligence) │ │ ├── π0-fast (高速版) │ │ ├── Octo (UC Berkeley) │ │ └── QuartVLA │ │ │ │ │ ├── デュアルシステム(System 1 + System 2) │ │ ├── GR00T N1 (NVIDIA, 2025) - 2.2Bパラメータ │ │ │ ├── System 2: Eagle-2 VLM (理解・推論、10Hz) │ │ │ └── System 1: Diffusion Transformer (行動生成、120Hz) │ │ ├── GR00T N1.5 (NVIDIA, 2025) │ │ └── Helix (Physical Intelligence, 2024) │ │ └── 初のヒューマノイド全身制御VLA │ │ │ ├── クロスエンボディメント対応 │ │ ├── GR00T N1 (卓上ロボット→ヒューマノイド) │ │ └── RT-X (複数ロボット対応) │ │ │ └── 特殊用途VLA │ ├── Mobile ALOHA (モバイル双腕ロボット) │ └── LeRobot (Hugging Face, ロボット学習) │ ├── 【生成モデル】 (コンテンツを作る) │ │ │ ├── 動画生成(Text/Image to Video) │ │ ├── Sora (OpenAI, 2024) │ │ ├── Wan 2.2 (Alibaba, 2025) │ │ │ ├── T2V (Text to Video) │ │ │ ├── I2V (Image to Video) │ │ │ ├── S2V (Speech to Video) │ │ │ └── Animate (キャラクターアニメーション) │ │ ├── Wan 2.1 (Alibaba, 2024) │ │ ├── Pika 2.0 (Pika Labs) │ │ ├── Runway Gen-3 (Runway) │ │ ├── Luma Ray 2 (Luma AI) │ │ ├── Kling 2.0 (快手/Kuaishou) │ │ ├── Veo 2 (Google) │ │ ├── Movie Gen (Meta) │ │ ├── CogVideoX (清華大学) │ │ ├── Hunyuan Video (Tencent) │ │ └── Seedance (Bytedance) │ │ │ ├── 画像生成(Text to Image) │ │ ├── DALL-E 3 (OpenAI) │ │ ├── Midjourney v6 │ │ ├── Stable Diffusion (v1.5, v2, SDXL, SD3) │ │ ├── Imagen 3 (Google) │ │ └── Flux (Black Forest Labs) │ │ │ └── Diffusion Transformer (DiT) │ ├── Stable Diffusion 3 (DiTベース) │ └── Sora (DiTベース) │ └── 【合成データ生成】 (VLA訓練用) ├── NVIDIA Omniverse (物理シミュレーション) ├── NVIDIA Cosmos (合成データ生成) └── DreamGen (GR00T N1.5用、合成行動生成) オ ブ ジ ェ ク ト 検 知 、 セ グ メ ン テ ー シ ョ ン 言 語 を 伴 う 動 画 や 画 像 処 理 ロ ボ ッ ト な ど の 動 作 を 主 体 シ ミ ュ レ ー タ ー な ど に 活 用 、 ワ ー ル ド モ デ ル 物 理 認 識 や 予 測 な ど