Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Beyond_LLM_世界モデルが切り拓くフィジカルAIの時代.pdf

Avatar for oggata oggata
October 20, 2025
5

 Beyond_LLM_世界モデルが切り拓くフィジカルAIの時代.pdf

Avatar for oggata

oggata

October 20, 2025
Tweet

Transcript

  1. B e y o n d L L M :

    世 界 モ デ ル が 切 り 拓 く フ ィ ジ カ ル A I の 時 代
  2. フ ィ ジ カ ル A I と は 一般的にフィジカルAIとは、現実の物理環境と直接関わりながら、

    人間のように柔軟に対応し、状況に応じて行動を変えられるAI技術 のことだ。 具体的には、ロボットや車などに搭載し、現実の世界で活 動しながら学習を重ね、自律的に動作できるようにする。
  3. 現在のAIは次の単語やピクセルを予測することには長けているが、物理世界を理解し、行 動の結果を予測する能力が欠けている チェスのような複雑なゲームはできても、物を掴んだり、状況に応じて適切に行動したり といった、人間の幼児でも自然にできることが逆に苦手 。 ヤ ン ・ ル カ

    ン 氏 に よ る 現 在 の 課 題 「人間や動物の学習の大部分は教師なし学習によって行われています。 知能をケーキに例えると教師なし学習はケーキそのもの、教師あり学習はケーキの上に塗る クリーム、強化学習はその上に乗せる飾りのさくらんぼにあたります。 私たちはクリームやさくらんぼの作り方は知っていますが、ケーキ本体の作り方はまだよく 分かっていません。本当のAIを目指すには、まずケーキ=教師なし学習の問題を解く必要が あります。 」 —ヤン・ルカン
  4. Midjourney Midjourneyのデイヴィッド・ホルツCEOが「2024年末までにホロデッキ に到達できる」と話した ホルツ氏は「Midjourneyはすごく速く描けるアーティストではなく、むし ろ、とても遅いゲームエンジンのようなもの。将来は1分間に1枚の(生成) 画像ではなく、60fpsのフルボリューメトリック3Dになるでしょう」とも 述べたそうです。 Nick St. Pierreさんによれば、ホルツ氏は過去のオフィスアワーで、3Dガ

    ウシアン・スプラフティングやNeRFを独自技術化し、3Dシーンを生成す ることを目指していると明らかにしているそうです。これはどちらも2D画 像や動画から3D空間を作り出す「ボリューメトリック」と呼ばれる技術で す。 世 界 モ デ ル の ア プ ロ ー チ > M i d j o u r n e y
  5. 世 界 モ デ ル の ア プ ロ ー

    チ > S o r a Video generation models as world simulators ~Sora
  6. Use a video model Traditional programming 従 来 の プ

    ロ グ ラ ミ ン グ と 動 画 プ ロ グ ラ ミ ン グ の 制 作 工 程 決 め ら れ た ロ ジ ッ ク の 動 き し か で き な い 柔 軟 な ア ウ ト プ ッ ト 動 画 を 通 じ て 学 び 続 け る こ と が で き る
  7. Use a video model Traditional programming 従 来 の プ

    ロ グ ラ ミ ン グ と 動 画 プ ロ グ ラ ミ ン グ の 制 作 工 程 Modeling Programming Rendering
  8. Use a video model Traditional programming 従 来 の プ

    ロ グ ラ ミ ン グ と 動 画 プ ロ グ ラ ミ ン グ の 制 作 工 程 Modeling Programming Rendering
  9. Use a video model Traditional programming 従 来 の プ

    ロ グ ラ ミ ン グ と 動 画 プ ロ グ ラ ミ ン グ の 制 作 工 程 Modeling Programming Rendering
  10. Use a video model Traditional programming 従 来 の プ

    ロ グ ラ ミ ン グ と 動 画 プ ロ グ ラ ミ ン グ の 制 作 工 程 Modeling Programming Rendering
  11. Use a video model Traditional programming 従 来 の プ

    ロ グ ラ ミ ン グ と 動 画 プ ロ グ ラ ミ ン グ の 制 作 工 程 Modeling Programming Rendering
  12. Use a video model Traditional programming 従 来 の プ

    ロ グ ラ ミ ン グ と 動 画 プ ロ グ ラ ミ ン グ の 制 作 工 程 Modeling Programming Rendering
  13. ====================================================================== ステップ5:V-JEPA 2の学習内容 ====================================================================== 📊 予測精度: 1.0000 🎉 優秀! V-JEPA

    2は以下を理解しています: ✅ ミニカーが右下方向に移動し続ける ✅ 動きが加速している ✅ 坂道の傾斜に沿って移動する つまり: 物理法則をプログラムしていないのに、 動画を見るだけで「物が坂を転がる」という 物理現象を理解しました! ---------------------------------------------------------------------- 💡 重要なポイント: 従来の方法: プログラマーが書く: 「位置 = 初速度 × 時間 + 0.5 × 加速度 × 時間²」 V-JEPA 2: 動画を見て学習: 「このパターンだと、次はこうなる」 → どちらも結果は同じだが、アプローチが全く違う! → V-JEPA 2は「データから学ぶ」新しいパラダイム V - J E P A 2
  14. M E S A > 移 動 デ ー タ

    を リ ア ル タ イ ム で 動 画 へ 書 き 出 し
  15. M E S A > 移 動 デ ー タ

    を リ ア ル タ イ ム で 動 画 へ 書 き 出 し
  16. M E S A > 移 動 デ ー タ

    を リ ア ル タ イ ム で 動 画 へ 書 き 出 し
  17. M E S A > 移 動 デ ー タ

    を リ ア ル タ イ ム で 動 画 へ 書 き 出 し