エンタメとAIのための3Dパラレルワールド構築（GPU UNITE 2025 特別講演）

by Preferred Networks

Embed

Start on current slide

Slide 1

Slide 1 text

GPU UNITE 2025 特別講演エンタメとAIのための 3Dパラレルワールド構築加藤⼤晴 (Preferred Networks)

Slide 2

Slide 2 text

GPU UNITE 2025 特別講演エンタメとAIのための 3Dパラレルワールド構築 2025-10-15 加藤⼤晴 (Preferred Networks) 2

Slide 3

Slide 3 text

Speaker Deck へのアップロードにあたって - リンク類はすべて説明欄に記載しています - 動画はURLに置き換えています #3

Slide 4

Slide 4 text

4 ⾃⼰紹介 ― 加藤⼤晴（かとうひろはる） 2008 - 2020 東京⼤学 - 卒業論⽂: 異常発⾒ロボ → AI - 修⼠論⽂: 画像⽣成 → エンタメ？ - 博⼠論⽂: 三次元再構成 → 3Dデジタル世界の構築 2014 - 2018 ソニー (株) R&Dプラットフォーム - ⾳響信号処理 → エンタメ 2018 - 現在 (株) Preferred Networks - 3Dコンピュータビジョンの実応⽤ → すべて https://hiroharu-kato.com/

Slide 5

Slide 5 text

5 Preferred Networks (PFN) 会社概要設立本社代表取締役従業員数事業内容主要子会社出資企業 (五十音順） 2014年3月26日東京都千代田区西川徹（最高経営責任者）岡野原大輔（最高技術責任者）約350名（2025年2月） AIチップ、計算基盤、生成AI基盤モデルなどのAI関連技術を活用したソリューション・製品の開発・販売および研究開発 Matlantis株式会社（2021年6月設立、2025年7月Preferred Computational Chemistryから社名変更）株式会社Preferred Robotics（2021年11月設立）株式会社Preferred Computing Infrastructure（2025年1月設立） SBIグループ　NTT株式会社　ENEOSイノベーションパートナーズ合同会社　株式会社講談社信越化学工業株式会社　SUMISEI INNOVATION FUND　積水ハウス投資事業有限責任組合　中外製薬株式会社 TBSイノベーション・パートナーズ3号投資事業組合　TEL Venture Capital, Inc.　東映アニメーション株式会社トヨタ自動車株式会社　株式会社日本政策投資銀行　株式会社博報堂DYホールディングス　株式会社日立製作所ファナック株式会社　株式会社みずほ銀行　三井住友信託銀行株式会社　三井物産株式会社　三菱商事株式会社三菱UFJ信託銀行株式会社　株式会社ワコム　他ミッション：現実世界を計算可能にする https://www.preferred.jp

Slide 6

Slide 6 text

最先端の技術を最短路で実⽤化する深層学習などの最先端の技術を最短路で実⽤化することで、これまで解決が困難であった現実世界の課題解決を⽬指しています Value

Slide 7

Slide 7 text

7 1. 3Dパラレルワールド構築を⽀える技術 a. 3D世界をデジタル化する技術 b. 3D仮想世界を編集する技術 c. 3D仮想世界を⽣み出す技術 2. エンターテインメントのために a. バーチャル観光，デジタルアーカイブ b. バーチャルプロダクションによる映像制作 3. ⼈⼯知能のために a. ⼩売店における商品棚の認識 b. ⾃動運転のための周辺⾞両認識 c. 都市‧建築3Dデータセットの構築 4. まとめ

Slide 8

Slide 8 text

8 1. 3Dパラレルワールド構築を⽀える技術 a. 3D世界をデジタル化する技術 b. 3D仮想世界を編集する技術 c. 3D仮想世界を⽣み出す技術 2. エンターテインメントのために a. バーチャル観光，デジタルアーカイブ b. バーチャルプロダクションによる映像制作 3. ⼈⼯知能のために a. ⼩売店における商品棚の認識 b. ⾃動運転のための周辺⾞両認識 c. 都市‧建築3Dデータセットの構築 4. まとめ

Slide 9

Slide 9 text

9 3Dデータとはモノの⽴体的な形状や質感などを表現するデジタル情報のことシーン [source] 物体 [source]

Slide 10

Slide 10 text

10 3Dデータの活⽤: エンターテインメントゲーム『ゼルダの伝説ムジュラの仮⾯』映像作品『ゴジラ-1.0』

Slide 11

Slide 11 text

11 3Dデータの活⽤: ⼈⼯知能の学習⾃動運転⾞ CARLA Simulator ロボット Gazebo

Slide 12

Slide 12 text

12 3Dデータの作成: 3Dモデリング 3Dデータは，専⽤ツールでイチから制作するのが正攻法であり，⾼品質でもある⼀⽅で，以下のような課題も - ⾼度な専⾨スキルが必要 - 精緻に作り込むには膨⼤な⼈的リソースが必要

Slide 13

Slide 13 text

13 思い出『ゼルダの伝説ムジュラの仮⾯』に憧れ，3Dゲーム制作を志すが… まず3Dモデルを⽤意して… 3Dモデリングツール “メタセコイア” で 3Dモデル制作を試みるも，難易度が⾼く挫折⽴⽅体や直⽅体が⾶んだり跳ねたりするだけ，というソフトに Image: https://www.amazon.co.jp/dp/4875939205

Slide 14

Slide 14 text

14 3Dデータの作成: 3Dキャプチャ実世界の⽴体情報を機械的に取り込んで3Dデータ化する技術深層学習にヒントを得た⼿法で近年⼤幅に⾼精度化撮影（※イメージ） 3Dモデル情報処理

Slide 15

Slide 15 text

15 近年の3Dキャプチャの実⼒ 3D Gaussian Splatting [Kerbl+ 2023] https://youtu.be/T_kXY43VZnk

Slide 16

Slide 16 text

16 3Dキャプチャのいろいろフォトグラメトリは，さまざまな視点の写真を元に3Dモデルを作成接触式センサ - ロボットアームなどを物体に接触させることで形状を計測 - ⾼精度だが，測定できる対象が限られる深度センサ - 対象に光を照射し，反射を計測することで形状を計測 - コウモリが超⾳波で空間認識するイメージ - ⾼精度だが，密な測定は難しい写真から - 写真をさまざまな⾓度から撮影し，そこから⽴体形状を推定 - 左右の⽬で⽴体感を把握するイメージ - ⾒た⽬がよい（写真に近い）キャプチャが得意だが，形状の推定精度は劣る今回扱うのはココフォトグラメトリという

Slide 17

Slide 17 text

17 深層学習以前の画像識別別個の役割の複数のモジュールを⼈⼒で設計，全体最適とはいえない画像局所特徴抽出⼤域特徴抽出識別モデル識別結果識別過程動作イメージ⾜，⾚，吸盤… 吸盤付の⾜が8本… ⾜が8本といえば… タコ

Slide 18

Slide 18 text

18 深層学習以前の画像識別別個の役割の複数のモジュールを⼈⼒で設計，全体最適とはいえない画像局所特徴抽出⼤域特徴抽出識別モデル識別結果識別過程 - 別個の役割を果たす複数のモジュールで構成 - 縦線抽出，⾊抽出，… - 「よい識別結果を得る」ではない，中間的で間接的な⽬的で設計 - システム全体として，識別に最適化されているとは限らない - ほとんどの処理を⼈⼿で設計 - 学習データを⽤いて調整できるパラメータの数は少なく，柔軟性も低い

Slide 19

Slide 19 text

19 深層学習による画像認識深層学習では，正しい識別結果を得ることに全モジュールがフォーカス画像局所特徴抽出⼤域特徴抽出識別モデル識別結果 - 「層」を積み重ねて識別結果へ⾄る* - 「層」は調整可能なパラメータを多数持ち「学習データが正しく識別できること」を⽬的関数として⾃動的に調整される - 全モジュールが「正しい識別結果を得る」ことに直接的にフォーカスするのが特徴画像識別結果層層層層層層 *「層」は⾏列乗算などの単純な処理のみを⾏い，多数の「層」を重ねることで全体として⾼い柔軟性を実現

Slide 20

Slide 20 text

20 従来的なフォトグラメトリ別個の役割の複数のモジュールを⼈⼒で設計，全体最適とはいえない多数の写真 3Dモデル動作イメージキャプチャ過程特徴点検出特徴点マッチング三⾓測量メッシュ⽣成テクスチャ⽣成多数の写真 3Dモデル特徴的な点（机の⾓など）について，右⽬と左⽬の網膜上での位置の違いから，奥⾏きを特定特徴的な点をつないで⾯を張る⾯に⾊を塗る

Slide 21

Slide 21 text

21 従来的なフォトグラメトリの課題写真とそっくりな3Dモデルが得られること，に最適化されていない多数の写真 3Dモデル 3Dキャプチャ描画画像 - 別個の役割を果たす複数のモジュールで構成 - 「得られた3Dモデルを描画した画像」と「撮影した写真」がそっくりであることが望ましいが，そう最適化されていない撮影した写真従来的なフォトグラメトリ（視点は少し異なる）

Slide 22

Slide 22 text

22 近年のフォトグラメトリ 3Dモデルを，写真のように⾒えるように直接最適化 3Dモデル描画多数の写真画像誤差類似度計算 - 「撮影した写真」と「描画した画像」が近くなるように「3Dモデル」を最適化 - 「3Dモデルがリアルに⾒える」ことに直接フォーカスするのが特徴 - 深層学習ライブラリを⽤いて実装される 3Dモデル初期値最適化初期図は [Muller+ 2022] より最適化後期

Slide 23

Slide 23 text

23 近年のフォトグラメトリを可能にした技術半透明を効率的に扱う3Dモデル表現と，その深層学習的な描画関数が必要あたらしい3Dモデル表現 - 最適化の鍵は「モヤモヤした状態から徐々にクッキリさせる」こと - 半透明のモヤモヤを効率的に扱う3D表現が必要 - 詳細は [Neural Radiance Fields 🔎] [3D Gaussian Splatting 🔎] あたらしい描画関数 - 最適化に深層学習フレームワークを使うのが⼀般的 - 深層学習の層として機能するような描画関数が必要 - 詳細は [微分可能レンダリング 🔎] 加藤の博士論文はココ

Slide 24

Slide 24 text

24 フォトグラメトリの難点幾何形状の正確さ，既存ツールとの相性，編集性の低さなど近年のフォトグラメトリの課題 - ⾒た⽬は綺麗だが，幾何形状が綺麗とは限らない（モヤモヤしがち） - 3D表現形式が独⾃で，ポリゴンメッシュなどに変換しにくい（変換⼿法は多数提案されているが，品質が劣化しやすい） - そのため，映像制作ツールやゲームエンジンなどで使いにくい従来のフォトグラメトリにも共通の課題 - 照明や影が模様として焼きこまれてしまい，照明を当て直すのが難しい - ⼤胆な拡⼤に耐えられるような⾼精細な3Dキャプチャは難しい SKIP

Slide 25

Slide 25 text

25 3DキャプチャはAI技術か認識技術が間接的に必要で，かつ「データに合うCGを得る」も「学習」と関連 3Dキャプチャは学習/認識ではなく，写真撮影のような「計測技術」とも思えるが， 3Dモデルは⾃由度が⼤きく，その精緻な測定は困難という特質がある正確な3Dキャプチャのためには，⾼度な学習や認識が間接的に必要といえる - 深度推定，視点推定，形状推定や補完，⾊‧マテリアル‧照明の推定，… また「データに基づく最適化」と捉えると「学習」と密接に関連する - 確率的勾配降下法，微分可能プログラミング，… 写真（←計測）ありえる3Dモデル SKIP

Slide 26

Slide 26 text

26 近年のフォトグラメトリを試す Luma AI 3D Capture - 写真や動画をアップロードするだけで3Dモデルに変換してくれるサービス - 専⾨的な知識や技術は不要 - （ただし，よい結果を得るためには撮影技術が必要） SKIP

Slide 27

Slide 27 text

27 Preferred Networks での取り組み (1) 物体と空間全体を3Dスキャンするハードウェアとソフトウェアを開発 3Dスキャン請負サービスも展開中 👉 https://pfn3d.com/

Slide 28

Slide 28 text

28 Preferred Networks での取り組み (2) 先進的な技術開発を実施し，国際学会での発表も多数反射が強い物体の3Dスキャン (Jiang+ ECCV 2024) 3Dスキャンした物体への効率的なマテリアル付与 (Madono+ CHI 2025 LBW) SKIP

Slide 29

Slide 29 text

29 Preferred Networks での取り組み (3) 先進的な技術開発を実施し，国際学会での発表も多数カメラ1台での4Dスキャン (Liang+ CVPR 2025) 広域3Dスキャンのために対話的視点推定 (Kanazawa+ IUI 2025) SKIP

Slide 30

Slide 30 text

30 - 3Dキャプチャは，⾒た⽬の品質が近年⾶躍的に向上 - 写真とそっくりに⾒えるように3Dモデルを最適化するのが鍵 - 「半透明のモヤモヤを効率的に扱う3D表現」と「深層学習の層として機能するような描画関数」が⼆⼤必須技術 3D世界をデジタル化する技術まとめ 3Dモデル初期値最適化初期最適化後期深層学習の設計思想と類似

Slide 31

Slide 31 text

31 1. 3Dパラレルワールド構築を⽀える技術 a. 3D世界をデジタル化する技術 b. 3D仮想世界を編集する技術 c. 3D仮想世界を⽣み出す技術 2. エンターテインメントのために a. バーチャル観光，デジタルアーカイブ b. バーチャルプロダクションによる映像制作 3. ⼈⼯知能のために a. ⼩売店における商品棚の認識 b. ⾃動運転のための周辺⾞両認識 c. 都市‧建築3Dデータセットの構築 4. まとめ

Slide 32

Slide 32 text

32 デジタルコピーからパラレルワールドへ 3Dキャプチャしたものを，そのまま使うのではなく，編集したいケースは多いゲーム『⿓が如く』ちょっと違う現実 → パラレルワールド映像作品『シン‧ゴジラ』人工知能学習 CARLA Simulator 物体の置き換え ※これらは編集の必要性のイメージであり，実際には3Dキャプチャは⽤いられていません CG物体の追加破壊天候の変更照明の変更

Slide 33

Slide 33 text

33 各種ツールのプラグイン⼈気3Dツールには編集機能を備えたプラグインが存在 Blender プラグイン KIRI Engine Unreal Engine プラグイン Preferred Networks 開発もっと簡単な⽅法は…？

Slide 34

Slide 34 text

34 3Dモデルを⾔葉で指⽰して改変⼈物に髭を⽣やす，銅像に変えるなどを実現 (Haque+ 2023) https://youtu.be/D6KWAYU3rCA

Slide 35

Slide 35 text

35 3Dモデルのアートスタイルを⾔葉で指⽰して変更「アニメ⾵に」「ゴッホ⾵に」などの編集を実現 (Fujiwara+ 2024) https://youtu.be/-h9IJyx5uMU

Slide 36

Slide 36 text

36 照明の変更 (Kaleta+ 2025) https://lumigauss.github.io/

Slide 37

Slide 37 text

37 スマート検索と領域切り出し⾔語クエリで3D空間中から物体を検索，領域を特定 (Kerr+ 2023) https://youtu.be/7Z2XqH40L08

Slide 38

Slide 38 text

38 3D仮想世界を編集する技術まとめ - 各種3Dツールのプラグイン開発は盛んだが，使⽤難度は⾼く，機能も不⼗分 - スマートに編集する技術の開発が散発的に報告されている - 個⼈的には，未開拓かつ需要が⼤きい技術領域と考えている - コンテンツ制作者と研究者との密な連携が必要なのではないか (Haque+ 2023) (Kerr+ 2023)

Slide 39

Slide 39 text

39 1. 3Dパラレルワールド構築を⽀える技術 a. 3D世界をデジタル化する技術 b. 3D仮想世界を編集する技術 c. 3D仮想世界を⽣み出す技術 2. エンターテインメントのために a. バーチャル観光，デジタルアーカイブ b. バーチャルプロダクションによる映像制作 3. ⼈⼯知能のために a. ⼩売店における商品棚の認識 b. ⾃動運転のための周辺⾞両認識 c. 都市‧建築3Dデータセットの構築 4. まとめ

Slide 40

Slide 40 text

40 キャプチャ‧編集から⽣成へ 3Dキャプチャでの制作が難しい3Dモデルも多い恐⻯の3Dキャプチャ？クローン再⽣技術の開発から始める⼿もあるが… 『ジュラシック‧パーク』 3Dモデルをゼロから⽣成できないか？

Slide 41

Slide 41 text

41 3Dデータの作成: 3Dモデル⽣成⾔語による指⽰で，実世界に存在しないような物体も⽣成する技術画像⽣成技術の成熟と，⼤規模3Dデータセットの登場で急速に発展⾔語指⽰ 3Dモデル* 深層学習モデル “A jumping rabbit, made of shiny metal” *Meshy AI で作成

Slide 42

Slide 42 text

42 ⽣成モデルの計算コスト - 拡散⽣成モデルの学習は計算コストが⾼い - Stable Diﬀusion [Rombach+ 2022] では画像圧縮で解像度を落として学習 - 3Dモデルの処理は，奥⾏きの分，画像よりも計算コストが⾼いため “圧縮” をさらに⼯夫する必要がある 42倍の非可逆圧縮でもほぼ劣化なし

Slide 43

Slide 43 text

43 Structured Latent (SLAT) [Xiang+ 2025] - 3Dモデルを “圧縮” した上で，その空間で拡散⽣成モデルを学習 - 2563の解像度の3Dモデルを (1/4)3に圧縮した上で，モノがない空間を扱わないことで，さらに約1/10に圧縮 - 圧縮空間で，約100万個のCGモデルを⽤いて⽣成モデルを学習

Slide 44

Slide 44 text

44 3D⽣成技術のトレンドよく⾒かける研究トピック - ⽣成品質の改善，特に解像感 - マテリアルの付与 - パーツ単位での⽣成まだ難しいこと - 物体ひとつではなく，広いシーンの⽣成 - 複雑な形状の⽣成 - ⼊⼒テキストや画像の正確な反映研究開発段階。進展が速く，数ヶ⽉で状況ががらっと変わる可能性も (Ye+ 2025) (Engstler+ 2025) SKIP

Slide 45

Slide 45 text

45 3Dモデル⽣成を試す Meshy, Tripo3D, Rodin - テキスト⼊⼒や，画像⼊⼒を元に3Dモデルを⽣成するサービス - シンプルな編集機能も提供 SKIP

Slide 46

Slide 46 text

46 Preferred Networks での取り組み https://youtu.be/CPPMJXLouQo

Slide 47

Slide 47 text

47 3D仮想世界を⽣み出す技術まとめ - ⽂章や画像に基づいて3Dモデルを⽣成する技術は，今まさに⼤きく発展中 - 3Dコンテンツ制作の敷居を下げる技術として期待 - ⽣成品質は，画像⽣成より改善の余地が余地が⼤きい - ディテールの不⾜，複数の物体，⽣成結果の制御，⼤規模シーン，…

Slide 48

Slide 48 text

48 1. 3Dパラレルワールド構築を⽀える技術 a. 3D世界をデジタル化する技術 b. 3D仮想世界を編集する技術 c. 3D仮想世界を⽣み出す技術 2. エンターテインメントのために a. バーチャル観光，デジタルアーカイブ b. バーチャルプロダクションによる映像制作 3. ⼈⼯知能のために a. ⼩売店における商品棚の認識 b. ⾃動運転のための周辺⾞両認識 c. 都市‧建築3Dデータセットの構築 4. まとめ

Slide 49

Slide 49 text

49 バーチャル観光，デジタルアーカイブ実世界のものを3Dデータ化して，閲覧可能にすることに需要が⼤きいバーチャル観光 - 現地に⾏かずに⼿軽に観光 - 3D空間を⾃由に歩き回れると没⼊感が⾼いデジタルアーカイブ - ⽂化財や歴史的資料をデジタル化 - ⽴体形状の保存が求められるものも多い⾸⾥城（みんなの⾸⾥城デジタル復元プロジェクト）実物の3Dデータ化そのものに需要があるミロのヴィーナス（ルーヴル美術館）

Slide 50

Slide 50 text

50 Preferred Networks の取り組み新幹線開業直前の加賀温泉駅と⼤⼟集落（加賀市加賀東⾕重要伝統的建造物群保存地区）のドローン撮影による3Dスキャン巨⼤ディスプレイとコントローラーによる加賀温泉駅上空の⾃由⾶⾏ https://youtu.be/EdJ6DCYhFdE https://youtu.be/74N1JM1d2-g

Slide 51

Slide 51 text

51 Preferred Networks の取り組み SANRIO Virtual Festival 2023 持ち歩ける3Dフィギュアの3Dスキャン（株式会社サンリオ様）国⽴科学博物館バーチャル企画展『電⼦楽器の創造展』電⼦楽器の3Dスキャン

Slide 52

Slide 52 text

52 Preferred Networks の取り組み⾳楽ライブの収録スポーツの収録 https://youtu.be/pTyULSZrnzk https://youtu.be/Z5J_CMo6XPI

Slide 53

Slide 53 text

53 Preferred Networks の取り組み “にじさんじのB級バラエティミニ四駆爆⾛GP” でのミニ四駆の3Dモデル制作協⼒画像: https://youtu.be/0x9jMNmlFvI

Slide 54

Slide 54 text

54 1. 3Dパラレルワールド構築を⽀える技術 a. 3D世界をデジタル化する技術 b. 3D仮想世界を編集する技術 c. 3D仮想世界を⽣み出す技術 2. エンターテインメントのために a. バーチャル観光，デジタルアーカイブ b. バーチャルプロダクションによる映像制作 3. ⼈⼯知能のために a. ⼩売店における商品棚の認識 b. ⾃動運転のための周辺⾞両認識 c. 都市‧建築3Dデータセットの構築 4. まとめ

Slide 55

Slide 55 text

55 映画などを撮影するとき，撮影の舞台を整えるのは⼤変 - ロケ地までの移動 - 時間帯，天候 - 再撮影無背景で撮影 → 背景にCGを合成，も課題が多い - 照明や⾊合いの調整が⼤変 - 完成系がイメージしづらい - 演技時の臨場感が不⾜映像制作のロケーション問題背景や舞台は，実際の撮影も撮影後のCGの合成も課題が多い

Slide 56

Slide 56 text

56 バーチャルプロダクション実写の俳優と，ディスプレイに投影した背景CGとを同時収録巨⼤ディスプレイに背景CGを投影俳優はスタジオ内で演技カメラの移動に応じて背景CGも変化実写の俳優と背景CGを同時に収録 → その場で “完成画” を撮影 The Mandalorian, youtu.be/gUnxzVOs3rk

Slide 57

Slide 57 text

57 バーチャルプロダクションのスケールアップ実世界の3Dキャプチャと⾼速描画‧編集技術で背景制作を効率化リアルな背景CGを⼿軽に制作する技術 The Mandalorian, youtu.be/gUnxzVOs3rk カメラの動きに合わせて⾼速に描画する技術 CGの照明を調整する技術背景に物体を追加したり削除したりする技術 → 実世界の3Dキャプチャと編集による背景CG

Slide 58

Slide 58 text

58 https://youtu.be/K7u18A8Dhkw

Slide 59

Slide 59 text

59 https://youtu.be/PezPCB8gpCA

Slide 60

Slide 60 text

60 バーチャルプロダクションによる映像制作まとめ「前景は実写」「背景は3Dキャプチャ」という形式による映像制作 - 映像制作のロケーション問題に対処する技術 - 実写と実写とを掛け合わせたパラレルワールドといえる - キャプチャ品質，⾼速描画，編集可能性が鍵 3Dキャプチャによる背景CG 俳優撮影

Slide 61

Slide 61 text

61 1. 3Dパラレルワールド構築を⽀える技術 a. 3D世界をデジタル化する技術 b. 3D仮想世界を編集する技術 c. 3D仮想世界を⽣み出す技術 2. エンターテインメントのために a. バーチャル観光，デジタルアーカイブ b. バーチャルプロダクションによる映像制作 3. ⼈⼯知能のために a. ⼩売店における商品棚の認識 b. ⾃動運転のための周辺⾞両認識 c. 都市‧建築3Dデータセットの構築 4. まとめ

Slide 62

Slide 62 text

62 物体検出 → 画像のどこに何が写っているかを⾃動で検出 - 技術的には成熟していて，ツールも充実 - 学習データさえあれば⼿軽に学習可能 …学習データさえあれば。物体検出は，今やカンタン？技術的には成熟，⼿軽に使えるツールも充実，学習データだけが必要 Photo: © MTheiler / via Wikimedia Commons / CC BY-SA 4.0

Slide 63

Slide 63 text

63 ⼩売店における陳列数認識陳列数を⾃動認識する技術の需要は⼤きいが，学習データの整備が困難陳列棚の陳列数認識は， - 在庫補充に必要，売上への影響⼤ - 陳列商品数は膨⼤で，⾃動化の需要が⼤きい⼀⽅で， - そもそもの商品数があまりにも多い - 新商品が⽇々⼤量に発売される - 陳列棚の商品構成も⽇々変化するため，学習データの整備が困難

Slide 64

Slide 64 text

64 商品を3Dモデル化，多様なバーチャル棚を⾃動⽣成してデータセットを構築 3DCG化によるデータセット構築仮想空間内で様々な棚のあり⽅をシミュレートして学習データに PFN 3D Scan 3DCGデータセットを⽣成⾼精度な認識モデルを訓練

Slide 65

Slide 65 text

65 3DCG化によるデータセット構築仮想空間内で様々な棚のあり⽅をシミュレートして学習データに商品をリアルに3Dスキャンする技術，リアルな商品棚を⽣成する技術が鍵

Slide 66

Slide 66 text

66 「商品棚が違う多様な仮想世界」の学習データにより，⾼精度な認識を実現 - この⽅式は，商品棚に限らず「検出対象数が多い」「検出対象の追加や⼊れ替わりが多い」場合に有⽤ - リアルに3D化/シミュレートする技術が鍵⼩売店における商品棚の認識まとめちなみに，商品棚認識ロボMiseboをサービス展開しています 👉

Slide 67

Slide 67 text

67 1. 3Dパラレルワールド構築を⽀える技術 a. 3D世界をデジタル化する技術 b. 3D仮想世界を編集する技術 c. 3D仮想世界を⽣み出す技術 2. エンターテインメントのために a. バーチャル観光，デジタルアーカイブ b. バーチャルプロダクションによる映像制作 3. ⼈⼯知能のために a. ⼩売店における商品棚の認識 b. ⾃動運転のための周辺⾞両認識 c. 都市‧建築3Dデータセットの構築 4. まとめ

Slide 68

Slide 68 text

68 ⾃動運転システムを構築するとき，学習⽤のデータを収集するクルマと，適⽤先のクルマの⾞種が違うと，カメラの取り付け位置などに微妙に差が出る⾃動運転のデータ収集と⾞種⾞種によってセンサの取り付け位置が異なる (株)アイシン様との共同研究データ収集⾞学習⾃動運転システム適⽤先⾞⾼などに違い

Slide 69

Slide 69 text

69 特に，複数のカメラの映像から周辺⾞両の検出と位置特定を⾏うモジュールは，カメラの取り付け位置の差によって性能が⼤幅に低下⾃動運転のデータ収集と⾞種カメラ位置，特に⾞⾼の違いは運転性能に影響⼤ (株)アイシン様との共同研究 3D物体検出と呼ばれるタスク - 複数のカメラの配置が異なる，つまり両⽬の間の距離や向きが変わると，両眼⽴体視による距離推定が困難に - 特にカメラの取り付け位置の⾼さ（≒⾞⾼）は，距離推定との関係が深く，影響が⼤きい

Slide 70

Slide 70 text

70 ⾞⾼の変化に頑健な3D物体検出モデルを訓練するには？ → 収集データを使って「⾞⾼が違った世界線」をシミュレート⾞⾼の変化に頑健なモデル学習 3D仮想世界を使うと，⾞⾼を変えて再撮影できる (株)アイシン様との共同研究データ収集⾞ 3Dデータ化⾞⾼を変えて再⾛⾏＆再撮影 3Dデジタルワールド

Slide 71

Slide 71 text

71 ⾞⾼を変えた学習データの⽣成カメラ間で辻褄が合う，⾼品質な画像⽣成を実現 (株)アイシン様との共同研究元の世界⾞⾼が40cm低いパラレルワールド左前⽅カメラ前⽅カメラ右前⽅カメラ実写に近い品質でシミュレーションできることを確認

Slide 72

Slide 72 text

72 (株)アイシン様との共同研究元の世界⾞⾼が20cm⾼いパラレルワールド左前⽅カメラ前⽅カメラ右前⽅カメラ実写に近い品質でシミュレーションできることを確認⾞⾼を変えた学習データの⽣成カメラ間で辻褄が合う，⾼品質な画像⽣成を実現

Slide 73

Slide 73 text

73 シミュレートした画像を使って3D物体検出を学習 a. （⾞⾼が⼀定の）実写画像のみで学習した場合に⽐べ検出性能が向上 b. 学習データと検証データの⾞⾼が同⼀である場合でも性能向上 3D物体検出性能の定量評価シミュレートした学習画像が性能向上に寄与 (株)アイシン様との共同研究学習データ⾞⾼±0 ⾞⾼ +0.2m ⾞⾼ +0.4m 実写のみ 0.290 0.267 0.235 ⾞⾼をランダムに変えて再撮影 0.293 0.275 0.247 検証データの⾞⾼を変えたときの3D物体検出性能（NDS↑） (a) (b) ※nuScenesデータセットのサブセットを⽤いて評価 ※学習データの⾞⾼変化の幅は -0.3m ~ +0.1m

Slide 74

Slide 74 text

74 - 「⾞⾼が違った世界線」の学習データにより，⾞⾼に頑健な3D物体検出を実現 - 将来的には，より多様な世界線のシミュレートに期待 - 隣の⾞線を⾛っていた世界， - 周辺の⾞両の位置が違った世界， - … - 技術の詳細については以下の⽂献をご参照ください髙橋友紀⼦, 徐天涵, ⼩林颯介, 加藤⼤晴, 髙濱敦, 加藤雄⼤, 横⼭美優, 光森卓, ⾼椋佐和. “新規視点画像⽣成による⾞載3D物体検出器のカメラ⾼データ増強.” 第28回画像の理解‧認識シンポジウム. 2025. ⾃動運転周辺⾞両認識まとめ (株)アイシン様との共同研究

Slide 75

Slide 75 text

75 1. 3Dパラレルワールド構築を⽀える技術 a. 3D世界をデジタル化する技術 b. 3D仮想世界を編集する技術 c. 3D仮想世界を⽣み出す技術 2. エンターテインメントのために a. バーチャル観光，デジタルアーカイブ b. バーチャルプロダクションによる映像制作 3. ⼈⼯知能のために a. ⼩売店における商品棚の認識 b. ⾃動運転のための周辺⾞両認識 c. 都市‧建築3Dデータセットの構築 4. まとめ

Slide 76

Slide 76 text

76 ⾃動運転⾞は⾞道専⽤の⾃律エージェント。では，⾞道以外は？ → ロボット AIエージェントの社会進出都市空間で⾏動する⾃律ロボットは⾃動運転⾞と相補的な関係にある⾞道の⾃律エージェント都市空間の⾃律エージェント相補的な関係

Slide 77

Slide 77 text

77 都市の空間認識は，学習‧評価データセットが不⾜ - ⼤規模で商⽤利⽤可能なものはまったくない - ⺠間主導‧単⼀企業では集めにくい - 建築データは権利関係が複雑 - ⽤途が複数のビジネス領域に分散し，巨⼤事業者が不在⾃律ロボットの社会進出への障壁ロボット向けの都市空間認識データセットの不⾜がボトルネック⽤途環境代表例⾃動運転⾞路上 KITTI, nuScenes, Waymo Open ⾃律ロボット屋内 TUM RGB-D, EuRoC MAV ⾃律ロボット屋外（都市空間） - ⾃律移動エージェント向けの公開データセット

Slide 78

Slide 78 text

78 救世主 (?): Building Information Modeling (BIM) - 主に設計‧施⼯に⽤いられる，建築物の3Dデータ - 国交省を中⼼に，導⼊義務化などを通じて普及を推進中 - 実世界のセンサデータと紐づいていないほか，AI学習向けの意味情報も不⾜建築情報モデリング建築3Dデータは今後の普及が⾒込まれるが，必ずしもAI⽤途に適していない Ex-BIM*: 建築領域外 (e.g. AI)との連携に必要なデータを記述外観‧公開領域に限定することで整備を促進 *⽯澤宰, 村井⼀, 豊⽥啓介 “ExBIM: 建築の外部性を捉えるモデリング⼿法,” ⽣産研究, Vol 77, No.1, 2025.

Slide 79

Slide 79 text

79 Ex-BIMデータと実世界データを合わせて収集‧蓄積‧公開する，都市‧建築3Dデータエコシステム開発プロジェクトを進⾏中 (2025/04 - 2027/03) 都市の空間認識のためのデータセットの構築 Ex-BIMデータと実世界のセンサデータとをペアで集積東京⼤学⽣産技術研究所豊⽥研究室デジタル技術と都市‧建築の融合に関する領域、特に「コモングラウンド」と呼ぶ新しい分野に関わるリサーチおよび基礎技術開発経済産業省/NEDO GENIAC 採択事業代表事業: 株式会社Preferred Networks 共同提案: 国⽴⼤学法⼈東京⼤学

Slide 80

Slide 80 text

80 活⽤が⾒込まれるAIタスク - 空間意味理解（セマンティックセグメンテーション） - 空間形状理解（深度推定，3D再構成） - 3Dモデルの検索‧分析 - 建築‧BIMデータ理解都市空間データセットのAI活⽤幾何形状と意味情報によって，都市空間の空間把握や意味理解を学習可能に実世界のセンサデータ正確な幾何形状と AI向けの意味情報

Slide 81

Slide 81 text

81 構築するデータセットの規模と特徴屋外‧BIM‧商⽤利⽤可‧世界最⼤規模のデータセット東京駅周辺の500棟程度をEx-BIM/3Dスキャンデータ化* Ex-BIMデータにはロボットやデジタルツイン応⽤を⾒込んだ意味情報を付与 *これらは計画段階の情報であり，今後変更される可能性がありますデータセット屋外？ BIM？商⽤利⽤規模 ScanNet++ 1,000部屋 15,000m2 S3DIS 5フロア 6,020m2 Matterport3D 90棟 46,561m2 A-Scan2BIM ✓ 16フロア 35,000m2 本プロジェクト* ✓ ✓ ✓ 500棟程度 500,000m2 スキャンデータとセマンティックアノテーションのデータセット

Slide 82

Slide 82 text

82 都市空間データセットの産業的な広がり都市空間データによるAIは，さまざまな産業領域での応⽤が⾒込まれる AIタスク産業⽤途⾃律ロボット，ドローン物流，警備，インフラ点検，地域ガイド⾃動運転⾞運転⽀援，物流，無⼈タクシーデジタルツイン制作都市計画，⼈流シミュレーション，災害シミュレーション，建物の維持管理，バーチャル観光，ゲーム，映像制作建築‧BIM理解建築物の設計‧施⼯⽀援，ロボット施⼯， BIMデータ作成⽀援，既存建築物のBIMデータ化画像理解の基盤モデル視覚的AIに関する幅広い領域データ利活⽤事業者募集中！ 👉 お問い合わせ

Slide 83

Slide 83 text

83 1. 3Dパラレルワールド構築を⽀える技術 a. 3D世界をデジタル化する技術 b. 3D仮想世界を編集する技術 c. 3D仮想世界を⽣み出す技術 2. エンターテインメントのために a. バーチャル観光，デジタルアーカイブ b. バーチャルプロダクションによる映像制作 3. ⼈⼯知能のために a. ⼩売店における商品棚の認識 b. ⾃動運転のための周辺⾞両認識 c. 都市‧建築3Dデータセットの構築 4. まとめ

Slide 84

Slide 84 text

84 Preferred Networks の取り組みまとめバーチャル観光映像制作デジタルアーカイブスポーツ収録⾃動運転の学習ロボットの学習編集‧合成‧⽣成技術現実世界のデジタルコピーライブ収録商品棚認識の学習少し違う現実（パラレルワールド）

Slide 85

Slide 85 text

85 その先へ: ⼀億総アーティスト社会アイディアを形にする障壁が格段に低く → 誰もがアーティストに* ⽂章⽣成画像⽣成⾳声合成⾳楽⽣成プログラミング⽀援ツール操作⽀援映像作品ゲーム *プロの地位は⾼いままで，アマチュアが増えて裾野が広がるイメージ 3Dキャプチャ 3Dモデル⽣成 3Dモデルが作れずゲーム制作を挫折，も過去の話になるかも 3Dコンテンツ 3Dコンテンツ業界の⾶躍的発展？

Slide 86

Slide 86 text

86 その先へ: 空間知能シンギュラリティパラレルワールド内での学習 → ⾃律移動エージェントの強化⾃律エージェントが能動的にデータを収集 → パラレルワールドの強化書を捨てよ町へ出よう「⾃律エージェント」と「パラレルワールド」が相互強化する循環関係 → 空間知能‧⾃律エージェントが，⼈の⼿を介せずにどんどん賢くなってゆく

Slide 87

Slide 87 text

87 エンタメとAIのための3Dパラレルワールド構築 3Dキャプチャ 3Dモデル⽣成映像制作 👉 ⼀億総アーティスト社会？ 👉 空間知能シンギュラリティ？ AR/VR ゲーム開発エンタメ⾃動運転の学習ロボットの学習⼈⼯知能⾃動データ収集 3Dモデル編集キャプチャ‧⽣成‧編集が技術の三本柱 3D仮想‧並⾏世界の構築

Slide 88

Slide 88 text

88 コンピュータビジョンエンジニア募集中 https://www.preferred.jp/ja/careers/ ビジネスパートナー募集中 https://www.preferred.jp/ja/contact/