Slide 1

Slide 1 text

GPU UNITE 2025 特別講演 エンタメとAIのための 3Dパラレルワールド構築 加藤 ⼤晴 (Preferred Networks)

Slide 2

Slide 2 text

GPU UNITE 2025 特別講演 エンタメとAIのための 3Dパラレルワールド構築 2025-10-15 加藤 ⼤晴 (Preferred Networks) 2

Slide 3

Slide 3 text

Speaker Deck へのアップロードにあたって - リンク類はすべて説明欄に記載しています - 動画はURLに置き換えています #3

Slide 4

Slide 4 text

4 ⾃⼰紹介 ― 加藤⼤晴(かとうひろはる) 2008 - 2020 東京⼤学 - 卒業論⽂: 異常発⾒ロボ → AI - 修⼠論⽂: 画像⽣成 → エンタメ? - 博⼠論⽂: 三次元再構成 → 3Dデジタル世界の構築 2014 - 2018 ソニー (株) R&Dプラットフォーム - ⾳響信号処理 → エンタメ 2018 - 現在 (株) Preferred Networks - 3Dコンピュータビジョンの実応⽤ → すべて https://hiroharu-kato.com/

Slide 5

Slide 5 text

5 Preferred Networks (PFN) 会社概要 設立 本社 代表取締役 従業員数 事業内容 主要子会社 出資企業 (五十音順) 2014年3月26日 東京都千代田区 西川徹(最高経営責任者) 岡野原大輔(最高技術責任者) 約350名(2025年2月) AIチップ、計算基盤、生成AI基盤モデルなどのAI関連技術を 活用したソリューション・製品の開発・販売および研究開発 Matlantis株式会社(2021年6月設立、2025年7月Preferred Computational Chemistryから社名変更) 株式会社Preferred Robotics(2021年11月設立) 株式会社Preferred Computing Infrastructure(2025年1月設立) SBIグループ NTT株式会社 ENEOSイノベーションパートナーズ合同会社 株式会社講談社 信越化学工業株式会社 SUMISEI INNOVATION FUND 積水ハウス投資事業有限責任組合 中外製薬株式会社 TBSイノベーション・パートナーズ3号投資事業組合 TEL Venture Capital, Inc. 東映アニメーション株式会社 トヨタ自動車株式会社 株式会社日本政策投資銀行 株式会社博報堂DYホールディングス 株式会社日立製作所 ファナック株式会社 株式会社みずほ銀行 三井住友信託銀行株式会社 三井物産株式会社 三菱商事株式会社 三菱UFJ信託銀行株式会社 株式会社ワコム 他 ミッション: 現実世界を計算可能にする https://www.preferred.jp

Slide 6

Slide 6 text

最先端の技術を 最短路で実⽤化する 深層学習などの最先端の技術を最短路で実⽤化する ことで、これまで解決が困難であった現実世界の 課題解決を⽬指しています Value

Slide 7

Slide 7 text

7 1. 3Dパラレルワールド構築を⽀える技術 a. 3D世界をデジタル化する技術 b. 3D仮想世界を編集する技術 c. 3D仮想世界を⽣み出す技術 2. エンターテインメントのために a. バーチャル観光,デジタルアーカイブ b. バーチャルプロダクションによる映像制作 3. ⼈⼯知能のために a. ⼩売店における商品棚の認識 b. ⾃動運転のための周辺⾞両認識 c. 都市‧建築3Dデータセットの構築 4. まとめ

Slide 8

Slide 8 text

8 1. 3Dパラレルワールド構築を⽀える技術 a. 3D世界をデジタル化する技術 b. 3D仮想世界を編集する技術 c. 3D仮想世界を⽣み出す技術 2. エンターテインメントのために a. バーチャル観光,デジタルアーカイブ b. バーチャルプロダクションによる映像制作 3. ⼈⼯知能のために a. ⼩売店における商品棚の認識 b. ⾃動運転のための周辺⾞両認識 c. 都市‧建築3Dデータセットの構築 4. まとめ

Slide 9

Slide 9 text

9 3Dデータとは モノの⽴体的な形状や質感などを表現するデジタル情報のこと シーン [source] 物体 [source]

Slide 10

Slide 10 text

10 3Dデータの活⽤: エンターテインメント ゲーム 『ゼルダの伝説 ムジュラの仮⾯』 映像作品 『ゴジラ-1.0』

Slide 11

Slide 11 text

11 3Dデータの活⽤: ⼈⼯知能の学習 ⾃動運転⾞ CARLA Simulator ロボット Gazebo

Slide 12

Slide 12 text

12 3Dデータの作成: 3Dモデリング 3Dデータは,専⽤ツールでイチから制作するのが 正攻法であり,⾼品質でもある ⼀⽅で,以下のような課題も - ⾼度な専⾨スキルが必要 - 精緻に作り込むには膨⼤な⼈的リソースが必要

Slide 13

Slide 13 text

13 思い出 『ゼルダの伝説 ムジュラの仮⾯』に憧れ,3Dゲーム制作を志すが… まず3Dモデルを ⽤意して… 3Dモデリングツール “メタセコイア” で 3Dモデル制作を試みるも,難易度が⾼く挫折 ⽴⽅体や直⽅体が⾶んだり跳ねたりするだけ, というソフトに Image: https://www.amazon.co.jp/dp/4875939205

Slide 14

Slide 14 text

14 3Dデータの作成: 3Dキャプチャ 実世界の⽴体情報を機械的に取り込んで3Dデータ化する技術 深層学習にヒントを得た⼿法で近年⼤幅に⾼精度化 撮影 (※イメージ) 3Dモデル 情報処理

Slide 15

Slide 15 text

15 近年の3Dキャプチャの実⼒ 3D Gaussian Splatting [Kerbl+ 2023] https://youtu.be/T_kXY43VZnk

Slide 16

Slide 16 text

16 3Dキャプチャのいろいろ フォトグラメトリは,さまざまな視点の写真を元に3Dモデルを作成 接触式センサ - ロボットアームなどを 物体に接触させること で形状を計測 - ⾼精度だが,測定でき る対象が限られる 深度センサ - 対象に光を照射し,反 射を計測することで形 状を計測 - コウモリが超⾳波で空 間認識するイメージ - ⾼精度だが,密な測定 は難しい 写真から - 写真をさまざまな⾓度 から撮影し,そこから ⽴体形状を推定 - 左右の⽬で⽴体感を把 握するイメージ - ⾒た⽬がよい(写真に 近い)キャプチャが得 意だが,形状の推定精 度は劣る 今回扱うのはココ フォトグラメトリ という

Slide 17

Slide 17 text

17 深層学習以前の画像識別 別個の役割の複数のモジュールを⼈⼒で設計,全体最適とはいえない 画像 局所特徴抽出 ⼤域特徴抽出 識別モデル 識別結果 識別過程 動作イメージ ⾜,⾚,吸盤… 吸盤付の⾜が8本… ⾜が8本といえば… タコ

Slide 18

Slide 18 text

18 深層学習以前の画像識別 別個の役割の複数のモジュールを⼈⼒で設計,全体最適とはいえない 画像 局所特徴抽出 ⼤域特徴抽出 識別モデル 識別結果 識別過程 - 別個の役割を果たす複数のモジュールで構成 - 縦線抽出,⾊抽出,… - 「よい識別結果を得る」ではない, 中間的で間接的な⽬的で設計 - システム全体として, 識別に最適化されているとは限らない - ほとんどの処理を⼈⼿で設計 - 学習データを⽤いて調整できるパラメータ の数は少なく,柔軟性も低い

Slide 19

Slide 19 text

19 深層学習による画像認識 深層学習では,正しい識別結果を得ることに全モジュールがフォーカス 画像 局所特徴抽出 ⼤域特徴抽出 識別モデル 識別結果 - 「層」を積み重ねて識別結果へ⾄る* - 「層」は調整可能なパラメータを多数 持ち「学習データが正しく識別できる こと」を⽬的関数として⾃動的に調整 される - 全モジュールが「正しい識別結果を得 る」ことに直接的にフォーカスするの が特徴 画像 識別結果 層 層 層 層 層 層 *「層」は⾏列乗算などの単純な処理のみを⾏い, 多数の「層」を重ねることで全体として⾼い柔軟性を実現

Slide 20

Slide 20 text

20 従来的なフォトグラメトリ 別個の役割の複数のモジュールを⼈⼒で設計,全体最適とはいえない 多数の写真 3Dモデル 動作イメージ キャプチャ過程 特徴点検出 特徴点マッチング 三⾓測量 メッシュ⽣成 テクスチャ⽣成 多数の写真 3Dモデル 特徴的な点(机の⾓な ど)について,右⽬と左 ⽬の網膜上での位置の違 いから,奥⾏きを特定 特徴的な点をつないで ⾯を張る ⾯に⾊を塗る

Slide 21

Slide 21 text

21 従来的なフォトグラメトリの課題 写真とそっくりな3Dモデルが得られること,に最適化されていない 多数の写真 3Dモデル 3Dキャプチャ 描画 画像 - 別個の役割を果たす複数のモジュールで構成 - 「得られた3Dモデルを描画した画像」と 「撮影した写真」がそっくりであることが望ましいが, そう最適化されていない 撮影した写真 従来的なフォトグラメトリ (視点は少し異なる)

Slide 22

Slide 22 text

22 近年のフォトグラメトリ 3Dモデルを,写真のように⾒えるように直接最適化 3Dモデル 描画 多数の写真 画像 誤差 類似度計算 - 「撮影した写真」と「描画した画像」が近くなるよ うに「3Dモデル」を最適化 - 「3Dモデルがリアルに⾒える」ことに直接フォー カスするのが特徴 - 深層学習ライブラリを⽤いて実装される 3Dモデル 初期値 最適化初期 図は [Muller+ 2022] より 最適化後期

Slide 23

Slide 23 text

23 近年のフォトグラメトリを可能にした技術 半透明を効率的に扱う3Dモデル表現と,その深層学習的な描画関数が必要 あたらしい3Dモデル表現 - 最適化の鍵は「モヤモヤした状態から徐々にクッキリさせる」こと - 半透明のモヤモヤを効率的に扱う3D表現が必要 - 詳細は [Neural Radiance Fields 🔎] [3D Gaussian Splatting 🔎] あたらしい描画関数 - 最適化に深層学習フレームワークを使うのが⼀般的 - 深層学習の層として機能するような描画関数が必要 - 詳細は [微分可能レンダリング 🔎] 加藤の博士論文はココ

Slide 24

Slide 24 text

24 フォトグラメトリの難点 幾何形状の正確さ,既存ツールとの相性,編集性の低さなど 近年のフォトグラメトリの課題 - ⾒た⽬は綺麗だが,幾何形状が綺麗とは限らない(モヤモヤしがち) - 3D表現形式が独⾃で,ポリゴンメッシュなどに変換しにくい (変換⼿法は多数提案されているが,品質が劣化しやすい) - そのため,映像制作ツールやゲームエンジンなどで使いにくい 従来のフォトグラメトリにも共通の課題 - 照明や影が模様として焼きこまれてしまい,照明を当て直すのが難しい - ⼤胆な拡⼤に耐えられるような⾼精細な3Dキャプチャは難しい SKIP

Slide 25

Slide 25 text

25 3DキャプチャはAI技術か 認識技術が間接的に必要で,かつ「データに合うCGを得る」も「学習」と関連 3Dキャプチャは学習/認識ではなく,写真撮影のような「計測技術」とも思えるが, 3Dモデルは⾃由度が⼤きく,その精緻な測定は困難という特質がある 正確な3Dキャプチャのためには,⾼度な学習や認識が間接的に必要といえる - 深度推定,視点推定,形状推定や補完,⾊‧マテリアル‧照明の推定,… また「データに基づく最適化」と捉えると「学習」と密接に関連する - 確率的勾配降下法,微分可能プログラミング,… 写真(←計測) ありえる3Dモデル SKIP

Slide 26

Slide 26 text

26 近年のフォトグラメトリを試す Luma AI 3D Capture - 写真や動画をアップロードするだけで3Dモデルに変換してくれるサービス - 専⾨的な知識や技術は不要 - (ただし,よい結果を得るためには撮影技術が必要) SKIP

Slide 27

Slide 27 text

27 Preferred Networks での取り組み (1) 物体と空間全体を3Dスキャンする ハードウェアとソフトウェアを開発 3Dスキャン請負サービスも展開中 👉 https://pfn3d.com/

Slide 28

Slide 28 text

28 Preferred Networks での取り組み (2) 先進的な技術開発を実施し,国際学会での発表も多数 反射が強い物体の3Dスキャン (Jiang+ ECCV 2024) 3Dスキャンした物体への効率的なマテリアル付与 (Madono+ CHI 2025 LBW) SKIP

Slide 29

Slide 29 text

29 Preferred Networks での取り組み (3) 先進的な技術開発を実施し,国際学会での発表も多数 カメラ1台での4Dスキャン (Liang+ CVPR 2025) 広域3Dスキャンのために対話的視点推定 (Kanazawa+ IUI 2025) SKIP

Slide 30

Slide 30 text

30 - 3Dキャプチャは,⾒た⽬の品質が近年⾶躍的に向上 - 写真とそっくりに⾒えるように3Dモデルを最適化するのが鍵 - 「半透明のモヤモヤを効率的に扱う3D表現」と 「深層学習の層として機能するような描画関数」が⼆⼤必須技術 3D世界をデジタル化する技術 まとめ 3Dモデル 初期値 最適化初期 最適化後期 深層学習の 設計思想と類似

Slide 31

Slide 31 text

31 1. 3Dパラレルワールド構築を⽀える技術 a. 3D世界をデジタル化する技術 b. 3D仮想世界を編集する技術 c. 3D仮想世界を⽣み出す技術 2. エンターテインメントのために a. バーチャル観光,デジタルアーカイブ b. バーチャルプロダクションによる映像制作 3. ⼈⼯知能のために a. ⼩売店における商品棚の認識 b. ⾃動運転のための周辺⾞両認識 c. 都市‧建築3Dデータセットの構築 4. まとめ

Slide 32

Slide 32 text

32 デジタルコピーからパラレルワールドへ 3Dキャプチャしたものを,そのまま使うのではなく,編集したいケースは多い ゲーム 『⿓が如く』 ちょっと違う現実 → パラレルワールド 映像作品 『シン‧ゴジラ』 人工知能学習 CARLA Simulator 物体の置き換え ※これらは編集の必要性のイメージであり, 実際には3Dキャプチャは⽤いられていません CG物体の追加 破壊 天候の 変更 照明の変更

Slide 33

Slide 33 text

33 各種ツールのプラグイン ⼈気3Dツールには編集機能を備えたプラグインが存在 Blender プラグイン KIRI Engine Unreal Engine プラグイン Preferred Networks 開発 もっと簡単な⽅法は…?

Slide 34

Slide 34 text

34 3Dモデルを⾔葉で指⽰して改変 ⼈物に髭を⽣やす,銅像に変えるなどを実現 (Haque+ 2023) https://youtu.be/D6KWAYU3rCA

Slide 35

Slide 35 text

35 3Dモデルのアートスタイルを⾔葉で指⽰して変更 「アニメ⾵に」「ゴッホ⾵に」などの編集を実現 (Fujiwara+ 2024) https://youtu.be/-h9IJyx5uMU

Slide 36

Slide 36 text

36 照明の変更 (Kaleta+ 2025) https://lumigauss.github.io/

Slide 37

Slide 37 text

37 スマート検索と領域切り出し ⾔語クエリで3D空間中から物体を検索,領域を特定 (Kerr+ 2023) https://youtu.be/7Z2XqH40L08

Slide 38

Slide 38 text

38 3D仮想世界を編集する技術 まとめ - 各種3Dツールのプラグイン開発は盛んだが,使⽤難度は⾼く,機能も不⼗分 - スマートに編集する技術の開発が散発的に報告されている - 個⼈的には,未開拓かつ需要が⼤きい技術領域と考えている - コンテンツ制作者と研究者との密な連携が必要なのではないか (Haque+ 2023) (Kerr+ 2023)

Slide 39

Slide 39 text

39 1. 3Dパラレルワールド構築を⽀える技術 a. 3D世界をデジタル化する技術 b. 3D仮想世界を編集する技術 c. 3D仮想世界を⽣み出す技術 2. エンターテインメントのために a. バーチャル観光,デジタルアーカイブ b. バーチャルプロダクションによる映像制作 3. ⼈⼯知能のために a. ⼩売店における商品棚の認識 b. ⾃動運転のための周辺⾞両認識 c. 都市‧建築3Dデータセットの構築 4. まとめ

Slide 40

Slide 40 text

40 キャプチャ‧編集から⽣成へ 3Dキャプチャでの制作が難しい3Dモデルも多い 恐⻯の3Dキャプチャ? クローン再⽣技術の開発から 始める⼿もあるが… 『ジュラシック‧パーク』 3Dモデルをゼロから⽣成できないか?

Slide 41

Slide 41 text

41 3Dデータの作成: 3Dモデル⽣成 ⾔語による指⽰で,実世界に存在しないような物体も⽣成する技術 画像⽣成技術の成熟と,⼤規模3Dデータセットの登場で急速に発展 ⾔語指⽰ 3Dモデル* 深層学習 モデル “A jumping rabbit, made of shiny metal” *Meshy AI で作成

Slide 42

Slide 42 text

42 ⽣成モデルの計算コスト - 拡散⽣成モデルの学習は計算コストが⾼い - Stable Diffusion [Rombach+ 2022] では 画像圧縮で解像度を落として学習 - 3Dモデルの処理は,奥⾏きの分,画像よりも計算コストが⾼いため “圧縮” をさらに⼯夫する必要がある 42倍の非可逆圧縮でも ほぼ劣化なし

Slide 43

Slide 43 text

43 Structured Latent (SLAT) [Xiang+ 2025] - 3Dモデルを “圧縮” した上で,その空間で拡散⽣成モデルを学習 - 2563の解像度の3Dモデルを (1/4)3に圧縮した上で, モノがない空間を扱わないことで,さらに約1/10に圧縮 - 圧縮空間で,約100万個のCGモデルを⽤いて⽣成モデルを学習

Slide 44

Slide 44 text

44 3D⽣成技術のトレンド よく⾒かける研究トピック - ⽣成品質の改善,特に解像感 - マテリアルの付与 - パーツ単位での⽣成 まだ難しいこと - 物体ひとつではなく,広いシーンの⽣成 - 複雑な形状の⽣成 - ⼊⼒テキストや画像の正確な反映 研究開発段階。進展が速く, 数ヶ⽉で状況ががらっと変わる可能性も (Ye+ 2025) (Engstler+ 2025) SKIP

Slide 45

Slide 45 text

45 3Dモデル⽣成を試す Meshy, Tripo3D, Rodin - テキスト⼊⼒や,画像⼊⼒を元に3Dモデルを⽣成するサービス - シンプルな編集機能も提供 SKIP

Slide 46

Slide 46 text

46 Preferred Networks での取り組み https://youtu.be/CPPMJXLouQo

Slide 47

Slide 47 text

47 3D仮想世界を⽣み出す技術 まとめ - ⽂章や画像に基づいて3Dモデルを⽣成する技術は,今まさに⼤きく発展中 - 3Dコンテンツ制作の敷居を下げる技術として期待 - ⽣成品質は,画像⽣成より改善の余地が余地が⼤きい - ディテールの不⾜,複数の物体,⽣成結果の制御,⼤規模シーン,…

Slide 48

Slide 48 text

48 1. 3Dパラレルワールド構築を⽀える技術 a. 3D世界をデジタル化する技術 b. 3D仮想世界を編集する技術 c. 3D仮想世界を⽣み出す技術 2. エンターテインメントのために a. バーチャル観光,デジタルアーカイブ b. バーチャルプロダクションによる映像制作 3. ⼈⼯知能のために a. ⼩売店における商品棚の認識 b. ⾃動運転のための周辺⾞両認識 c. 都市‧建築3Dデータセットの構築 4. まとめ

Slide 49

Slide 49 text

49 バーチャル観光,デジタルアーカイブ 実世界のものを3Dデータ化して,閲覧可能にすることに需要が⼤きい バーチャル観光 - 現地に⾏かずに⼿軽に観光 - 3D空間を⾃由に歩き回れると没⼊感が⾼い デジタルアーカイブ - ⽂化財や歴史的資料をデジタル化 - ⽴体形状の保存が求められるものも多い ⾸⾥城 (みんなの⾸⾥城デジタル復元プロジェクト) 実物の3Dデータ化そのものに需要がある ミロのヴィーナス (ルーヴル美術館)

Slide 50

Slide 50 text

50 Preferred Networks の取り組み 新幹線開業直前の加賀温泉駅と ⼤⼟集落(加賀市加賀東⾕重要伝統的建造物群保存地区)の ドローン撮影による3Dスキャン 巨⼤ディスプレイとコントローラーによる 加賀温泉駅上空の⾃由⾶⾏ https://youtu.be/EdJ6DCYhFdE https://youtu.be/74N1JM1d2-g

Slide 51

Slide 51 text

51 Preferred Networks の取り組み SANRIO Virtual Festival 2023 持ち歩ける3Dフィギュアの3Dスキャン (株式会社サンリオ様) 国⽴科学博物館 バーチャル企画展 『電⼦楽器の創造展』電⼦楽器の3Dスキャン

Slide 52

Slide 52 text

52 Preferred Networks の取り組み ⾳楽ライブの収録 スポーツの収録 https://youtu.be/pTyULSZrnzk https://youtu.be/Z5J_CMo6XPI

Slide 53

Slide 53 text

53 Preferred Networks の取り組み “にじさんじのB級バラエティ ミニ四駆爆⾛GP” でのミニ四駆の3Dモデル制作協⼒ 画像: https://youtu.be/0x9jMNmlFvI

Slide 54

Slide 54 text

54 1. 3Dパラレルワールド構築を⽀える技術 a. 3D世界をデジタル化する技術 b. 3D仮想世界を編集する技術 c. 3D仮想世界を⽣み出す技術 2. エンターテインメントのために a. バーチャル観光,デジタルアーカイブ b. バーチャルプロダクションによる映像制作 3. ⼈⼯知能のために a. ⼩売店における商品棚の認識 b. ⾃動運転のための周辺⾞両認識 c. 都市‧建築3Dデータセットの構築 4. まとめ

Slide 55

Slide 55 text

55 映画などを撮影するとき,撮影の舞台を整えるのは⼤変 - ロケ地までの移動 - 時間帯,天候 - 再撮影 無背景で撮影 → 背景にCGを合成,も課題が多い - 照明や⾊合いの調整が⼤変 - 完成系がイメージしづらい - 演技時の臨場感が不⾜ 映像制作のロケーション問題 背景や舞台は,実際の撮影も撮影後のCGの合成も課題が多い

Slide 56

Slide 56 text

56 バーチャルプロダクション 実写の俳優と,ディスプレイに投影した背景CGとを同時収録 巨⼤ディスプレイに 背景CGを投影 俳優はスタジオ内で演技 カメラの移動に応じて 背景CGも変化 実写の俳優と背景CGを同時に収録 → その場で “完成画” を撮影 The Mandalorian, youtu.be/gUnxzVOs3rk

Slide 57

Slide 57 text

57 バーチャルプロダクションのスケールアップ 実世界の3Dキャプチャと⾼速描画‧編集技術で背景制作を効率化 リアルな背景CGを ⼿軽に制作する技術 The Mandalorian, youtu.be/gUnxzVOs3rk カメラの動きに合わせて ⾼速に描画する技術 CGの照明を調整する技術 背景に物体を追加したり 削除したりする技術 → 実世界の3Dキャプチャと編集による背景CG

Slide 58

Slide 58 text

58 https://youtu.be/K7u18A8Dhkw

Slide 59

Slide 59 text

59 https://youtu.be/PezPCB8gpCA

Slide 60

Slide 60 text

60 バーチャルプロダクションによる映像制作 まとめ 「前景は実写」「背景は3Dキャプチャ」という形式による映像制作 - 映像制作のロケーション問題に対処する技術 - 実写と実写とを掛け合わせたパラレルワールドといえる - キャプチャ品質,⾼速描画,編集可能性が鍵 3Dキャプチャによる背景CG 俳優 撮影

Slide 61

Slide 61 text

61 1. 3Dパラレルワールド構築を⽀える技術 a. 3D世界をデジタル化する技術 b. 3D仮想世界を編集する技術 c. 3D仮想世界を⽣み出す技術 2. エンターテインメントのために a. バーチャル観光,デジタルアーカイブ b. バーチャルプロダクションによる映像制作 3. ⼈⼯知能のために a. ⼩売店における商品棚の認識 b. ⾃動運転のための周辺⾞両認識 c. 都市‧建築3Dデータセットの構築 4. まとめ

Slide 62

Slide 62 text

62 物体検出 → 画像のどこに何が写っているかを⾃動で検出 - 技術的には成熟していて,ツールも充実 - 学習データさえあれば⼿軽に学習可能 …学習データさえあれば。 物体検出は,今やカンタン? 技術的には成熟,⼿軽に使えるツールも充実,学習データだけが必要 Photo: © MTheiler / via Wikimedia Commons / CC BY-SA 4.0

Slide 63

Slide 63 text

63 ⼩売店における陳列数認識 陳列数を⾃動認識する技術の需要は⼤きいが,学習データの整備が困難 陳列棚の陳列数認識は, - 在庫補充に必要,売上への影響⼤ - 陳列商品数は膨⼤で,⾃動化の需要が⼤きい ⼀⽅で, - そもそもの商品数があまりにも多い - 新商品が⽇々⼤量に発売される - 陳列棚の商品構成も⽇々変化する ため,学習データの整備が困難

Slide 64

Slide 64 text

64 商品を3Dモデル化,多様なバーチャル棚を⾃動⽣成してデータセットを構築 3DCG化によるデータセット構築 仮想空間内で様々な棚のあり⽅をシミュレートして学習データに PFN 3D Scan 3DCGデータセットを⽣成 ⾼精度な認識モデルを訓練

Slide 65

Slide 65 text

65 3DCG化によるデータセット構築 仮想空間内で様々な棚のあり⽅をシミュレートして学習データに 商品をリアルに3Dスキャンする技術,リアルな商品棚を⽣成する技術が鍵

Slide 66

Slide 66 text

66 「商品棚が違う多様な仮想世界」の学習データにより,⾼精度な認識を実現 - この⽅式は,商品棚に限らず「検出対象数が多い」 「検出対象の追加や⼊れ替わりが多い」場合に有⽤ - リアルに3D化/シミュレートする技術が鍵 ⼩売店における商品棚の認識 まとめ ちなみに,商品棚認識ロボMiseboをサービス展開しています 👉

Slide 67

Slide 67 text

67 1. 3Dパラレルワールド構築を⽀える技術 a. 3D世界をデジタル化する技術 b. 3D仮想世界を編集する技術 c. 3D仮想世界を⽣み出す技術 2. エンターテインメントのために a. バーチャル観光,デジタルアーカイブ b. バーチャルプロダクションによる映像制作 3. ⼈⼯知能のために a. ⼩売店における商品棚の認識 b. ⾃動運転のための周辺⾞両認識 c. 都市‧建築3Dデータセットの構築 4. まとめ

Slide 68

Slide 68 text

68 ⾃動運転システムを構築するとき,学習⽤のデータを収集するクルマと, 適⽤先のクルマの⾞種が違うと,カメラの取り付け位置などに微妙に差が出る ⾃動運転のデータ収集と⾞種 ⾞種によってセンサの取り付け位置が異なる (株)アイシン様との共同研究 データ収集⾞ 学習 ⾃動運転システム適⽤先 ⾞⾼などに違い

Slide 69

Slide 69 text

69 特に,複数のカメラの映像から周辺⾞両の検出と位置特定を⾏うモジュールは, カメラの取り付け位置の差によって性能が⼤幅に低下 ⾃動運転のデータ収集と⾞種 カメラ位置,特に⾞⾼の違いは運転性能に影響⼤ (株)アイシン様との共同研究 3D物体検出と 呼ばれるタスク - 複数のカメラの配置が異なる,つまり両⽬の 間の距離や向きが変わると,両眼⽴体視によ る距離推定が困難に - 特にカメラの取り付け位置の⾼さ(≒⾞⾼) は,距離推定との関係が深く,影響が⼤きい

Slide 70

Slide 70 text

70 ⾞⾼の変化に頑健な3D物体検出モデルを訓練するには? → 収集データを使って「⾞⾼が違った世界線」をシミュレート ⾞⾼の変化に頑健なモデル学習 3D仮想世界を使うと,⾞⾼を変えて再撮影できる (株)アイシン様との共同研究 データ収集⾞ 3Dデータ化 ⾞⾼を変えて再⾛⾏&再撮影 3Dデジタルワールド

Slide 71

Slide 71 text

71 ⾞⾼を変えた学習データの⽣成 カメラ間で辻褄が合う,⾼品質な画像⽣成を実現 (株)アイシン様との共同研究 元の世界 ⾞⾼が40cm低い パラレルワールド 左前⽅カメラ 前⽅カメラ 右前⽅カメラ 実写に近い品質でシミュレーションできることを確認

Slide 72

Slide 72 text

72 (株)アイシン様との共同研究 元の世界 ⾞⾼が20cm⾼い パラレルワールド 左前⽅カメラ 前⽅カメラ 右前⽅カメラ 実写に近い品質でシミュレーションできることを確認 ⾞⾼を変えた学習データの⽣成 カメラ間で辻褄が合う,⾼品質な画像⽣成を実現

Slide 73

Slide 73 text

73 シミュレートした画像を使って3D物体検出を学習 a. (⾞⾼が⼀定の)実写画像のみで学習した場合に⽐べ検出性能が向上 b. 学習データと検証データの⾞⾼が同⼀である場合でも性能向上 3D物体検出性能の定量評価 シミュレートした学習画像が性能向上に寄与 (株)アイシン様との共同研究 学習データ ⾞⾼±0 ⾞⾼ +0.2m ⾞⾼ +0.4m 実写のみ 0.290 0.267 0.235 ⾞⾼をランダムに変えて再撮影 0.293 0.275 0.247 検証データの⾞⾼を変えたときの3D物体検出性能(NDS↑) (a) (b) ※nuScenesデータセットのサブセットを⽤いて評価 ※学習データの⾞⾼変化の幅は -0.3m ~ +0.1m

Slide 74

Slide 74 text

74 - 「⾞⾼が違った世界線」の学習データにより,⾞⾼に頑健な3D物体検出を実現 - 将来的には,より多様な世界線のシミュレートに期待 - 隣の⾞線を⾛っていた世界, - 周辺の⾞両の位置が違った世界, - … - 技術の詳細については以下の⽂献をご参照ください 髙橋友紀⼦, 徐天涵, ⼩林颯介, 加藤⼤晴, 髙濱敦, 加藤雄⼤, 横⼭美優, 光森卓, ⾼椋佐和. “新規視点画像⽣成による⾞載3D物体検出器のカメラ⾼データ増強.” 第28回 画像の理解‧認識シンポジウム. 2025. ⾃動運転 周辺⾞両認識 まとめ (株)アイシン様との共同研究

Slide 75

Slide 75 text

75 1. 3Dパラレルワールド構築を⽀える技術 a. 3D世界をデジタル化する技術 b. 3D仮想世界を編集する技術 c. 3D仮想世界を⽣み出す技術 2. エンターテインメントのために a. バーチャル観光,デジタルアーカイブ b. バーチャルプロダクションによる映像制作 3. ⼈⼯知能のために a. ⼩売店における商品棚の認識 b. ⾃動運転のための周辺⾞両認識 c. 都市‧建築3Dデータセットの構築 4. まとめ

Slide 76

Slide 76 text

76 ⾃動運転⾞は⾞道専⽤の⾃律エージェント。では,⾞道以外は? → ロボット AIエージェントの社会進出 都市空間で⾏動する⾃律ロボットは⾃動運転⾞と相補的な関係にある ⾞道の⾃律エージェント 都市空間の⾃律エージェント 相補的な関係

Slide 77

Slide 77 text

77 都市の空間認識は,学習‧評価データセットが不⾜ - ⼤規模で商⽤利⽤可能なものはまったくない - ⺠間主導‧単⼀企業では集めにくい - 建築データは権利関係が複雑 - ⽤途が複数のビジネス領域に分散し,巨⼤事業者が不在 ⾃律ロボットの社会進出への障壁 ロボット向けの都市空間認識データセットの不⾜がボトルネック ⽤途 環境 代表例 ⾃動運転⾞ 路上 KITTI, nuScenes, Waymo Open ⾃律ロボット 屋内 TUM RGB-D, EuRoC MAV ⾃律ロボット 屋外(都市空間) - ⾃律移動エージェント向けの公開データセット

Slide 78

Slide 78 text

78 救世主 (?): Building Information Modeling (BIM) - 主に設計‧施⼯に⽤いられる,建築物の3Dデータ - 国交省を中⼼に,導⼊義務化などを通じて普及を推進中 - 実世界のセンサデータと紐づいていないほか,AI学習向けの意味情報も不⾜ 建築情報モデリング 建築3Dデータは今後の普及が⾒込まれるが,必ずしもAI⽤途に適していない Ex-BIM*: 建築領域外 (e.g. AI)との連携に必要なデータを記述 外観‧公開領域に限定することで整備を促進 *⽯澤 宰, 村井 ⼀, 豊⽥ 啓介 “ExBIM: 建築の外部性を捉えるモデリング⼿法,” ⽣産研究, Vol 77, No.1, 2025.

Slide 79

Slide 79 text

79 Ex-BIMデータと実世界データを合わせて収集‧蓄積‧公開する, 都市‧建築3Dデータエコシステム開発プロジェクトを進⾏中 (2025/04 - 2027/03) 都市の空間認識のためのデータセットの構築 Ex-BIMデータと実世界のセンサデータとをペアで集積 東京⼤学⽣産技術研究所 豊⽥研究室 デジタル技術と都市‧建築の融合に関する領域、特 に「コモングラウンド」と呼ぶ新しい分野に関わる リサーチおよび基礎技術開発 経済産業省/NEDO GENIAC 採択事業 代表事業: 株式会社Preferred Networks 共同提案: 国⽴⼤学法⼈ 東京⼤学

Slide 80

Slide 80 text

80 活⽤が⾒込まれるAIタスク - 空間意味理解 (セマンティックセグメンテーション) - 空間形状理解 (深度推定,3D再構成) - 3Dモデルの検索‧分析 - 建築‧BIMデータ理解 都市空間データセットのAI活⽤ 幾何形状と意味情報によって,都市空間の空間把握や意味理解を学習可能に 実世界の センサデータ 正確な幾何形状と AI向けの意味情報

Slide 81

Slide 81 text

81 構築するデータセットの規模と特徴 屋外‧BIM‧商⽤利⽤可‧世界最⼤規模のデータセット 東京駅周辺の500棟程度をEx-BIM/3Dスキャンデータ化* Ex-BIMデータにはロボットやデジタルツイン応⽤を⾒込んだ意味情報を付与 *これらは計画段階の情報であり, 今後変更される可能性があります データセット 屋外? BIM? 商⽤利⽤ 規模 ScanNet++ 1,000部屋 15,000m2 S3DIS 5フロア 6,020m2 Matterport3D 90棟 46,561m2 A-Scan2BIM ✓ 16フロア 35,000m2 本プロジェクト* ✓ ✓ ✓ 500棟程度 500,000m2 スキャンデータとセマンティックアノテーションのデータセット

Slide 82

Slide 82 text

82 都市空間データセットの産業的な広がり 都市空間データによるAIは,さまざまな産業領域での応⽤が⾒込まれる AIタスク 産業⽤途 ⾃律ロボット,ドローン 物流,警備,インフラ点検,地域ガイド ⾃動運転⾞ 運転⽀援,物流,無⼈タクシー デジタルツイン制作 都市計画,⼈流シミュレーション,災害シミュレーション, 建物の維持管理,バーチャル観光,ゲーム,映像制作 建築‧BIM理解 建築物の設計‧施⼯⽀援,ロボット施⼯, BIMデータ作成⽀援,既存建築物のBIMデータ化 画像理解の基盤モデル 視覚的AIに関する幅広い領域 データ利活⽤事業者 募集中! 👉 お問い合わせ

Slide 83

Slide 83 text

83 1. 3Dパラレルワールド構築を⽀える技術 a. 3D世界をデジタル化する技術 b. 3D仮想世界を編集する技術 c. 3D仮想世界を⽣み出す技術 2. エンターテインメントのために a. バーチャル観光,デジタルアーカイブ b. バーチャルプロダクションによる映像制作 3. ⼈⼯知能のために a. ⼩売店における商品棚の認識 b. ⾃動運転のための周辺⾞両認識 c. 都市‧建築3Dデータセットの構築 4. まとめ

Slide 84

Slide 84 text

84 Preferred Networks の取り組み まとめ バーチャル観光 映像制作 デジタルアーカイブ スポーツ収録 ⾃動運転の学習 ロボットの学習 編集‧合成‧⽣成技術 現実世界のデジタルコピー ライブ収録 商品棚認識の学習 少し違う現実(パラレルワールド)

Slide 85

Slide 85 text

85 その先へ: ⼀億総アーティスト社会 アイディアを形にする障壁が格段に低く → 誰もがアーティストに* ⽂章⽣成 画像⽣成 ⾳声合成 ⾳楽⽣成 プログラミング⽀援 ツール操作⽀援 映像作品 ゲーム *プロの地位は⾼いままで, アマチュアが増えて裾野が広がるイメージ 3Dキャプチャ 3Dモデル⽣成 3Dモデルが作れずゲーム制作を挫折, も過去の話になるかも 3Dコンテンツ 3Dコンテンツ業界の⾶躍的発展?

Slide 86

Slide 86 text

86 その先へ: 空間知能シンギュラリティ パラレルワールド内での学習 → ⾃律移動エージェントの強化 ⾃律エージェントが能動的にデータを収集 → パラレルワールドの強化 書を捨てよ 町へ出よう 「⾃律エージェント」と「パラレルワールド」が相互強化する循環関係 → 空間知能‧⾃律エージェントが,⼈の⼿を介せずにどんどん賢くなってゆく

Slide 87

Slide 87 text

87 エンタメとAIのための3Dパラレルワールド構築 3Dキャプチャ 3Dモデル⽣成 映像制作 👉 ⼀億総アーティスト社会? 👉 空間知能シンギュラリティ? AR/VR ゲーム開発 エンタメ ⾃動運転の学習 ロボットの学習 ⼈⼯知能 ⾃動データ収集 3Dモデル編集 キャプチャ‧⽣成‧編集が 技術の三本柱 3D仮想‧並⾏世界の構築

Slide 88

Slide 88 text

88 コンピュータビジョンエンジニア 募集中 https://www.preferred.jp/ja/careers/ ビジネスパートナー 募集中 https://www.preferred.jp/ja/contact/