Slide 1

Slide 1 text

⼟⽊学会応⽤⼒学委員会 応⽤数理‧AIセミナー 深層学習と3Dキャプチャ‧3Dモデル⽣成 Preferred Networks 加藤 ⼤晴

Slide 2

Slide 2 text

⼟⽊学会応⽤⼒学委員会 応⽤数理‧AIセミナー 深層学習と3Dキャプチャ‧3Dモデル⽣成 2025-01-09 加藤 ⼤晴 (Preferred Networks) 2

Slide 3

Slide 3 text

3 - リンク類はすべて説明欄に記載しています - 動画はURLに置き換えています Speaker Deck へのアップロードにあたって #3

Slide 4

Slide 4 text

4 モノの⽴体的な形状や質感などを表現するデジタル情報のこと 3Dデータとは #4 シーン (from PLATEAU) 物体 [source]

Slide 5

Slide 5 text

5 釈迦に説法ですが… - 建物や街区の設計,解析 - 建設,施⼯管理 - 維持管理,保守点検 - 災害などのシミュレーション - などなど 3Dデータの活⽤: ⼟⽊‧建築 #5

Slide 6

Slide 6 text

6 デジタルツイン: 現実世界をデジタル的に再現したもの たとえば都市データでは… - 都市計画の⽴案 - 都市活動のシミュレーション - 防災‧防犯 3Dデータの活⽤: デジタルツイン #6 Project PLATEAU

Slide 7

Slide 7 text

7 3Dデータの活⽤: デジタルアーカイブ #7 ⾸⾥城デジタル復元 ノートルダム⼤聖堂のデジタル化

Slide 8

Slide 8 text

8 3Dデータの活⽤: エンターテイメント #8 ビデオゲーム 『SimCity』 映像作品 『ゴジラ-1.0』

Slide 9

Slide 9 text

9 3Dモデリングツールでイチから制作するのは - 正攻法 - ⾼品質,⾼精度,⾼精細 である⼀⽅で - ⾼度な専⾨スキルが必要 - 精緻に作り込むには膨⼤な⼈的リソースが必要 という問題がある 3Dデータの作成: 3Dモデリング #9

Slide 10

Slide 10 text

10 3Dデータの作成: 3Dキャプチャ #10 実世界の⽴体情報を機械的に取り込んで3Dデータ化する技術 深層学習にヒントを得た⼿法で近年⼤幅に⾼精度化 撮影 (※イメージ) 3Dモデル 機械的処理

Slide 11

Slide 11 text

11 3Dデータの作成: 3Dモデル⽣成 #11 ⾔語による指⽰で,実世界に存在しないような物体も⽣成する技術 画像⽣成技術の成熟と⼤規模な3Dデータセットの登場で急速に発展 ⾔語指⽰ 3Dモデル 深層学習 モデル “A jumping rabbit, made of shiny metal”

Slide 12

Slide 12 text

12 ⾃⼰紹介 ― 加藤⼤晴(かとうひろはる) - Preferred Networks, Inc. リサーチャー / エンジニアリングマネージャー - 3Dキャプチャ‧3Dモデル⽣成に関する研究開発 - 博⼠(情報理⼯学) 博⼠論⽂は3D再構成について - 過去の講演資料など - 微分可能レンダリング (CVIM研究会 チュートリアル 2022) - ニューラル3D表現の最新動向 (SSII 2022) - 三次元構造を考慮した画像⽣成 (情報処理学会 連続セミナー2023) - 三次元再構成 (東京⼤学⼤学院『知能情報論』 2024) [Web] [Google Scholar] [Twitter] [E-Mail]

Slide 13

Slide 13 text

13 最先端技術でどこまでできるか(あるいは何ができないか)の感覚を 少し掴んでいただければと思います 1. 加賀温泉駅と⼤⼟集落の3Dスキャン 2. バーチャルプロダクション 3. ⾔語指⽰による3Dモデル⽣成 Preferred Networks の取り組み #13

Slide 14

Slide 14 text

14 加賀温泉駅と⼤⼟集落の3Dスキャン #14 動画 https://www.youtube.com/watch?v=EdJ6DCYhFdE

Slide 15

Slide 15 text

15 バーチャルプロダクション #15 動画 https://www.youtube.com/watch?v=s2hXUqDkcaQ

Slide 16

Slide 16 text

16 ⾔語指⽰による3Dモデル⽣成 #16 動画 https://www.youtube.com/watch?v=RQGfl1gGYN0

Slide 17

Slide 17 text

1. イントロダクション 2. 3Dキャプチャと深層学習 3. 深層学習による3Dモデル⽣成 4. まとめ 17

Slide 18

Slide 18 text

18 3Dキャプチャのいろいろ 接触式センサ - ロボットアームなどを 物体に接触させること で形状を計測 - ⾼精度だが,測定でき る対象が限られる 深度センサ - 対象に光を照射し,反 射を計測することで形 状を計測 - コウモリが超⾳波で空 間認識するイメージ - ⾼精度だが,密な測定 は難しい 写真から - 写真をさまざまな⾓度 から撮影し,そこから ⽴体形状を推定 - 左右の⽬で⽴体感を把 握するイメージ - ⾒た⽬がよい(写真に 近い)キャプチャが得 意だが,形状の推定精 度は劣る 今回扱うのはココ

Slide 19

Slide 19 text

19 深層学習以前の画像識別 画像 局所特徴抽出 ⼤域特徴抽出 識別モデル 識別結果 識別過程 動作イメージ ⾜,⾚,吸盤… 吸盤付の⾜が8本… ⾜が8本といえば… タコ

Slide 20

Slide 20 text

20 深層学習以前の画像識別 画像 局所特徴抽出 ⼤域特徴抽出 識別モデル 識別結果 識別過程 - 別個の役割を果たす複数のモジュールで構成 - 縦線抽出,⾊抽出,… - 「よい識別結果を得る」ではない,中間的 で間接的な⽬的で設計 - システム全体として識別に最適化されてい るとは限らない - ほとんどの処理を⼈⼿で設計 - 学習データを⽤いて調整できるパラメータ の数は少なく,柔軟性も低い

Slide 21

Slide 21 text

21 深層学習による画像認識 画像 局所特徴抽出 ⼤域特徴抽出 識別モデル 識別結果 - 「層」を積み重ねて識別結果へ⾄る - 「層」は畳み込み演算や⾏列の乗算などの 単純な処理を⾏う - 多数の「層」を重ねることで全体として⾼ い柔軟性を実現 - 「層」は,調整可能なパラメータを多 数持ち,「学習データが正しく識別で きること」を⽬的関数として⾃動的に 調整される - 全モジュールが「正しい識別結果を得 る」ことに直接的にフォーカスするこ とになるのが特徴 画像 識別結果 層 層 層 層 層 層

Slide 22

Slide 22 text

22 従来的なフォトグラメトリ 多数の写真 3Dモデル 動作イメージ キャプチャ過程 特徴点検出 特徴点マッチング 三⾓測量 メッシュ⽣成 テクスチャ⽣成 多数の写真 3Dモデル 特徴的な点(机の⾓な ど)について,右⽬と左 ⽬の網膜上での位置の違 いから,奥⾏きを特定 特徴的な点をつないで ⾯を張る ⾯に⾊を塗る

Slide 23

Slide 23 text

23 従来的なフォトグラメトリの課題 多数の写真 3Dモデル 3Dキャプチャ 描画 画像 別個の役割を果たす複数のモジュールで構成 - 各モジュールの設計指針は「3Dモデルの良さ」ではない 「得られた3Dモデルを描画した画像」と「撮影した写真」が そっくりであることが望ましいが,そう最適化されていない 撮影した写真 3Dモデルを描画した画像 (視点は少し異なる)

Slide 24

Slide 24 text

24 近年のフォトグラメトリ 3Dモデル 描画 多数の写真 画像 誤差 類似度計算 - 「撮影した写真」と「描画した画像」が近くなる ように,「3Dモデル」を最適化 - 「3Dモデルがリアルに⾒える」ことに直接的に フォーカスするのが特徴 - ⼀般に深層学習ライブラリを⽤いて実装される 3Dモデル 初期値 最適化初期 最適化後期 図は [Muller+ 2022] より

Slide 25

Slide 25 text

25 街区の3Dキャプチャ CityGaussian [Liu+ 2024]

Slide 26

Slide 26 text

26 近年のフォトグラメトリを可能にした技術 あたらしい3Dモデル表現 - 最適化の鍵は「モヤモヤした状態から徐々にクッキリさせる」こと - 半透明のモヤモヤを効率的に扱う3D表現が必要 - 詳細は [Neural Radiance Fields 🔎] [3D Gaussian Splatting 🔎] あたらしい描画関数 - 最適化に深層学習フレームワークを使うのが⼀般的 - 深層学習の層として機能するような描画関数が必要 - 詳細は [微分可能レンダリング 🔎] 加藤の博士論文はココ

Slide 27

Slide 27 text

27 フォトグラメトリの難点 近年のフォトグラメトリの課題 - ⾒た⽬は綺麗だが,幾何形状が綺麗とは限らない(モヤモヤしがち) - そのため,外観検査などには適さない - 3D表現形式が独⾃で,ポリゴンメッシュなどに変換しにくい (変換⼿法は多数提案されているが,品質が劣化しやすい) - そのため,映像制作ツールやゲームエンジンなどで使いにくい 従来のフォトグラメトリにも共通の課題 - 照明や影が模様として焼きこまれてしまい,照明を当て直すのが難しい - ⼤胆な拡⼤に耐えられるような⾼精細な3Dキャプチャは難しい

Slide 28

Slide 28 text

28 近年のフォトグラメトリを試す Luma AI 3D Capture - 写真や動画をアップロードするだけで3Dモデルに変換してくれるサービス - 専⾨的な知識や技術は不要 - (ただし,よい結果を得るためには撮影技術が必要)

Slide 29

Slide 29 text

29 3Dキャプチャと深層学習 まとめ - 写真撮影に基づく3Dキャプチャは,⾒た⽬の品質が近年⾶躍的に向上 - 深層学習もフォトグラメトリも「独⽴に設計された複数のモジュールを経て出⼒ に⾄る」のではなく「得たい出⼒に直接的にフォーカスして識別モデル/3Dモデ ルを最適化する」のが成功の鍵 - 近年のフォトグラメトリを可能にしたのは「半透明のモヤモヤを効率的に扱う 3D表現」と「深層学習の層として機能するような描画関数」 - 最新技術を簡単に試せるサービスもリリースされている

Slide 30

Slide 30 text

1. イントロダクション 2. 3Dキャプチャと深層学習 3. 深層学習による3Dモデル⽣成 4. まとめ 30

Slide 31

Slide 31 text

31 深層学習による3Dモデル⽣成 - テキスト⼊⼒に基づいて新しい画像を⽣成する 技術は,既に⼀般に広く普及している - その延⻑線上で,テキスト⼊⼒に基づいて3Dモ デルを⽣成する技術の開発も進展中 - 代表例 - DreamFusion (元祖の⼀つ) [Poole+ 2022] - TRELLIS (最先端) [Xiang+ 2024] “A photorealistic image of an astronaut riding a horse” DALL·E 2 [Ramesh+ 2022]

Slide 32

Slide 32 text

32 3Dモデル⽣成のパイプライン テキスト 3Dモデル 画像 画像⽣成モデル 多視点画像⽣成モデル 多視点画像 3D⽣成モデル “Pumpkin Carriage” 3Dモデル 動作イメージ ⽣成過程 図は [Shi+ 2023]

Slide 33

Slide 33 text

33 多視点画像⽣成モデルと3D⽣成モデルの学習 テキスト 3Dモデル 画像 画像⽣成モデル 多視点画像⽣成モデル 多視点画像 3D⽣成モデル - 画像⽣成モデルは,数億個の「テキストと画像のペ ア」を⽤いて学習 - 詳細は [拡散モデル 🔎] - ⼤量の「テキストと3Dモデルのペア」は存在しない → 画像⽣成と,画像からの3D⽣成を分けて学習 - 「画像からの3D⽣成」は,⼤量のCGモデルを描画し たデータを⽤いて学習 - Objaverse Dataset (約100万モデル) が代表的 - 詳細は [multi-view diffusion 🔎] [3D generation 🔎]

Slide 34

Slide 34 text

34 3Dモデル⽣成の難点 - テキスト指⽰が出⼒にうまく反映されないケースが多い - 複数の物体から構成されるシーンの⽣成は難しい - 学習データがほぼ単⼀の物体から成るためか “the landscape of a megalopolis” by Meshy

Slide 35

Slide 35 text

35 3Dモデル⽣成の難点 - テキスト指⽰が出⼒にうまく反映されないケースが多い - 複数の物体から構成されるシーンの⽣成は難しい - ⾼精細な物体の⽣成は難しい - ⾼精細な3Dデータは,メモリ消費と計算量の点から深層学習で扱いにくい - 学習データの⼤半が⾼精細ではないという問題も “the detailed model of a skyscraper” by Meshy

Slide 36

Slide 36 text

36 3Dモデル⽣成を試す Meshy, Tripo3D, Rodin - テキスト⼊⼒や,画像⼊⼒を元に3Dモデルを⽣成するサービス - シンプルな編集機能も提供

Slide 37

Slide 37 text

37 深層学習による3Dモデル⽣成 まとめ - 画像⽣成技術の進展の延⻑線上で,3Dモデル⽣成技術も発展中 - 3Dコンテンツ制作の敷居を下げる技術として重要 - ⽣成品質は,画像⽣成に⽐べると改善の余地が⼤きい - ディテールの不⾜ - 複数の物体から構成されるシーンは難しい - ⽣成結果のコントロールも難しめ - 最新技術を簡単に試せるサービスもリリースされている

Slide 38

Slide 38 text

1. イントロダクション 2. 3Dキャプチャと深層学習 3. 深層学習による3Dモデル⽣成 4. まとめ 38

Slide 39

Slide 39 text

39 深層学習と3Dキャプチャ‧3Dモデル⽣成 まとめ 3Dデータ - 設計以外にも,エンタメやデジタルツインなどで有⽤ - ⼀⽅で,3Dモデル制作に必要なリソースは⼤きい 実世界を3Dデータとして取り込む技術(3Dキャプチャ) - 深層学習にヒントを得た⼿法によって品質が⼤幅に向上 ⾔語指⽰によって新しい3Dモデルを⽣成する技術(3Dモデル⽣成) - 画像⽣成技術の延⻑線上にある - 今後の性能向上が期待される