Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
【Zozo Research 技術共有会】三次元領域の現在と展望
Search
小島瑞貴
June 22, 2026
Research
150
0
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
【Zozo Research 技術共有会】三次元領域の現在と展望
小島瑞貴
June 22, 2026
More Decks by 小島瑞貴
See All by 小島瑞貴
学術バーQってどんなところ??
mickey_0226
0
61
さわって動かす人工知能
mickey_0226
0
46
動画生成と三次元生成を融合して最強の生成モデルを作ろう
mickey_0226
0
43
CVPR2026_VGGTとその仲間たち
mickey_0226
0
810
Transformerの推論を線形時間にして皆を驚かせましょう
mickey_0226
0
41
Other Decks in Research
See All in Research
AI Agentの精度改善に見るML開発との共通点 / commonalities in accuracy improvements in agentic era
shimacos
6
1.7k
Fukui Shibiten 39 - AI Art
butchi
0
120
Using our influence and power for patient safety
helenbevan
0
360
通時的な類似度行列に基づく単語の意味変化の分析
rudorudo11
0
310
業界横断 副業コンプライアンス調査 三者(副業者・本業先・発注者)におけるトラブル認知ギャップの構造分析
fkske
0
1.3k
(SIGQS17) Frasco-VS:フラグメントに基づく薬剤候補化合物選抜の量子アニーリングによる実現
keisukeyanagisawa
PRO
0
110
オーストリア流 都市の公共交通サービス水準評価@公共交通オープンデータ最前線2026
trafficbrain
0
180
機械学習で作った ポケモン対戦bot で 遊ぼう!
fufufukakaka
0
280
論文紹介 "ReSim: Reliable World Simulation for Autonomous Driving"
kogo
0
630
定数整数除算・剰余算最適化再考
herumi
1
120
YOLO26_ Key Architectural Enhancements and Performance Benchmarking for Real-Time Object Detection
satai
3
800
社内データ分析AIエージェントを できるだけ使いやすくする工夫
fufufukakaka
1
1.1k
Featured
See All Featured
Self-Hosted WebAssembly Runtime for Runtime-Neutral Checkpoint/Restore in Edge–Cloud Continuum
chikuwait
0
590
How to Grow Your eCommerce with AI & Automation
katarinadahlin
PRO
1
200
コードの90%をAIが書く世界で何が待っているのか / What awaits us in a world where 90% of the code is written by AI
rkaga
62
44k
Leading Effective Engineering Teams in the AI Era
addyosmani
9
2k
State of Search Keynote: SEO is Dead Long Live SEO
ryanjones
0
200
The Mindset for Success: Future Career Progression
greggifford
PRO
0
360
We Have a Design System, Now What?
morganepeng
55
8.2k
Designing Experiences People Love
moore
143
24k
ReactJS: Keep Simple. Everything can be a component!
pedronauck
666
130k
Highjacked: Video Game Concept Design
rkendrick25
PRO
1
390
Fashionably flexible responsive web design (full day workshop)
malarkey
408
66k
Being A Developer After 40
akosma
91
590k
Transcript
三次元領域の現在と展望 Zozo Research 技術登壇会: 東京科学大学 小島 瑞貴
2 自己紹介 所属: 東京科学大 修士2年 (川上研究室) 専門: 情報学(放射輝度場・三次元生成モデル) 研究内容: ➀撮影画像
②三次元復元 (任意視点画像生成) Cat3Dより引用
3 三次元領域の歴史
4 三次元復元とは シーンを撮影した複数枚画像 から 三次元構造を復元 三次元構造の復元 → 任意視点画像生成 例: 目を動かすと近いものは大きく、遠いものは小さく動く
→ 複数視点の情報で、奥行きのような三次元構造がわかる
5 三次元復元の発展の歴史(ざっくり) NeRF 3DGS VGGT 古くからの 三次元表現 ボクセル 点群 NeRF(2020)
古くからの三次元表現は、滑らかな新規視点画像生成は不可能 → NeRFでは、複数枚画像から現実のような画像が生成可能に! 三次元空間の 離散表現 三次元空間上の連続表現 (ニューラルネット)
6 NeRF 3DGS VGGT 古くからの 三次元表現 NeRFはレンダリング(三次元→画像)が遅い 古くからの三次元表現とNeRFの折衷案で 三次元空間をアプリで動かすことが可能に! ∵光線ごとにMLPを使う必要があるから
3DGS(2023): 色のついたガウシアンの重ね合わせ ・レンダリングはガウシアンを投影→高速 ・ガウシアンによる滑らかさ→新規視点画像生成 三次元復元の発展の歴史(ざっくり)
7 NeRF 3DGS VGGT 古くからの 三次元表現 3DGS全盛時の課題(2023): ➀レンダリングは高速だが、各シーンごとの最適化 ②撮影カメラ位置・姿勢の情報は既知という仮定 VGGT(CVPR2025)
複数枚画像 → 三次元復元&カメラ情報推定 任意の複数枚画像からfeedforward一発で復元 ⇒ 基盤三次元モデルの誕生 三次元復元の発展の歴史(ざっくり)
8 本講演の内容 基盤モデルたるVGGTのCVPR2026での進展と将来 Best Paper Finalistsですら2件 この進展は三次元領域限定? 明らかに、他の領域に 波及可能な部分がある!
9 三次元基盤モデルの誕生
10 VGGT (CVPR2025)とは? ・問題設定: 3次元シーンでの汎用的なモデルを作りたい ・当時の課題: ➀ 各3Dタスクが独立している(デプス推定・カメラポーズ推定など) ② 各シーンごとの最適化
(あらゆるシーンで汎用的に使えない) ・CVPR2025でBest Paper → 三次元領域でのパラダイムシフト
11 入力:複数枚画像, 出力:三次元復元 (シーンごとの最適化が不要) 三次元領域の基盤モデル! VGGT (CVPR2025)とは?
12 VGGTで何ができるようになったのか 複数画像(入力)からの統一した三次元情報(出力)の推定 ・三次元情報 … 点群・画素対応関係・デプス・カメラ姿勢 複数画像 点群 対応関係 デプス
カメラ姿勢 入力: 出力:
13 VGGTのモデル構造 入力:複数枚画像, 出力: カメラ姿勢・デプス・点群 ぱっと見ても理解できないと思うので、一つ一つ解説していきます!
14 入力:複数枚画像のみ(カメラ姿勢は未知) VGGTのモデル構造
15 出力:三次元情報(カメラ姿勢・デプスなど) VGGTのモデル構造
16 DINOでパッチごとの特徴量抽出 VGGTのモデル構造
17 学習可能なカメラトークンを付加 VGGTのモデル構造
18 すべてのトークン・フレームごと に情報を混ぜ混ぜ(アテンション) VGGTのモデル構造
19 更新されたカメラトークンから 全画像のカメラ姿勢を予測 VGGTのモデル構造
20 残りのトークンから デプス・点群を予測 ※デプス: 各画像ごとの情報, 点群: 統一された座標系の情報 VGGTのモデル構造
21 ・損失関数: ・入出力の定式化: 複数枚画像 カメラ姿勢 デプス 点群 対応関係用 特徴量(略) 「出力に関するGTとの誤差の最小化」の認識でOK
VGGTの定式化・損失関数
22
23 三次元基盤モデルの解釈と展望
24 VGGTとは強い三次元モデル? 特徴量更新として見える
25 DINO特徴量の三次元情報による更新では? DINO 特徴量 VGGT 特徴量 更新! VGGTとは強い三次元モデル?
26 エンコーダ・デコーダの観点から ・二次元画像の例 画像 画像 潜在空間は画像の圧縮情報 → 計算効率・汎化性能 → 下流タスクへ
27 エンコーダ・デコーダの観点から ・VGGTでは? VGGT 特徴量 三次元 画像 潜在空間 三次元
28 エンコーダ・デコーダの観点から VGGTは複数枚画像から三次元を復元 VGGT 特徴量 三次元 画像 潜在空間 三次元
29 エンコーダ・デコーダの観点から 三次元から二次元は、カメラが担当 VGGT 特徴量 三次元 画像 潜在空間 三次元
30 エンコーダ・デコーダの観点から 三次元から二次元は、カメラが担当 VGGT 特徴量 三次元 画像 潜在空間 三次元
31 VGGTは三次元のエンコーダ/デコーダ VGGT 特徴量 三次元 潜在空間 三次元
32 LagerNVS (CVPR2026) ・問題設定: VGGTの能力を活用して新規視点画像生成したい! ・課題: VGGTは重く、新規視点画像生成 の機能を付けると実用に向かない
33 リアルタイムの新規視点画像生成!
34 既存の新規視点画像生成 複数枚撮影画像 新規視点画像 三次元表現 (NeRF, 3DGS)
35 複数枚撮影画像 新規視点画像 三次元表現 (NeRF, 3DGS) 三次元表現は重すぎる! 既存の新規視点画像生成
36 複数枚撮影画像 新規視点画像 VGGT 特徴量 LagerNVSの面白さ: 三次元表現を介さない 新規視点画像生成は、レンダラー→Transformer
37 LagerNVSのモデル構造
38 LagerNVSのモデル構造 VGGTで特徴量抽出
39 LagerNVSのモデル構造 VGGT 特徴量
40 LagerNVSのモデル構造 VGGT 特徴量 一度取得したら固定!
41 LagerNVSのモデル構造 VGGT 特徴量 新規視点生成のため デコーダー(軽量)を学習 デコーダー軽量なので、オンラインレンダリングが可能に!
42
43 VGGT特徴量をセグメンテーションに(VGGT-S) 一人称・三人称視点でのセグメンテーション
44 画像特徴量が三次元を理解 DINO 特徴量 VGGT 特徴量 更新! DINO特徴量からVGGT特徴量への転換 → 暗黙的な三次元理解促進
45 まとめ ★三次元領域の歴史 ・NeRF: MLPによる各シーンごとの表現 ・3DGS: 複数ガウシアンによるシーンごとの表現 ★三次元基盤モデルの誕生 ・VGGT: モデル構造・損失関数
★三次元基盤モデルの解釈と展望 ・VGGTはエンコーダとして解釈可能 ・LagerNVS:新規視点画像生成, VGGT-S: セグメンテーション