Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
[Journal club] GIRAFFE: Representing Scenes As ...
Search
Semantic Machine Intelligence Lab., Keio Univ.
PRO
July 25, 2022
Technology
0
120
[Journal club] GIRAFFE: Representing Scenes As Compositional Generative Neural Feature Fields
Semantic Machine Intelligence Lab., Keio Univ.
PRO
July 25, 2022
Tweet
Share
More Decks by Semantic Machine Intelligence Lab., Keio Univ.
See All by Semantic Machine Intelligence Lab., Keio Univ.
[Journal club] GraphEQA: Using 3D Semantic Scene Graphs for Real-time Embodied Question Answering
keio_smilab
PRO
0
5
[RSJ25] Feasible RAG: Hierarchical Multimodal Retrieval with Feasibility-Aware Embodied Memory for Mobile Manipulation
keio_smilab
PRO
0
130
[RSJ25] LILAC: Language‑Conditioned Object‑Centric Optical Flow for Open‑Loop Trajectory Generation
keio_smilab
PRO
0
76
[RSJ25] Multilingual Scene Text-Aware Multimodal Retrieval for Everyday Objects Based on Deep State Space Models
keio_smilab
PRO
0
82
[RSJ25] Everyday Object Manipulation Based on Scene Text-Aware Multimodal Retrieval
keio_smilab
PRO
1
62
[RSJ25] Enhancing VLA Performance in Understanding and Executing Free-form Instructions via Visual Prompt-based Paraphrasing
keio_smilab
PRO
0
110
[Journal club] Generalized Contrastive Learning for Multi-Modal Retrieval and Ranking
keio_smilab
PRO
0
58
[Journal club] Steering Your Generalists: Improving Robotic Foundation Models via Value Guidance
keio_smilab
PRO
0
55
[Journal club] Influence-Balanced Loss for Imbalanced Visual Classification
keio_smilab
PRO
0
18
Other Decks in Technology
See All in Technology
Oracle Base Database Service 技術詳細
oracle4engineer
PRO
10
75k
RSCの時代にReactとフレームワークの境界を探る
uhyo
10
3.5k
要件定義・デザインフェーズでもAIを活用して、コミュニケーションの密度を高める
kazukihayase
0
120
CDK CLIで使ってたあの機能、CDK Toolkit Libraryではどうやるの?
smt7174
4
190
AWSで始める実践Dagster入門
kitagawaz
1
740
IoT x エッジAI - リアルタイ ムAI活用のPoCを今すぐ始め る方法 -
niizawat
0
120
ブロックテーマ時代における、テーマの CSS について考える Toro_Unit / 2025.09.13 @ Shinshu WordPress Meetup
torounit
0
130
Platform開発が先行する Platform Engineeringの違和感
kintotechdev
4
590
Generative AI Japan 第一回生成AI実践研究会「AI駆動開発の現在地──ブレイクスルーの鍵を握るのはデータ領域」
shisyu_gaku
0
330
Oracle Cloud Infrastructure IaaS 新機能アップデート 2025/06 - 2025/08
oracle4engineer
PRO
0
110
「Linux」という言葉が指すもの
sat
PRO
4
140
複数サービスを支えるマルチテナント型Batch MLプラットフォーム
lycorptech_jp
PRO
1
930
Featured
See All Featured
Build your cross-platform service in a week with App Engine
jlugia
231
18k
Stop Working from a Prison Cell
hatefulcrawdad
271
21k
Let's Do A Bunch of Simple Stuff to Make Websites Faster
chriscoyier
507
140k
Large-scale JavaScript Application Architecture
addyosmani
513
110k
Learning to Love Humans: Emotional Interface Design
aarron
273
40k
Easily Structure & Communicate Ideas using Wireframe
afnizarnur
194
16k
XXLCSS - How to scale CSS and keep your sanity
sugarenia
248
1.3M
Building Better People: How to give real-time feedback that sticks.
wjessup
368
19k
No one is an island. Learnings from fostering a developers community.
thoeni
21
3.4k
Sharpening the Axe: The Primacy of Toolmaking
bcantrill
44
2.5k
ピンチをチャンスに:未来をつくるプロダクトロードマップ #pmconf2020
aki_iinuma
127
53k
[Rails World 2023 - Day 1 Closing Keynote] - The Magic of Rails
eileencodes
36
2.5k
Transcript
GIRAFFE: Representing Scenes As Compositional Generative Neural Feature Fields Michael
Niemeyer, Andreas Geiger, Max Planck Institute for Intelligent Systems, Tubingen University of Tubingenin In CVPR, 2021, pp. 11453-11464 杉浦孔明研究室 飯岡 雄偉
概要:GIRAFFE ◼ 教師なしの画像生成モデル ◼ 2次元画像から,物体の3次元のシーン構成をつかむ • オブジェクト単位での移動・回転・形状・外観を操作可能に ◼ モデルの学習可能パラメータ数を削減 •
既存手法と比較して,計算量が大幅に減少 2
背景:3次元オブジェクトの操作可能性が求められる ◼ ゲームや映画において,3D物体をオブジェクト単位での操作は重要 専用のハードウェアや,技術者が求められる -> 高コスト化 3 https://assetstore.unity.com/packages/templates/tutorials/3d-game-kit-115747?locale=ja-JP
関連研究:3Dのシーン構成を教師なしでつかみきれていない 4 model detail GAN [Ian+ NIPS2014] 〇教師なしでの学習 △3Dのシーン構成はブラックボックス化 NeRF
[Ben+ ECCV2020] 〇3Dのシーン構成をつかむ △カメラパラメータが必要 https://qiita.com/shionhonda/items/330c9fdf78e62db3402b
提案手法:GIRAFFEの全体構造 5 1. Positional encoding 2. Generative neural feature fields
3. Compositional encoder 4. Volume rendering 5. 2D neural rendering 6. Discriminator 正規分布
提案手法:GIRAFFEの各構造 6 ◼ Positional encoding ➢ 座標や視点方向を帯域ごとに区分する ➢ 生成の性能に影響 •
バンドパスフィルタのように働く • 性能変化の詳細はAppendixに ➢ 本論文では,回転角に対してより正準な角度をとる
提案手法:GIRAFFEの各構造 7 ◼ Generative neural feature fields ➢ 入力 •
座標𝐱・視点方向𝐝・形状𝐳𝑆 ・外観𝐳𝑎 • 初期値はすべて正規分布に従う ➢ 出力 • 体積密度𝜎(≈不透明度) • 放射輝度𝐟(≈RGB) アフィン変換によるスケール変更・移動・回転の表現 逆変換でオブジェクト固有の空間へ
提案手法:GIRAFFEの各構造 8 ◼ Compositional encoder ➢ 物体が普遍的に持つ特徴量を抽出 ➢ 𝑁個のエントリーの重みづけ平均をとる •
各エントリーはそれぞれ形状・外観・ア フィン変換のパラメータを持つ 不透明度が大きいほど,そのRGB値 の重要度が大きくなる
提案手法:GIRAFFEの各構造 9 ◼ Volume rendering ➢ ボクセル->ピクセルの中間特徴量を出力(𝑀𝑓 次元) ➢ 𝑁𝑠
個のレイについて,それぞれ放射輝度を求める • 𝛼𝑗 は体積密度𝜎𝑗 及び𝑗 + 1番目との距離𝛿𝑗 で決まる 𝑗 − 1番目までの透明度 𝑗番目の不透明度
提案手法:GIRAFFEの各構造 10 ◼ 2D neural rendering ➢ 放射輝度から,2DにおけるRGB値を出力 • Nearest
NeighborとBilinearによる拡大 • Convolutionによって,チャネル数を減らす
提案手法:GIRAFFEの各構造 11 ◼ Discriminator / Generator ➢ Adversarial loss(敵対性損失)により学習 1.
識別性能𝑉を最大化するように識別器𝐷を学習 ✓ 生成画像と実画像を2値で分類 2. その中で𝑉を最小化するように生成器𝐺を学習 ✓ 識別器を騙せる画像の生成が目的 Generator
実験設定:多様なデータセットで有用性を調べる ✓ 実世界の画像データセット ➢ 単一オブジェクト: CelebA, CompCars等 ✓ シミュレーションの画像データセット(Chairs) ➢
複数オブジェクト: CLEVR 12 CelebA : https://mmlab.ie.cuhk.edu.hk/projects/CelebA.html CompCars : http://mmlab.ie.cuhk.edu.hk/datasets/comp_cars/ CLEVR : https://cs.stanford.edu/people/jcjohns/clevr/
定量的結果:既存手法と同等以上 ➢ 用いた評価指標はFID(Fréchet Inception Distance) ✓ 実画像と生成画像との分布間の距離を測る -> 小さいほど良いスコア ➢
パラメータ数が減少 13 CelebA Cars Chairs Churches 2D GAN 15 16 59 19 GRAF 25 39 34 38 GIRAFFE 6 16 20 17
定性的結果:オブジェクト単位の操作を可能に ➢ 回転や移動時のゆがみが小さい ➢ 外観や形状についても変更が可能 14 更なる生成結果はプロジェクトページ下部へ https://m-niemeyer.github.io/project-pages/giraffe/index.html
追試及びエラー分析:オブジェクトはゆがみにくいが,背景に難あり ➢ 220 epoch目では車のゆがみが目立たない ➢ 背景が少しぶれやすい -> 物体操作が中心のモデルであるためか 15 10
epoch目 220 epoch目
まとめ:GIRAFFE ◼ 教師なしの画像生成モデル ◼ 2次元画像から,物体の3次元のシーン構成をつかむ • 物体単位での移動・回転・形状・外観を操作可能に ◼ モデルの学習可能パラメータ数を削減 •
既存手法と比較して,計算量が大幅に減少 ◼ 実際に学習をしてみたところ,背景には改善点がありか 16
Appendix:Positional Encodingの有用性 17 ➢ 高周波成分を学習しやすい[Matthew+ 20] • 座標からRGB値を構成するタスクにおいて,以下に示す性能の差がみられる
Appendix:Nearest NeighborとBilinearによる拡大 18 ◼ Nearest Neighbor 元の画素をコピーして拡大していく 素早い補完が可能
拡大しすぎるとドット絵のようになる ◼ Bilinear 両端の画素の平均値で拡大していく ドット絵が改善 ぼやけたような画像になる可能性が高い https://qiita.com/yoya/items/f167b2598fec98679422
Appendix:他手法との回転時のゆがみの違い ➢ HoloGANでは平面のように映る前方からや後方 からが苦手 ⇒ 3Dのシーン構成をつかみ切れていないためか ➢ GRAFは回転自体が不得意 ⇒ 背景とオブジェクトを同じ構成でとらえるため,
回転の難易度が高そう ➢ GIRAFFEはオブジェクトはゆがまないが,実際に背景 はかなりノイズが入った ⇒ epoch数が足りなかったか,背景への表現力も あげるべきか 19