Slide 1

Slide 1 text

Factorized Diffusion: Perceptual Illusions by Noise Decomposition 発表者: tomoaki_teshima 2024/11/16 第62回 コンピュータビジョン勉強会@関東 ECCV2024読み会 1 tomoaki_teshima tomoaki0705 tomoaki_teshima tomoaki0705

Slide 2

Slide 2 text

Factorized Diffusion: Perceptual Illusions by Noise Decomposition Daniel Geng*, Inbum Park*, Andrew Owens University of Michigan 2024/11/16 第62回 コンピュータビジョン勉強会@関東 ECCV2024読み会 2

Slide 3

Slide 3 text

What’s this paper about? 2024/11/16 第62回 コンピュータビジョン勉強会@関東 ECCV2024読み会 3 https://dangeng.github.io/factorized_diffusion/index.html より引用

Slide 4

Slide 4 text

Outline • Hybrid Imageとは • Factorized Diffusion の解説 • ECCV読み回なのになんでCVPRのTシャツ!? 2024/11/16 第62回 コンピュータビジョン勉強会@関東 ECCV2024読み会 4

Slide 5

Slide 5 text

What is Hybrid Image? image with an interpretation that changes with viewing distance. 2024/11/16 第62回 コンピュータビジョン勉強会@関東 ECCV2024読み会 5 46: Oliva, A., Torralba, A., Schyns, P.G.: Hybrid images. ACM Trans. Graph. 25(3), 527–532 (Jul 2006)

Slide 6

Slide 6 text

How to create a hybrid image 2024/11/16 第62回 コンピュータビジョン勉強会@関東 ECCV2024読み会 6 46: Oliva, A., Torralba, A., Schyns, P.G.: Hybrid images. ACM Trans. Graph. 25(3), 527–532 (Jul 2006)

Slide 7

Slide 7 text

Limitation of hybrid image [46] 2024/11/16 第62回 コンピュータビジョン勉強会@関東 ECCV2024読み会 7

Slide 8

Slide 8 text

From [46] Creating compelling hybrid images is an open and challenging problem, as it relies on perceptual grouping mechanisms that interact across different spatial scales. • 任意の画像でHybrid Imageを作る場合、補完的な画像が必要と なる • 画像同士の位置合わせも大事 • 補完画像をどう作るかはchallenging/open problem 2024/11/16 第62回 コンピュータビジョン勉強会@関東 ECCV2024読み会 8

Slide 9

Slide 9 text

そこでFactorized Diffusion • Diffusion Model はノイズを更新しながら画像を生成する • Diffusion Model自体は一般的なもの • Hybrid Imageには2枚以上の画像が必要なのに、どう やって複数枚生成するのか? • Promptが画像枚数分必要になる 2024/11/16 第62回 コンピュータビジョン勉強会@関東 ECCV2024読み会 9

Slide 10

Slide 10 text

2024/11/16 第62回 コンピュータビジョン勉強会@関東 ECCV2024読み会 10 Decomposition Prompt 1 Prompt 2 Prompt 3 High pass Mid pass Low pass

Slide 11

Slide 11 text

線型性 2024/11/16 第62回 コンピュータビジョン勉強会@関東 ECCV2024読み会 11 周波数フィルタに限らず、Decompositionに線型性があればよい

Slide 12

Slide 12 text

Decompositionと実例 2024/11/16 第62回 コンピュータビジョン勉強会@関東 ECCV2024読み会 12 Hybrid Decomposition Triple Hybrid Decomposition

Slide 13

Slide 13 text

Results 2024/11/16 第62回 コンピュータビジョン勉強会@関東 ECCV2024読み会 13 https://dangeng.github.io/factorized_diffusion/index.html より引用

Slide 14

Slide 14 text

任意の画像を用いたHybrid Image 2024/11/16 第62回 コンピュータビジョン勉強会@関東 ECCV2024読み会 14 象の写真が本物、ヒョウの写真が生成された画像 →Hybrid Imageで未解決だった問題に解法が生まれた

Slide 15

Slide 15 text

Limitations While our method can produce decent images fairly consistently, very high quality images are rarer 2024/11/16 第62回 コンピュータビジョン勉強会@関東 ECCV2024読み会 15 トレーニングの分布外の画像を生成しようとしてる場合 1つのpromptが他の成分を圧倒してしまう場合 Promptの少なくとも1つは“flexible”にするとうまくいく傾向 • “Photo”は失敗する傾向 • “Oil paintings”/“watercolor”はうまくいく傾向

Slide 16

Slide 16 text

まとめ(中) • 複数のPromptで画像の生成を行う • その際、ノイズを成分ごとに分解する • ノイズを混ぜたのち、Prompt毎に更新する • Decompose/factorizationの方法により違う効果が生まれる • Hybrid imageはLow/High-passの2種類 • Tri-band Image, color hybrid, motion blur hybrid など複数の方法が使える • それっぽい画像は作れるが、high qualityはまれ。 • Diffusion model自体は一般的なもの • 今回の目的のために学習したわけではない 2024/11/16 第62回 コンピュータビジョン勉強会@関東 ECCV2024読み会 16

Slide 17

Slide 17 text

時系列 (Why CVPR T-shirt?) • 人間の視覚の特性は長らく研究されてきた • ↑を画像の世界に持ち込んで視覚をハックした Hybrid Image(Oliva et al., SIGGRAPH 2006) • ↑Visual IllusionとDiffusion model (著者ら, CVPR2024) • ↑Diffusion modelを利用した任意の画像に対する Hybrid Image(著者ら, ECCV2024) • CVPR2024の数ヶ月前に、運営側からTシャツの デザインを打診された 2024/11/16 第62回 コンピュータビジョン勉強会@関東 ECCV2024読み会 17

Slide 18

Slide 18 text

Visual Anagrams: Generating Multi-View Optical Illusions with Diffusion Models • CVPR2024での発表 • 同著者らによるだまし絵的な手法 2024/11/16 第62回 コンピュータビジョン勉強会@関東 ECCV2024読み会 18 21: Geng, D., Park, I., Owens, A.: Visual anagrams: Generating multi-view optical illusions with diffusion models. Computer Vision and Pattern Recognition (CVPR) 2024 (2024)

Slide 19

Slide 19 text

まとめ • Noise updateの際に複数のpromptを「混ぜる」方法を紹介 • ECCVの論文は成分ごとに分解して混ぜる • CVPRの論文は並べ替えて混ぜる • Diffusion model 自体は一般的なもの 2024/11/16 第62回 コンピュータビジョン勉強会@関東 ECCV2024読み会 19

Slide 20

Slide 20 text

その他1 2024/11/16 第62回 コンピュータビジョン勉強会@関東 ECCV2024読み会 20 How can a jigsaw have two distinct solutions? https://www.youtube.com/watch?v=b5nElEbbnfU This new type of illusion is really hard to make https://www.youtube.com/watch?v=FMRi6pNAoag 今回の論文を知ったきっかけ 問「出来上がりが2通りある パズルはありうるか?」 左: Steve Mould 今回触れた内容を紹介 右: Matt Parker 2通りの並びを実現する パズルピースの並びを紹介

Slide 21

Slide 21 text

その他2 • We are hiring! • 懇親会で僕と握手! https://nvidia.wd5.myworkdayjobs.com/en- US/NVIDIAExternalCareerSite/job/Deep-Learning- Software-Engineer--Performance- Optimization_JR1989446 2024/11/16 第62回 コンピュータビジョン勉強会@関東 ECCV2024読み会 21