[Journal club] Implicit Neural Representations with Periodic Activation Functions

*NQMJDJU/FVSBM3FQSFTFOUBUJPOT XJUI1FSJPEJD"DUJWBUJPO'VODUJPOT 慶應義塾大学杉浦孔明研究室飯田紡 V. Sitzmann, J. N.
P. Martel, A. W. Bergman, D. B. Lindell, G. Wetzstein (Stanford University) NeurIPS 2020 Sitzmann, V., Martel, J., Bergman, A., Lindell, D., & Wetzstein, G. (2020). Implicit neural representations with periodic activation functions. Advances in Neural Information Processing Systems, 33.

എܠɿӄؔ਺දݱͷ֫ಘ͸೉͍͠ 1 𝑥! + 𝑦 − 𝑥 ! − 1
= 0 ラスタベクタ陰関数表現 ◦ 複雑なデータを表現 × 拡大縮小に不適 × 容量が解像度依存 ◦ 綺麗な拡大縮小 ◦ 容量が形依存 × 複雑な画像の表現は難 ◦ 複雑なデータを表現 ◦ 綺麗な拡大縮小 ◦ 容量が形依存 × 獲得が難しい NNを用いて陰関数表現を獲得

ӄؔ਺දݱ 陰関数表現元信号の複雑さにのみ依存無限の間隔でサンプリング可能 2 簡潔に関係を記述できる 𝑦 =
𝑓(𝑥) 𝑦 = ± 1 − 𝑥! ？陽関数 𝐹 𝑥, 𝑦 = 0 𝑥! + 𝑦! − 1 = 0 𝑥" + 𝑥#𝑦 + 𝑦$ + 2𝑥𝑦% = 0 陰関数

໰୊ઃఆɿ//ʹΑΔ৴߸͔Βͷӄؔ਺දݱ֫ಘ 3 学習重み 𝜃 𝑥 𝑦 𝑅 𝐺 𝐵
1枚の画像𝑓 𝑥, 𝑦 画像点群（SDF) 学習重み 𝜃 𝑥 𝑦 𝑑 1つの点群𝑓 𝑥, 𝑦, 𝑧 𝑧 𝑓のサンプリング点{𝒙! , 𝑓(𝒙! )}から𝑓を近似する問題 cf. フーリエ変換・圧縮離散表現から連続表現を得るには正確な外挿が必要陰関数表現 GAN 学習データ 1データ大量のデータ生成時の入力座標潜在変数など

ؔ࿈ݚڀ 4 ReLU Neural Implicit Representation [Genova+, ICCV19] ReLU-NNによる陰関数表現，勾配が定数のため粗い表現 NeRF
[Mildenhall+, ECCV20] 画像と視点情報から3次元データ生成, Positional Encodingを提案 Hypernetwork [Klocek+, ICANN19] cos活性化関数による画像の陰関数表現，微分には未言及 Phsyics-informed neural networks [Raissi+, J. Comput. Phys.19] 非周期的な活性化関数は高次元微分の正確なモデル化が困難 ReLU活性化関数によるニューラル陰関数表現は高階微分が計算不可高周波成分を含む自然信号のモデル化には不適切

ఏҊख๏ɿ4*3&/ 4JOVTPJEBM 3FQSFTFOUBUJPO /FUXPSLT 5 𝜙4 𝒙4 = sin(𝑊4𝒙4 +
𝒃4) Φ 𝒙 = 𝑊 ! 𝜙!"# ∘ 𝜙!"$ ∘ ⋯ ∘ 𝜙% 𝒙 𝑖!" layer 𝜙# ∶ ℝ$( → ℝ%( , 𝑊# ∈ ℝ%(×$(, 𝑏# ∈ ℝ%(, 𝑥# ∈ ℝ$( 無限回微分可能 𝑛階微分∇!Φが高い表現力を持つ微分もSIRENで表現可能自然な外挿 sin活性化関数がNNによるサンプリングされた点からの関数近似に有効

ఏҊख๏ɿඍ෼∇Φͷදݱྗ 活性化関数𝜎, 𝑛層のネットワークを考える（バイアスは0次元目に含む） Φ 𝒙5 = 𝑊 6 𝜎 𝑊675
𝜎 ⋯ 𝜎 𝑊5 𝒙5 𝒚4 = 𝑊4𝒙4, 𝒙485 = 𝜎(𝒚4)とすると， ∇𝒙Φ 𝒙 = 𝑊5 9 𝜎 𝜕𝒚5 ⋯ 𝑊675 9 𝜎 𝜕𝒚675 𝑊 6 9 ! "𝒚! : sin 𝒚4 + : ! (SIREN) 表現力がNNと同様（万能近似） 6 0, 1 (ReLU) 表現力低バイアス

࣮ݧઃఆɿݩ৴߸ͷ࠶ݱ 7 層数 5 ユニット数 256 イテレーション 15000 Optimizer Adam
学習率 1.0 × 10-4 GPU NVIDIA Quadro RTX 6000 メモリ24GB データ Stanford 3D Scanning Repository 銅像 / 部屋層数 5 ユニット数 256（銅像）/ 1024（部屋）イテレーション 50000 Optimizer Adam 学習率 1.0 × 10-4 𝜆 𝜆! = 5×10, 𝜆" = 3×10#, 𝜆# = 1×10" GPU NVIDIA GTX Titan X メモリ12GB 画像 3次元データベースライン ReLU（画像・3次元データ） Tanh（以下画像のみ） ReLU P.E （入力をsin 2"𝜋𝒙 , cos 2"𝜋𝒙 , 0 ≤ 𝑖 ≤ 7により変換, NeRFで提案） RBF-ReLU （入力をexp − 𝜎 ⋅ 𝒙 − 𝝁 # により変換）

݁Ռɿը૾ɾޯ഑ɾϥϓϥγΞϯશͯΛ֫ಘ 8 滑らかな画像を生成勾配・ラプラシアンともに獲得定量的評価：SIREN（緑）が圧倒 𝑓(𝑥) ∇𝑓(𝑥) ∆𝑓(𝑥) 評価指標：PSNR （信号対ノイズ比）
PSNR ≈ 48.13 −10 log)* MSE

4%'ͱ࣍ݩσʔλͷଛࣦؔ਺ 物体上を0とする等高線, Signed Distance Field(符号付き距離場, SDF）を学習 Φ: SIREN ℒ =
𝜆! ! " ∇Φ − 1 𝑑𝒙 + ! ". 𝜆# Φ + 𝜆$ 1 − ∇Φ, 𝑛 𝒙 𝑑𝒙 + 𝜆# ! "∖". 𝜓 Φ 𝑑𝒙 ℒ=>?@ ： Φの勾配のノルムが1 = 𝒙が1動くとΦ は1変化 ℒA5 ： ΩB 上はΦの値は0 法線ベクトル𝑛(𝒙)と∇Φの内積が1 = 平行 ℒCDEFG@H : 物体上/外をはっきりさせる𝜓 𝑥 = exp −𝛼 𝑥 , 1 ≪ 𝛼 9 ℒ"#$% ℒ&! ℒ'()*+%, Ω- : 物体上 -2 +1 Ω : 全体 ∇Φ

݁Ռɿߴਫ਼ࡉͳܗঢ়Λ࠶ݱ 10 高周波成分を捉え細部まで再現彫刻や部屋は人間が見ても不自然でないレベル ReLUよりもノイズが少なく綺麗な線

࣮ࡍʹ࢖༻ͯ͠Έͨ 11 GT SIREN MSE: 3.1 × 10./ MSEは低く概形も一致高音質にするためには層数・
ユニット数の増加によりさらなる高周波成分の再現が必要層数 5 ユニット数 256 イテレーション 1000 Optimizer Adam 学習率 1.0 × 10-4 MSE: 1.6 × 10.0 和音読み上げ https://github.com/vsitzmann/siren

೾ܗͷ෼ੳ 12 GT SIREN MSE: 3.1 × 10./ MSE: 1.6
× 10.0 和音読み上げ https://github.com/vsitzmann/siren 和音はほぼ完璧に再現読み上げは特に無音部分にノイズ ReLU : 負値は0 sin : 0となる点は少（ex. 𝒘&𝒙 = 0）重み𝒘を疎にする余裕が必要信号有無を判定するブロックにより改善が可能と考えられる

·ͱΊ 背景ニューラルネットワークを用いた陰関数表現の獲得提案活性化関数にsinを用いるSIREN 結果高次成分のモデル化に成功し定性的・定量的にベースライン超え 13

ࢀߟจݙ [1] KyleGenova,ForresterCole,DanielVlasic,AaronSarna,WilliamTFreeman,andThomasFunkhouser. Learning shape templates with structured implicit functions.
In Proc. ICCV, pages 7154–7164, 2019. [2] BenMildenhall,PratulPSrinivasan,MatthewTancik,JonathanTBarron,RaviRamamoorthi,andRenNg. Nerf: Representing scenes as neural radiance fields for view synthesis. ECCV, pages 405-421, 2020. [3] Sylwester Klocek, Łukasz Maziarka, Maciej Wołczyk, Jacek Tabor, Jakub Nowak, and Marek S ́mieja. Hypernetwork functional image representation. In Proc. ICANN, pages 496–510. Springer, 2019. [4] M. Raissi, P. Perdikaris, and G. E. Karniadakis. Physics-informed neural networks: A deep learning framework for solving forward and inverse problems involving nonlinear partial differential equations. Journal of Computational Physics, 378:686–707, 2019. [5] https://github.com/vsitzmann/siren 14

෇࿥ɿॏΈͷॳظԽ 活性化関数の出力分布が偏ると勾配消失や表現力低下 Sigmoid, ReLU：Xavier, Heの初期化 sin 活性化関数の場合 𝒘, 𝒙 ∈
ℝ6, 𝑤4 ~ 𝒰 − 𝑐 𝑛 , 𝑐 𝑛 ⟶ 𝒘9𝒙 ~ 𝒩 0, 𝑐! 6 sin 𝒘9𝒙 ~ Arcsin −1, 1 𝑐 = 6として𝑤4~ 𝒰 − R 6 , R 6 で初期化 15

෇࿥ɿඍ෼∇Φͷܭࢉ 𝜎 𝒙 = 𝜎 𝑥0 ⋯ 𝜎 𝑥1 のとき，
𝜕𝜎 𝜕𝒙 = 𝜎2(𝑥0 ) ⋯ 0 ⋮ ⋱ ⋮ 0 ⋯ 𝜎2(𝑥1 ) 34𝒙 3𝒙 = 𝑊6と合成関数の微分37 8 𝒙 3𝒙 = 38 3𝒙 ⋅ 37 38 より， 𝜕 𝜕𝒙 𝑊9 𝜎 𝑊0 𝒙 = 𝜕𝜎 𝑊0 𝒙 𝜕𝒙 ⋅ 𝜕𝑊9 𝜎 𝑊0 𝒙 𝜕𝜎 𝑊0 𝒙 = 𝜕𝑊0 𝒙 𝜕𝒙 ⋅ 𝜕𝜎 𝑊0 𝒙 𝜕𝑊0 𝒙 ⋅ 𝑊9 6 16 = 𝑊0 6 ⋅ 𝜕𝜎 𝑊0 𝒙 𝜕𝑊0 𝒙 ⋅ 𝑊9 6

෇࿥ɿϑʔϦΤڃ਺ల։ͱͷؔΘΓ 𝑛項までのフーリエ変換 𝑎5 sin 𝒙 + 𝑎! sin 2𝒙 ⋯
+ 𝑎6 sin 𝑛𝒙 全ての𝑥で基本周波数の定数倍ユニット数𝑛のSIRENの出力 𝑤5 sin 𝑓5 𝒙 + 𝑤! sin 𝑓! 𝒙 + ⋯ + 𝑤6 sin 𝑓$ 𝒙 𝑥によって異なる周波数を使用可能 17 𝑎! , 𝑤! は重み，𝑓! は最終層から1つ前の層までの全変換

෇࿥ɿը૾࣮ݧɼඍ෼Մ׆ੑԽؔ਺ 18 𝑓(𝑥) ∇𝑓(𝑥) ∆𝑓(𝑥) Softplus log(1 + 𝑒1) ELU
Y 𝑥 (𝑥 > 0) 𝛼 𝑒1 − 1 (𝑥 ≤ 0) SELU Y 𝜆𝑥 (𝑥 > 0) 𝜆𝛼 𝑒1 − 1 (𝑥 ≤ 0) 他活性化関数は表現力がSIRENより低い SIRENより層数・ユニット数を増やす必要有

෇࿥ɿը૾ͷޯ഑ɾϥϓϥγΞϯ 19 ℒ2 = ` ∇2Φ 𝒙 − ∇2𝑓 𝒙
3 𝑑𝒙, (𝑘 = 1, 2) 勾配，ラプラシアンのみを学習して画像を構築合成した画像の勾配を学習して合成画像を予測勾配・ラプラシアンからもΦを得ることが可能

෇࿥ɿ࣍ݩσʔλͷදݱํ๏ 20 表現方法特徴点群頂点情報ボクセル立方体の集まりで表現メモリ効率が悪いメッシュ
面単位で表現生成コストが高い SDF 物体上は0, 内側は負・外側は正の距離を与える関数ニューラルネットワークで扱いやすい Ω- : 物体上 -2 +1 Ω : 全体

෇࿥ɿԻ੠ͷ࣮ݧઃఆ 音声を表す陰関数𝑓を学習 𝑓: ℝ → ℝ ℒ = U Φ
𝒙 − 𝑓 𝒙 ! 𝑑𝒙 21 データ Bach`s Cello Suite No.1: Prelude 層数 5 ユニット数 256 イテレーション 9000 Optimizer Adam 学習率 5.0 × 10-5 GPU NVIDIA Quadro RTX 6000 メモリ24GB

෇࿥ɿԻ੠࣮ݧɼ.4&Λܻվળ 評価指標：MSE（10回実験） 3桁のオーダー改善，ほぼ0に近い誤差 22

෇࿥ɿԻ੠࣮ݧɼָثͷ࠶ݱʹ੒ޭ 23 SIRENは元の音声をほぼ完全に再現

[Journal club] Implicit Neural Representations ...

[Journal club] Implicit Neural Representations with Periodic Activation Functions

Semantic Machine Intelligence Lab., Keio Univ. PRO

More Decks by Semantic Machine Intelligence Lab., Keio Univ.

Other Decks in Technology

Featured

Transcript

*NQMJDJU/FVSBM3FQSFTFOUBUJPOT XJUI1FSJPEJD"DUJWBUJPO'VODUJPOT 慶應義塾大学杉浦孔明研究室飯田紡 V. Sitzmann, J. N.

എܠɿӄؔ਺දݱͷ֫ಘ͸೉͍͠ 1 𝑥! + 𝑦 − 𝑥 ! − 1

ӄؔ਺දݱ 陰関数表現元信号の複雑さにのみ依存無限の間隔でサンプリング可能 2 簡潔に関係を記述できる 𝑦 =

໰୊ઃఆɿ//ʹΑΔ৴߸͔Βͷӄؔ਺දݱ֫ಘ 3 学習重み 𝜃 𝑥 𝑦 𝑅 𝐺 𝐵

ؔ࿈ݚڀ 4 ReLU Neural Implicit Representation [Genova+, ICCV19] ReLU-NNによる陰関数表現，勾配が定数のため粗い表現 NeRF

ఏҊख๏ɿ4*3&/ 4JOVTPJEBM 3FQSFTFOUBUJPO /FUXPSLT 5 𝜙4 𝒙4 = sin(𝑊4𝒙4 +

ఏҊख๏ɿඍ෼∇Φͷදݱྗ 活性化関数𝜎, 𝑛層のネットワークを考える（バイアスは0次元目に含む） Φ 𝒙5 = 𝑊 6 𝜎 𝑊675

࣮ݧઃఆɿݩ৴߸ͷ࠶ݱ 7 層数 5 ユニット数 256 イテレーション 15000 Optimizer Adam

݁Ռɿը૾ɾޯ഑ɾϥϓϥγΞϯશͯΛ֫ಘ 8 滑らかな画像を生成勾配・ラプラシアンともに獲得定量的評価：SIREN（緑）が圧倒 𝑓(𝑥) ∇𝑓(𝑥) ∆𝑓(𝑥) 評価指標：PSNR （信号対ノイズ比）

4%'ͱ࣍ݩσʔλͷଛࣦؔ਺ 物体上を0とする等高線, Signed Distance Field(符号付き距離場, SDF）を学習 Φ: SIREN ℒ =

݁Ռɿߴਫ਼ࡉͳܗঢ়Λ࠶ݱ 10 高周波成分を捉え細部まで再現彫刻や部屋は人間が見ても不自然でないレベル ReLUよりもノイズが少なく綺麗な線

࣮ࡍʹ࢖༻ͯ͠Έͨ 11 GT SIREN MSE: 3.1 × 10./ MSEは低く概形も一致高音質にするためには層数・

೾ܗͷ෼ੳ 12 GT SIREN MSE: 3.1 × 10./ MSE: 1.6

·ͱΊ 背景ニューラルネットワークを用いた陰関数表現の獲得提案活性化関数にsinを用いるSIREN 結果高次成分のモデル化に成功し定性的・定量的にベースライン超え 13

ࢀߟจݙ [1] KyleGenova,ForresterCole,DanielVlasic,AaronSarna,WilliamTFreeman,andThomasFunkhouser. Learning shape templates with structured implicit functions.

෇࿥ɿॏΈͷॳظԽ 活性化関数の出力分布が偏ると勾配消失や表現力低下 Sigmoid, ReLU：Xavier, Heの初期化 sin 活性化関数の場合 𝒘, 𝒙 ∈

෇࿥ɿඍ෼∇Φͷܭࢉ 𝜎 𝒙 = 𝜎 𝑥0 ⋯ 𝜎 𝑥1 のとき，

෇࿥ɿϑʔϦΤڃ਺ల։ͱͷؔΘΓ 𝑛項までのフーリエ変換 𝑎5 sin 𝒙 + 𝑎! sin 2𝒙 ⋯

෇࿥ɿը૾࣮ݧɼඍ෼Մ׆ੑԽؔ਺ 18 𝑓(𝑥) ∇𝑓(𝑥) ∆𝑓(𝑥) Softplus log(1 + 𝑒1) ELU

෇࿥ɿը૾ͷޯ഑ɾϥϓϥγΞϯ 19 ℒ2 = ` ∇2Φ 𝒙 − ∇2𝑓 𝒙

෇࿥ɿ࣍ݩσʔλͷදݱํ๏ 20 表現方法特徴点群頂点情報ボクセル立方体の集まりで表現メモリ効率が悪いメッシュ

෇࿥ɿԻ੠ͷ࣮ݧઃఆ 音声を表す陰関数𝑓を学習 𝑓: ℝ → ℝ ℒ = U Φ

෇࿥ɿԻ੠࣮ݧɼ.4&Λܻվળ 評価指標：MSE（10回実験） 3桁のオーダー改善，ほぼ0に近い誤差 22

෇࿥ɿԻ੠࣮ݧɼָثͷ࠶ݱʹ੒ޭ 23 SIRENは元の音声をほぼ完全に再現