Upgrade to Pro — share decks privately, control downloads, hide ads and more …

[Journal club] Implicit Neural Representations with Periodic Activation Functions

[Journal club] Implicit Neural Representations with Periodic Activation Functions

More Decks by Semantic Machine Intelligence Lab., Keio Univ.

Other Decks in Technology

Transcript

  1. *NQMJDJU/FVSBM3FQSFTFOUBUJPOT XJUI1FSJPEJD"DUJWBUJPO'VODUJPOT 慶應義塾大学 杉浦孔明研究室 飯田 紡 V. Sitzmann, J. N.

    P. Martel, A. W. Bergman, D. B. Lindell, G. Wetzstein (Stanford University) NeurIPS 2020 Sitzmann, V., Martel, J., Bergman, A., Lindell, D., & Wetzstein, G. (2020). Implicit neural representations with periodic activation functions. Advances in Neural Information Processing Systems, 33.
  2. എܠɿӄؔ਺දݱͷ֫ಘ͸೉͍͠ 1 𝑥! + 𝑦 − 𝑥 ! − 1

    = 0 ラスタ ベクタ 陰関数表現 ◦ 複雑なデータを表現 × 拡大縮小に不適 × 容量が解像度依存 ◦ 綺麗な拡大縮小 ◦ 容量が形依存 × 複雑な画像の表現は難 ◦ 複雑なデータを表現 ◦ 綺麗な拡大縮小 ◦ 容量が形依存 × 獲得が難しい NNを用いて陰関数表現を獲得
  3. ӄؔ਺දݱ 陰関数表現 š 元信号の複雑さにのみ依存 š 無限の間隔でサンプリング可能 2 簡潔に関係を記述できる 𝑦 =

    𝑓(𝑥) 𝑦 = ± 1 − 𝑥! ? 陽関数 𝐹 𝑥, 𝑦 = 0 𝑥! + 𝑦! − 1 = 0 𝑥" + 𝑥#𝑦 + 𝑦$ + 2𝑥𝑦% = 0 陰関数
  4. ໰୊ઃఆɿ//ʹΑΔ৴߸͔Βͷӄؔ਺දݱ֫ಘ 3 学習 重み 𝜃 𝑥 𝑦 𝑅 𝐺 𝐵

    1枚の画像𝑓 𝑥, 𝑦 画像 点群(SDF) 学習 重み 𝜃 𝑥 𝑦 𝑑 1つの点群𝑓 𝑥, 𝑦, 𝑧 𝑧 𝑓のサンプリング点{𝒙! , 𝑓(𝒙! )}から𝑓を 近似する問題 cf. フーリエ変換・圧縮 離散表現から連続表現を得るには正 確な外挿が必要 陰関数表現 GAN 学習データ 1データ 大量の データ 生成時の 入力 座標 潜在変数 など
  5. ؔ࿈ݚڀ 4 ReLU Neural Implicit Representation [Genova+, ICCV19] ReLU-NNによる陰関数表現,勾配が定数のため粗い表現 NeRF

    [Mildenhall+, ECCV20] 画像と視点情報から3次元データ生成, Positional Encodingを提案 Hypernetwork [Klocek+, ICANN19] cos活性化関数による画像の陰関数表現,微分には未言及 Phsyics-informed neural networks [Raissi+, J. Comput. Phys.19] 非周期的な活性化関数は高次元微分の正確なモデル化が困難 ReLU活性化関数によるニューラル陰関数表現は高階微分が計算不可 高周波成分を含む自然信号のモデル化には不適切
  6. ఏҊख๏ɿ4*3&/ 4JOVTPJEBM 3FQSFTFOUBUJPO /FUXPSLT 5 𝜙4 𝒙4 = sin(𝑊4𝒙4 +

    𝒃4) Φ 𝒙 = 𝑊 ! 𝜙!"# ∘ 𝜙!"$ ∘ ⋯ ∘ 𝜙% 𝒙 𝑖!" layer 𝜙# ∶ ℝ$( → ℝ%( , 𝑊# ∈ ℝ%(×$(, 𝑏# ∈ ℝ%(, 𝑥# ∈ ℝ$( š 無限回微分可能 𝑛階微分∇!Φが高い表現力を持つ š 微分もSIRENで表現可能 š 自然な外挿 sin活性化関数がNNによるサンプリングさ れた点からの関数近似に有効
  7. ఏҊख๏ɿඍ෼∇Φͷදݱྗ 活性化関数𝜎, 𝑛層のネットワークを考える(バイアスは0次元目に含む) Φ 𝒙5 = 𝑊 6 𝜎 𝑊675

    𝜎 ⋯ 𝜎 𝑊5 𝒙5 𝒚4 = 𝑊4𝒙4, 𝒙485 = 𝜎(𝒚4)とすると, ∇𝒙Φ 𝒙 = 𝑊5 9 𝜎 𝜕𝒚5 ⋯ 𝑊675 9 𝜎 𝜕𝒚675 𝑊 6 9 ! "𝒚! : sin 𝒚4 + : ! (SIREN) 表現力がNNと同様(万能近似) 6 0, 1 (ReLU) 表現力低 バイアス
  8. ࣮ݧઃఆɿݩ৴߸ͷ࠶ݱ 7 層数 5 ユニット数 256 イテレーション 15000 Optimizer Adam

    学習率 1.0 × 10-4 GPU NVIDIA Quadro RTX 6000 メモリ24GB データ Stanford 3D Scanning Repository 銅像 / 部屋 層数 5 ユニット数 256(銅像)/ 1024(部屋) イテレーション 50000 Optimizer Adam 学習率 1.0 × 10-4 𝜆 𝜆! = 5×10, 𝜆" = 3×10#, 𝜆# = 1×10" GPU NVIDIA GTX Titan X メモリ12GB 画像 3次元データ ベースライン š ReLU(画像・3次元データ) š Tanh(以下画像のみ) š ReLU P.E (入力をsin 2"𝜋𝒙 , cos 2"𝜋𝒙 , 0 ≤ 𝑖 ≤ 7により変換, NeRFで提案) š RBF-ReLU (入力をexp − 𝜎 ⋅ 𝒙 − 𝝁 # により変換)
  9. 4%'ͱ࣍ݩσʔλͷଛࣦؔ਺ 物体上を0とする等高線, Signed Distance Field(符号付き距離場, SDF)を学習 Φ: SIREN ℒ =

    𝜆! ! " ∇Φ − 1 𝑑𝒙 + ! ". 𝜆# Φ + 𝜆$ 1 − ∇Φ, 𝑛 𝒙 𝑑𝒙 + 𝜆# ! "∖". 𝜓 Φ 𝑑𝒙 ℒ=>?@ : Φの勾配のノルムが1 = 𝒙が1動くとΦ は1変化 ℒA5 : ΩB 上はΦの値は0 法線ベクトル𝑛(𝒙)と∇Φの内積が1 = 平行 ℒCDEFG@H : 物体上/外をはっきりさせる𝜓 𝑥 = exp −𝛼 𝑥 , 1 ≪ 𝛼 9 ℒ"#$% ℒ&! ℒ'()*+%, Ω- : 物体上 -2 +1 Ω : 全体 ∇Φ
  10. ࣮ࡍʹ࢖༻ͯ͠Έͨ 11 GT SIREN MSE: 3.1 × 10./ MSEは低く概形も一致 高音質にするためには層数・

    ユニット数の増加によりさら なる高周波成分の再現が必要 層数 5 ユニット数 256 イテレーション 1000 Optimizer Adam 学習率 1.0 × 10-4 MSE: 1.6 × 10.0 和音 読み上げ https://github.com/vsitzmann/siren
  11. ೾ܗͷ෼ੳ 12 GT SIREN MSE: 3.1 × 10./ MSE: 1.6

    × 10.0 和音 読み上げ https://github.com/vsitzmann/siren 和音はほぼ完璧に再現 読み上げは特に無音部分にノイズ ReLU : 負値は0 sin : 0となる点は少(ex. 𝒘&𝒙 = 0) 重み𝒘を疎にする余裕が必要 信号有無を判定するブロックにより改善が 可能と考えられる
  12. ࢀߟจݙ [1] KyleGenova,ForresterCole,DanielVlasic,AaronSarna,WilliamTFreeman,andThomasFunkhouser. Learning shape templates with structured implicit functions.

    In Proc. ICCV, pages 7154–7164, 2019. [2] BenMildenhall,PratulPSrinivasan,MatthewTancik,JonathanTBarron,RaviRamamoorthi,andRenNg. Nerf: Representing scenes as neural radiance fields for view synthesis. ECCV, pages 405-421, 2020. [3] Sylwester Klocek, Łukasz Maziarka, Maciej Wołczyk, Jacek Tabor, Jakub Nowak, and Marek S ́mieja. Hypernetwork functional image representation. In Proc. ICANN, pages 496–510. Springer, 2019. [4] M. Raissi, P. Perdikaris, and G. E. Karniadakis. Physics-informed neural networks: A deep learning framework for solving forward and inverse problems involving nonlinear partial differential equations. Journal of Computational Physics, 378:686–707, 2019. [5] https://github.com/vsitzmann/siren 14
  13. ෇࿥ɿॏΈͷॳظԽ 活性化関数の出力分布が偏ると勾配消失や表現力低下 Sigmoid, ReLU:Xavier, Heの初期化 sin 活性化関数の場合 𝒘, 𝒙 ∈

    ℝ6, 𝑤4 ~ 𝒰 − 𝑐 𝑛 , 𝑐 𝑛 ⟶ 𝒘9𝒙 ~ 𝒩 0, 𝑐! 6 sin 𝒘9𝒙 ~ Arcsin −1, 1 𝑐 = 6として𝑤4~ 𝒰 − R 6 , R 6 で初期化 15
  14. ෇࿥ɿඍ෼∇Φͷܭࢉ 𝜎 𝒙 = 𝜎 𝑥0 ⋯ 𝜎 𝑥1 のとき,

    𝜕𝜎 𝜕𝒙 = 𝜎2(𝑥0 ) ⋯ 0 ⋮ ⋱ ⋮ 0 ⋯ 𝜎2(𝑥1 ) 34𝒙 3𝒙 = 𝑊6と合成関数の微分37 8 𝒙 3𝒙 = 38 3𝒙 ⋅ 37 38 より, 𝜕 𝜕𝒙 𝑊9 𝜎 𝑊0 𝒙 = 𝜕𝜎 𝑊0 𝒙 𝜕𝒙 ⋅ 𝜕𝑊9 𝜎 𝑊0 𝒙 𝜕𝜎 𝑊0 𝒙 = 𝜕𝑊0 𝒙 𝜕𝒙 ⋅ 𝜕𝜎 𝑊0 𝒙 𝜕𝑊0 𝒙 ⋅ 𝑊9 6 16 = 𝑊0 6 ⋅ 𝜕𝜎 𝑊0 𝒙 𝜕𝑊0 𝒙 ⋅ 𝑊9 6
  15. ෇࿥ɿϑʔϦΤڃ਺ల։ͱͷؔΘΓ 𝑛項までのフーリエ変換 𝑎5 sin 𝒙 + 𝑎! sin 2𝒙 ⋯

    + 𝑎6 sin 𝑛𝒙 全ての𝑥で基本周波数の定数倍 ユニット数𝑛のSIRENの出力 𝑤5 sin 𝑓5 𝒙 + 𝑤! sin 𝑓! 𝒙 + ⋯ + 𝑤6 sin 𝑓$ 𝒙 𝑥によって異なる周波数を使用可能 17 𝑎! , 𝑤! は重み,𝑓! は最終層から1つ前の層までの全変換
  16. ෇࿥ɿը૾࣮ݧɼඍ෼Մ׆ੑԽؔ਺ 18 𝑓(𝑥) ∇𝑓(𝑥) ∆𝑓(𝑥) Softplus log(1 + 𝑒1) ELU

    Y 𝑥 (𝑥 > 0) 𝛼 𝑒1 − 1 (𝑥 ≤ 0) SELU Y 𝜆𝑥 (𝑥 > 0) 𝜆𝛼 𝑒1 − 1 (𝑥 ≤ 0) 他活性化関数は表現力がSIRENより低い SIRENより層数・ユニット数を増やす必要有
  17. ෇࿥ɿը૾ͷޯ഑ɾϥϓϥγΞϯ 19 ℒ2 = ` ∇2Φ 𝒙 − ∇2𝑓 𝒙

    3 𝑑𝒙, (𝑘 = 1, 2) 勾配,ラプラシアンのみを学習して画像を構築 合成した画像の勾配を学習して 合成画像を予測 勾配・ラプラシアンからもΦを得ることが可能
  18. ෇࿥ɿ࣍ݩσʔλͷදݱํ๏ 20 表現方法 特徴 点群 頂点情報 ボクセル 立方体の集まりで表現 メモリ効率が悪い メッシュ

    面単位で表現 生成コストが高い SDF 物体上は0, 内側は負・外側は正の距離を与える関数 ニューラルネットワークで扱いやすい Ω- : 物体上 -2 +1 Ω : 全体
  19. ෇࿥ɿԻ੠ͷ࣮ݧઃఆ 音声を表す陰関数𝑓を学習 𝑓: ℝ → ℝ ℒ = U Φ

    𝒙 − 𝑓 𝒙 ! 𝑑𝒙 21 データ Bach`s Cello Suite No.1: Prelude 層数 5 ユニット数 256 イテレーション 9000 Optimizer Adam 学習率 5.0 × 10-5 GPU NVIDIA Quadro RTX 6000 メモリ24GB