Upgrade to PRO for Only $50/Year—Limited-Time Offer! 🔥

深層学習をつかった画像スタイル変換の話と今までの歴史

Ringa_hyj
November 21, 2020

 深層学習をつかった画像スタイル変換の話と今までの歴史

深層学習をつかった画像スタイル変換の話と今までの歴史
VGG,生成モデル

Ringa_hyj

November 21, 2020
Tweet

More Decks by Ringa_hyj

Other Decks in Science

Transcript

  1. 局所的な情報(テクスチャとして抽出したい対象) を保持しながら、 全体の構造を無視する(構造を気にせずテクスチャ化する) という方法ができました Nlの特徴マップとはNl * (Nl + 1)/2 のパラメタになります

    pool4まで利用すると約852000のパラメタです しかし、パラメタが増えてもそんなに大きく改善はしていないのです そこで各層の特徴マップを主成分分析して減らしてからグラム行列にしてもいいでしょう 64の特徴量まで主成分分析をすることで二列目10Kのように現象させることができました 平均値だけ使用してグラム行列にすると一列目のようになります パラメタ削減は可能です どの程度まで削減可能かは研究対象であり次回以降のテーマです ただし、規則的な画像に対して(レンガの壁)パラメタを減らすと失敗します
  2. 標準正規分布から得られたε εをジェネレータに入れてzをつくる zはq(z)から得られると考える Z~q(z) q(z)は手元の画像の出てきたp(x)の近似である p(x)の推定をしたいなら、損失関数に対する負の対数尤度を最尤推定したらええ これをp(x) hat そして、z全体ははp(x)hatの積分によって得られる Z~p(x)

    hat 真のp(x)は p(x) hat をZで周辺化した値である(Zが積分なら周辺化したらp(x)hatだけになるのは当然) 変分ベイズの考え どうやって近似していくかといえばKLダイバージェンスの最小化 VAEと目指すところは同じ https://bayesgroup.github.io/bmml_sem/2016/style.pdf
  3. テクスチャはジェネレータにより生成される iidなホワイトノイズからテクスチャ画像xを作る x = g(z) 生成画像xの分布はq(X)から取り出されるもの (GANやVAEとおなじ考え) 標的とするテクスチャの分布がp(x)である 生成器の目標はq(x)をp(x)に近づけること p(x)とは人間が知りえないものであり、最適化もできない

    juleszアンサンブル を 一様サンプリングを行う 複数フィルタの平均的な応答反応を比べ、テクスチャが異なっているかを発見する juleszアンサンブルとは? 画像x F フィルタ x : Ω→R3 Ωは1~H ×1~H F:χxΩ→R,l 画像のFl応答 損失はL(x) = 平均の差 μl(x) – μl
  4. VGGフィルタからスタイルが抽出されることは知られており、 Gatyらのスタイルロス L(X) を採用する グラム行列を近づける テクスチャ μ がコンテンツ画像 x0 の上に描かれる

    深いフィルタの応答を近づけることによる L cont() ノイズzから画像が生まれると考えg(z)を学習する g(z)は、テクスチャとコンテンツを最小にすることで 学習