Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
文献紹介_20180518_Pixel-Level Domain Transfer
Search
hrsma2i
May 18, 2018
Research
0
50
文献紹介_20180518_Pixel-Level Domain Transfer
文献紹介
hrsma2i
May 18, 2018
Tweet
Share
More Decks by hrsma2i
See All by hrsma2i
文献紹介_20181123_SeqGAN_ Sequence Generative Adversarial Nets with Policy Gradient
hrsma2i
0
22
文献紹介_20180622_MUNIT _ Multimodal Unsupervised Image-to-Image Translation
hrsma2i
0
71
文献紹介_20180420_CSN _ Learning Type-Aware Embeddings for Fashion Compatibility
hrsma2i
0
170
文献紹介_20171110_QRNN _ Quasi-Recurrent Neural Networks
hrsma2i
0
21
Other Decks in Research
See All in Research
Source Code Diff Revolution (JetBrains Open Reading Club)
tsantalis
0
200
Deep State Space Models 101 / Mamba
kurita
9
3k
IRではデータ収集がどのように実施・認識されてきたのか
gmoriki
0
330
熊本都市交通リノベーション_熊本青年会議所ローカルマニフェスト検証会
trafficbrain
1
500
説明可能AI:代表的手法と最近の動向
yuyay
1
490
Alternative Photographic Processes Reimagined: The Role of Digital Technology in Revitalizing Classic Printing Techniques【SIGGRAPH Asia 2023】
toremolo72
0
400
DeepCrysTet: A Deep Learning Approach Using Tetrahedral Mesh for Predicting Properties of Crystalline Materials
tsurubee
0
290
F0に基づいて伸縮された画像文字からの音声合成 [ASJ2024春]
nehi0615
0
100
自作パケット処理系の性能測定と可視化&改善のPDCAを回して最強のパケット処理系の作り方を学ぼう / Let's Measure the Performance of Packet Processing System with Python Tools.
takehaya
4
3.8k
20240209 データを肴に熊本の交通を考える会「車1割削減、渋滞半減、公共交通2倍」をめざし世界に学ぼう
trafficbrain
0
650
第14回対話システムシンポジウム EMNLP 2023 参加報告
atsumoto
0
130
第4回ナレッジグラフ勉強会:ISWC2023論文読み会
kg_wakate
1
180
Featured
See All Featured
Atom: Resistance is Futile
akmur
258
25k
[RailsConf 2023] Rails as a piece of cake
palkan
21
3.8k
The Cost Of JavaScript in 2023
addyosmani
13
3.7k
Principles of Awesome APIs and How to Build Them.
keavy
119
16k
Designing with Data
zakiwarfel
94
4.8k
Designing for humans not robots
tammielis
247
25k
Design by the Numbers
sachag
274
18k
RailsConf 2023
tenderlove
0
500
Fashionably flexible responsive web design (full day workshop)
malarkey
397
65k
The Power of CSS Pseudo Elements
geoffreycrofte
58
4.9k
Making Projects Easy
brettharned
106
5.4k
Building Flexible Design Systems
yeseniaperezcruz
317
37k
Transcript
文献紹介 Pixel-Level Domain Transfer author: Yoo, Donggeun
abstract - street outfit image から shop per-garment image の生成
Table of Contents - Introduction - Domain adaptation - GANs
- Method - Results - manual evaluation - automated evaluation
Introduction - Domain adaptation - 関数の定義域 (domain) となる集合を、他の集合に変える/対応させる手法 - domain
transfer とも言う - fine-tuning もそのうちの 1 つ - X には label Y があるが、 X’ には label がないときなどに使える f X shop image Y attributes (“coat”, “olive”) X’ street image attribute predictor
Introduction - street to shop - domain adaptation, domain transfer
の一手法としての応用 - cross-domain image retrieval や、 street/shop image のみしか扱えない fashion model を両方に 対応させることができる。 - 先行研究では、 similarity learning などで、 対応する pair が同一の feature space で近くになるように embedding というような手法がある。 CNN CNN street outfit image shop per-garment image
Introduction - our work - 今回は、 street image から shop
image を生成するモデル - street image を撮るだけで、 shop image を撮らなくて済む。
Introduction - GANs: Generative Adversarial Networks - 設計の難しい loss 関数に対し、その
loss 関数すら Neural Network で学習させて しまおうという手法 - image generation, text generation などの多くの応用先 - 生成モデル(generative model) ≒ 教師なし (unsupervised) - P(X) をモデリング (X: 画像など) Generator c.f. ProgressinGAN gaussian noise generated image OR Discriminator real image True 1 / False 0
Introduction - GANs: Generative Adversarial Networks - Generator, Discriminator を交互に学習させる。
- Discriminator は Generator が生成した画像か本物かを識別できるよう学習。 - Generator は Discriminator を騙すような画像を生成するよう学習。 Generator c.f. ProgressinGAN gaussian noise generated image OR Discriminator real image True 1 / False 0
Method - 以下の 3 つの module から成る。 - converter -
real/fake-discriminator - domain-discriminator
Method - Converter - street image Is を shop image
I^t に変換する Network - CNN Encoder, Decoder から成 る。 本質的な意味の情報だけを持つ
Method - Real/fake-discriminator - Converter が生成した画像が 本 物かどうかを見破る Network -
GAN でなく、MSE だと画像がぼ やけてしまう。
Method - GAN を用いる理由 - target domain の shop image
の正解は複数あり、正解を一意に定められない。 - source と target 集合の画像の性質がかなり異なる。 - e.g. 動画の frame 予測などは frame ごとに画像の性質は近いので、 MSE などでも大丈夫らし い。
Method - Domain-discriminator - source image とtarget image が 関係あるかないかを識別する
Network - Real/fake D. だけだと、1度 target っぽい image を生成できて しまえば、 source image がなん だろうと、そのそれっぽい target image を生成すれば、 Real/fake D. をずっと騙せる。
Dataset - LookBook - 新しく提案 - 複数の street image と対応する
1 枚の shop image の集合。 - category は tops のみ。
Results - Quantitative evaluation - evaluation metrics - user study
score: manual - RMSE, C-SSIM: automated
Results - Quantitative evaluation - user study - ours, C+RF,
C+MSE よって生成し た image 3 つに対し、以下の 3つの 観点で score をつける。 - Real: real or fake: [0,2] - Att: how associated to sourced: [0,2] - Cat: the same/not category as source: {0,1} - 25 users - 100 image pairs/user
Results - Quantitative evaluation - user study - C+MSE: Att
を反映してるが、 本 物っぽくない - C+RF: MSE に比べ、本物っぽい が、 source と関係ないものを生成 してるので、AttはMSEより低い。 - Ours: Sourceのattribute, category などを保ちつつ、本物っぽい画像を 生成できてる。
Results - Qualitative evaluation
Results - Qualitative evaluation - 同じ item で異なる street image
でも大体 同じような shop image を生成できている。
Results - Quantitative evaluation - C-SSIM - Channel-wise Structured SIMilarity
- real shop image と generated shop image の 差異を測る - a manual metric which is consistent with human perception - Ours が他の全ての baselines に優った。
Results - Quantitative evaluation - C-SSIM - C+RF+DD-Neg: Negative なし。
- Negativeもあったがほうが、 DDがより効く
Results - Quantitative evaluation - C-SSIM - Retrieval by DD-score: sourceと
同じ item の generative shop image か、 source と似てる (DD-score 低い) item の real shop image とどっちが 本物の real shop image と似てるかを検証 - Ours の汎化性を検証するため。(汎 化できてなければ、未知の item に 弱く、検索した similar item image に負ける)
Results - Virtual Try On - shop image to street
image と いう逆の task も、データを入れ 替えれば同じ model でできる。 - コンピュータを用いた仮想的な試 着などの応用が考えられる。他 の論文も結構ある。
Conclusion - street2shop image generation で pixel-level での domain trasfer
の手法を初め て提案した。 - Domain-discriminator により、 Source の意味情報を保ったまま、本物っぽい画像 の生成ができるようになった。 - street-shop image の novel dataset を提案。