Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
CycleGAN and InstaGAN
Search
Sponsored
·
Your Podcast. Everywhere. Effortlessly.
Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
→
kiyo
November 21, 2019
Technology
1.5k
0
Share
CycleGAN and InstaGAN
#8【画像処理 & 機械学習】論文LT会で発表した内容です。GANを用いた画像変換手法である InstaGAN と CycleGAN の紹介です。
kiyo
November 21, 2019
More Decks by kiyo
See All by kiyo
Agent Skill Acquisition for Large Language Models via CycleQD
kiyohiro8
0
34
Active Retrieval Augmented Generation
kiyohiro8
3
920
Reinforcement Learning: An Introduction 輪読会 第5回
kiyohiro8
0
460
Reinforcement Learning: An Introduction 輪読会 第3回
kiyohiro8
0
620
TransGAN: Two Transformers Can Make One Strong GAN
kiyohiro8
0
370
Bridging_by_Word__Image-Grounded_Vocabulary_Construction_for_Visual_Captioning.pdf
kiyohiro8
0
1k
Attention on Attention for Image Captioning
kiyohiro8
1
540
Progressive Growing of GANs for Improved Quality, Stability, and Variation
kiyohiro8
1
180
Graph-Based Global Reasoning Networks
kiyohiro8
0
1.4k
Other Decks in Technology
See All in Technology
AWS Transform CustomでIaCコードを自由自在に変換しよう
duelist2020jp
0
250
AI時代に越境し、 組織を変えるQAスキルの正体 / QA Skills for Transforming an Organization
mii3king
5
4.1k
エンタープライズの厳格な制約を開発者に意識させない:クラウドネイティブ開発基盤設計/cloudnative-kaigi-golden-path
mhrtech
0
310
生成AIが変える SaaS の競争原理と弁護士ドットコムのプロダクト戦略
bengo4com
1
3.5k
自動テストだけで リリース判断できるチームへ - 鍵はテストの量ではなくリリース判断基準の再設計にあった / Redesigning Release Criteria for Lightweight Releases
ewa
7
3.5k
ファインディの事業拡大を支える 拡張可能なデータ基盤へのリアーキテクチャ
hiracky16
0
910
Vision Banana: Image Generators are Generalist Vision Learners
kzykmyzw
0
270
Modernizing Your HCL Connections Experience: Visual Report to chain, Profile Enhancements, and AI Integration
wannesrams
0
290
需要創出(Chatwork)×供給(BPaaS) フライホイールとMoat 実行能力の最適配置とAI戦略
kubell_hr
0
2.1k
カオナビに Suspenseを導入するまで / The Road to Suspense at kaonavi
kaonavi
1
430
「SaaSの次の時代」に重要性を増すステークホルダーマネジメントの要諦 ~解像度を圧倒的に高めPdMの価値を最大化させる方法~
kakehashi
PRO
3
3.8k
[Scram Fest Niigata2026]Quality as Code〜AIにQAの思考を再現させる試み〜
masamiyajiri
1
260
Featured
See All Featured
コードの90%をAIが書く世界で何が待っているのか / What awaits us in a world where 90% of the code is written by AI
rkaga
61
43k
Agile Actions for Facilitating Distributed Teams - ADO2019
mkilby
0
180
The #1 spot is gone: here's how to win anyway
tamaranovitovic
2
1k
The Web Performance Landscape in 2024 [PerfNow 2024]
tammyeverts
12
1.1k
We Analyzed 250 Million AI Search Results: Here's What I Found
joshbly
1
1.3k
The SEO identity crisis: Don't let AI make you average
varn
0
460
How to Get Subject Matter Experts Bought In and Actively Contributing to SEO & PR Initiatives.
livdayseo
0
110
Put a Button on it: Removing Barriers to Going Fast.
kastner
60
4.3k
XXLCSS - How to scale CSS and keep your sanity
sugarenia
250
1.3M
CSS Pre-Processors: Stylus, Less & Sass
bermonpainter
360
30k
Understanding Cognitive Biases in Performance Measurement
bluesmoon
32
2.9k
Performance Is Good for Brains [We Love Speed 2024]
tammyeverts
12
1.6k
Transcript
CycleGAN and InstaGAN 第8回画像処理 & 機械学習】論文LT会 2019年11月21日(木) @hrs1985
自己紹介 twitter : @hrs1985 https://qiita.com/hrs1985 https://kiyo.qrunch.io/ 機械学習エンジニアをしています。 最近転職して7月から東京で働いてます。 前々職では実験生物学やってました。 •
深層生成モデル、画像の変換 • 強化学習 • 生物学・化学への機械学習の応用 に興味があります。
紹介する論文 CycleGAN Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks (ICCV
2017) https://arxiv.org/abs/1703.10593 InstaGAN InstaGAN: Instance-aware Image-to-Image Translation (ICLR 2019) https://arxiv.org/abs/1812.10889
画像のスタイル変換 Paired 各ドメインの画像が対になっている Unpaired 各ドメインの画像が対になっていない あるドメインの画像を別のドメインへの対応する画像に変換する操作
CycleGAN による画像変換 左: CycleGAN の論文中の例、右: 自分で実験してみた例
CycleGAN 2つのGeneratorはそれぞれX→Y、Y→Xの変換を行い、 Discriminatorはそれが元々そのドメインの画像だったか Generatorによって変換された画像かを見破る。
CycleGAN の Loss Domain loss (GAN Loss) Content Loss (Cycle
Consistency Loss)
CycleGAN
CycleGAN の問題点 ・オブジェクト形状が大きく変わるような変換はできない。 ・変換するべきオブジェクトが画像のどの部分であるかを明示して変換することはできない。
InstaGAN ・CycleGAN で失敗しやすい、オブジェクト形状が変化するような変換にも対応できる。 ・該当するインスタンスのうち、一部だけを変換することもできる。
InstaGAN
Generator 1. 画像用 Encoder とマスク用 Encoder で特徴を抽出 2. マスク特徴の総和を取っておく 3.
画像用の Decoder に画像特徴とマスク特徴の総和を 入力して変換された画像を得る 4. マスク用の Decoder に画像特徴とマスク特徴の総和と マスク特徴を入力して変換されたマスクを得る
Discriminator 1. 画像用 Encoder とマスク用 Encoder で特徴を抽出 2. マスク特徴の総和を取る 3.
Classifier に画像特徴とマスク特徴の総和を入力して判 別する
InstaGAN の Loss Domain Loss (GAN Loss) Content Loss Domain
Loss: target domain っぽいかどうかを判別するための Loss Content Loss: 元画像の内容や文脈を保持するための Loss
Content Loss の中身 ドメイン X の画像を一旦 Y に変換してからもう一度 X に変換したら元画像戻って欲しいという願い
(CycleGAN の Cycle Consistency Loss と同じ) GXY/GYX はそれぞれドメイン X/Y の画像についてのみ変更してほしいという願い (元々 Y/X だった画像は変更しないでほしい ) マスク領域以外の場所は変更しないでほしいという願い
Sequential Translation 一度に全てのマスクを変換するのではなく、 各 iteration では少数のマスクだけを変換する手法を使っています。
Sequential Translation One: 全てのマスクを 1 iteration で変換 Seq: Sequential に少数ずつ変換 train時/inference時 Train
時にも Inference 時にも Sequential Translation を行った方がよいらしい (一番右)。
結果 ズボン⇔スカートの変換 CycleGANよりも綺麗です。 また、右側中段のように一人分だけ変換することもできています。
結果 ヒツジ⇔キリンの変換 ちゃんとヒツジとキリンの形になっています。 また、InstaGAN では背景部分の変化が小さいです (左側上段など)
結果 ウマ⇔車の変換 この変換の出来は微妙に見えますが論文中では上手くいってる扱いぽいです。 確かにCycleGANよりはマシに見えます。
おまけ 自分で実装してみるために参考に著者実装を見たのですが実装が酷すぎて読むのがつらいです。 各メソッドの全ての変数に selfがついているのでメソッドの中身だけ追っても処理内容が見えづらい あとPyTorchの使い方覚えてほしい
参考 CycleGAN (https://qiita.com/hrs1985/items/050acb15ce33675f07ec) CycleGANを用いたスタイル変換 (https://qiita.com/hrs1985/items/926f9c4e635aac659675) CycleGANを用いたスタイル変換 (2) リベンジ編 (https://qiita.com/hrs1985/items/820d9b0b919fe0425e46) CycleGANのPytorch実装
(https://github.com/kiyohiro8/CycleGAN-pytorch) CycleGANの実装はあまりカッコよくないので色々修正したい。 InstaGANの実装も今やっているので上手くできたら githubに上げます。