Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
TransGAN: Two Transformers Can Make One Strong GAN
Search
Sponsored
·
Your Podcast. Everywhere. Effortlessly.
Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
→
kiyo
April 18, 2021
Technology
0
360
TransGAN: Two Transformers Can Make One Strong GAN
第六回全日本コンピュータビジョン研究会 Transformer読み会での発表資料です
kiyo
April 18, 2021
Tweet
Share
More Decks by kiyo
See All by kiyo
Agent Skill Acquisition for Large Language Models via CycleQD
kiyohiro8
0
13
Active Retrieval Augmented Generation
kiyohiro8
3
900
Reinforcement Learning: An Introduction 輪読会 第5回
kiyohiro8
0
440
Reinforcement Learning: An Introduction 輪読会 第3回
kiyohiro8
0
590
CycleGAN and InstaGAN
kiyohiro8
0
1.5k
Bridging_by_Word__Image-Grounded_Vocabulary_Construction_for_Visual_Captioning.pdf
kiyohiro8
0
990
Attention on Attention for Image Captioning
kiyohiro8
1
530
Progressive Growing of GANs for Improved Quality, Stability, and Variation
kiyohiro8
1
180
Graph-Based Global Reasoning Networks
kiyohiro8
0
1.4k
Other Decks in Technology
See All in Technology
SREじゃなかった僕らがenablingを通じて「SRE実践者」になるまでのリアル / SRE Kaigi 2026
aeonpeople
6
1.6k
~Everything as Codeを諦めない~ 後からCDK
mu7889yoon
3
200
Digitization部 紹介資料
sansan33
PRO
1
6.8k
toCプロダクトにおけるAI機能開発のしくじりと学び / ai-product-failures-and-learnings
rince
6
5.2k
Frontier Agents (Kiro autonomous agent / AWS Security Agent / AWS DevOps Agent) の紹介
msysh
3
130
AWS Devops Agent ~ 自動調査とSlack統合をやってみた! ~
kubomasataka
3
330
AI時代、1年目エンジニアの悩み
jin4
1
150
月間数億レコードのアクセスログ基盤を無停止・低コストでAWS移行せよ!アプリケーションエンジニアのSREチャレンジ💪
miyamu
0
700
セキュリティについて学ぶ会 / 2026 01 25 Takamatsu WordPress Meetup
rocketmartue
1
260
usermode linux without MMU - fosdem2026 kernel devroom
thehajime
0
190
みんなだいすきALB、NLBの 仕組みから最新機能まで総おさらい / Mastering ALB & NLB: Internal Mechanics and Latest Innovations
kaminashi
0
210
AIと新時代を切り拓く。これからのSREとメルカリIBISの挑戦
0gm
0
600
Featured
See All Featured
Measuring Dark Social's Impact On Conversion and Attribution
stephenakadiri
1
110
Helping Users Find Their Own Way: Creating Modern Search Experiences
danielanewman
31
3.1k
The State of eCommerce SEO: How to Win in Today's Products SERPs - #SEOweek
aleyda
2
9.5k
[RailsConf 2023 Opening Keynote] The Magic of Rails
eileencodes
31
9.9k
sira's awesome portfolio website redesign presentation
elsirapls
0
140
Building Experiences: Design Systems, User Experience, and Full Site Editing
marktimemedia
0
400
How Fast Is Fast Enough? [PerfNow 2025]
tammyeverts
3
440
Automating Front-end Workflow
addyosmani
1371
200k
実際に使うSQLの書き方 徹底解説 / pgcon21j-tutorial
soudai
PRO
196
71k
Designing for humans not robots
tammielis
254
26k
Amusing Abliteration
ianozsvald
0
92
Marketing to machines
jonoalderson
1
4.6k
Transcript
TransGAN: Two Transformers Can Make One Strong GAN 第六回 全日本コンピュータビジョン勉強会
Transformer 読み会 2021/04/18 kiyo (hrs1985)
自己紹介 twitter : @hrs1985 Qiita : https://qiita.com/hrs1985 github : https://github.com/kiyohiro8
株式会社カブクで機械学習エンジニアをしています。 深層生成モデル、画像の変換 ゲームの強化学習 あたりに興味があります。 twitter アイコン
論文の概要 TransGAN: Two Transformers Can Make One Strong GAN (https://arxiv.org/abs/2102.07074)
1. Transformer のみで GAN を構成した (CNN が非必須であることを示した) 2. アーキテクチャと学習方法を工夫することで CIFAR-10 や STL-10 で CNN ベースの GAN に匹敵する性能が出せた。 モデルは https://github.com/VITA-Group/TransGAN に公開されている ただし推論のみ
Generative Adversarial Models Generator はノイズ (z) から fake sample を作る
Discriminator は入力された画像の real / fake を判別する
Attention (Transformer) と GAN CNN + Attention の GAN は
Self-Attention GAN などで使われており、性能向上に寄与している 今回は Convolutional Layer を一切使わずにAttention (Transformer) のみで GAN を構成した Self-Attention Generative Adversarial Networks (https://arxiv.org/abs/1805.08318) より
Transformer Generator / Discriminator Generator / Discriminator ともに Transformer だけで構成されている
Transformer Encoder Block Multi-Head Self Attention → MLP を繋げて 1つのブロックにする
Multi-Head Self Attention と MLP の前に Layer Normalization を挟む
Memory-Friendly Generator 画像サイズは NLP でいう文の長さ (単語数) に相当する。 32x32 の低解像度でも 1024
単語の文となってしまい Attention の計算量がかさむ。 Transformer Encoder を何回か通す → UpScaling (pixel shuffle) →これを繰り返し、目的の画像サイズまで大きくしていく ←各 pixel が NLP でいう word に相当する
Discriminator 画像を 8x8 のパッチに分割 →Transformer Encoder を通す →最終層で特徴を集約して real /
fake 判定
シンプルな TransGAN Transformer の Generator はよい Transformer の Discriminator はダメ
データ拡張 データ拡張 (DiffAug) を導入することで IS も FID も改善
Self-Supervised Auxiliary Task 補助タスクとして、Generator に画像の高解像度化タスクも解かせる 低解像度画像 高解像度化された画像 MSE loss
Locality-Aware Initialization query 位置 (赤) に対して参照できる key の範囲を制限する 学習初期では狭く、後期では広い範囲を参照する
モデルサイズの効果 モデルサイズが大きいほど強い
既存手法との比較 CIFAR-10、STL-10 で SoTA またはそれに匹敵する程度の性能が出た
出力画像例
結論 ・Transformer のみで構成された GAN である TransGAN を提案した ・学習を工夫することで CNN ベースの
GAN に匹敵する性能が出せた ・今後自然言語処理分野のテクニックを取り入れることで性能向上ができるかも?
None
Network Architecture
学習の計算量
Settings