GANs in Action(実践GANs) 7章まとめ資料

Chapt7.Semi-Supervised GAN Chapt7.Semi-Supervised GAN ( 半教師ありGAN) ( 半教師ありGAN) 2020-09-15 GANs
in Action(実践GAN) 勉強会資料 Chapt7.Semi-Supervised GAN - (半教師ありGAN) 

本⽇のTARGET 本⽇のTARGET Semi-Supervised GANの仕組みを理解する Semi-Supervised GANを通じ、Semi-Supervised Learningの有⽤性を考える余録：tensorﬂow v2のBatchNormを使った時の訓練失敗について
TL:DR TL:DR GANの成果物といえばGenerator(⽣成器)だが、GANの学習プロセスを上⼿に使うことで、有⽤なDescriminator(分類器)を獲得することが出来る Generatorの訓練だけがGANではないのよ、という話 Chapt7.Semi-Supervised GAN - (半教師ありGAN) 

おさらいおさらい 1~4章：GAN基礎 5章：GANにおいて有⽤なアイデア(Wassetetein GANとか) 6章：Progressivee GAN 7 章の構成 7
章の構成 7.1 Semi-Supervised GANの概要とアーキテクチャ解説 7.2 Semi-Supervised GANの実装(DCGANベース) 実装コード⾃体はすんなり動いたのでは？ 7.3 性能⽐較(通常の分類器と⽐較) Chapt7.Semi-Supervised GAN - (半教師ありGAN) 

書籍の流れを踏襲しつつ、適度に発表者の⾔葉で再解釈して解説していきます (´・ω・`)変なこと⾔ってたら遠慮なく突っ込んでください Chapt7.Semi-Supervised GAN - (半教師ありGAN) 

What is Semi- What is Semi- Supervised GAN ？ Supervised
GAN ？主に7.1まとめ Chapt7.Semi-Supervised GAN - (半教師ありGAN) 

半教師あり学習:Semi-Supervised Learning 半教師あり学習:Semi-Supervised Learning 途中まで教師あり学習、途中から教師なし学習の「半教師あり学習」「⼈間の学習⽅法に最も似た機械学習かもしれません」何が嬉しいの？何が嬉しいの？「ラベル付きデータの準備」という命題をショートカットできる
可能性 (個⼈的な感想ですが)現状のDeep Learning実⽤化は特定タスクの解決が主題なので、まだ教師あり学習が強い気がします。とはいえ可能性は感じる（）気になってる本 Chapt7.Semi-Supervised GAN - (半教師ありGAN) 

⼤前提の共有⼤前提の共有 Machine Learning全般におけるカテゴライズとして、 1. 教師あり学習(Supervised Learning) 2. 教師なし学習(Unsupervised Learning)
3. 強化学習学習データにラベルが有る/ない/学習データの質がちょっと違う今の所、いちおうデファクトスタンダードな切り⼝？これ、厳密にはMECEじゃなくね？という意⾒もある Qiita:脳科学者とITエンジニアの、DLや汎⽤⼈⼯知能に関する会話 Chapt7.Semi-Supervised GAN - (半教師ありGAN) 

Semi-Supervised GAN? Semi-Supervised GAN? Descriminatorを真贋判定の分類器ではなく、多クラス分類器にしたもの N+1クラスの分類を⾏う Nは訓練データに含まれるクラスの総数 1は偽画像 MNISTであればNは0〜9の10クラス
つまり11クラスの分類を⾏う書いてあるままだとそうなるが、実装を⾒ると感覚的には2クラス分類と10クラス分類を交互にやってる感じ Chapt7.Semi-Supervised GAN - (半教師ありGAN) 

引⽤元：https://akiraaptx.blog/2019/02/21/semi-supervised-gan/ Chapt7.Semi-Supervised GAN - (半教師ありGAN) 

アーキテクチャと訓練過程アーキテクチャと訓練過程⼤きく異なるのはDescriminatorの構造と訓練過程⼊⼒データは3種類教師データ(ラベルなし) 教師データ(ラベルあり) ⽣成データ($G(x)$) 出⼒はN+1種類訓練過程では①Nクラスの分類②真贋判定の両⽅を⾏うため、⽬的関数も2つになる
$D((x, y))$ →他クラス分類 $D(x)$と$D(G(z))$ →⼆値(真贋)分類 Chapt7.Semi-Supervised GAN - (半教師ありGAN) 

どうしてそんな事できるのさどうしてそんな事できるのさ直感的な理解ですが… GANにおけるDescriminatorは真贋判定を⽬的としつつも、学習タスクの過程で、判別対象データのクラスに関する知識(特徴量)を取得しているはず Generatorも、クラスの特徴量を再現しようとするので、同じくクラスに関する特徴量を有しているはず上⼿く誘導してあげれば、ラベリング短縮＆実質データ拡張になる…！
Chapt7.Semi-Supervised GAN - (半教師ありGAN) 

( ＾ω＾) 「これが分かるなら、たけのこときのこも分かるよな？」 (´・ω・`)「えぇ……(困惑)」引⽤元：https://www.pinterest.jp/pin/742038476089941428/ Chapt7.Semi-Supervised GAN - (半教師ありGAN) 

Semi-Supervised Semi-Supervised GAN の実装 GAN の実装主に7.2~7.3 Chapt7.Semi-Supervised GAN -
(半教師ありGAN) 

実装のポイント実装のポイント notebookを⾒ていくほうが早いが、おそらくポイントと思われる所基本的な実装はDCGANベース Descriminatorと訓練ループが違う 2種類のタスク(⽬的関数)に対応するため、Descriminatorの最終レイヤはSoftmaxとSigmoidの⼆種類を付け替える最後の層だけ関数によって切り替える構造になっている汎化性能を⾼めるために,rate:0.5でBatchNormの後にDropout層を⾜している

学習for ループは以下の順番学習for ループは以下の順番 1. Descriminator($D(x,y)$) 2. Descriminator（$D(x)$,$D(G(z))$） 3. Generator
1ステップの中で全部やるのがポイント？個⼈的には先に$D(x,y)$だけやっても成⽴しそうな気はした Chapt7.Semi-Supervised GAN - (半教師ありGAN) 

性能⽐較性能⽐較書籍での数値⽐較は… 分類器 Test Accuracy 100sampleの分類器 70% SGANのD分類器 89%

⼺(ﾟ)(ﾟ) 「やるやんけSGAN！アノテーションツールなんかポイーで」 (´・ω・`) 「もちつけ」 Chapt7.Semi-Supervised GAN - (半教師ありGAN) 

性能⽐較性能⽐較⽐較のポイントは、「同じ数の教師データ(ラベルあり)で学習した、通常の教師あり分類器」と⽐較して精度が出るかどうか書籍での数値⽐較は… 分類器 Test Accuracy 100sampleの分類器 70%
SGANのD分類器 89% 10,000sampleの分類器 98% * 当たり前だが10.000sampleで学習した分類機が⼀番強いのである Chapt7.Semi-Supervised GAN - (半教師ありGAN) 

ちなみにちなみに私の環境での実⾏結果(BatchNormはv1で) 分類器 Test Accuracy 100sampleの分類器 42.6% SGANのD分類器 89.2%

所感所感あくまで「少ないラベル付きデータとラベルなしデータで精度が出た」事が強みすごい＆技術的に興味深いのは⼤変よく分かるが、実⽤という⾯では、どういったシチュエーションに適するかは考えどころな気がしたラベリングのコスト > Generatorを上⼿に学習させるコスト
が採⽤前提？データがあまりに⼤量すぎる場合、この⽅法で作った分類器をアノテーション⽀援に使うのはアリかな、という気がした (´・ω・`)皆さんはどう思われますか？ Chapt7.Semi-Supervised GAN - (半教師ありGAN) 

余録余録 tensorﬂow v2 のBatchNorm を使っ tensorﬂow v2 のBatchNorm を使っ
た時の訓練失敗についてた時の訓練失敗について何故そんなことが起こるのか⻑いです Chapt7.Semi-Supervised GAN - (半教師ありGAN) 

TL;DR TL;DR 所謂keras-DCGANベースの実装(本書もそう)をtensorﬂow2.xで実⾏すると、学習失敗する tf.compat.v1.keras.layers.BatchNormalization を使うと回避できる v2のBatchNormalizationが trainable に応じて学習モードと推論モードを切り替えるようになったことが原因(と思われる)

本書は原著の出版が2019年10⽉となっており、tensorflowの前提バージョンは1.0台となっている。 Google Colabのデフォルトは現在tensorflow2.0台となっており、マジックコマンド %tensorlow version 1.x を実⾏するか、明⽰的に 1.0台を
pip install しないと、Kerasを利⽤してもバックエンドは tensorflow2.0台で処理されるで、本勉強会でDCGANの時から⾔われていたことだが、GitHubのコードを2.0台で実⾏すると、4章以降使いまわしているDCGANの学習が上⼿く進まない Chapt7.Semi-Supervised GAN - (半教師ありGAN) 

Slackで既にメンバが特定した通り、原因はBatchNormalizationであることまでは特定できていて、今回のコードもBathNormalization のレイヤをtf1.x台のものに置き換えれば、tensorﬂow2.0台でも学習完了できる。 (´・ω・`)「え？でもBathNormの仕様なんて1と2で変わるんかいな？？？」と思ってたので調べてみた公式ドキュメントは GitHubの実装ソースはこちら
こちら Chapt7.Semi-Supervised GAN - (半教師ありGAN) 

結論としては、v2のBatchNormは trainable is False なら training is False に分岐する(v1は分岐しない)というのがポイントこのあたりは次スライドの内容も含め、
ソースを追いかけていくと、v1を通したときは _USE_V2_BEHAVIOR is False で BatchNormalizationBase クラスが呼び出される事がわかる _USE_V2_BEHAVIOR is False だと以下の処理が⾏われない fusedのコントロール( fused:true だと処理の⾼速化？を⾏うらしい) trainable is False なら training is False への分岐つまり、v1のBatchNormは trainable is False でも training is True になりうるということ nkmk.me様の記事がわかりやすい Chapt7.Semi-Supervised GAN - (半教師ありGAN) 

ここで抑えておいたほうが良いポイントとして、 BathNormalization()には training と trainable 2つのパラメータが有ること BathNormalization()はNormalizationの単位をパラメータとして学習する訓練時はミニバッチの平均と分散で正規化が⾏われる
推論時は、訓練時に得た正規化パラメータ(平均と分散)を元に、⼊⼒データをNormalizeするこの切替は BathNormalization() のメンバ変数？である training にもっているそれとは別に、compileされたmodelとしては trainable をもっていて、これは明⽰的に設定もできるし、呼び出しメソッド(ﬁt, predict) によっても変更される Chapt7.Semi-Supervised GAN - (半教師ありGAN) 

じゃあDCGANの実装で trainable ってどうコントロールしてるの？と思いコードを⾒るここで⼀度よくわからなくなった明⽰的に trainable = False してるところがある
学習前のそれぞれのDescriminatorのtrainableの値を⾒ると (´・ω・`)？？？？？？学習しないってこと？ # Keep Discriminator’s parameters constant for Generator training discriminator_unsupervised.trainable = False print(f'discriminator_net:{discriminator_net.trainable}') print(f'discriminator_supervised:{discriminator_supervised.trainable}') print(f'discriminator_unsupervised:{discriminator_unsupervised.trainable}') >>> discriminator_net:False discriminator_supervised:True discriminator_unsupervised:False Chapt7.Semi-Supervised GAN - (半教師ありGAN) 

そもそもそもそも keras-DCGANの実装では、 trainable が反映されるのは model.compile 後という性質を利⽤しているなので、ちゃんとforループの中ではDも訓練が⾏われている同じ疑問をIssueに挙げてる⼈も居た。気持ちはよくわかる。ん？でもBatchNormalization()は
trainable is False なら training is False に分岐するんじゃなかったっけ… https://github.com/eriklindernoren/Keras- GAN/issues/73#issuecomment-413105959 Chapt7.Semi-Supervised GAN - (半教師ありGAN) 

つまりどういうことだってばよつまりどういうことだってばよ tensorﬂow2.0のBatchNormalizationは trainable に応じて学習モードと推論モードを切り替えるので、最もポピュラーなDCGANの実装コードの書き⽅で書くと、推論モードのまま学習に⼊ってしまう tf.compat.v1.keras.layers.BatchNormalization だと、この切替が起こらない
(´・ω・`)わかってみれば単純な話でした v1のコード横着して動かしたら駄⽬ですね Chapt7.Semi-Supervised GAN - (半教師ありGAN) 

EOF EOF Chapt7.Semi-Supervised GAN - (半教師ありGAN)   

GANs in Action(実践GANs) 7章まとめ資料

GANs in Action(実践GANs) 7章まとめ資料

shinebalance

More Decks by shinebalance

Other Decks in Programming

Featured

Transcript

Chapt7.Semi-Supervised GAN Chapt7.Semi-Supervised GAN ( 半教師ありGAN) ( 半教師ありGAN) 2020-09-15 GANs

本⽇のTARGET 本⽇のTARGET Semi-Supervised GANの仕組みを理解する Semi-Supervised GANを通じ、Semi-Supervised Learningの有⽤性を考える余録：tensorﬂow v2のBatchNormを使った時の訓練失敗について

おさらいおさらい 1~4章：GAN基礎 5章：GANにおいて有⽤なアイデア(Wassetetein GANとか) 6章：Progressivee GAN 7 章の構成 7

書籍の流れを踏襲しつつ、適度に発表者の⾔葉で再解釈して解説していきます (´・ω・`)変なこと⾔ってたら遠慮なく突っ込んでください Chapt7.Semi-Supervised GAN - (半教師ありGAN) 

What is Semi- What is Semi- Supervised GAN ？ Supervised

⼤前提の共有⼤前提の共有 Machine Learning全般におけるカテゴライズとして、 1. 教師あり学習(Supervised Learning) 2. 教師なし学習(Unsupervised Learning)

Semi-Supervised GAN? Semi-Supervised GAN? Descriminatorを真贋判定の分類器ではなく、多クラス分類器にしたもの N+1クラスの分類を⾏う Nは訓練データに含まれるクラスの総数 1は偽画像 MNISTであればNは0〜9の10クラス

引⽤元：https://akiraaptx.blog/2019/02/21/semi-supervised-gan/ Chapt7.Semi-Supervised GAN - (半教師ありGAN) 

( ＾ω＾) 「これが分かるなら、たけのこときのこも分かるよな？」 (´・ω・`)「えぇ……(困惑)」引⽤元：https://www.pinterest.jp/pin/742038476089941428/ Chapt7.Semi-Supervised GAN - (半教師ありGAN) 

Semi-Supervised Semi-Supervised GAN の実装 GAN の実装主に7.2~7.3 Chapt7.Semi-Supervised GAN -

学習for ループは以下の順番学習for ループは以下の順番 1. Descriminator($D(x,y)$) 2. Descriminator（$D(x)$,$D(G(z))$） 3. Generator

性能⽐較性能⽐較書籍での数値⽐較は… 分類器 Test Accuracy 100sampleの分類器 70% SGANのD分類器 89%

⼺(ﾟ)(ﾟ) 「やるやんけSGAN！アノテーションツールなんかポイーで」 (´・ω・`) 「もちつけ」 Chapt7.Semi-Supervised GAN - (半教師ありGAN) 

性能⽐較性能⽐較⽐較のポイントは、「同じ数の教師データ(ラベルあり)で学習した、通常の教師あり分類器」と⽐較して精度が出るかどうか書籍での数値⽐較は… 分類器 Test Accuracy 100sampleの分類器 70%

ちなみにちなみに私の環境での実⾏結果(BatchNormはv1で) 分類器 Test Accuracy 100sampleの分類器 42.6% SGANのD分類器 89.2%

余録余録 tensorﬂow v2 のBatchNorm を使っ tensorﬂow v2 のBatchNorm を使っ

本書は原著の出版が2019年10⽉となっており、tensorﬂowの前提バージョンは1.0台となっている。 Google Colabのデフォルトは現在tensorﬂow2.0台となっており、マジックコマンド %tensorlow version 1.x を実⾏するか、明⽰的に 1.0台を

結論としては、v2のBatchNormは trainable is False なら training is False に分岐する(v1は分岐しない)というのがポイントこのあたりは次スライドの内容も含め、

じゃあDCGANの実装で trainable ってどうコントロールしてるの？と思いコードを⾒るここで⼀度よくわからなくなった明⽰的に trainable = False してるところがある

EOF EOF Chapt7.Semi-Supervised GAN - (半教師ありGAN)   