敵対的学習による動画生成とドメイン適応

敵対的学習による動画生成とドメイン適応東京大学大学院情報理工学系研究科牛久祥孝 losnuevetoros

自己紹介 2014.4 博士(情報理工学)、東京大学 2014.4～2016.3 NTT CS研研究員 2016.4～東京大学講師
(原田・牛久研究室) 2016.9～産業技術総合研究所協力研究員 2016.12～国立国語研究所共同研究員 2018.4～オムロンサイニックエックス株式会社技術アドバイザ（NEW!!） [Ushiku+, ACMMM 2012] [Ushiku+, ICCV 2015] 画像キャプション生成主観的な感性表現を持つ画像キャプション生成動画の特定区間とキャプションの相互検索 [Yamaguchi+, ICCV 2017] A guy is skiing with no shirt on and yellow snow pants. A zebra standing in a field with a tree in the dirty background. [Shin+, BMVC 2016] A yellow train on the tracks near a train station.

車載画像？実はGANで生成された画像 [Wang+, CVPR 2018]

車載画像？実はGANで生成された画像 →動画もきれいに生成できる？ [Wang+, CVPR 2018]

講演内容1：GANによる動画生成 • 萌芽的なタスクである動画生成GANの紹介 – 生成された結果の動画も紹介 • 各アーキテクチャに共通する狙いを概説

教師データの用意は大変 • 例：画像のセマンティックセグメンテーション – Cityscapes [Cordts+, CVPR 2016] – マックスプランク+ダイムラー
– 25000枚の画像を手で色塗り • シミュレーション環境での訓練 – ビデオゲームの利用 [Richter+, ECCV 2016] – 色塗りを自動で処理できる – 見た目にはかなり写実的 • 有望に見えるけど… ビデオゲームで訓練しても実世界はまったく認識できない！（後述）

講演内容2：GANによるドメイン適応 • 教師データ収集が困難→ドメイン適応を検討 – Source Domain: 教師データが大量に収集可能だが本来認識させたいデータではない – Target
Domain: 認識させたいデータだが教師データの収集が困難 • GANは◦◦生成の為だけにあるものではない – GAN(敵対的学習を含む)のコンテンツ生成以外の応用例 – 主にドメイン適応が題材実世界の画像 +ドメイン適応ラベル推定ビデオゲームで学習ビデオゲームで学習

GANによる動画生成

ラベルからの1024x2048画像生成綺麗な画像生成→綺麗な動画も生成可能？ [Wang+, CVPR 2018]

敵対的学習によるフレーム予測入力：直近のフレーム出力：その後のフレーム拡大しながら生成 [Mathieu+, ICLR 2016]

予測結果がぼやけないために • 正解画像と生成画像での画素値の差 – これだけだと生成画像がぼやける原因になる – L2でもL1でもぼやけるのは同じ • Gradient Difference
Loss (GDL) – Gradient は画像の画素の勾配を指している – 勾配を正解/生成画像間で比較 – 他の損失関数と併用可能正解画像のGradient 生成画像のGradient

予測結果がぼやけないために • Adversarial Loss Discriminator 生成されたか正解画像からサンプリングされたか • 最終的な損失関数 – 画素値の差
– Gradient Difference Loss – Adversarial Loss の線形和

Ablation Study GDL Adversarial L1 L2 提案手法

その他のフレーム予測結果枠無し：入力 → 赤枠：予測結果

GAN for Video (VGAN) [Vondrick+, NIPS 2016] ラベル無し動画データセットからシーンダイナミクスをモデリングしたい •
動画認識 • 予測を含む動画生成

マスクを用いた動画生成モデル前景と背景を別々に推定 • 背景は静止画像 • 前景とその位置を示すマスクを背景と融合 Discriminator はリアル/生成動画を識別 •
Generatorとともに3D CNNを利用

評価方法：動画特徴の教師なし学習 • 提案手法は動画のラベルを必要としない – 教師なしで動画特徴を学習しているとみなせる • 提案手法で学習された動画特徴を用いて動作認識用データセットで教師あり学習 – 他の教師なし動画特徴学習手法より高い精度

評価方法：生成した動画の主観評価特定のカテゴリにて動画生成モデルを学習→ 人手によって2手法間の優劣を評価 • 提案手法のバリエーションや自己回帰と比較 • 提案手法が最も高評価 • 時として実動画よりリアルと評価される場合もこのように高い評価の動画生成例が…

動画を生成した結果の例 Beach Golf Train Station Baby

Temporal GAN (TGAN) [Saito+, ICCV 2017] VGANが奇妙な動きの動画を生成してしまうのは… • 「3D CNNを用いているせい」
• 「画像の2次元空間と時間の1次元空間は性質が異なる」 Temporal GAN (TGAN) の提案 1. 潜在変数0 をサンプリング 2. 時系列方向の潜在変数1 1 … 1 を生成 3. 各潜在変数から各時刻のフレームを生成

Singular Value Clipping (SVC) • TGANではベースにWGANを採用 – WGANはDiscriminatorにリプシッツ連続性を仮定している K-リプシッツ連続性：任意の2点間の差がK以下
– 重み行列の特異値がすべて1以下であれば 1-リプシッツ連続性が成立 • SVC：重み行列の特異値を用いたリプシッツ連続性の保証 1. 毎回重み行列の更新後に特異値分解 2. 1より大きい特異値を1に変更 3. 変更された特異値で重み行列を再現

生成された動画の例

Flow and Texture GAN (FTGAN) • VGANでは人間がゴーストのように動く – 動画の動き(Flow)とその見た目(Texture)を一緒に生成する→複雑な生成モデルが要求される
• Flow and Texture GAN (FTGAN) – 動き(Flow)とその見た目(Texture)を分離して生成 – 動きに特化したGANによってゴーストを解消 [Ohnishi+, AAAI 2017]

Flow GAN+Texture GANによる階層的動画生成 • Flow GAN：VGANと同様 – ただしBackgroundは不要 • Texture
GAN：U-Net[Ronneberger+, 2015] の利用 – Flowの輪郭を維持する効果を期待 – VGAN同様にマスク+背景も生成して統合

評価方法：動画特徴の教師なし学習他の動画生成モデルの動画特徴と分離性能を比較 • VGANやTGANを上回る精度 • Two streamの教師あり動画分類とも比較：精度差が減少

生成された動画の例リアルFlowデータから生成した動画潜在変数から生成した動画リアルFlow 生成動画 Flow抽出元の動画生成Flow 生成動画

その他の動画生成比較例主観評価でもVGANを上回るリアルさを達成 VGANで生成した動画リアルFlowから生成潜在変数から生成提案手法で生成した動画

Motion and Content decomposed GAN (MoCoGAN) TGANに近い思想のGenerator+2種のDiscriminator • Motionの乱数 1
… を生成―RNN→潜在変数 • Contentの潜在変数と合わせて各フレームを生成 • 共著者の一部は先の静止画生成GANでも共著者 [Tulyakov+, CVPR 2018]

実験結果：表情と太極拳での主観評価 • 両データセットでVGANやTGANを上回る • 表情データセットでの動画生成例太極拳データセットでの例は次のページで掲載

その他の生成例 • 太極拳の動画データセット – 本論文で新規に収集 – 動きと人の見た目がある程度制限されている • その他：同じMotionでContentを変えた例

GANによる動画生成まとめ • 種々の性質を分離した生成モデルが鍵 – 前景 vs. 背景 – 動作
vs. 見た目 – 人に限れば姿勢モデルも有望 Everybody Dance Now [Chan+, 2018] • まだまだ萌芽的な試み – リアル動画との見分けが容易についてしまう – 再生時間も短い • モデルの複雑性 • メモリ容量などのハードウェア制約 – 評価ベンチマークも模索中の段階

GANによるドメイン適応

ドメイン適応本講演：Unsupervised domain Adaptation • Source Domain: 教師付きデータ • Target
Domain: 認識させたいデータだが教師データが全く無い • Target Domainの一部に教師データがある場合… 半教師付き学習との組合せビデオゲーム実世界

共通するアプローチ • ドメインのズレを敵対的学習で克服する – 商品の背景 – 構図のバリエーション – 照明条件 –
… • 物体は識別できるけど • どちらのドメインの画像かはわからないような特徴量を抽出できればよい

Deep Domain Confusion (DDC) • Sourceドメインの識別エラーを最小化 • ドメイン間の分布の重なりを最大化 [Tzeng+, arXiv
2014]

DDCのネットワークアーキテクチャ • Classification LossとDomain Lossの最適化 • Domain Loss: – Maximum
Mean Discrepancy (MMD) – Classification Lossとの重みづけ和を最適化 Source の特徴量平均 Target の特徴量平均

Office データセットによる実験 • 共通する商品かつ撮影条件の異なる3つのドメイン • 提案手法： Domain Confusionにより性能が大幅に向上

定性的な結果：特徴量の分布 Adaptation前同じ「モニター」でもドメイン(緑/青)によって分布が異なる

定性的な結果：特徴量の分布 Adaptation後ドメインによらず「モニター」の分布が一致！

Deep Adaptation Networks (DAN) • Multiple Kernel MMD (ML-MMD)によってドメイン間の分布を重ねる
• DDCに比べて – 複数のレイヤーで分布を重ねる – 線形の距離→ Multiple Kernelの利用 • Officeデータセット上でDDCを超える性能 [Long+, ICML 2015]

Domain Adversarial Neural Networks (DANN) • Deep Adaptation Networks (DAN)
と名前が紛らわしい • Domain Adversarial Neural Networks という名前はジャーナル版 [Ganin+, JMLR 2016] で登場 • GANと同様の思想でドメインに依らない特徴量の抽出を敵対的学習 – GAN: サンプリングした潜在空間に基づく生成データ vs. 実際に存在するデータ – DANN: Source ドメインから抽出した特徴量 vs. Target ドメインから抽出した特徴量 [Ganin+Lempitsky, ICML 2015]

DANNネットワークアーキテクチャ • ドメインに依らない特徴量を抽出したい • クラス識別をしたい • ドメイン識別をしたい

敵対的学習とその • ドメイン識別ロスをめぐる敵対的学習 – ドメイン識別をしたいはを最小化したい – ドメインに依らない特徴量を抽出したい
はを最大化したい • 問題点：の勾配に対して – は勾配降下したい一方では勾配上昇したい – との接続関係から勾配を逆向きに進めない

Gradient Reversal Layerの導入陽な関数の形では書けないけど、とにかく • 順伝搬の時は何もせず • 逆伝搬の時は勾配の符号を反転するレイヤーを導入する続く2モジュールで同時に降下/上昇できる

実験結果 • Office データセット • 文字データセット特徴量分布の変化 SYN NUMBERS(赤点) →SVHN(青点)
Adapt

Adversarial Discriminative Domain Adaptation DANNと同様にドメイン識別器を敵対的学習 [Tzeng+, CVPR 2017]

DANNに対する問題意識 • 共通のネットワークで 2つのドメインから特徴抽出するのは ✓パラメータ数を削減できるのが良い ×異なるドメインの特徴量抽出を同時にやるのは無理がある • Gradient
Reversal Layerは ✓GANの目的関数に忠実ではある ×学習初期に勾配を消失させることで Discriminatorの更新がとまりやすい

ADDAでは • それぞれのドメインで異なるCNNにより特徴量を抽出 Source ドメインのCNNはPre-trainingしておく • Gradient ReversalではなくGANで一般的な inverted
labelに対する損失を用いる（ :Target 特徴量 : ドメイン識別）

実験結果 Officeと文字データセットでState-of-the-art

Maximum Classifier Discrepancy (MCD) ここまでの手法はドメインを一致させようとしているが… • ドメイン全体の分布を一致させてもクラスごとの分布は一致しないのでは [Saito+,
CVPR 2018]

Maximum Classifier Discrepancy (MCD) ここまでの手法はドメインを一致させようとしているが… • ドメイン全体の分布を一致させてもクラスごとの分布は一致しないのでは •
ドメインの一致ではなくクラス識別面の一致では [Saito+, CVPR 2018]

Maximum Classifier Discrepancy (MCD) 0. Source(点線)とTarget(実線)で2クラス識別

Maximum Classifier Discrepancy (MCD) 1. 2クラス識別器を2つ用意する Sourceで訓練する識別面は・点線部分は横切らない・実線部分は横切るかもしれないこの斜線部分(Discrepancy
Region) をなくしたい

Maximum Classifier Discrepancy (MCD) 2. 出来るだけ多くのDiscrepancyをあぶりだす識別面のみ更新

Maximum Classifier Discrepancy (MCD) 3. Discrepancyが減るように特徴量を学習特徴量抽出のみ更新

Maximum Classifier Discrepancy (MCD) 収束するまで 2. と 3. を繰り返す

実験結果文字データセットでState-of-the-art

実験結果画像のセマンティックセグメンテーション

Adversarial Dropout Regularization (ADR) ここまでの手法はドメインを一致させようとしているが… • ドメイン全体の分布を一致させてもクラスごとの分布は一致しないのでは •
ドメインの一致ではなくクラス識別面の一致では [Saito+, ICLR 2018] …あれ、さっき聞いた気がするぞ？

実はMCDのDropoutによる改良版この2つの識別器を直接学習: MCD Dropoutで生成: 提案手法

学習はMCDと同様

実験結果文字データセットでState-of-the-art

実験結果画像のセマンティックセグメンテーション

その他の機械学習へのGANの応用通常のRNNによる系列生成モデル学習では… • 学習時：Teacher forcing – 入力は − 1番目までの教師データ
• テスト時：Free running – 入力は − 1番目までで自身が推定したデータテスト時の生成系列が学習時から外れだすとエラーが蓄積し続ける(Exposure Bias)

その他の機械学習へのGANの応用解決策：Professor Forcing [Goyal+, NIPS 2016] Teacher forcingかFree Runningかわからない状態変数を出すようにRNNを学習

GANによるドメイン適応まとめ本講演：Unsupervised domain Adaptation • Source Domain: 教師付きデータ •
Target Domain: 認識させたいデータだが教師データが全く無い • ドメインのズレを敵対的学習で克服する共通のアプローチビデオゲーム実世界

敵対的学習による動画生成とドメイン適応

敵対的学習による動画生成とドメイン適応

More Decks by Yoshitaka Ushiku

Other Decks in Research

Featured

Transcript