Upgrade to Pro — share decks privately, control downloads, hide ads and more …

敵対的学習による動画生成とドメイン適応

 敵対的学習による動画生成とドメイン適応

以下の講演で使用しました!
人工知能学会 第76回人工知能セミナー, 2018/8/27.

動画生成は文字通り、新規な動画を生成する試みです。まだまだ粗い/奇怪な動画を生成しがちです。
ドメイン適応は、実際に認識・識別させたい何か(ターゲットドメイン)を直接ラベル付けして学習させるデータを用意するのが困難な場合の処方箋の一つです。ラベルが付いているけど微妙にデータの性質が違うソースドメインで学習したモデルを、うまくターゲットドメインでも動くように何とかする技術です。

本講演では
【動画生成】…「時系列的な動き」とその「テクスチャ」に分けて生成するという考え方
【ドメイン適応】…ソースドメインとターゲットドメインの何らかの「ズレ」を無くすという考え方
これらが敵対的学習によって実現されていますよというお話をしました。

Yoshitaka Ushiku

August 27, 2018
Tweet

More Decks by Yoshitaka Ushiku

Other Decks in Research

Transcript

  1. 自己紹介 2014.4 博士(情報理工学)、東京大学 2014.4~2016.3 NTT CS研 研究員 2016.4~ 東京大学 講師

    (原田・牛久研究室) 2016.9~ 産業技術総合研究所 協力研究員 2016.12~ 国立国語研究所 共同研究員 2018.4~ オムロンサイニックエックス株式会社 技術アドバイザ(NEW!!) [Ushiku+, ACMMM 2012] [Ushiku+, ICCV 2015] 画像キャプション生成 主観的な感性表現を持つ 画像キャプション生成 動画の特定区間と キャプションの相互検索 [Yamaguchi+, ICCV 2017] A guy is skiing with no shirt on and yellow snow pants. A zebra standing in a field with a tree in the dirty background. [Shin+, BMVC 2016] A yellow train on the tracks near a train station.
  2. 教師データの用意は大変 • 例:画像のセマンティックセグメンテーション – Cityscapes [Cordts+, CVPR 2016] – マックスプランク+ダイムラー

    – 25000枚の画像を手で色塗り • シミュレーション環境での訓練 – ビデオゲームの利用 [Richter+, ECCV 2016] – 色塗りを自動で処理できる – 見た目にはかなり写実的 • 有望に見えるけど… ビデオゲームで訓練しても実世界は まったく認識できない!(後述)
  3. 講演内容2:GANによるドメイン適応 • 教師データ収集が困難→ドメイン適応を検討 – Source Domain: 教師データが大量に収集可能だが本来認識させたいデー タではない – Target

    Domain: 認識させたいデータだが教師データの収集が困難 • GANは◦◦生成の為だけにあるものではない – GAN(敵対的学習を含む)のコンテンツ生成以外の応用例 – 主にドメイン適応が題材 実世界の画像 +ドメイン適応 ラベル 推定 ビデオゲームで学習 ビデオゲームで学習
  4. 予測結果がぼやけないために • 正解画像と生成画像での画素値の差 – これだけだと生成画像がぼやける原因になる – L2でもL1でもぼやけるのは同じ • Gradient Difference

    Loss (GDL) – Gradient は画像の画素の勾配を指している – 勾配を正解/生成画像間で比較 – 他の損失関数と併用可能 正解画像のGradient 生成画像のGradient
  5. Temporal GAN (TGAN) [Saito+, ICCV 2017] VGANが奇妙な動きの動画を生成してしまうのは… • 「3D CNNを用いているせい」

    • 「画像の2次元空間と時間の1次元空間は性質が異なる」 Temporal GAN (TGAN) の提案 1. 潜在変数0 をサンプリング 2. 時系列方向の潜在変数1 1 … 1 を生成 3. 各潜在変数から各時刻のフレームを生成
  6. Singular Value Clipping (SVC) • TGANではベースにWGANを採用 – WGANはDiscriminatorにリプシッツ連続性を 仮定している K-リプシッツ連続性:任意の2点間の差がK以下

    – 重み行列の特異値がすべて1以下であれば 1-リプシッツ連続性が成立 • SVC:重み行列の特異値を用いたリプシッツ 連続性の保証 1. 毎回重み行列の更新後に特異値分解 2. 1より大きい特異値を1に変更 3. 変更された特異値で重み行列を再現
  7. Flow and Texture GAN (FTGAN) • VGANでは人間がゴーストのように動く – 動画の動き(Flow)とその見た目(Texture)を一緒に 生成する→複雑な生成モデルが要求される

    • Flow and Texture GAN (FTGAN) – 動き(Flow)とその見た目(Texture)を分離して生成 – 動きに特化したGANによってゴーストを解消 [Ohnishi+, AAAI 2017]
  8. Flow GAN+Texture GANによる階層的動画生成 • Flow GAN:VGANと同様 – ただしBackgroundは不要 • Texture

    GAN:U-Net[Ronneberger+, 2015] の利用 – Flowの輪郭を維持する効果を期待 – VGAN同様にマスク+背景も生成して統合
  9. Motion and Content decomposed GAN (MoCoGAN) TGANに近い思想のGenerator+2種のDiscriminator • Motionの乱数 1

    … を生成―RNN→潜在変数 • Contentの潜在変数 と合わせて各フレームを生成 • 共著者の一部は先の静止画生成GANでも共著者 [Tulyakov+, CVPR 2018]
  10. GANによる動画生成 まとめ • 種々の性質を分離した生成モデルが鍵 – 前景 vs. 背景 – 動作

    vs. 見た目 – 人に限れば姿勢モデルも有望 Everybody Dance Now [Chan+, 2018] • まだまだ萌芽的な試み – リアル動画との見分けが容易についてしまう – 再生時間も短い • モデルの複雑性 • メモリ容量などのハードウェア制約 – 評価ベンチマークも模索中の段階
  11. ドメイン適応 本講演:Unsupervised domain Adaptation • Source Domain: 教師付きデータ • Target

    Domain: 認識させたいデータだが教師データが全く無い • Target Domainの一部に教師データがある場合… 半教師付き学習との組合せ ビデオ ゲーム 実世界
  12. 共通するアプローチ • ドメインのズレを敵対的学習で克服する – 商品の背景 – 構図のバリエーション – 照明条件 –

    … • 物体は識別できるけど • どちらのドメインの画像かはわからない ような特徴量を抽出できればよい
  13. DDCのネットワークアーキテクチャ • Classification LossとDomain Lossの最適化 • Domain Loss: – Maximum

    Mean Discrepancy (MMD) – Classification Lossとの重みづけ 和を最適化 Source の 特徴量平均 Target の 特徴量平均
  14. Deep Adaptation Networks (DAN) • Multiple Kernel MMD (ML-MMD)によって ドメイン間の分布を重ねる

    • DDCに比べて – 複数のレイヤー で分布を重ねる – 線形の距離→ Multiple Kernelの利用 • Officeデータセット上でDDCを超える性能 [Long+, ICML 2015]
  15. Domain Adversarial Neural Networks (DANN) • Deep Adaptation Networks (DAN)

    と名前が紛らわしい • Domain Adversarial Neural Networks という名前はジャーナル版 [Ganin+, JMLR 2016] で登場 • GANと同様の思想で ドメインに依らない特徴量の抽出を敵対的学習 – GAN: サンプリングした潜在空間に基づく生成データ vs. 実際に存在するデータ – DANN: Source ドメインから抽出した特徴量 vs. Target ド メインから抽出した特徴量 [Ganin+Lempitsky, ICML 2015]
  16. 敵対的学習とその • ドメイン識別ロス をめぐる敵対的学習 – ドメイン識別をしたい は を最小化したい – ドメインに依らない特徴量を抽出したい

    は を最大化したい • 問題点: の勾配に対して – は勾配降下したい一方で は勾配上昇したい – と の接続関係から勾配を逆向きに進めない
  17. その他の機械学習へのGANの応用 通常のRNNによる系列生成モデル学習では… • 学習時:Teacher forcing – 入力は − 1番目までの 教師データ

    • テスト時:Free running – 入力は − 1番目までで 自身が推定したデータ テスト時の生成系列が学習時から外れだすと エラーが蓄積し続ける(Exposure Bias)
  18. GANによるドメイン適応 まとめ 本講演:Unsupervised domain Adaptation • Source Domain: 教師付きデータ •

    Target Domain: 認識させたいデータだが教師データが全く無い • ドメインのズレを敵対的学習で克服する共通の アプローチ ビデオ ゲーム 実世界