コンピュータグラフィックスにおける深層学習の応用

Slide 1

Slide 1 text

コンピュータグラフィックスにおける深層学習の応用筑波大学システム情報系金森由博 ([email protected]) 1

Slide 2

Slide 2 text

自己紹介 • 学生時代からコンピュータグラフィクス (CG) の研究に従事 • 学生時代 (～2009): (リアルタイム) 3DCG • 筑波大着任後 (2009～): 画像を入力とした CG • スイスに留学 (2014～2016): 手描きアニメ制作支援 • 研究テーマ • 写実的 CG、画像処理、コンピュータビジョン、制作支援、深層学習 (deep learning) 2

Slide 3

Slide 3 text

計算幾何学とグラフィックス研究室 • 三谷純教授 • 計算折り紙・曲面折り紙で有名 • 遠藤結城助教 (現: 豊橋技科大) • 元教え子、前職は NTT 研究員 • 深層学習が得意 → 金森にとっての師 3

Slide 4

Slide 4 text

想定する前提知識 • 深層学習についての教科書や解説記事に書いてある程度の知識 • 例えば以下の詳しい説明はしません • 畳み込みニューラルネットワーク (CNN) • 敵対的生成ネットワーク (GAN) 4

Slide 5

Slide 5 text

CG と深層学習 (DEEP LEARNING) • 2016 年頃から流行？トップ国際会議 SIGGRAPH のタイトルWord Cloud 5

Slide 6

Slide 6 text

CG と深層学習 (DEEP LEARNING) • 2016 年頃から流行？トップ国際会議 SIGGRAPH のタイトルWord Cloud 6

Slide 7

Slide 7 text

CG と深層学習 (DEEP LEARNING) • 2018 年の様子トップ国際会議 SIGGRAPH のタイトルWord Cloud 7

Slide 8

Slide 8 text

CG と深層学習 (DEEP LEARNING) • CG コミュニティの (一部の？) 反応 • 「一時のブームに過ぎない」 • 「ブラックボックスで信用できない」 • 既視感あり … GPGPU の登場時 • 「GPGPU なんて倍精度計算が使えない」 • 「CPU だって最適化すれば同等の速度」 → GPGPU は広く普及、GPU の使用はもはや普通 • やはり深層学習もツールとして広く普及 • 論文タイトルで深層学習に言及しないくらい普通 8

Slide 9

Slide 9 text

CG と他分野との違い (私見) • 例: コンピュータビジョン (CV) との違い • CV 分野 • 目標: 物理世界から正確な情報を取り出す • 同じ問題を新しい方法で解く…引用多、手法重視 • CG 分野 • 目標: とにかく美しい絵を作る • 新しい問題を解く…引用少、見栄え重視 (大変…) 画期的な手法 + イマイチな画像 → 微妙… 9 単純な手法 + 見栄えする画像 → 採択

Slide 10

Slide 10 text

余談: なぜ見栄えにこだわる？ • 映像産業が「美しい絵作り」を求める • トップ会議 SIGGRAPH は CG の祭典 • 技術だけでなく産業界やアートの展示も • 学会発表が「ショー」、エンタメとしての側面 10

Slide 11

Slide 11 text

CG と他分野との違い (私見) • 例: コンピュータビジョン (CV) との違い • CV 分野 • 目標: 物理世界から正確な情報を取り出す • 同じ問題を新しい方法で解く…引用多、手法重視 • CG 分野 • 目標: とにかく美しい絵を作る • 新しい問題を解く…引用少、見栄え重視 (大変…) 画期的な手法 + イマイチな画像 → 微妙… 11 単純な手法 + 見栄えする画像 → 採択

Slide 12

Slide 12 text

「深層学習」＋「絵を作る」と言えば？ • 敵対的生成ネットワーク (GAN) を使う？ • 例: 最近 NVIDIA が公開して話題になった StyleGAN 12 A Style-Based Generator Architecture for Generative Adversarial Networks, arXiv 2019

Slide 13

Slide 13 text

CG 分野での GAN の利用状況 • 教師なし (i.e., ノイズからの) 画像生成では画質が不十分 • CG 分野のドメイン知識が (少なくとも今は) 必須 ⇔ 機械学習系での貢献は「ドメイン知識不要」技術 • GAN の利用事例 (CG 分野に限らず？) • 画像など補助情報の入力 (conditional GAN) はほぼ必須 • 明確に定義しづらい「それらしさ」の再現 • 入力・出力の位置が揃った問題 (超解像、顔画像など) • 「学習が難しい」「再現できない」の声 13

Slide 14

Slide 14 text

参考: CONDITIONAL GAN (cGAN) • “pix2pix”: 画素ごとに入力画像で条件付け 14 Image-to-Image Translation with Conditional Adversarial Networks, CVPR 2017 (引用 1940!)

Slide 15

Slide 15 text

GAN の利用事例 (1/5) • ラフなスケッチ入力からの地形編集 • cGAN を素直に使った例 … テーマ設定の妙 15 Interactive Example Based Terrain Authoring with Conditional Adversarial Networks, SIGGRAPH Asia 2017

Slide 16

Slide 16 text

GAN の利用事例 (2/5) • 煙の物理シミュレーションの超解像 • 時間的一貫性も考慮 16 tempoGAN: A Temporally Coherent, Volumetric GAN for Super-resolution Fluid Flow, SIGGRAPH 2018

Slide 17

Slide 17 text

GAN の利用事例 (3/5) • 画像の欠損部分を「それらしく」補完 • 画像中にサンプルがなくても補完可能 (例: 顔の欠損) 17 Globally and Locally Consistent Image Completion, SIGGRAPH 2017

Slide 18

Slide 18 text

GAN の利用事例 (4/5) • さらに顔に特化＋輪郭線のスケッチ入力 18 FaceShop: Deep Sketch-based Face Image Editing, SIGGRAPH Asia 2018

Slide 19

Slide 19 text

GAN の利用事例 (5/5) • 「それらしい」ドット絵生成 • 入力・正解ペアが不要な CycleGAN がベース 19 Deep Unsupervised Pixelization, SIGGRAPH Asia 2018

Slide 20

Slide 20 text

「再現できない (?)」事例 20

Slide 21

Slide 21 text

「再現できない (?)」事例 21 論文に掲載の結果画像

Slide 22

Slide 22 text

CG 分野での深層学習の利用スタンス • 「汎用近似関数だが限界あり」 • あくまで「補間」、学習データの数は有限 • 使い所を見定め、美しい絵作りに利用 • 例 1: 初期解として利用し、その後に洗練 • 例 2: 既存の処理パイプラインの一部の置き換え • 例 3: 部分問題に分解し、解の探索空間を狭める • 絵作りのためには泥臭い後処理も辞さない • 「end-to-end ではない」 • どこまで使えるか模索している最中 22

Slide 23

Slide 23 text

ネットワークアーキテクチャ • 画期的なネットワークの提案は見かけない • U-Net (+ Residual block) やその亜種が多い • 使いどころ・loss 関数の設計が肝 23 U-Net Residual block

Slide 24

Slide 24 text

使いどころの具体例 • 初期解として利用 • 髪の概形ボリュームをボクセルで生成→毛髪生成 • 線画の色塗りを 2 段階に • パイプラインの置き換え • 複雑＆計算の重いグラフィクスパイプラインの置換 • 部分問題に分解して探索空間を狭める • 我々の研究 24

Slide 25

Slide 25 text

初期解として利用 • 入力画像から髪の概形ボリュームを生成 • 後処理でボリューム内に毛髪を生成 25 3D Hair Synthesis Using Volumetric Variational Autoencoders, SIGGRAPH Asia 2018 入力画像髪の概形生成した 3D 髪型入力画像髪の概形生成した 3D 髪型

Slide 26

Slide 26 text

初期解として利用 • ユーザが 2 段階で入力して線画を色塗り • 既存手法でもユーザ入力 1 回だけでは失敗しがち • 1 段階 (ドラフト) と 2 段階 (洗練) で別モデルを訓練 26 Two-stage Sketch Colorization, SIGGRAPH Asia 2018

Slide 27

Slide 27 text

余談: 線画の (半自動) 色塗り 27

Slide 28

Slide 28 text

余談: 線画の (半自動) 色塗り 28

Slide 29

Slide 29 text

余談: 線画の (半自動) 色塗り 29

Slide 30

Slide 30 text

余談: 線画の (半自動) 色塗り • CLIP STUDIO PAINT の全自動彩色 30

Slide 31

Slide 31 text

グラフィクスパイプラインの置換 • Deferred shading の中間出力を入力とし複雑なレンダリング処理を近似 31 Deep Shading: Convolutional Neural Networks for Screen Space Shading, EGSR 2017

Slide 32

Slide 32 text

参考: DEFERRED SHADING とは？ • 「遅延シェーディング」 • 陰影計算が重い場合「陰影→可視判定」では非効率 • 先に可視面を特定し陰影計算…「可視判定→陰影」 • 元のアイディアは日本人の考えた “G-buffer” (1990) 32 Comprehensible rendering of 3-D shapes, SIGGRAPH 1990

Slide 33

Slide 33 text

結果の例 33 Deep Shading: Convolutional Neural Networks for Screen Space Shading, EGSR 2017

Slide 34

Slide 34 text

雲の多重散乱の近似 • 雲の写実的描画には、雲内部の微粒子による多重散乱の考慮が必要 … 高負荷 • 光が何度も散乱される現象をシミュレート • 多重散乱をニューラルネットで近似 34 Deep Scattering: Rendering Atmospheric Clouds with Radiance-Predicting Neural Networks, SIGGRAPH 2017

Slide 35

Slide 35 text

雲の多重散乱の近似 35 Deep Scattering: Rendering Atmospheric Clouds with Radiance-Predicting Neural Networks, SIGGRAPH 2017

Slide 36

Slide 36 text

我々の研究紹介 • ユーザの画像編集操作の自動伝播 (Eurographics 2016) • 一枚の LDR 画像からの HDR 復元 (SIGGARPH Asia 2017) • 一枚の人物画像の再照明 (SIGGRAPH Asia 2018) • 一枚の景観画像からの動画生成 (Under review) 36

Slide 37

Slide 37 text

我々の研究紹介 • ユーザの画像編集操作の自動伝播 (Eurographics 2016) • 一枚の LDR 画像からの HDR 復元 (SIGGARPH Asia 2017) • 一枚の人物画像の再照明 (SIGGRAPH Asia 2018) • 一枚の景観画像からの動画生成 (Under review) 37

Slide 38

Slide 38 text

ユーザの画像編集操作の自動伝播 • 例: カラー画像の色の編集 38 DeepProp: Extracting Deep Features from a Single Image for Edit Propagation, Eurographics 2016 オレンジ色に青色にそのままの色に入力画像とユーザ入力 (スクリブル) 色の編集結果

Slide 39

Slide 39 text

編集の伝播 → 画素の分類問題 • ユーザ入力に基づいて画素を分類する写像 f を求める 39 : → - Class “orange” - Class “blue” - Class “unchanged” Color Coordinate (200, 20) Texture 画像特徴量分類クラス

Slide 40

Slide 40 text

既存手法 (深層学習なし) の問題点 • 特徴量選択は手動調整、失敗が多い 40 色特徴のみ使用色と座標の重みを同等に [Li+10] 意図しない色色にじみ色、座標、テクスチャの重みを変えて試行錯誤 [Xu+13] 伝播に不具合

Slide 41

Slide 41 text

提案手法 (DeepProp) • 編集伝播に初めて深層学習を適用 • 特徴量選択は自動 • 事前学習なし、入力画像とユーザ入力のみから学習 41 入力画像＆ユーザ入力学習＆推定 DNN 出力画像

Slide 42

Slide 42 text

既存手法との比較・二値マスク抽出 42 入力正解 [Li+10] [Xu+13] 提案手法

Slide 43

Slide 43 text

既存手法との比較・色の編集 43 入力提案手法 [Xu+13] [Li+10] 色と座標を同じ重みにテクスチャ特徴を追加

Slide 44

Slide 44 text

既存手法との比較・白黒画像への着色 44 入力提案手法 [Xu+13] [Li+10] 色、座標、テクスチャの重みを試行錯誤

Slide 45

Slide 45 text

後続の研究: 白黒画像の全自動彩色 45 Let there be Color!: Joint End-to-end Learning of Global and Local Image Priors for Automatic Image Colorization with Simultaneous Classiﬁcation, SIGGRAPH 2016

Slide 46

Slide 46 text

後続の研究: 白黒画像の半自動彩色 • ユーザ入力を考慮した半自動彩色 • ユーザの好みに応じて色付けできる 46 Real-Time User-Guided Image Colorization with Learned Deep Priors, SIGGRAPH 2017 入力画像ユーザ入力出力例 1 出力例 2 出力例 3

Slide 47

Slide 47 text

我々の研究紹介 • ユーザの画像編集操作の自動伝播 (Eurographics 2016) • 一枚の LDR 画像からの HDR 復元 (SIGGARPH Asia 2017) • 一枚の人物画像の再照明 (SIGGRAPH Asia 2018) • 一枚の景観画像からの動画生成 (Under review) 47

Slide 48

Slide 48 text

一枚の LDR 画像からの HDR 復元 • HDR 復元の問題に初めて深層学習を適用 48 Deep Reverse Tone Mapping, SIGGRAPH Asia 2017 LDR HDR (Tone mapped)

Slide 49

Slide 49 text

LDR 画像の問題点 • 記録できる光量の幅が狭い (8 bit) /2 カメラの露光量 LDR LDR LDR 白飛び黒つぶれ

Slide 50

Slide 50 text

HDR 画像 • 記録できる光量の幅が広い (16 or 32 bit) HDR (Tone mapped) /2 カメラの露光量ただし従来は… • 露光量を変えて複数枚撮影して合成 • 特殊な機材で撮影

Slide 51

Slide 51 text

LDR

Slide 52

Slide 52 text

LDR 露光不足の画素を赤・マゼンタで可視化赤: 3 チャンネルともゼロマゼンタ: 3 チャンネルのうち少なくとも 1 つがゼロ

Slide 53

Slide 53 text

LDR Adobe Photoshop を使って無理矢理明るくした結果

Slide 54

Slide 54 text

Our HDR (tone mapped)

Slide 55

Slide 55 text

最初に試した方法 • “pix2pix” (cGAN) ならできるのでは？ • 試しに訓練・正解画像 1 枚で実験 • うまく復元できず… • 8 ビットの入力のバリエーションに対して 32 ビットの出力のバリエーションが広すぎる？ 55 Encoder Decoder 畳み込みニューラルネット 8 ビット LDR 画像 32 ビット HDR 画像

Slide 56

Slide 56 text

提案手法のキーアイディア • 推定対象のバリエーションを減らす 1. 直接 HDR 画像を推定せず、露光量を変えた複数枚の LDR 画像を推定 2. 複数枚の LDR 画像から既存手法で HDR 復元 56 Encoder Decoder Fully CNN LDR LDR LDR [Devebec+97] [Mertens+07] etc. HDR (Tone mapped)

Slide 57

Slide 57 text

既存手法との比較 57 [Akyüz+07] [Huo+14] [Kovaleski+14] [Masia+15] Ours Input LDR

Slide 58

Slide 58 text

既存手法との比較 58 [Akyüz+07] [Huo+14] [Kovaleski+14] [Masia+15] Ours Input LDR Saturated

Slide 59

Slide 59 text

同時発表の研究 • SIGGRAPH Asia 2017 で我々の直前に発表 • 我々の査読者のコメントの内容と酷似… • 暗い領域は放置、小さな明るい領域に特化 59

Slide 60

Slide 60 text

同時発表の研究・比較 • 明るい画素の扱いでは負ける 60 Ours [Eilertsen+17] Input LDR (-3 stops)

Slide 61

Slide 61 text

同時発表の研究・比較 • 空の復元では我々の方が良好？ 61 Ours [Eilertsen+17] Saturated Input LDR

Slide 62

Slide 62 text

我々の研究紹介 • ユーザの画像編集操作の自動伝播 (Eurographics 2016) • 一枚の LDR 画像からの HDR 復元 (SIGGARPH Asia 2017) • 一枚の人物画像の再照明 (SIGGRAPH Asia 2018) • 一枚の景観画像からの動画生成 (Under review) 62

Slide 63

Slide 63 text

一枚の人物画像の再照明 • 再照明 (relighting) • ある照明環境下で撮影された対象物が異なる照明環境下でどう見えるかを再現する技術 • 人物画像の再照明 • 様々な応用あり 63 Relighting Humans: Occlusion-Aware Inverse Rendering for Full-Body Human Images, SIGGRAPH Asia 2018 ポートレートの陰影付け [Chai+ 2015] 人物画像の切り貼り合成 [Xue+ 2012]

Slide 64

Slide 64 text

一枚の人物画像の再照明 • 人物の全身画像を対象とした初の手法 64 人物画像 (+ マスク) 再計算 (色なし) 再計算 (色あり) 光源

Slide 65

Slide 65 text

一枚の人物画像の再照明 • 画像から形状・反射率・光源の推定が必要 (逆レンダリング) 65 人物画像 (+ マスク) 光伝達マップ反射率マップ光源

Slide 66

Slide 66 text

既存手法の問題点 • 人物を対象にした手法 • 主に顔領域のみを対象 • 顔は凸形状だと近似 • 一般物体対象の手法 • 凹みで光が遮られる現象を無視 or 粗く近似 66 [Sengupta+ 2018] [Tewari+ 2017] [Barron and Malik 2015] [Innamorati+ 2017]

Slide 67

Slide 67 text

光の遮蔽の定式化の違い • 顔画像の手法 • 凸形状なので遮蔽を無視 • 遮蔽を粗く近似 • 凹んでいたら一様に暗く • 提案手法 • どの方向が遮蔽されるかまで考慮 67 光光光光光物体表面の凹み • 本来なら遮られる光が届く • 顔ならほぼ凸なので OK • 凹み (例: 脇・股・服のしわ) が不自然に明るくなる • 遮られるはずの光が届く • 凹みは常に暗くなり不自然 • 遮られる光は届かなくなる • 凹みは暗くも明るくもなる

Slide 68

Slide 68 text

本研究のもう一つの貢献 • 人物 3D モデルを使ったデータセット • 主に市販の 3D スキャンデータを描画して作成 68 反射率マスク法線光伝達反射率マスク法線光伝達

Slide 69

Slide 69 text

既存手法との比較 69 遮蔽無視一様に暗く提案手法正解入力

Slide 70

Slide 70 text

既存手法との比較 70 遮蔽無視一様に暗く提案手法正解入力 ×レリーフのように平坦

Slide 71

Slide 71 text

既存手法との比較 71 遮蔽無視一様に暗く提案手法正解入力 ×不自然に暗い

Slide 72

Slide 72 text

既存手法との比較 72 遮蔽無視一様に暗く提案手法正解入力一番正解に近い

Slide 73

Slide 73 text

再照明アニメーション 73

Slide 74

Slide 74 text

我々の研究紹介 • ユーザの画像編集操作の自動伝播 (Eurographics 2016) • 一枚の LDR 画像からの HDR 復元 (SIGGARPH Asia 2017) • 一枚の人物画像の再照明 (SIGGRAPH Asia 2018) • 一枚の景観画像からの動画生成 (Under review) … 非公開 74

Slide 75

Slide 75 text

まとめ: CG 分野での利用スタンス • 「汎用近似関数だが限界あり」 • あくまで「補間」、学習データの数は有限 • 使い所を見定め、美しい絵作りに利用 • 例 1: 初期解として利用し、その後に洗練 • 例 2: 既存の処理パイプラインの一部の置き換え • 例 3: 部分問題に分解し、解の探索空間を狭める • 絵作りのためには泥臭い後処理も辞さない • どこまで使えるか模索している最中 75

Slide 76

Slide 76 text

CG と深層学習の今後についての雑感 • CG 分野でも今後も使われる強力な道具 • 一過性のブームではない、学ばないと取り残される • 新しい CG 技術を開拓できる余地が大きい • 成熟した分野の閉塞感を打破、新規参入者に好機 • … CG 分野の存在感が薄れつつある • 機械学習やコンピュータビジョンのインパクト大 • 国際的競争のために教育が急務 • 日本では卒研配属後に独習、海外では授業で演習 • 資金が必要 … 研究・教育の環境整備 76