Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
[CV勉強会@関東 CVPR2023] Semi-supervised Parametric Real-world Image Harmonization 〜画像合成における色調調整〜
Search
yumash3
July 24, 2023
Research
1
380
[CV勉強会@関東 CVPR2023] Semi-supervised Parametric Real-world Image Harmonization 〜画像合成における色調調整〜
第59回 コンピュータビジョン勉強会@関東(前編)CVPR2023読み会の発表資料です。
yumash3
July 24, 2023
Tweet
Share
Other Decks in Research
See All in Research
HP (Hitto Point: 筆頭ポイント)
tanichu
0
900
AIを前提とした体験の実現に向けて/toward_ai_based_experiences
monochromegane
1
430
Introduction of NII S. Koyama's Lab (AY2024)
skoyamalab
0
330
[第55回 NLPコロキウム] コンピュータビジョン分野での評価設計と分析の研究について
otani_mayu
0
120
ランサーズエージェント_フリーランスエンジニアの年収・キャリアの実態調査2024
lancers_pr
0
310
-SSII技術マップを通して見る過去・現在,そして未来-
hf149
1
490
新入生向けチュートリアル:文献のサーベイv2
a1da4
9
7.8k
LayerXにおけるAI・機械学習技術の活用と展望 / layerx-ai-jsai2024
shimacos
2
2.5k
SSII2024 [PD] 30周年記念特別企画SSII 技術マップ / LLMサーベイ
ssii
PRO
0
630
CARA MEMBUKA VIDEO DEWASA DI INDONESIA
bloglangit
0
320
SSII2024 [OS1] 現場の課題を解決する ロボットラーニング
ssii
PRO
0
420
自動運転・AIシステムの問題を賢く探す・賢く直す / Smart Search & Repair Techniques for Automated Driving Systems and AI Systems
ishikawafyu
0
130
Featured
See All Featured
Happy Clients
brianwarren
94
6.5k
[RailsConf 2023 Opening Keynote] The Magic of Rails
eileencodes
17
8.7k
YesSQL, Process and Tooling at Scale
rocio
166
14k
How GitHub (no longer) Works
holman
305
140k
Making the Leap to Tech Lead
cromwellryan
127
8.7k
Designing for Performance
lara
604
67k
Creating an realtime collaboration tool: Agile Flush - .NET Oxford
marcduiker
16
1.6k
Fantastic passwords and where to find them - at NoRuKo
philnash
42
2.7k
JavaScript: Past, Present, and Future - NDC Porto 2020
reverentgeek
44
4.7k
Code Review Best Practice
trishagee
58
16k
Learning to Love Humans: Emotional Interface Design
aarron
269
39k
Keith and Marios Guide to Fast Websites
keithpitt
408
22k
Transcript
1 Semi-supervised Parametric Real-world Image Harmonization 〜画像合成における色調調整〜 第59回 コンピュータビジョン勉強会@関東(前編)CVPR2023読み会 2023年7月12日
yumash3 / 篠原 祐真
2 自己紹介 • 篠原 祐真 (しのはら ゆうま) ◦ 筋トレが好き •
今まで ◦ 画像認識のリサーチエンジニア→TechLead→PrM ◦ 自動車業界が主 • 現在 ◦ (株) サイバーエージェント 所属 ◦ 広告映像制作のために、CV&CGの技術側から事業アシスト (PdM | エンジニア) 2 バーチャル撮影の様子 Twitter: @yumash3
3 本日の論文 3
4 画像合成における Image Harmonization の位置づけ 画像合成のサブタスクと関連研究 4
5 画像合成における Image Harmonization の位置づけ (拡大) 画像合成のサブタスクと関連研究 5
6 画像合成における Image Harmonization の位置づけ (拡大) 画像合成のサブタスクと関連研究 6
7 改めて本日の論文 一言で表すと、 Image harmonizationタスクにおいて、実世界の合成画像を用いる半教師あり学習で実用精 度を高めつつ、新しいパラメトリックモデルで高解像度画像に対しても計算効率の高い手法 を提案。 7
8 解きたいタスク • 画像合成で前景の色調 (明度と彩度) を背景に合わせたい ◦ 入力: 前景画像、前景のマスク画像、新背景画像 ◦
出力: 色調調整済み合成画像 Image Harmonization Images from supplementals of the paper 8
9 応用先(解けると何が嬉しい?) • 画像合成の後処理の簡易化 • 映像制作における後処理の簡易化 ◦ 具体的には、ポストプロダクションにおけるコンポジットの色調調整の工数削減 Images from
“VFX Breakdown - Dynamo Dream Teaser” https://youtu.be/FFJ_THGj72U?t=39 ※撮影時のライティングは、合成後のイメージに合わせる必要がある ※影の追加はimage harmonizationのタスクではない 9
10 従来の課題 • 後処理としてアーティストが調整を加えたいケースが多いが、DNNで一発処理だと後 調整ができない • 高解像度 (e.g. 4K) に対応していない
◦ 計算効率が原因 ◦ DNNベースだと入力解像度256x256辺りが多かった • ローカルな色調調整に対応していない ◦ 例:前景(人)の顔部分だけ少し明るくしたい • 既存データセットは合成データが多いため、現実データとのドメインギャップが発生 し、実用的な精度が出ない 10
11 従来の課題に対する本論の回答 • 後処理としてアーティストが調整を加えたいケースが多いが、DNNで一発処理だと後 調整ができない ◦ パラメトリックなRGBカーブとシェーディングマップでharmonization処理を行う。後処理で 各パラメータをアーティストが変更可能して調整可能。 • 高解像度に対応していない
◦ RGBカーブとシェーディングマップで処理するので計算効率が良く、任意の解像度に対応 ◦ 512×512 入力に対して、377 ms @Apple M1 CPU, 48.6 ms @NVIDIA A100 GPU • ローカルな色調調整に対応していない ◦ シェーディングマップでローカルな調整に対応 • 既存データセットは合成データが多いため、現実データとのドメインギャップが発生 し、実用的ではない ◦ 半教師あり学習を利用して、教師データのない現実データに対しても学習してドメイン ギャップを軽減し、実用精度を高めた 11
12 RGBカーブとは • 別名: RGB別トーンカーブ • 画像補正機能の一つで、画像全体の色調やカラーを調整することが可能 • 横軸に入力の輝度値、縦軸に出力の輝度値を取り、カーブを変形させることで色調を調整することが可能 Adobe
Premiere Pro のRGBカーブ Images from https://helpx.adobe.com/jp/premiere-pro/using/adjust-color-rgb-hsl-curves.html 12
13 シェーディングマップとは • 前景内の明るさの強弱を表す2Dマップ • RGBカーブはグローバルな調整、シェーディングマップはローカルな調整を担当 • 入力情報が与えられたときに、RGBカーブのパラメータとシェーディングマップを推論する 合成後の画像 ※シェーディングマップの上にRGBカーブを
重ねて表示 Images from the paper 13
14 RGBカーブとシェーディングマップの推論方法 ① 512x512 に縮小 ② ResNet-50 で カーブを表す32点を 推論
③ U-NetベースのNNsで シェーディング マップを推論 Images from the paper 14
15 学習方法: Dual-stream semi-supervised • 各イテレーションで、2つの異なるデータソース・誤差関数で学習する ◦ “our model”: 前ページのResNet-50
+ U-Net based model Images from the paper 15
16 Dual-stream semi-supervised: Stream 1 • アーティストがレタッチした合成画像を教師として、教師あり学習 ◦ レタッチ画像は46,173枚 ◦
合成後の前景部分に関してL1誤差と、GANのdiscriminator誤差を使う ▪ Discriminator のネットワーク構造は U-Net 16
17 Dual-stream semi-supervised: Stream 2 • 教師なしの敵対的学習 ◦ 前景をインペインティング (LaMa)
で消し、新しい前景に置き換える ◦ 異なる照明環境で撮影された背景と前景を合成することになるので、実問題の設定に近い合 成の組み合わせで学習を行える ◦ RGBカーブ&シェーディングマップでharmonizeすることが強い制約となり、不安定な敵対的 学習を成功させている 17
18 定性結果 Image from the paper 18
19 定性結果 Image from the paper 19
20 定量結果 • 定量的にも従来研究を上回る精度 ◦ 実用的には、この定量的数値よりも、後処理のやりやすさや対応解像度の方が重要視される ケースが多い印象 Image from the
paper 20
21 まとめ • 画像合成における Image harmonization の研究 • RGBカーブ&シェーディングマップでharmonizationを行う ◦
アーティストが後調整を可能になる ◦ 計算効率が良く、任意の解像度を入力に受け取れる • 実世界の合成画像を用いるdual-stream semi-supervisedで実用精度を高めた ◦ アーティストによるリタッチ画像を使う教師あり学習 ◦ 実世界問題を意識した前景・背景ペアを敵対的学習枠組みの教師なし学習 ◦ 全体としてsemi-supervised (半教師あり) 学習 21
22 感想 • 昨年あたりから、white-box処理でアーティストが追加調整できる手法が増加 ◦ Harmonizer [Ke+, ECCV22] など ◦
制作業務で使いたい場合には、合成画像・映像ごとに欲しいGTが異なるので、自然な流れ ◦ そういう意味では、よりメタな指示をアーティストから受け取れるようにする流れもあるかも ▪ 数枚のガイド画像を与えて、「こんな色味・世界観で合成して」 ▪ visual prompting 的な入力・UI/UX • 対応できる処理は今後増えそう ◦ Image harmonization だけでなく、relighting (陰影表現の調整) の対応など • シェーディングマップをセマセグ的に拡張して、意味的なローカル調整もありそう • しばらくすると Adobe 製品に追加されるかも 22