Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
[CV勉強会@関東 CVPR2023] Semi-supervised Parametric ...
Search
yumash3
July 24, 2023
Research
1
530
[CV勉強会@関東 CVPR2023] Semi-supervised Parametric Real-world Image Harmonization 〜画像合成における色調調整〜
第59回 コンピュータビジョン勉強会@関東(前編)CVPR2023読み会の発表資料です。
yumash3
July 24, 2023
Tweet
Share
Other Decks in Research
See All in Research
AIスパコン「さくらONE」のLLM学習ベンチマークによる性能評価 / SAKURAONE LLM Training Benchmarking
yuukit
0
350
Learning to (Learn at Test Time): RNNs with Expressive Hidden States
kurita
0
170
2025年度人工知能学会全国大会チュートリアル講演「深層基盤モデルの数理」
taiji_suzuki
25
18k
EarthSynth: Generating Informative Earth Observation with Diffusion Models
satai
3
270
単施設でできる臨床研究の考え方
shuntaros
0
2.7k
IMC の細かすぎる話 2025
smly
2
630
Towards a More Efficient Reasoning LLM: AIMO2 Solution Summary and Introduction to Fast-Math Models
analokmaus
2
800
[論文紹介] Intuitive Fine-Tuning
ryou0634
0
110
Creation and environmental applications of 15-year daily inundation and vegetation maps for Siberia by integrating satellite and meteorological datasets
satai
3
280
引力・斥力を制御可能なランダム部分集合の確率分布
wasyro
0
240
When Submarine Cables Go Dark: Examining the Web Services Resilience Amid Global Internet Disruptions
irvin
0
300
AI エージェントを活用した研究再現性の自動定量評価 / scisci2025
upura
1
150
Featured
See All Featured
[Rails World 2023 - Day 1 Closing Keynote] - The Magic of Rails
eileencodes
36
2.5k
A Modern Web Designer's Workflow
chriscoyier
696
190k
Typedesign – Prime Four
hannesfritz
42
2.8k
CoffeeScript is Beautiful & I Never Want to Write Plain JavaScript Again
sstephenson
162
15k
GraphQLとの向き合い方2022年版
quramy
49
14k
Faster Mobile Websites
deanohume
309
31k
Fight the Zombie Pattern Library - RWD Summit 2016
marcelosomers
234
17k
Statistics for Hackers
jakevdp
799
220k
GraphQLの誤解/rethinking-graphql
sonatard
72
11k
Making the Leap to Tech Lead
cromwellryan
135
9.5k
Code Review Best Practice
trishagee
71
19k
The Pragmatic Product Professional
lauravandoore
36
6.9k
Transcript
1 Semi-supervised Parametric Real-world Image Harmonization 〜画像合成における色調調整〜 第59回 コンピュータビジョン勉強会@関東(前編)CVPR2023読み会 2023年7月12日
yumash3 / 篠原 祐真
2 自己紹介 • 篠原 祐真 (しのはら ゆうま) ◦ 筋トレが好き •
今まで ◦ 画像認識のリサーチエンジニア→TechLead→PrM ◦ 自動車業界が主 • 現在 ◦ (株) サイバーエージェント 所属 ◦ 広告映像制作のために、CV&CGの技術側から事業アシスト (PdM | エンジニア) 2 バーチャル撮影の様子 Twitter: @yumash3
3 本日の論文 3
4 画像合成における Image Harmonization の位置づけ 画像合成のサブタスクと関連研究 4
5 画像合成における Image Harmonization の位置づけ (拡大) 画像合成のサブタスクと関連研究 5
6 画像合成における Image Harmonization の位置づけ (拡大) 画像合成のサブタスクと関連研究 6
7 改めて本日の論文 一言で表すと、 Image harmonizationタスクにおいて、実世界の合成画像を用いる半教師あり学習で実用精 度を高めつつ、新しいパラメトリックモデルで高解像度画像に対しても計算効率の高い手法 を提案。 7
8 解きたいタスク • 画像合成で前景の色調 (明度と彩度) を背景に合わせたい ◦ 入力: 前景画像、前景のマスク画像、新背景画像 ◦
出力: 色調調整済み合成画像 Image Harmonization Images from supplementals of the paper 8
9 応用先(解けると何が嬉しい?) • 画像合成の後処理の簡易化 • 映像制作における後処理の簡易化 ◦ 具体的には、ポストプロダクションにおけるコンポジットの色調調整の工数削減 Images from
“VFX Breakdown - Dynamo Dream Teaser” https://youtu.be/FFJ_THGj72U?t=39 ※撮影時のライティングは、合成後のイメージに合わせる必要がある ※影の追加はimage harmonizationのタスクではない 9
10 従来の課題 • 後処理としてアーティストが調整を加えたいケースが多いが、DNNで一発処理だと後 調整ができない • 高解像度 (e.g. 4K) に対応していない
◦ 計算効率が原因 ◦ DNNベースだと入力解像度256x256辺りが多かった • ローカルな色調調整に対応していない ◦ 例:前景(人)の顔部分だけ少し明るくしたい • 既存データセットは合成データが多いため、現実データとのドメインギャップが発生 し、実用的な精度が出ない 10
11 従来の課題に対する本論の回答 • 後処理としてアーティストが調整を加えたいケースが多いが、DNNで一発処理だと後 調整ができない ◦ パラメトリックなRGBカーブとシェーディングマップでharmonization処理を行う。後処理で 各パラメータをアーティストが変更可能して調整可能。 • 高解像度に対応していない
◦ RGBカーブとシェーディングマップで処理するので計算効率が良く、任意の解像度に対応 ◦ 512×512 入力に対して、377 ms @Apple M1 CPU, 48.6 ms @NVIDIA A100 GPU • ローカルな色調調整に対応していない ◦ シェーディングマップでローカルな調整に対応 • 既存データセットは合成データが多いため、現実データとのドメインギャップが発生 し、実用的ではない ◦ 半教師あり学習を利用して、教師データのない現実データに対しても学習してドメイン ギャップを軽減し、実用精度を高めた 11
12 RGBカーブとは • 別名: RGB別トーンカーブ • 画像補正機能の一つで、画像全体の色調やカラーを調整することが可能 • 横軸に入力の輝度値、縦軸に出力の輝度値を取り、カーブを変形させることで色調を調整することが可能 Adobe
Premiere Pro のRGBカーブ Images from https://helpx.adobe.com/jp/premiere-pro/using/adjust-color-rgb-hsl-curves.html 12
13 シェーディングマップとは • 前景内の明るさの強弱を表す2Dマップ • RGBカーブはグローバルな調整、シェーディングマップはローカルな調整を担当 • 入力情報が与えられたときに、RGBカーブのパラメータとシェーディングマップを推論する 合成後の画像 ※シェーディングマップの上にRGBカーブを
重ねて表示 Images from the paper 13
14 RGBカーブとシェーディングマップの推論方法 ① 512x512 に縮小 ② ResNet-50 で カーブを表す32点を 推論
③ U-NetベースのNNsで シェーディング マップを推論 Images from the paper 14
15 学習方法: Dual-stream semi-supervised • 各イテレーションで、2つの異なるデータソース・誤差関数で学習する ◦ “our model”: 前ページのResNet-50
+ U-Net based model Images from the paper 15
16 Dual-stream semi-supervised: Stream 1 • アーティストがレタッチした合成画像を教師として、教師あり学習 ◦ レタッチ画像は46,173枚 ◦
合成後の前景部分に関してL1誤差と、GANのdiscriminator誤差を使う ▪ Discriminator のネットワーク構造は U-Net 16
17 Dual-stream semi-supervised: Stream 2 • 教師なしの敵対的学習 ◦ 前景をインペインティング (LaMa)
で消し、新しい前景に置き換える ◦ 異なる照明環境で撮影された背景と前景を合成することになるので、実問題の設定に近い合 成の組み合わせで学習を行える ◦ RGBカーブ&シェーディングマップでharmonizeすることが強い制約となり、不安定な敵対的 学習を成功させている 17
18 定性結果 Image from the paper 18
19 定性結果 Image from the paper 19
20 定量結果 • 定量的にも従来研究を上回る精度 ◦ 実用的には、この定量的数値よりも、後処理のやりやすさや対応解像度の方が重要視される ケースが多い印象 Image from the
paper 20
21 まとめ • 画像合成における Image harmonization の研究 • RGBカーブ&シェーディングマップでharmonizationを行う ◦
アーティストが後調整を可能になる ◦ 計算効率が良く、任意の解像度を入力に受け取れる • 実世界の合成画像を用いるdual-stream semi-supervisedで実用精度を高めた ◦ アーティストによるリタッチ画像を使う教師あり学習 ◦ 実世界問題を意識した前景・背景ペアを敵対的学習枠組みの教師なし学習 ◦ 全体としてsemi-supervised (半教師あり) 学習 21
22 感想 • 昨年あたりから、white-box処理でアーティストが追加調整できる手法が増加 ◦ Harmonizer [Ke+, ECCV22] など ◦
制作業務で使いたい場合には、合成画像・映像ごとに欲しいGTが異なるので、自然な流れ ◦ そういう意味では、よりメタな指示をアーティストから受け取れるようにする流れもあるかも ▪ 数枚のガイド画像を与えて、「こんな色味・世界観で合成して」 ▪ visual prompting 的な入力・UI/UX • 対応できる処理は今後増えそう ◦ Image harmonization だけでなく、relighting (陰影表現の調整) の対応など • シェーディングマップをセマセグ的に拡張して、意味的なローカル調整もありそう • しばらくすると Adobe 製品に追加されるかも 22