Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
[CV勉強会@関東 CVPR2023] Semi-supervised Parametric ...
Search
yumash3
July 24, 2023
Research
1
570
[CV勉強会@関東 CVPR2023] Semi-supervised Parametric Real-world Image Harmonization 〜画像合成における色調調整〜
第59回 コンピュータビジョン勉強会@関東(前編)CVPR2023読み会の発表資料です。
yumash3
July 24, 2023
Tweet
Share
Other Decks in Research
See All in Research
Attaques quantiques sur Bitcoin : comment se protéger ?
rlifchitz
0
140
視覚から身体性を持つAIへ: 巧緻な動作の3次元理解
tkhkaeio
0
190
"主観で終わらせない"定性データ活用 ― プロダクトディスカバリーを加速させるインサイトマネジメント / Utilizing qualitative data that "doesn't end with subjectivity" - Insight management that accelerates product discovery
kaminashi
15
20k
[Devfest Incheon 2025] 모두를 위한 친절한 언어모델(LLM) 학습 가이드
beomi
2
1.4k
HU Berlin: Industrial-Strength Natural Language Processing with spaCy and Prodigy
inesmontani
PRO
0
230
Earth AI: Unlocking Geospatial Insights with Foundation Models and Cross-Modal Reasoning
satai
3
490
世界モデルにおける分布外データ対応の方法論
koukyo1994
7
1.6k
Sat2City:3D City Generation from A Single Satellite Image with Cascaded Latent Diffusion
satai
4
670
Remote sensing × Multi-modal meta survey
satai
4
710
2025-11-21-DA-10th-satellite
yegusa
0
120
Satellites Reveal Mobility: A Commuting Origin-destination Flow Generator for Global Cities
satai
3
510
都市交通マスタープランとその後への期待@熊本商工会議所・熊本経済同友会
trafficbrain
0
130
Featured
See All Featured
The #1 spot is gone: here's how to win anyway
tamaranovitovic
2
950
Making Projects Easy
brettharned
120
6.6k
How Software Deployment tools have changed in the past 20 years
geshan
0
32k
Sam Torres - BigQuery for SEOs
techseoconnect
PRO
0
190
Sharpening the Axe: The Primacy of Toolmaking
bcantrill
46
2.7k
Pawsitive SEO: Lessons from My Dog (and Many Mistakes) on Thriving as a Consultant in the Age of AI
davidcarrasco
0
68
SEO Brein meetup: CTRL+C is not how to scale international SEO
lindahogenes
0
2.4k
Max Prin - Stacking Signals: How International SEO Comes Together (And Falls Apart)
techseoconnect
PRO
0
89
Context Engineering - Making Every Token Count
addyosmani
9
670
Let's Do A Bunch of Simple Stuff to Make Websites Faster
chriscoyier
508
140k
Noah Learner - AI + Me: how we built a GSC Bulk Export data pipeline
techseoconnect
PRO
0
110
Code Review Best Practice
trishagee
74
20k
Transcript
1 Semi-supervised Parametric Real-world Image Harmonization 〜画像合成における色調調整〜 第59回 コンピュータビジョン勉強会@関東(前編)CVPR2023読み会 2023年7月12日
yumash3 / 篠原 祐真
2 自己紹介 • 篠原 祐真 (しのはら ゆうま) ◦ 筋トレが好き •
今まで ◦ 画像認識のリサーチエンジニア→TechLead→PrM ◦ 自動車業界が主 • 現在 ◦ (株) サイバーエージェント 所属 ◦ 広告映像制作のために、CV&CGの技術側から事業アシスト (PdM | エンジニア) 2 バーチャル撮影の様子 Twitter: @yumash3
3 本日の論文 3
4 画像合成における Image Harmonization の位置づけ 画像合成のサブタスクと関連研究 4
5 画像合成における Image Harmonization の位置づけ (拡大) 画像合成のサブタスクと関連研究 5
6 画像合成における Image Harmonization の位置づけ (拡大) 画像合成のサブタスクと関連研究 6
7 改めて本日の論文 一言で表すと、 Image harmonizationタスクにおいて、実世界の合成画像を用いる半教師あり学習で実用精 度を高めつつ、新しいパラメトリックモデルで高解像度画像に対しても計算効率の高い手法 を提案。 7
8 解きたいタスク • 画像合成で前景の色調 (明度と彩度) を背景に合わせたい ◦ 入力: 前景画像、前景のマスク画像、新背景画像 ◦
出力: 色調調整済み合成画像 Image Harmonization Images from supplementals of the paper 8
9 応用先(解けると何が嬉しい?) • 画像合成の後処理の簡易化 • 映像制作における後処理の簡易化 ◦ 具体的には、ポストプロダクションにおけるコンポジットの色調調整の工数削減 Images from
“VFX Breakdown - Dynamo Dream Teaser” https://youtu.be/FFJ_THGj72U?t=39 ※撮影時のライティングは、合成後のイメージに合わせる必要がある ※影の追加はimage harmonizationのタスクではない 9
10 従来の課題 • 後処理としてアーティストが調整を加えたいケースが多いが、DNNで一発処理だと後 調整ができない • 高解像度 (e.g. 4K) に対応していない
◦ 計算効率が原因 ◦ DNNベースだと入力解像度256x256辺りが多かった • ローカルな色調調整に対応していない ◦ 例:前景(人)の顔部分だけ少し明るくしたい • 既存データセットは合成データが多いため、現実データとのドメインギャップが発生 し、実用的な精度が出ない 10
11 従来の課題に対する本論の回答 • 後処理としてアーティストが調整を加えたいケースが多いが、DNNで一発処理だと後 調整ができない ◦ パラメトリックなRGBカーブとシェーディングマップでharmonization処理を行う。後処理で 各パラメータをアーティストが変更可能して調整可能。 • 高解像度に対応していない
◦ RGBカーブとシェーディングマップで処理するので計算効率が良く、任意の解像度に対応 ◦ 512×512 入力に対して、377 ms @Apple M1 CPU, 48.6 ms @NVIDIA A100 GPU • ローカルな色調調整に対応していない ◦ シェーディングマップでローカルな調整に対応 • 既存データセットは合成データが多いため、現実データとのドメインギャップが発生 し、実用的ではない ◦ 半教師あり学習を利用して、教師データのない現実データに対しても学習してドメイン ギャップを軽減し、実用精度を高めた 11
12 RGBカーブとは • 別名: RGB別トーンカーブ • 画像補正機能の一つで、画像全体の色調やカラーを調整することが可能 • 横軸に入力の輝度値、縦軸に出力の輝度値を取り、カーブを変形させることで色調を調整することが可能 Adobe
Premiere Pro のRGBカーブ Images from https://helpx.adobe.com/jp/premiere-pro/using/adjust-color-rgb-hsl-curves.html 12
13 シェーディングマップとは • 前景内の明るさの強弱を表す2Dマップ • RGBカーブはグローバルな調整、シェーディングマップはローカルな調整を担当 • 入力情報が与えられたときに、RGBカーブのパラメータとシェーディングマップを推論する 合成後の画像 ※シェーディングマップの上にRGBカーブを
重ねて表示 Images from the paper 13
14 RGBカーブとシェーディングマップの推論方法 ① 512x512 に縮小 ② ResNet-50 で カーブを表す32点を 推論
③ U-NetベースのNNsで シェーディング マップを推論 Images from the paper 14
15 学習方法: Dual-stream semi-supervised • 各イテレーションで、2つの異なるデータソース・誤差関数で学習する ◦ “our model”: 前ページのResNet-50
+ U-Net based model Images from the paper 15
16 Dual-stream semi-supervised: Stream 1 • アーティストがレタッチした合成画像を教師として、教師あり学習 ◦ レタッチ画像は46,173枚 ◦
合成後の前景部分に関してL1誤差と、GANのdiscriminator誤差を使う ▪ Discriminator のネットワーク構造は U-Net 16
17 Dual-stream semi-supervised: Stream 2 • 教師なしの敵対的学習 ◦ 前景をインペインティング (LaMa)
で消し、新しい前景に置き換える ◦ 異なる照明環境で撮影された背景と前景を合成することになるので、実問題の設定に近い合 成の組み合わせで学習を行える ◦ RGBカーブ&シェーディングマップでharmonizeすることが強い制約となり、不安定な敵対的 学習を成功させている 17
18 定性結果 Image from the paper 18
19 定性結果 Image from the paper 19
20 定量結果 • 定量的にも従来研究を上回る精度 ◦ 実用的には、この定量的数値よりも、後処理のやりやすさや対応解像度の方が重要視される ケースが多い印象 Image from the
paper 20
21 まとめ • 画像合成における Image harmonization の研究 • RGBカーブ&シェーディングマップでharmonizationを行う ◦
アーティストが後調整を可能になる ◦ 計算効率が良く、任意の解像度を入力に受け取れる • 実世界の合成画像を用いるdual-stream semi-supervisedで実用精度を高めた ◦ アーティストによるリタッチ画像を使う教師あり学習 ◦ 実世界問題を意識した前景・背景ペアを敵対的学習枠組みの教師なし学習 ◦ 全体としてsemi-supervised (半教師あり) 学習 21
22 感想 • 昨年あたりから、white-box処理でアーティストが追加調整できる手法が増加 ◦ Harmonizer [Ke+, ECCV22] など ◦
制作業務で使いたい場合には、合成画像・映像ごとに欲しいGTが異なるので、自然な流れ ◦ そういう意味では、よりメタな指示をアーティストから受け取れるようにする流れもあるかも ▪ 数枚のガイド画像を与えて、「こんな色味・世界観で合成して」 ▪ visual prompting 的な入力・UI/UX • 対応できる処理は今後増えそう ◦ Image harmonization だけでなく、relighting (陰影表現の調整) の対応など • シェーディングマップをセマセグ的に拡張して、意味的なローカル調整もありそう • しばらくすると Adobe 製品に追加されるかも 22