Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
[CV勉強会@関東 CVPR2023] Semi-supervised Parametric ...
Search
yumash3
July 24, 2023
Research
1
540
[CV勉強会@関東 CVPR2023] Semi-supervised Parametric Real-world Image Harmonization 〜画像合成における色調調整〜
第59回 コンピュータビジョン勉強会@関東(前編)CVPR2023読み会の発表資料です。
yumash3
July 24, 2023
Tweet
Share
Other Decks in Research
See All in Research
Nullspace MPC
mizuhoaoki
1
230
Generative Models 2025
takahashihiroshi
25
14k
SNLP2025:Can Language Models Reason about Individualistic Human Values and Preferences?
yukizenimoto
0
190
20250624_熊本経済同友会6月例会講演
trafficbrain
1
720
引力・斥力を制御可能なランダム部分集合の確率分布
wasyro
0
270
VectorLLM: Human-like Extraction of Structured Building Contours via Multimodal LLMs
satai
4
360
日本語新聞記事を用いた大規模言語モデルの暗記定量化 / LLMC2025
upura
0
270
[CV勉強会@関東 CVPR2025] VLM自動運転model S4-Driver
shinkyoto
2
550
スキマバイトサービスにおける現場起点でのデザインアプローチ
yoshioshingyouji
0
250
MetaEarth: A Generative Foundation Model for Global-Scale Remote Sensing Image Generation
satai
4
360
EcoWikiRS: Learning Ecological Representation of Satellite Images from Weak Supervision with Species Observation and Wikipedia
satai
3
300
ウェブ・ソーシャルメディア論文読み会 第31回: The rising entropy of English in the attention economy. (Commun Psychology, 2024)
hkefka385
1
110
Featured
See All Featured
Designing for humans not robots
tammielis
254
26k
Gamification - CAS2011
davidbonilla
81
5.5k
Building Applications with DynamoDB
mza
96
6.7k
How to train your dragon (web standard)
notwaldorf
97
6.3k
Let's Do A Bunch of Simple Stuff to Make Websites Faster
chriscoyier
508
140k
No one is an island. Learnings from fostering a developers community.
thoeni
21
3.5k
Fireside Chat
paigeccino
41
3.7k
Facilitating Awesome Meetings
lara
57
6.6k
The Cult of Friendly URLs
andyhume
79
6.6k
4 Signs Your Business is Dying
shpigford
186
22k
How GitHub (no longer) Works
holman
315
140k
Distributed Sagas: A Protocol for Coordinating Microservices
caitiem20
333
22k
Transcript
1 Semi-supervised Parametric Real-world Image Harmonization 〜画像合成における色調調整〜 第59回 コンピュータビジョン勉強会@関東(前編)CVPR2023読み会 2023年7月12日
yumash3 / 篠原 祐真
2 自己紹介 • 篠原 祐真 (しのはら ゆうま) ◦ 筋トレが好き •
今まで ◦ 画像認識のリサーチエンジニア→TechLead→PrM ◦ 自動車業界が主 • 現在 ◦ (株) サイバーエージェント 所属 ◦ 広告映像制作のために、CV&CGの技術側から事業アシスト (PdM | エンジニア) 2 バーチャル撮影の様子 Twitter: @yumash3
3 本日の論文 3
4 画像合成における Image Harmonization の位置づけ 画像合成のサブタスクと関連研究 4
5 画像合成における Image Harmonization の位置づけ (拡大) 画像合成のサブタスクと関連研究 5
6 画像合成における Image Harmonization の位置づけ (拡大) 画像合成のサブタスクと関連研究 6
7 改めて本日の論文 一言で表すと、 Image harmonizationタスクにおいて、実世界の合成画像を用いる半教師あり学習で実用精 度を高めつつ、新しいパラメトリックモデルで高解像度画像に対しても計算効率の高い手法 を提案。 7
8 解きたいタスク • 画像合成で前景の色調 (明度と彩度) を背景に合わせたい ◦ 入力: 前景画像、前景のマスク画像、新背景画像 ◦
出力: 色調調整済み合成画像 Image Harmonization Images from supplementals of the paper 8
9 応用先(解けると何が嬉しい?) • 画像合成の後処理の簡易化 • 映像制作における後処理の簡易化 ◦ 具体的には、ポストプロダクションにおけるコンポジットの色調調整の工数削減 Images from
“VFX Breakdown - Dynamo Dream Teaser” https://youtu.be/FFJ_THGj72U?t=39 ※撮影時のライティングは、合成後のイメージに合わせる必要がある ※影の追加はimage harmonizationのタスクではない 9
10 従来の課題 • 後処理としてアーティストが調整を加えたいケースが多いが、DNNで一発処理だと後 調整ができない • 高解像度 (e.g. 4K) に対応していない
◦ 計算効率が原因 ◦ DNNベースだと入力解像度256x256辺りが多かった • ローカルな色調調整に対応していない ◦ 例:前景(人)の顔部分だけ少し明るくしたい • 既存データセットは合成データが多いため、現実データとのドメインギャップが発生 し、実用的な精度が出ない 10
11 従来の課題に対する本論の回答 • 後処理としてアーティストが調整を加えたいケースが多いが、DNNで一発処理だと後 調整ができない ◦ パラメトリックなRGBカーブとシェーディングマップでharmonization処理を行う。後処理で 各パラメータをアーティストが変更可能して調整可能。 • 高解像度に対応していない
◦ RGBカーブとシェーディングマップで処理するので計算効率が良く、任意の解像度に対応 ◦ 512×512 入力に対して、377 ms @Apple M1 CPU, 48.6 ms @NVIDIA A100 GPU • ローカルな色調調整に対応していない ◦ シェーディングマップでローカルな調整に対応 • 既存データセットは合成データが多いため、現実データとのドメインギャップが発生 し、実用的ではない ◦ 半教師あり学習を利用して、教師データのない現実データに対しても学習してドメイン ギャップを軽減し、実用精度を高めた 11
12 RGBカーブとは • 別名: RGB別トーンカーブ • 画像補正機能の一つで、画像全体の色調やカラーを調整することが可能 • 横軸に入力の輝度値、縦軸に出力の輝度値を取り、カーブを変形させることで色調を調整することが可能 Adobe
Premiere Pro のRGBカーブ Images from https://helpx.adobe.com/jp/premiere-pro/using/adjust-color-rgb-hsl-curves.html 12
13 シェーディングマップとは • 前景内の明るさの強弱を表す2Dマップ • RGBカーブはグローバルな調整、シェーディングマップはローカルな調整を担当 • 入力情報が与えられたときに、RGBカーブのパラメータとシェーディングマップを推論する 合成後の画像 ※シェーディングマップの上にRGBカーブを
重ねて表示 Images from the paper 13
14 RGBカーブとシェーディングマップの推論方法 ① 512x512 に縮小 ② ResNet-50 で カーブを表す32点を 推論
③ U-NetベースのNNsで シェーディング マップを推論 Images from the paper 14
15 学習方法: Dual-stream semi-supervised • 各イテレーションで、2つの異なるデータソース・誤差関数で学習する ◦ “our model”: 前ページのResNet-50
+ U-Net based model Images from the paper 15
16 Dual-stream semi-supervised: Stream 1 • アーティストがレタッチした合成画像を教師として、教師あり学習 ◦ レタッチ画像は46,173枚 ◦
合成後の前景部分に関してL1誤差と、GANのdiscriminator誤差を使う ▪ Discriminator のネットワーク構造は U-Net 16
17 Dual-stream semi-supervised: Stream 2 • 教師なしの敵対的学習 ◦ 前景をインペインティング (LaMa)
で消し、新しい前景に置き換える ◦ 異なる照明環境で撮影された背景と前景を合成することになるので、実問題の設定に近い合 成の組み合わせで学習を行える ◦ RGBカーブ&シェーディングマップでharmonizeすることが強い制約となり、不安定な敵対的 学習を成功させている 17
18 定性結果 Image from the paper 18
19 定性結果 Image from the paper 19
20 定量結果 • 定量的にも従来研究を上回る精度 ◦ 実用的には、この定量的数値よりも、後処理のやりやすさや対応解像度の方が重要視される ケースが多い印象 Image from the
paper 20
21 まとめ • 画像合成における Image harmonization の研究 • RGBカーブ&シェーディングマップでharmonizationを行う ◦
アーティストが後調整を可能になる ◦ 計算効率が良く、任意の解像度を入力に受け取れる • 実世界の合成画像を用いるdual-stream semi-supervisedで実用精度を高めた ◦ アーティストによるリタッチ画像を使う教師あり学習 ◦ 実世界問題を意識した前景・背景ペアを敵対的学習枠組みの教師なし学習 ◦ 全体としてsemi-supervised (半教師あり) 学習 21
22 感想 • 昨年あたりから、white-box処理でアーティストが追加調整できる手法が増加 ◦ Harmonizer [Ke+, ECCV22] など ◦
制作業務で使いたい場合には、合成画像・映像ごとに欲しいGTが異なるので、自然な流れ ◦ そういう意味では、よりメタな指示をアーティストから受け取れるようにする流れもあるかも ▪ 数枚のガイド画像を与えて、「こんな色味・世界観で合成して」 ▪ visual prompting 的な入力・UI/UX • 対応できる処理は今後増えそう ◦ Image harmonization だけでなく、relighting (陰影表現の調整) の対応など • シェーディングマップをセマセグ的に拡張して、意味的なローカル調整もありそう • しばらくすると Adobe 製品に追加されるかも 22