Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
[CV勉強会@関東 CVPR2023] Semi-supervised Parametric ...
Search
yumash3
July 24, 2023
Research
1
510
[CV勉強会@関東 CVPR2023] Semi-supervised Parametric Real-world Image Harmonization 〜画像合成における色調調整〜
第59回 コンピュータビジョン勉強会@関東(前編)CVPR2023読み会の発表資料です。
yumash3
July 24, 2023
Tweet
Share
Other Decks in Research
See All in Research
学生向けアンケート<データサイエンティストについて>
datascientistsociety
PRO
0
3.6k
実行環境に中立なWebAssemblyライブマイグレーション機構/techtalk-2025spring
chikuwait
0
230
Generative Models 2025
takahashihiroshi
21
12k
研究テーマのデザインと研究遂行の方法論
hisashiishihara
5
1.4k
引力・斥力を制御可能なランダム部分集合の確率分布
wasyro
0
180
大規模な2値整数計画問題に対する 効率的な重み付き局所探索法
mickey_kubo
1
270
【緊急警告】日本の未来設計図 ~沈没か、再生か。国民と断行するラストチャンス~
yuutakasan
0
140
2025年度 生成AIの使い方/接し方
hkefka385
1
710
20250605_新交通システム推進議連_熊本都市圏「車1割削減、渋滞半減、公共交通2倍」から考える地方都市交通政策
trafficbrain
0
520
AIによる画像認識技術の進化 -25年の技術変遷を振り返る-
hf149
6
3.6k
業界横断 副業・兼業者の実態調査
fkske
0
190
SkySense : A Multi-Modal Remote Sensing Foundation Model Towards Universal Interpretation for Earth Observation Imagery
satai
3
250
Featured
See All Featured
Agile that works and the tools we love
rasmusluckow
329
21k
KATA
mclloyd
30
14k
Unsuck your backbone
ammeep
671
58k
How to Think Like a Performance Engineer
csswizardry
25
1.7k
The Power of CSS Pseudo Elements
geoffreycrofte
77
5.9k
The World Runs on Bad Software
bkeepers
PRO
69
11k
Rails Girls Zürich Keynote
gr2m
95
14k
Building an army of robots
kneath
306
45k
[RailsConf 2023 Opening Keynote] The Magic of Rails
eileencodes
29
9.6k
Code Review Best Practice
trishagee
69
19k
Statistics for Hackers
jakevdp
799
220k
Visualization
eitanlees
146
16k
Transcript
1 Semi-supervised Parametric Real-world Image Harmonization 〜画像合成における色調調整〜 第59回 コンピュータビジョン勉強会@関東(前編)CVPR2023読み会 2023年7月12日
yumash3 / 篠原 祐真
2 自己紹介 • 篠原 祐真 (しのはら ゆうま) ◦ 筋トレが好き •
今まで ◦ 画像認識のリサーチエンジニア→TechLead→PrM ◦ 自動車業界が主 • 現在 ◦ (株) サイバーエージェント 所属 ◦ 広告映像制作のために、CV&CGの技術側から事業アシスト (PdM | エンジニア) 2 バーチャル撮影の様子 Twitter: @yumash3
3 本日の論文 3
4 画像合成における Image Harmonization の位置づけ 画像合成のサブタスクと関連研究 4
5 画像合成における Image Harmonization の位置づけ (拡大) 画像合成のサブタスクと関連研究 5
6 画像合成における Image Harmonization の位置づけ (拡大) 画像合成のサブタスクと関連研究 6
7 改めて本日の論文 一言で表すと、 Image harmonizationタスクにおいて、実世界の合成画像を用いる半教師あり学習で実用精 度を高めつつ、新しいパラメトリックモデルで高解像度画像に対しても計算効率の高い手法 を提案。 7
8 解きたいタスク • 画像合成で前景の色調 (明度と彩度) を背景に合わせたい ◦ 入力: 前景画像、前景のマスク画像、新背景画像 ◦
出力: 色調調整済み合成画像 Image Harmonization Images from supplementals of the paper 8
9 応用先(解けると何が嬉しい?) • 画像合成の後処理の簡易化 • 映像制作における後処理の簡易化 ◦ 具体的には、ポストプロダクションにおけるコンポジットの色調調整の工数削減 Images from
“VFX Breakdown - Dynamo Dream Teaser” https://youtu.be/FFJ_THGj72U?t=39 ※撮影時のライティングは、合成後のイメージに合わせる必要がある ※影の追加はimage harmonizationのタスクではない 9
10 従来の課題 • 後処理としてアーティストが調整を加えたいケースが多いが、DNNで一発処理だと後 調整ができない • 高解像度 (e.g. 4K) に対応していない
◦ 計算効率が原因 ◦ DNNベースだと入力解像度256x256辺りが多かった • ローカルな色調調整に対応していない ◦ 例:前景(人)の顔部分だけ少し明るくしたい • 既存データセットは合成データが多いため、現実データとのドメインギャップが発生 し、実用的な精度が出ない 10
11 従来の課題に対する本論の回答 • 後処理としてアーティストが調整を加えたいケースが多いが、DNNで一発処理だと後 調整ができない ◦ パラメトリックなRGBカーブとシェーディングマップでharmonization処理を行う。後処理で 各パラメータをアーティストが変更可能して調整可能。 • 高解像度に対応していない
◦ RGBカーブとシェーディングマップで処理するので計算効率が良く、任意の解像度に対応 ◦ 512×512 入力に対して、377 ms @Apple M1 CPU, 48.6 ms @NVIDIA A100 GPU • ローカルな色調調整に対応していない ◦ シェーディングマップでローカルな調整に対応 • 既存データセットは合成データが多いため、現実データとのドメインギャップが発生 し、実用的ではない ◦ 半教師あり学習を利用して、教師データのない現実データに対しても学習してドメイン ギャップを軽減し、実用精度を高めた 11
12 RGBカーブとは • 別名: RGB別トーンカーブ • 画像補正機能の一つで、画像全体の色調やカラーを調整することが可能 • 横軸に入力の輝度値、縦軸に出力の輝度値を取り、カーブを変形させることで色調を調整することが可能 Adobe
Premiere Pro のRGBカーブ Images from https://helpx.adobe.com/jp/premiere-pro/using/adjust-color-rgb-hsl-curves.html 12
13 シェーディングマップとは • 前景内の明るさの強弱を表す2Dマップ • RGBカーブはグローバルな調整、シェーディングマップはローカルな調整を担当 • 入力情報が与えられたときに、RGBカーブのパラメータとシェーディングマップを推論する 合成後の画像 ※シェーディングマップの上にRGBカーブを
重ねて表示 Images from the paper 13
14 RGBカーブとシェーディングマップの推論方法 ① 512x512 に縮小 ② ResNet-50 で カーブを表す32点を 推論
③ U-NetベースのNNsで シェーディング マップを推論 Images from the paper 14
15 学習方法: Dual-stream semi-supervised • 各イテレーションで、2つの異なるデータソース・誤差関数で学習する ◦ “our model”: 前ページのResNet-50
+ U-Net based model Images from the paper 15
16 Dual-stream semi-supervised: Stream 1 • アーティストがレタッチした合成画像を教師として、教師あり学習 ◦ レタッチ画像は46,173枚 ◦
合成後の前景部分に関してL1誤差と、GANのdiscriminator誤差を使う ▪ Discriminator のネットワーク構造は U-Net 16
17 Dual-stream semi-supervised: Stream 2 • 教師なしの敵対的学習 ◦ 前景をインペインティング (LaMa)
で消し、新しい前景に置き換える ◦ 異なる照明環境で撮影された背景と前景を合成することになるので、実問題の設定に近い合 成の組み合わせで学習を行える ◦ RGBカーブ&シェーディングマップでharmonizeすることが強い制約となり、不安定な敵対的 学習を成功させている 17
18 定性結果 Image from the paper 18
19 定性結果 Image from the paper 19
20 定量結果 • 定量的にも従来研究を上回る精度 ◦ 実用的には、この定量的数値よりも、後処理のやりやすさや対応解像度の方が重要視される ケースが多い印象 Image from the
paper 20
21 まとめ • 画像合成における Image harmonization の研究 • RGBカーブ&シェーディングマップでharmonizationを行う ◦
アーティストが後調整を可能になる ◦ 計算効率が良く、任意の解像度を入力に受け取れる • 実世界の合成画像を用いるdual-stream semi-supervisedで実用精度を高めた ◦ アーティストによるリタッチ画像を使う教師あり学習 ◦ 実世界問題を意識した前景・背景ペアを敵対的学習枠組みの教師なし学習 ◦ 全体としてsemi-supervised (半教師あり) 学習 21
22 感想 • 昨年あたりから、white-box処理でアーティストが追加調整できる手法が増加 ◦ Harmonizer [Ke+, ECCV22] など ◦
制作業務で使いたい場合には、合成画像・映像ごとに欲しいGTが異なるので、自然な流れ ◦ そういう意味では、よりメタな指示をアーティストから受け取れるようにする流れもあるかも ▪ 数枚のガイド画像を与えて、「こんな色味・世界観で合成して」 ▪ visual prompting 的な入力・UI/UX • 対応できる処理は今後増えそう ◦ Image harmonization だけでなく、relighting (陰影表現の調整) の対応など • シェーディングマップをセマセグ的に拡張して、意味的なローカル調整もありそう • しばらくすると Adobe 製品に追加されるかも 22