Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Diffusion Model with Perceptual Loss
Search
Sponsored
·
Your Podcast. Everywhere. Effortlessly.
Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
→
Henry Cui
January 26, 2024
Research
520
0
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
Diffusion Model with Perceptual Loss
Henry Cui
January 26, 2024
More Decks by Henry Cui
See All by Henry Cui
プロダクション言語モデルの情報を盗む攻撃 / Stealing Part of a Production Language Model
zchenry
1
250
Direct Preference Optimization
zchenry
0
470
レンズの下のLLM / LLM under the Lens
zchenry
0
230
Go with the Prompt Flow
zchenry
0
230
Mojo Dojo
zchenry
0
270
ことのはの力で画像の異常検知 / Anomaly Detection by Language
zchenry
0
720
驚愕の事実!LangChainが抱える問題 / Problems of LangChain
zchenry
0
330
MLOps初心者がMLflowを触る / MLflow Brief Introduction
zchenry
0
210
{{guidance}}のガイダンス / Guidance of guidance
zchenry
0
210
Other Decks in Research
See All in Research
ScoreMatchingRiesz for Automatic Debiased Machine Learning and Policy Path Estimation with an Application to Japanese Monetary Policy Evaluation
masakat0
0
300
AIで最適化を解けるか?
mickey_kubo
0
120
Scalable dynamic origin-destination demand estimation enhanced by high-resolution satellite imagery data
satai
3
290
計算情報学研究室(数理情報学第7研究室)2026
tomohirokoana
0
590
「車1割削減、渋滞半減、公共交通2倍」を 熊本から岡山へ@RACDA設立30周年記念都市交通フォーラム2026
trafficbrain
1
1.2k
AY 2026 Guide to Academic Writing Using Generative AI - Workshop
ks91
PRO
0
120
FUSE-RSVLM: Feature Fusion Vision-Language Model for Remote Sensing
satai
3
880
typst の使い方:言語学を研究する学生のために
gitomochang
0
470
多様なデータを許容し学習し続ける模倣学習 / Advanced Imitation Learning for VLA
prinlab
0
230
COFFEE-Japan PROJECT Impact Report(海ノ向こうコーヒー)
ontheslope
0
2k
東京大学工学部計数工学科、計数工学特別講義の説明資料
kikuzo
0
520
Any-Optical-Model: A Universal Foundation Model for Optical Remote Sensing
satai
3
850
Featured
See All Featured
Prompt Engineering for Job Search
mfonobong
0
350
Fireside Chat
paigeccino
42
4k
HTML-Aware ERB: The Path to Reactive Rendering @ RubyCon 2026, Rimini, Italy
marcoroth
2
250
Taking LLMs out of the black box: A practical guide to human-in-the-loop distillation
inesmontani
PRO
3
2.3k
The State of eCommerce SEO: How to Win in Today's Products SERPs - #SEOweek
aleyda
2
11k
Collaborative Software Design: How to facilitate domain modelling decisions
baasie
1
250
Building Applications with DynamoDB
mza
96
7.1k
How to optimise 3,500 product descriptions for ecommerce in one day using ChatGPT
katarinadahlin
PRO
1
3.6k
Primal Persuasion: How to Engage the Brain for Learning That Lasts
tmiket
0
380
The Psychology of Web Performance [Beyond Tellerrand 2023]
tammyeverts
49
3.5k
[SF Ruby Conf 2025] Rails X
palkan
2
1.1k
The Web Performance Landscape in 2024 [PerfNow 2024]
tammyeverts
12
1.2k
Transcript
Diffusion Model with Perceptual Loss 機械学習の社会実装勉強会第31回 Henry 2024/1/27
論文の紹介 ▪ Diffusion Model with Perceptual Loss, Lin and Yang
▪ ByteDanceの研究者が去年12月30日にarxivに投稿 ▪ Diffusionモデルの損失関数を改良 2
提案モチベーション ▪ 下図のように既存の損失関数では分布の多峰性を学習でき ない 3
従来の損失関数 ▪ 予測したい目標(拡散過程で発生するノイズ)のMSE ▪ 拡散する式 ▪ 予測したい目標 ▪ MSE損失 4
提案の損失関数 ▪ 学習済み重みで抽出する中間層でのMSE ▪ 予測された値で、拡散ステップの最初に戻してから拡散させる ▪ 学習済み重みで中間特徴量を取り出してMSEを取る ▪ 考察 •
差分は拡散過程を戻すのと中間層を使うの2箇所ある • 著者がこの損失関数をperceptualと解釈する 5
定量評価 ▪ Vanilla MSEよりよいが、Classifier-free guidanced MSEに 負けてしまう 6
Ablation Study 抜粋 ▪ 下記項目を変えて実験したが、CFG MSEには勝てなかった • 中間層、拡散ステップ、距離関数(Mean Absolute Distance)、差分を
取る特徴量、学習済みモデル ▪ CFG + 提案方でも負けてしまう 7
まとめ ▪ Diffusion Modelの損失関数を改良する提案手法 ▪ 中間層を使うヒントになる 8