Slide 1

Slide 1 text

MoFusion: A Framework for Denoising-Diffusion-based Motion Synthesis [1] Author: Rishabh Dabral 4624520 岡留研究室M1 柴崎誉広 [1] Rishabh Dabral, Muhammad Hamza Mughal, VladislavGolyanik, and Christian Theobalt. MoFusion: A framework for denoising- diffusion-based motion synthesis. InCVPR, pages 9760–9770, 2023. 1

Slide 2

Slide 2 text

Contents • 概要 • 貢献 • 内容 • 所感 2 背景 提案手法 実験と結果 まとめ

Slide 3

Slide 3 text

概要 3D human motion synthesis 3 概要 貢献 内容 …

Slide 4

Slide 4 text

概要 • 動作生成の従来法は決定論的 • SOTAの生成モデルは動きの多様性と質のトレードオフが課題 • 提案手法はdiffusionモデルベースのフレームワーク • 音楽や文章などの条件付けに基づき、⾧く、意味のある動作生成が可能 • バーチャルアニメーションやロボティクスで応用が期待 • 定量評価と知覚的なユーザ調査で有効性を実証 4 画像 https://robo-uni.com/products/nao-%E6%9C%AC%E4%BD%93 概要 貢献 内容 …

Slide 5

Slide 5 text

貢献 1. Music-to-Dance synthesis 運動学的ビートと音楽ビートとの距離を示す指標、生成された複数の⾧期動作の多様 性を示す指標において最先端手法を上回る 2. Text-to-Motion synthesis データを複数回生成した際のバリエーションを示す指標で最先端手法を上回る 3. User study どちらの合成タスクでも、提案手法の方が高い意味的精度を達成 5 同じ条件に対して多様性を示し、 条件と意味的に一致する動きが生成可能 概要 貢献 内容 …

Slide 6

Slide 6 text

背景 ・3D動作生成技術;バーチャルアニメーションやロボティクス ・条件付き動作生成の重要な目標は以下の二つ 1. 同じ条件に対して多様性を示し、 2. 条件と意味的に一致する動き ・ SOTAの生成モデルによるアプローチの課題; 条件付き変分オートエンコーダ(CVAE)、フローベース →質と多様性のトレードオフの対処が必要 GANベース →モード崩壊 6 貢献 背景 提案手法 実験 …

Slide 7

Slide 7 text

背景 ・条件付き動作生成の重要な目標 1.同じ条件に対して多様性を示し、2. 条件と意味的に一致する動き ・Denoising Diffusion Probablistic Models (DDPM); 多様なサンプリングを可能にしながらデータ分布を学習 →画像や音声等の条件付き生成で顕著な能力を示している [2] が、動作生成のような時間的要素を含む問題に対しては不明 7 [2]および画像 Alexander Quinn Nichol et al. GLIDE: towards photorealistic image generation and editing with text-guided diffusion models. In ICML, 2022. 2, 3 貢献 背景 提案手法 実験 …

Slide 8

Slide 8 text

提案手法 (MoFusion) Diffusionベースの条件付き動作生成のためのフレームワーク 以下がこの手法のメイン ・Diffusionモデル ・ kinematic loss (運動学的損失)を導入 8 画像 https://vcai.mpi-inf.mpg.de/projects/MoFusion/ 背景 提案手法 実験 …

Slide 9

Slide 9 text

提案手法(Diffusionモデル) ・観測データに反復的にノイズを付与していく過程 ノイズ付与速度を制御する を用いてガウシアンノイズ ( ) ( ) を時刻 の初期動作に加える ・ノイズを反復的に除去して観測データを推定する過程 関数 は条件信号 に基づいて、時刻 における ( )からノイズを除去す るように学習する 9 条件信号c ∈ ℝ × , 生成動作M( ) = {m , m , . . , m } 関節数𝐽としたタイムステップ𝑖ごとのポーズm ∈ ℝ , 背景 提案手法 実験 …

Slide 10

Slide 10 text

提案手法(kinematic loss) ・動作が物理的に妥当になるようkinematic loss(運動学的損失) をdiffusionのフレームワークに導入する ・用いる全体的な損失関数は以下 ・ は付与されたノイズと推定 のL2損失で計算 ・ はデータ分布を近似可能だが、物理的に妥当か保証がない →ブレや不正骨格、足の滑り等の歪みが発生 ・歪み回避のためにkinematic loss function 10 背景 提案手法 実験 …

Slide 11

Slide 11 text

提案手法(kinematic loss) ・reverse-diffusion過程にkinematic lossを導入 →tがTに近いときデータはノイズが多く、学習が不安定 ・ ( ); 時間変化の重みを導入し、 tがTに近いとき、重みを低くする。 ; 生成時間内で骨の⾧さの一貫性を保つ ; 骨の⾧さの左右非対称性に制約 ( ) ; 元データとのL2損失 11 背景 提案手法 実験 …

Slide 12

Slide 12 text

実験 AIST++ (Music-to-Dance synthesisにおけるデータセット) • 7.4秒から48.0秒の⾧さの1408のユニークなダンスモーション • 10種類のダンスジャンルでアノテーション済み • 3D動作をターゲットとして、対応する音声を入力とする HumanML3D(Text-to-Motion synthesisにおけるデータセット) • 28kのテキスト注釈つき動作系列から構成される • 各シーケンスは平均7.1秒で、3-4回アノテーションされている 12 背景 提案手法 実験 まとめ

Slide 13

Slide 13 text

実験結果 • Beat Alignment Score (BAS)は、運動学的ビートと音楽ビートとの距離を示す • Frechet Inception Distance (FID)は、元データと生成結果の分布間の距離を示す • Diversity (Div)は生成された複数の⾧期動作の多様性を示す • Multi-Modalityはデータを複数回生成した際のバリエーションを示す 13 1. Music-to-Dance synthesis 既存手法 背景 提案手法 実験 まとめ

Slide 14

Slide 14 text

実験結果 • Diversity (Div)はランダムなペア入力で生成された動作の距離を示す • Multi-Modalityは同じ入力でデータを複数回生成した際のバリエーションを 示す • R-Precisionは事前に訓練された分類器における合成されたモーションの分類 精度を測定する。 14 2. Text-to-Motion synthesis 既存手法 背景 提案手法 実験 まとめ

Slide 15

Slide 15 text

実験結果 • 実験参加者に二つの動作を視聴後、以下の二つの質問に答える ・どちらの動きがよりリアルにみえるか = Realism ・どちらの動きが音楽/文章に妥当であるか = Semantics 15 3. User study 提案手法による 生成動作 Ground Truth または、 他の最先端手法による 生成動作 背景 提案手法 実験 まとめ

Slide 16

Slide 16 text

実験結果 ・どちらの合成タスクでも、提案手法の方が高い意味的精度を達成 ・51.4%の場面でground-truthよりも提案手法の方がリアルとみなされた 16 3. User study 背景 提案手法 実験 まとめ

Slide 17

Slide 17 text

まとめ 17 • 音楽/テキストの条件付き3D動作生成の技術 • diffusionモデルとkinematic lossを導入したMoFusion • 同じ条件に対して多様性を示し、条件と意味的に一致する動き の生成が可能 • 定量的評価と印象評価によって有効性を検証 • 今後の改善として、推論時間の短縮とテキスト条件付けのため の比較的制限された語彙 背景 提案手法 実験 まとめ

Slide 18

Slide 18 text

所感 18 ・kinematic lossによってブレや不正骨格、足の滑り等の歪みを回避 →自分の研究(対話中の振る舞い生成モデルの開発)への検討 ・diffusionモデルの課題である推論時間が⾧くなりがち →U-Netで特徴量を1/8まで削減して推論時間を短縮とあるが、生成にかか る時間が不明であり、オンライン動作生成への適用が可能であるか 概要 貢献 内容 所感

Slide 19

Slide 19 text

主結果・貢献の補足 • Beat Alignment Score (BAS)は、運動学的ビートと音楽ビートとの距離を示 す。スコアは、各運動学的ビートとその最も近い音楽ビートとの間の平均距 離として定義される: ∀ ∈ ∈ は運動学的ビートを示し、 はすべての運動学的ビートの集合 は音楽的ビートを示し、 はすべての音楽的ビートの集合 19

Slide 20

Slide 20 text

補足 Kinematic loss • モデルは、ノイズεを推定するために学習される。ノイズεを推定するよ うに学習されているため、kinematic lossを適用するのは簡単ではない。 1つの回避策は、最終的な逆拡散モーションに損失を適用することです。 再パラメータ化のトリックを使用して推定可能: • ( ) しかし、上記を用いてreverse-diffusionを近似するとtがTに近いときに生成 されるデータが非常にノイジーになるため、学習が不安定になる。 そのために時間変化の重み 20

Slide 21

Slide 21 text

補足 アーキテクチャ Music to dance synthesis • 音楽信号に対するネットワークの条件付けには、メル・スペクトログラム 表現を使用 • メル・スペクトログラムを抽出するために、オーディオ信号を16kHzに再 サンプリングし、ホップ⾧を512、最小周波数と最大周波数をそれぞれ 0kHzと8kHzとして、k=80のメル・バンドを持つ対数メル・スペクトログ ラムに変換 • その結果、条件信号 × が得られる。 21

Slide 22

Slide 22 text

補足 アーキテクチャ Music to dance synthesis ・テキスト記述から動きを合成するために、事前に訓練されたCLIPのトー クン埋め込みを使用 ・まず、入力プロンプトの各単語のトークン埋め込みを取得 ・次に、これらのトークン埋め込みを位置エンコードし、CLIPの変換器に かける ・最後に、変換後の埋め込みを × にマッピングするMLPを用いて、 トークン埋め込みを射影する。 22