Upgrade to Pro — share decks privately, control downloads, hide ads and more …

[論文紹介] MoFusion: A Frame for Denoising-Diffusio...

shiba4839
October 03, 2024

[論文紹介] MoFusion: A Frame for Denoising-Diffusion-based Motion Synthesis

修士1年の5月に、授業で行った論文発表の資料です。推奨された国際学会の中から、各人が論文を選んで発表するという授業でした。自分自身の研究が、diffusionモデルを用いた対話システムの動作生成であるため、同じくdiffusionモデルを用いた研究論文を選びました。

shiba4839

October 03, 2024
Tweet

More Decks by shiba4839

Other Decks in Research

Transcript

  1. MoFusion: A Framework for Denoising-Diffusion-based Motion Synthesis [1] Author: Rishabh

    Dabral 4624520 岡留研究室M1 柴崎誉広 [1] Rishabh Dabral, Muhammad Hamza Mughal, VladislavGolyanik, and Christian Theobalt. MoFusion: A framework for denoising- diffusion-based motion synthesis. InCVPR, pages 9760–9770, 2023. 1
  2. Contents • 概要 • 貢献 • 内容 • 所感 2

    背景 提案手法 実験と結果 まとめ
  3. 概要 • 動作生成の従来法は決定論的 • SOTAの生成モデルは動きの多様性と質のトレードオフが課題 • 提案手法はdiffusionモデルベースのフレームワーク • 音楽や文章などの条件付けに基づき、⾧く、意味のある動作生成が可能 •

    バーチャルアニメーションやロボティクスで応用が期待 • 定量評価と知覚的なユーザ調査で有効性を実証 4 画像 https://robo-uni.com/products/nao-%E6%9C%AC%E4%BD%93 概要 貢献 内容 …
  4. 貢献 1. Music-to-Dance synthesis 運動学的ビートと音楽ビートとの距離を示す指標、生成された複数の⾧期動作の多様 性を示す指標において最先端手法を上回る 2. Text-to-Motion synthesis データを複数回生成した際のバリエーションを示す指標で最先端手法を上回る

    3. User study どちらの合成タスクでも、提案手法の方が高い意味的精度を達成 5 同じ条件に対して多様性を示し、 条件と意味的に一致する動きが生成可能 概要 貢献 内容 …
  5. 背景 ・条件付き動作生成の重要な目標 1.同じ条件に対して多様性を示し、2. 条件と意味的に一致する動き ・Denoising Diffusion Probablistic Models (DDPM); 多様なサンプリングを可能にしながらデータ分布を学習

    →画像や音声等の条件付き生成で顕著な能力を示している [2] が、動作生成のような時間的要素を含む問題に対しては不明 7 [2]および画像 Alexander Quinn Nichol et al. GLIDE: towards photorealistic image generation and editing with text-guided diffusion models. In ICML, 2022. 2, 3 貢献 背景 提案手法 実験 …
  6. 提案手法(Diffusionモデル) ・観測データに反復的にノイズを付与していく過程 ノイズ付与速度を制御する を用いてガウシアンノイズ ( ) ( ) を時刻 の初期動作に加える

    ・ノイズを反復的に除去して観測データを推定する過程 関数 は条件信号 に基づいて、時刻 における ( )からノイズを除去す るように学習する 9 条件信号c ∈ ℝ × , 生成動作M( ) = {m , m , . . , m } 関節数𝐽としたタイムステップ𝑖ごとのポーズm ∈ ℝ , 背景 提案手法 実験 …
  7. 提案手法(kinematic loss) ・動作が物理的に妥当になるようkinematic loss(運動学的損失) をdiffusionのフレームワークに導入する ・用いる全体的な損失関数は以下 ・ は付与されたノイズと推定 のL2損失で計算 ・

    はデータ分布を近似可能だが、物理的に妥当か保証がない →ブレや不正骨格、足の滑り等の歪みが発生 ・歪み回避のためにkinematic loss function 10 背景 提案手法 実験 …
  8. 提案手法(kinematic loss) ・reverse-diffusion過程にkinematic lossを導入 →tがTに近いときデータはノイズが多く、学習が不安定 ・ ( ); 時間変化の重みを導入し、 tがTに近いとき、重みを低くする。

    ; 生成時間内で骨の⾧さの一貫性を保つ ; 骨の⾧さの左右非対称性に制約 ( ) ; 元データとのL2損失 11 背景 提案手法 実験 …
  9. 実験 AIST++ (Music-to-Dance synthesisにおけるデータセット) • 7.4秒から48.0秒の⾧さの1408のユニークなダンスモーション • 10種類のダンスジャンルでアノテーション済み • 3D動作をターゲットとして、対応する音声を入力とする

    HumanML3D(Text-to-Motion synthesisにおけるデータセット) • 28kのテキスト注釈つき動作系列から構成される • 各シーケンスは平均7.1秒で、3-4回アノテーションされている 12 背景 提案手法 実験 まとめ
  10. 実験結果 • Beat Alignment Score (BAS)は、運動学的ビートと音楽ビートとの距離を示す • Frechet Inception Distance

    (FID)は、元データと生成結果の分布間の距離を示す • Diversity (Div)は生成された複数の⾧期動作の多様性を示す • Multi-Modalityはデータを複数回生成した際のバリエーションを示す 13 1. Music-to-Dance synthesis 既存手法 背景 提案手法 実験 まとめ
  11. まとめ 17 • 音楽/テキストの条件付き3D動作生成の技術 • diffusionモデルとkinematic lossを導入したMoFusion • 同じ条件に対して多様性を示し、条件と意味的に一致する動き の生成が可能

    • 定量的評価と印象評価によって有効性を検証 • 今後の改善として、推論時間の短縮とテキスト条件付けのため の比較的制限された語彙 背景 提案手法 実験 まとめ
  12. 補足 アーキテクチャ Music to dance synthesis • 音楽信号に対するネットワークの条件付けには、メル・スペクトログラム 表現を使用 •

    メル・スペクトログラムを抽出するために、オーディオ信号を16kHzに再 サンプリングし、ホップ⾧を512、最小周波数と最大周波数をそれぞれ 0kHzと8kHzとして、k=80のメル・バンドを持つ対数メル・スペクトログ ラムに変換 • その結果、条件信号 × が得られる。 21