Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Animatediffの生成時間の壁を突破しようとして失敗した話

mattya_monaca
September 23, 2023
700

 Animatediffの生成時間の壁を突破しようとして失敗した話

mattya_monaca

September 23, 2023
Tweet

Transcript

  1. 自己紹介 経歴 • 自然言語処理関係の研究室出身 • 機械学習エンジニア歴 約5年 • お絵描き歴 約3年

    • 個人開発歴 約7年 最近の活動 • 画像生成ブームに乗じてOSS活動を開始 • お絵描き×AIでサービス作り • 動画生成にもお熱 ←今日話すのはここ 抹茶もなか @GianMattya mattyamonaca
  2. Animatediffとは テキストを入力すると短時間の動画を生成してくれる技術 • 既存の動画生成と異なり、個人がチューニングしたモデルや LoRAにも対応している • VRAM12GB程度で生成が可能 • WebUI, ComfyUIにも対応

    が、発表当初はあんまり話題になっていなかった (出展:「AnimateDiff: Animate Your Personalized Text-to-Image Diffusion Models without Specific Tuning 」URL; 2307.04725.pdf (arxiv.org))引用日:2023/09/23
  3. Motion Module frame 1 frame 2 frame 15 frame 16

    Animatediffによる動画生成の仕組み(CN無し) ×16 ・・・ VAE ×16 Motion Moduleは今何番目のフレームを生成しているかを認識できる
  4. Animatediffによる動画生成の仕組み(CN有り) ×0.5 ×0.3 ×0.2 ×0.1 ×0.5 ×0.3 ×0.2 ×0.1 motion

    module controlnet controlnet condtioning2 condtioning2 frame8 frame7 frame6 frame5 frame4 frame3 frame2 frame1
  5. 直前に生成した動画の中間層を再利用 Start End condtioning2 condtioning1 Start End condtioning3 condtioning2 controlnet

    controlnet controlnet controlnet motion module motion module video1 video2 frame8 frame7 frame6 frame5 frame4 frame3 frame2 frame1 frame8 frame7 frame6 frame5 frame4 frame3 frame2 frame1
  6. 直前に生成した動画の中間層を再利用 Start End condtioning2 condtioning1 Start End condtioning3 condtioning2 Conditioning2の影響を受ける

    controlnet controlnet controlnet controlnet motion module motion module video1 video2 frame8 frame7 frame6 frame5 frame4 frame3 frame2 frame1 frame8 frame7 frame6 frame5 frame4 frame3 frame2 frame1 Conditioning2の影響を受ける
  7. 直前に生成した動画の中間層を結合 Start End Start End controlnet controlnet controlnet controlnet motion

    module motion module video1 video2 frame8 frame7 frame6 frame5 frame4 frame3 frame2 frame1 frame8 frame7 frame6 frame5 frame4 frame3 frame2 frame1 : V2’mid_n = (V1mid_n + V2mid_n)/2
  8. 敗因 • モデルアーキテクチャに手を出す前にもっとやるべきことがあった ◦ そもそも動画生成のクオリティが低いのでプロンプト /モデル選定を詰めるべきだった ▪ 皆が生成している動画のクオリティが高すぎる ◦ IP

    Adapterとの組み合わせや、 motion moduleの新Ver等、新技術の検証を先にやるべきだった ▪ 相変わらず1週間程度で環境が変わるので付いていくのがつらい • LT会のネタだからと奇をてらった事をやりすぎた ◦ (自分で設定したけど)発表順が最後だし何か凝ったことやらなきゃ …とか考えていた • LT会前に仕事が炎上して作業時間が全く取れなかった