Upgrade to Pro — share decks privately, control downloads, hide ads and more …

ACE-Step-1.5で見る 音楽生成AIのしくみと“破綻だけ直す”Retake機能の開発【...

Sponsored · Ship Features Fearlessly Turn features on and off without deploys. Used by thousands of Ruby developers.
Avatar for asap asap
June 19, 2026

ACE-Step-1.5で見る 音楽生成AIのしくみと“破綻だけ直す”Retake機能の開発【zennfes spring 2026 登壇資料】

Avatar for asap

asap

June 19, 2026

More Decks by asap

Other Decks in Technology

Transcript

  1. 5 ローカルで動く高性能音楽生成AI ACE-Step-1.5で見る音楽生成AI @asap2650 歌詞とCaptionのテキストから音楽を生成するAIモデル • オープンな音楽生成モデル • テキスト・歌詞・参照音源などから音楽を生成・編集可能 •

    ACE Studio / StepFun系のプロジェクトとして公開 • 2026年1月31日にarXiv初版が公開 • 4GB未満VRAMでローカル動作 • 50以上の言語でプロンプト追従 • Cover / Repainting などの編集機能も統合 • 日本語の歌詞から高品質な音楽生成が可能な数少ないローカルモデル
  2. 8 (復習)Transformer型とは ACE-Step-1.5で見る音楽生成AI @asap2650 これまでの入力を見て、次に来るものを1つずつ予測するモデル 大規模言語モデル(ChatGPT等)にスタンダードとして利用される 今日 の 昼 ご飯

    は 餃子 に タクシー 遅い 10% ・・・ 0.2% 0.6% 2.6% 【音楽に使う場合】 音楽を細かいトークン列に変換し、次のトークンを1つずつ生成する。 そのため、歌詞や曲全体の流れは保ちやすいが、生成に時間がかかる。
  3. 9 (復習) Diffusion型とは ACE-Step-1.5で見る音楽生成AI @asap2650 画像生成AIなどによく用いられる ノイズから綺麗な画像/音楽などを生成するモデル https://zenn.dev/asap/articles/7940b17be86da7 https://zenn.dev/asap/articles/7940b17be86da7 https://zenn.dev/asap/articles/4092ab60570b05

    https://zenn.dev/asap/articles/4092ab60570b05 【音楽に使う場合】 音楽全体の潜在表現を、ノイズから少しずつ更新して生成する。 「曲の長さによらず」ノイズを除去する回数分のみの計算で済むため「高速」だが、長い曲全体の構造は崩れやすい。
  4. 10 音楽生成AIの種類 ACE-Step-1.5で見る音楽生成AI @asap2650 音楽生成では「生成速度」と「曲全体の一貫性」が両立しにくい Transformer Diffusion 今日 の 昼

    ご飯 は 餃子 に タクシー 遅い 10% ・・・ 0.2% 0.6% 2.6% 大規模言語モデルなどでよく使われるモデル構造 全体を考慮できるが、逐次生成のため生成が遅い 画像生成AIなどでよく使われるモデル構造 生成が高速だが離れた箇所の構造的整合性が低い 歌詞・曲全体の整合性 生成速度 歌詞・曲全体の整合性 生成速度
  5. 11 ACE-Stepの発想:設計図はLLM、音作りはDiffusion ACE-Step-1.5で見る音楽生成AI @asap2650 LLMが曲全体の構造を作成し、DiffusionとVAEが高速に曲を生成 LLM:曲の設計図 DiT:音の生成 VAE:音声へ復元 Input Texts

    48kHz Audio 荒い潜在表現を出力し 曲全体の構造をDiTにガイド 荒い潜在表現から 詳細な潜在表現を高速生成 潜在表現から 音声波形を出力 Audio Code 潜在表現
  6. 17 現行の日本語音楽生成AIの限界 公式Repaint機能のパイプライン @asap2650 ①様々な曲に対応するため Audio codesの代わりに VAE Encoderによる 潜在表現を利用

    →劣化要素 ②大きな編集にも対応する ため編集区間の中では src_latentsが上書き →原曲から大きく離れる