ACE-Step-1.5で見る音楽生成AIのしくみと“破綻だけ直す”Retake機能の開発【zennfes spring 2026 登壇資料】

asap asap ACE-Step-1.5で見る音楽生成AIのしくみと “破綻だけ直す”Retake機能の開発

1 はじめに自己紹介 asap AI・機械学習の理論に興味を持つエンジニア。 ZennでAI関連の技術記事を書いてます。 @asap2650 ぜひ今アカウント作って登録してください @asap2650

2 はじめに本講演の目的音楽生成AIの「技術的な面白さ」を知ってもらうこと技術に関してそんなに詳しくない人でも「面白い！」と思ってもらえることが本日の目的です厳密にはFlow MatchingのところをDiffusionと呼んだりします若干の厳密性は捨てて、なんとなくわかっていただくことが目標ですぜひ私の記事もご覧ください @asap2650
こちらの内容を参考にお話しします

3 はじめに本日のお品書き ACE-Step-1.5で見る音楽生成AI 1 現行の日本語音楽生成AIの限界 2 破綻部分を違和感なく修正するRetake機能の開発 3 @asap2650

5 ローカルで動く高性能音楽生成AI ACE-Step-1.5で見る音楽生成AI @asap2650 歌詞とCaptionのテキストから音楽を生成するAIモデル • オープンな音楽生成モデル • テキスト・歌詞・参照音源などから音楽を生成・編集可能 •
ACE Studio / StepFun系のプロジェクトとして公開 • 2026年1月31日にarXiv初版が公開 • 4GB未満VRAMでローカル動作 • 50以上の言語でプロンプト追従 • Cover / Repainting などの編集機能も統合 • 日本語の歌詞から高品質な音楽生成が可能な数少ないローカルモデル

6 音楽生成AIの種類 ACE-Step-1.5で見る音楽生成AI @asap2650 商用としてはSunoやUdioが代表例ローカルで動くAIの中ではACE-Step-1.5がトップレベル商用モデルオープンモデルオープンモデルと比べて性能が高い仕組みは公開されていない
コードもモデルも全て公開されており解析可能 Suno Udio Music Gen YuE DiffRhythm ACE-Step-1.5

7 音楽生成AIの種類 ACE-Step-1.5で見る音楽生成AI @asap2650 オープンモデルにはTransformer型とDiffusion型が存在商用モデルオープンモデルオープンモデルと比べて性能が高い仕組みは公開されていないコードもモデルも全て公開されており解析可能
Transformer型 Music Gen YuE Suno Udio DiffRhythm ACE-Step-1.5 Diffusion型

8 (復習)Transformer型とは ACE-Step-1.5で見る音楽生成AI @asap2650 これまでの入力を見て、次に来るものを1つずつ予測するモデル大規模言語モデル(ChatGPT等)にスタンダードとして利用される今日の昼ご飯
は餃子にタクシー遅い 10% ・・・ 0.2% 0.6% 2.6% 【音楽に使う場合】音楽を細かいトークン列に変換し、次のトークンを1つずつ生成する。そのため、歌詞や曲全体の流れは保ちやすいが、生成に時間がかかる。

9 (復習) Diffusion型とは ACE-Step-1.5で見る音楽生成AI @asap2650 画像生成AIなどによく用いられるノイズから綺麗な画像/音楽などを生成するモデル https://zenn.dev/asap/articles/7940b17be86da7 https://zenn.dev/asap/articles/7940b17be86da7 https://zenn.dev/asap/articles/4092ab60570b05
https://zenn.dev/asap/articles/4092ab60570b05 【音楽に使う場合】音楽全体の潜在表現を、ノイズから少しずつ更新して生成する。「曲の長さによらず」ノイズを除去する回数分のみの計算で済むため「高速」だが、長い曲全体の構造は崩れやすい。

10 音楽生成AIの種類 ACE-Step-1.5で見る音楽生成AI @asap2650 音楽生成では「生成速度」と「曲全体の一貫性」が両立しにくい Transformer Diffusion 今日の昼
ご飯は餃子にタクシー遅い 10% ・・・ 0.2% 0.6% 2.6% 大規模言語モデルなどでよく使われるモデル構造全体を考慮できるが、逐次生成のため生成が遅い画像生成AIなどでよく使われるモデル構造生成が高速だが離れた箇所の構造的整合性が低い歌詞・曲全体の整合性生成速度歌詞・曲全体の整合性生成速度

11 ACE-Stepの発想：設計図はLLM、音作りはDiffusion ACE-Step-1.5で見る音楽生成AI @asap2650 LLMが曲全体の構造を作成し、DiffusionとVAEが高速に曲を生成 LLM：曲の設計図 DiT：音の生成 VAE：音声へ復元 Input Texts
48kHz Audio 荒い潜在表現を出力し曲全体の構造をDiTにガイド荒い潜在表現から詳細な潜在表現を高速生成潜在表現から音声波形を出力 Audio Code 潜在表現

12 モデル説明 ACE-Step-1.5で見る音楽生成AI @asap2650

14 現行の日本語音楽生成AIの限界日本語は難しい @asap2650 こんな経験はないですか？好きなんだけど微妙に破綻してるから没にするか・・・【問題】ほとんど良い曲なのに、数秒の破綻だけで没になる

15 現行の日本語音楽生成AIの限界日本語は難しい @asap2650

16 現行の日本語音楽生成AIの限界公式Repaint機能について @asap2650 Repaint機能は汎用性は高いが、微修正に特化していない 20−30回程度Repaintさせて最も自然なものを採用した結果 Repaint機能は「ACE-Step-1.5で生成した曲以外にも利用可能」「サビ全体をジャズ風になどの大きな変更が可能」といった汎用性が非常に高い素晴らしい機能
しかし、読み間違いなどの微修正には向かない

17 現行の日本語音楽生成AIの限界公式Repaint機能のパイプライン @asap2650 ①様々な曲に対応するため Audio codesの代わりに VAE Encoderによる潜在表現を利用
→劣化要素 ②大きな編集にも対応するため編集区間の中では src_latentsが上書き →原曲から大きく離れる

19 破綻部分を違和感なく修正するRetake機能の提案まずは結果 @asap2650 違和感なく修正可能 4回程度生成すれば完璧に微修正したトラックが生成可能

20 破綻部分を違和感なく修正するRetake機能の提案 Retake機能のパイプライン @asap2650

21 破綻部分を違和感なく修正するRetake機能の提案 Retake機能の工夫点① @asap2650 ①原曲生成時に保存した Audio Codesと潜在表現を直接利用

22 破綻部分を違和感なく修正するRetake機能の提案 Retake機能の工夫点② @asap2650 ②原曲生成時と同一の Audio CodesがDiTの生成をガイド

23 破綻部分を違和感なく修正するRetake機能の提案 Retake機能の工夫点③ @asap2650 ③DiTの初期ノイズに原曲と同じ潜在表現を混ぜて生成方向を誘導

24 破綻部分を違和感なく修正するRetake機能の提案 Retake機能の工夫点④ @asap2650 ④モデルパラメータの変更ではなく使い方を変えただけモデルが進化しても継続して利用可能

25 まとめまとめ ACE-Step-1.5は既存の音楽生成AIのいいところどり 1 公式機能でピンポイントに破綻の修正は難しい 2 破綻部分を違和感なく微修正するRetake機能の開発 3 @asap2650

26 最後に記事と動画にいいねをお願いします！ @asap2650

ACE-Step-1.5で見る音楽生成AIのしくみと“破綻だけ直す”Retake機能の開発【...

ACE-Step-1.5で見る音楽生成AIのしくみと“破綻だけ直す”Retake機能の開発【zennfes spring 2026 登壇資料】

asap

More Decks by asap

Other Decks in Technology

Featured

Transcript

asap asap ACE-Step-1.5で見る音楽生成AIのしくみと “破綻だけ直す”Retake機能の開発

1 はじめに自己紹介 asap AI・機械学習の理論に興味を持つエンジニア。 ZennでAI関連の技術記事を書いてます。 @asap2650 ぜひ今アカウント作って登録してください @asap2650

3 はじめに本日のお品書き ACE-Step-1.5で見る音楽生成AI 1 現行の日本語音楽生成AIの限界 2 破綻部分を違和感なく修正するRetake機能の開発 3 @asap2650

4 はじめに本日のお品書き ACE-Step-1.5で見る音楽生成AI 1 現行の日本語音楽生成AIの限界 2 破綻部分を違和感なく修正するRetake機能の開発 3 @asap2650

5 ローカルで動く高性能音楽生成AI ACE-Step-1.5で見る音楽生成AI @asap2650 歌詞とCaptionのテキストから音楽を生成するAIモデル • オープンな音楽生成モデル • テキスト・歌詞・参照音源などから音楽を生成・編集可能 •

8 (復習)Transformer型とは ACE-Step-1.5で見る音楽生成AI @asap2650 これまでの入力を見て、次に来るものを1つずつ予測するモデル大規模言語モデル(ChatGPT等)にスタンダードとして利用される今日の昼ご飯

10 音楽生成AIの種類 ACE-Step-1.5で見る音楽生成AI @asap2650 音楽生成では「生成速度」と「曲全体の一貫性」が両立しにくい Transformer Diffusion 今日の昼

11 ACE-Stepの発想：設計図はLLM、音作りはDiffusion ACE-Step-1.5で見る音楽生成AI @asap2650 LLMが曲全体の構造を作成し、DiffusionとVAEが高速に曲を生成 LLM：曲の設計図 DiT：音の生成 VAE：音声へ復元 Input Texts

12 モデル説明 ACE-Step-1.5で見る音楽生成AI @asap2650

13 はじめに本日のお品書き ACE-Step-1.5で見る音楽生成AI 1 現行の日本語音楽生成AIの限界 2 破綻部分を違和感なく修正するRetake機能の開発 3 @asap2650

14 現行の日本語音楽生成AIの限界日本語は難しい @asap2650 こんな経験はないですか？好きなんだけど微妙に破綻してるから没にするか・・・【問題】ほとんど良い曲なのに、数秒の破綻だけで没になる

15 現行の日本語音楽生成AIの限界日本語は難しい @asap2650

17 現行の日本語音楽生成AIの限界公式Repaint機能のパイプライン @asap2650 ①様々な曲に対応するため Audio codesの代わりに VAE Encoderによる潜在表現を利用

18 はじめに本日のお品書き ACE-Step-1.5で見る音楽生成AI 1 現行の日本語音楽生成AIの限界 2 破綻部分を違和感なく修正するRetake機能の開発 3 @asap2650

19 破綻部分を違和感なく修正するRetake機能の提案まずは結果 @asap2650 違和感なく修正可能 4回程度生成すれば完璧に微修正したトラックが生成可能

20 破綻部分を違和感なく修正するRetake機能の提案 Retake機能のパイプライン @asap2650

21 破綻部分を違和感なく修正するRetake機能の提案 Retake機能の工夫点① @asap2650 ①原曲生成時に保存した Audio Codesと潜在表現を直接利用

22 破綻部分を違和感なく修正するRetake機能の提案 Retake機能の工夫点② @asap2650 ②原曲生成時と同一の Audio CodesがDiTの生成をガイド

23 破綻部分を違和感なく修正するRetake機能の提案 Retake機能の工夫点③ @asap2650 ③DiTの初期ノイズに原曲と同じ潜在表現を混ぜて生成方向を誘導

24 破綻部分を違和感なく修正するRetake機能の提案 Retake機能の工夫点④ @asap2650 ④モデルパラメータの変更ではなく使い方を変えただけモデルが進化しても継続して利用可能

25 まとめまとめ ACE-Step-1.5は既存の音楽生成AIのいいところどり 1 公式機能でピンポイントに破綻の修正は難しい 2 破綻部分を違和感なく微修正するRetake機能の開発 3 @asap2650

26 最後に記事と動画にいいねをお願いします！ @asap2650

ACE-Step-1.5で見る 音楽生成AIのしくみと“破綻だけ直す”Retake機能の開発【...

ACE-Step-1.5で見る 音楽生成AIのしくみと“破綻だけ直す”Retake機能の開発【zennfes spring 2026 登壇資料】

More Decks by asap

Other Decks in Technology

Featured

Transcript

ACE-Step-1.5で見る音楽生成AIのしくみと“破綻だけ直す”Retake機能の開発【...

ACE-Step-1.5で見る音楽生成AIのしくみと“破綻だけ直す”Retake機能の開発【zennfes spring 2026 登壇資料】