Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
ACE-Step-1.5で見る 音楽生成AIのしくみと“破綻だけ直す”Retake機能の開発【...
Search
Sponsored
·
Ship Features Fearlessly
Turn features on and off without deploys. Used by thousands of Ruby developers.
→
asap
June 19, 2026
Technology
110
1
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
ACE-Step-1.5で見る 音楽生成AIのしくみと“破綻だけ直す”Retake機能の開発【zennfes spring 2026 登壇資料】
https://zenn.dev/events/zennfes-spring-2026
https://classmethod.connpass.com/event/390416/
asap
June 19, 2026
More Decks by asap
See All by asap
ローカルで動く高性能音楽生成AI【ACE-Step-1.5】でRetake機能を提案します!
personabb
0
70
英語 × の私が、生成AIの力を借りて、OSSに初コントリビュートした話
personabb
0
470
DeepSeek-R1の論文から読み解く背景技術
personabb
3
1.1k
Other Decks in Technology
See All in Technology
失敗を資産に変えるClaude Code
shinyasaita
0
320
失敗を経て、Harness Engineering で 大切にしたいことを考える / Learning from Failure: What Matters in Harness Engineering
bitkey
PRO
1
300
2026TECHFRESH畢業分享會 - 葬送的通靈師:化系統與用戶雜訊成行動訊號
line_developers_tw
PRO
0
760
AIの性能が向上しても未解決な組織の重大問題は何か?/An Unsolved Organizational Problem in the Age of AI
moriyuya
3
610
AIっぽい文章を採点して人間らしく直すアプリを作ってみた
yama3133
2
120
非定型業務をAI slackbotで自動化する ~ 社内要望を自動壁打ちするbotを作った ~/automating-ad-hoc-work-with-ai-slackbot
shibayu36
0
600
Bucharest Tech Week 2026 - Reinventing testing practices in the AI era
edeandrea
PRO
1
140
手塩にかけりゃいいってもんじゃない
ming_ayami
0
260
Amazon Bedrock AgentCore ワークショップ JAWS UG TOHOKU / amazon-bedrock-agentcore-workshop-jawsug-tohoku-2026
gawa
9
660
2026TECHFRESH畢業分享會 - AI 時代的人生存檔點
line_developers_tw
PRO
0
770
作って終わりにしない タイミーのセマンティックレイヤー育成の現在地
chanyou0311
3
2.2k
攻撃者視点で考えるDetection Engineering
cryptopeg
1
1.1k
Featured
See All Featured
SEOcharity - Dark patterns in SEO and UX: How to avoid them and build a more ethical web
sarafernandez
0
200
HDC tutorial
michielstock
2
700
Exploring anti-patterns in Rails
aemeredith
3
400
For a Future-Friendly Web
brad_frost
183
10k
Designing Dashboards & Data Visualisations in Web Apps
destraynor
231
55k
Keith and Marios Guide to Fast Websites
keithpitt
413
23k
KATA
mclloyd
PRO
35
15k
Leveraging LLMs for student feedback in introductory data science courses - posit::conf(2025)
minecr
1
280
Leading Effective Engineering Teams in the AI Era
addyosmani
9
2k
The Illustrated Guide to Node.js - THAT Conference 2024
reverentgeek
1
380
Mobile First: as difficult as doing things right
swwweet
225
10k
Breaking role norms: Why Content Design is so much more than writing copy - Taylor Woolridge
uxyall
0
320
Transcript
asap asap ACE-Step-1.5で見る 音楽生成AIのしくみと “破綻だけ直す”Retake機能の開発
1 はじめに 自己紹介 asap AI・機械学習の理論に興味を持つエンジニア。 ZennでAI関連の技術記事を書いてます。 @asap2650 ぜひ今アカウント作って登録してください @asap2650
2 はじめに 本講演の目的 音楽生成AIの「技術的な面白さ」を知ってもらうこと 技術に関してそんなに詳しくない人でも「面白い!」と思ってもらえることが本日の目的です 厳密にはFlow MatchingのところをDiffusionと呼んだりします 若干の厳密性は捨てて、なんとなくわかっていただくことが目標です ぜひ私の記事もご覧ください @asap2650
こちらの内容を参考にお話しします
3 はじめに 本日のお品書き ACE-Step-1.5で見る音楽生成AI 1 現行の日本語音楽生成AIの限界 2 破綻部分を違和感なく修正するRetake機能の開発 3 @asap2650
4 はじめに 本日のお品書き ACE-Step-1.5で見る音楽生成AI 1 現行の日本語音楽生成AIの限界 2 破綻部分を違和感なく修正するRetake機能の開発 3 @asap2650
5 ローカルで動く高性能音楽生成AI ACE-Step-1.5で見る音楽生成AI @asap2650 歌詞とCaptionのテキストから音楽を生成するAIモデル • オープンな音楽生成モデル • テキスト・歌詞・参照音源などから音楽を生成・編集可能 •
ACE Studio / StepFun系のプロジェクトとして公開 • 2026年1月31日にarXiv初版が公開 • 4GB未満VRAMでローカル動作 • 50以上の言語でプロンプト追従 • Cover / Repainting などの編集機能も統合 • 日本語の歌詞から高品質な音楽生成が可能な数少ないローカルモデル
6 音楽生成AIの種類 ACE-Step-1.5で見る音楽生成AI @asap2650 商用としてはSunoやUdioが代表例 ローカルで動くAIの中ではACE-Step-1.5がトップレベル 商用モデル オープンモデル オープンモデルと比べて性能が高い 仕組みは公開されていない
コードもモデルも全て公開されており解析可能 Suno Udio Music Gen YuE DiffRhythm ACE-Step-1.5
7 音楽生成AIの種類 ACE-Step-1.5で見る音楽生成AI @asap2650 オープンモデルにはTransformer型とDiffusion型が存在 商用モデル オープンモデル オープンモデルと比べて性能が高い 仕組みは公開されていない コードもモデルも全て公開されており解析可能
Transformer型 Music Gen YuE Suno Udio DiffRhythm ACE-Step-1.5 Diffusion型
8 (復習)Transformer型とは ACE-Step-1.5で見る音楽生成AI @asap2650 これまでの入力を見て、次に来るものを1つずつ予測するモデル 大規模言語モデル(ChatGPT等)にスタンダードとして利用される 今日 の 昼 ご飯
は 餃子 に タクシー 遅い 10% ・・・ 0.2% 0.6% 2.6% 【音楽に使う場合】 音楽を細かいトークン列に変換し、次のトークンを1つずつ生成する。 そのため、歌詞や曲全体の流れは保ちやすいが、生成に時間がかかる。
9 (復習) Diffusion型とは ACE-Step-1.5で見る音楽生成AI @asap2650 画像生成AIなどによく用いられる ノイズから綺麗な画像/音楽などを生成するモデル https://zenn.dev/asap/articles/7940b17be86da7 https://zenn.dev/asap/articles/7940b17be86da7 https://zenn.dev/asap/articles/4092ab60570b05
https://zenn.dev/asap/articles/4092ab60570b05 【音楽に使う場合】 音楽全体の潜在表現を、ノイズから少しずつ更新して生成する。 「曲の長さによらず」ノイズを除去する回数分のみの計算で済むため「高速」だが、長い曲全体の構造は崩れやすい。
10 音楽生成AIの種類 ACE-Step-1.5で見る音楽生成AI @asap2650 音楽生成では「生成速度」と「曲全体の一貫性」が両立しにくい Transformer Diffusion 今日 の 昼
ご飯 は 餃子 に タクシー 遅い 10% ・・・ 0.2% 0.6% 2.6% 大規模言語モデルなどでよく使われるモデル構造 全体を考慮できるが、逐次生成のため生成が遅い 画像生成AIなどでよく使われるモデル構造 生成が高速だが離れた箇所の構造的整合性が低い 歌詞・曲全体の整合性 生成速度 歌詞・曲全体の整合性 生成速度
11 ACE-Stepの発想:設計図はLLM、音作りはDiffusion ACE-Step-1.5で見る音楽生成AI @asap2650 LLMが曲全体の構造を作成し、DiffusionとVAEが高速に曲を生成 LLM:曲の設計図 DiT:音の生成 VAE:音声へ復元 Input Texts
48kHz Audio 荒い潜在表現を出力し 曲全体の構造をDiTにガイド 荒い潜在表現から 詳細な潜在表現を高速生成 潜在表現から 音声波形を出力 Audio Code 潜在表現
12 モデル説明 ACE-Step-1.5で見る音楽生成AI @asap2650
13 はじめに 本日のお品書き ACE-Step-1.5で見る音楽生成AI 1 現行の日本語音楽生成AIの限界 2 破綻部分を違和感なく修正するRetake機能の開発 3 @asap2650
14 現行の日本語音楽生成AIの限界 日本語は難しい @asap2650 こんな経験はないですか? 好きなんだけど 微妙に破綻してるから没にするか・・・ 【問題】ほとんど良い曲なのに、数秒の破綻だけで没になる
15 現行の日本語音楽生成AIの限界 日本語は難しい @asap2650
16 現行の日本語音楽生成AIの限界 公式Repaint機能について @asap2650 Repaint機能は汎用性は高いが、微修正に特化していない 20−30回程度Repaintさせて最も自然なものを採用した結果 Repaint機能は 「ACE-Step-1.5で生成した曲以外にも利用可能」 「サビ全体をジャズ風になどの大きな変更が可能」 といった汎用性が非常に高い素晴らしい機能
しかし、読み間違いなどの微修正には向かない
17 現行の日本語音楽生成AIの限界 公式Repaint機能のパイプライン @asap2650 ①様々な曲に対応するため Audio codesの代わりに VAE Encoderによる 潜在表現を利用
→劣化要素 ②大きな編集にも対応する ため編集区間の中では src_latentsが上書き →原曲から大きく離れる
18 はじめに 本日のお品書き ACE-Step-1.5で見る音楽生成AI 1 現行の日本語音楽生成AIの限界 2 破綻部分を違和感なく修正するRetake機能の開発 3 @asap2650
19 破綻部分を違和感なく修正するRetake機能の提案 まずは結果 @asap2650 違和感なく修正可能 4回程度生成すれば 完璧に微修正したトラックが生成可能
20 破綻部分を違和感なく修正するRetake機能の提案 Retake機能のパイプライン @asap2650
21 破綻部分を違和感なく修正するRetake機能の提案 Retake機能の工夫点① @asap2650 ①原曲生成時に保存した Audio Codesと潜在表現を直接利用
22 破綻部分を違和感なく修正するRetake機能の提案 Retake機能の工夫点② @asap2650 ②原曲生成時と同一の Audio CodesがDiTの生成をガイド
23 破綻部分を違和感なく修正するRetake機能の提案 Retake機能の工夫点③ @asap2650 ③DiTの初期ノイズに原曲と同じ潜在表現を 混ぜて生成方向を誘導
24 破綻部分を違和感なく修正するRetake機能の提案 Retake機能の工夫点④ @asap2650 ④モデルパラメータの変更ではなく 使い方を変えただけ モデルが進化しても継続して利用可能
25 まとめ まとめ ACE-Step-1.5は既存の音楽生成AIのいいところどり 1 公式機能でピンポイントに破綻の修正は難しい 2 破綻部分を違和感なく微修正するRetake機能の開発 3 @asap2650
26 最後に 記事と動画にいいねをお願いします! @asap2650