Upgrade to Pro — share decks privately, control downloads, hide ads and more …

[招待講演] JSAI2025 人と調和する音楽AI: 深層学習で実現する構成性と協調性を持つ...

Avatar for Taketo Akama Taketo Akama
May 30, 2025
100

[招待講演] JSAI2025 人と調和する音楽AI: 深層学習で実現する構成性と協調性を持つシステム

[招待講演] JSAI2025 OS-22 音楽認識・生成技術が紡ぎ出す未来の社会
ソニーコンピュータサイエンス研究所 Flow Machines Studio Tokyo
赤間健人
https://confit.atlas.jp/guide/event/jsai2025/subject/3O5-OS-22a-04/detail?lang=ja

Avatar for Taketo Akama

Taketo Akama

May 30, 2025
Tweet

Transcript

  1. 9 Music AIの今後:音楽創作やプロフェッショナルへの影響 ⚫新しい音楽ジャンルが生まれる ✓言語の壁を超える • 北米へ渡ったアフリカの人々がジャズやブルースを生 んだように、翻訳・作詞生成ツールを通じて多国籍 のクリエイターが言語を超えて理解し合い、新たな音 楽ジャンルが生まれる可能性

    [2] ✓新しい楽器 • エレキギターやシンセサイザー等の新しい楽器がロッ クやヒップホップというジャンルを形作った • AI楽器・シンセにより新しい音楽ジャンルが生まれる 可能性 The images are generated by DALL-E [2] 山口 哲一 (2024). AI時代の職業作曲家スタイル 逆張り のサバイバル戦略 リットーミュージック
  2. 12 構成性と協調性を持つ音楽AIシステム Generation Analysis Generation Music Music Library Brain &

    Body Signal Retrieval Generation Music Components MIDI Timbre Lyrics ・・・
  3. 15 教師なしの問題設定に変換する Generation Analysis Generation Music Music Library Brain &

    Body Signal Retrieval Generation Music Components MIDI Timbre Lyrics ・・・
  4. 16 Concatenative sampler Ours (CoSaRef) MIDI-DDSP [Wu+ 2022] 教師なしの問題設定に変換する ⚫CoSaRef:

    MIDI to Audio Synthesis ✓アノテーション・フリー: MIDI-audioペアデータ不要 ☺ ✓MIDI-DDSPを上回る音質・MIDI/音色正確性 ☺ ✓Oneshotサンプルで多様な音色指定 ☺ ✓人の音楽制作プロセスと合致 ☺ Annotation-Free MIDI-to-Audio Synthesis via Concatenative Synthesis and Generative Refinement, Osamu Take and Taketo Akama, arXiv 2024 Paper: https://arxiv.org/abs/2410.16785
  5. 17 教師なしの問題設定に変換する Annotation-Free MIDI-to-Audio Synthesis via Concatenative Synthesis and Generative

    Refinement, Osamu Take and Taketo Akama, arXiv 2024 Paper: https://arxiv.org/abs/2410.16785
  6. 20 教師付きのデータを作ってしまう Generation Analysis Generation Music Music Library Brain &

    Body Signal Retrieval Generation Music Components MIDI Timbre Lyrics ・・・
  7. 21 教師付きのデータを作ってしまう ⚫自動採譜(Audio to MIDI) ✓アノテーション・フリー: MIDI-audioペアデータ不要 ☺ ✓分布外性能において、 MIDI-audioペアデータを用いたSOTAモデルと同等

    Annotation-free Automatic Music Transcription with Scalable Synthetic Data and Adversarial Domain Confusion, Gakusei Sato and Taketo Akama, ICME 2024 DEMO: https://complex-degree-f38.notion.site/Annotation-free-AMT-Demo-33db7972162846059c2118e3fbc9db75
  8. 22 ⚫分布外性能において、 MIDI-audioペアデータを用いたSOTAモデルと同等 ✓緑:評価ドメインでラベルが使えない設定 ✓Real Data • a: real audioを使って学習

    • b: real audio と MIDI annotationを使って学習 • c: bに加えて追加のreal audio と MIDI annotationを使って学習 教師付きのデータを作ってしまう Annotation-free Automatic Music Transcription with Scalable Synthetic Data and Adversarial Domain Confusion, Gakusei Sato and Taketo Akama, ICME 2024 DEMO: https://complex-degree-f38.notion.site/Annotation-free-AMT-Demo-33db7972162846059c2118e3fbc9db75 Ours & ablation SOTAモデル Synth dataで分布外 のデータセットを 補える! Oursと同じアーキテク チャで、annotation使用
  9. 25 教師なしの学習シグナルを用いる Generation Analysis Generation Music Music Library Brain &

    Body Signal Retrieval Generation Music Components MIDI Timbre Lyrics ・・・
  10. 26 ⚫生成モデルによる表現学習の活用 教師なしの学習シグナルを用いる Music Foundation Model as Generic Booster for

    Music Downstream Tasks, WeiHsiang Liao, Yuhta Takida, Yukara Ikemiya, Zhi Zhong, Chieh-Hsin Lai, Giorgio Fabbro, Kazuki Shimada, Keisuke Toyama, Kinwai Cheuk, Marco A. Martínez-Ramírez, Shusuke Takahashi, Stefan Uhlich, Taketo Akama, Woosung Choi, Yuichiro Koyama, Yuki Mitsufuji, TMLR 2025
  11. 27 ⚫生成モデルSoniDoのアーキテクチャと特徴量 教師なしの学習シグナルを用いる Music Foundation Model as Generic Booster for

    Music Downstream Tasks, WeiHsiang Liao, Yuhta Takida, Yukara Ikemiya, Zhi Zhong, Chieh-Hsin Lai, Giorgio Fabbro, Kazuki Shimada, Keisuke Toyama, Kinwai Cheuk, Marco A. Martínez-Ramírez, Shusuke Takahashi, Stefan Uhlich, Taketo Akama, Woosung Choi, Yuichiro Koyama, Yuki Mitsufuji, TMLR 2025
  12. 28 ⚫生成モデルによる表現学習の活用 教師なしの学習シグナルを用いる Music Foundation Model as Generic Booster for

    Music Downstream Tasks, WeiHsiang Liao, Yuhta Takida, Yukara Ikemiya, Zhi Zhong, Chieh-Hsin Lai, Giorgio Fabbro, Kazuki Shimada, Keisuke Toyama, Kinwai Cheuk, Marco A. Martínez-Ramírez, Shusuke Takahashi, Stefan Uhlich, Taketo Akama, Woosung Choi, Yuichiro Koyama, Yuki Mitsufuji, TMLR 2025
  13. 29 (補足) 自動採譜におけるモデルアーキテクチャの工夫 Automatic Piano Transcription with Hierarchical Frequency-Time Transformer,

    Keisuke Toyama, Taketo Akama, Yukara Ikemiya, Yuhta Takida, Wei-Hsiang Liao, Yuki Mitsufuji、ISMIR2023 HPPNet [Wei+ 22]
  14. 30 (補足) 自動採譜におけるモデルアーキテクチャの工夫 Automatic Piano Transcription with Hierarchical Frequency-Time Transformer,

    Keisuke Toyama, Taketo Akama, Yukara Ikemiya, Yuhta Takida, Wei-Hsiang Liao, Yuki Mitsufuji、ISMIR2023
  15. 31 教師なしの学習シグナルを用いる Generation Analysis Generation Music Music Library Brain &

    Body Signal Retrieval Generation Music Components MIDI Timbre Lyrics ・・・
  16. 32 教師なしの学習シグナルを用いる Generation Analysis Generation Music Music Library Brain &

    Body Signal Retrieval Generation Music Components MIDI Timbre Lyrics ・・・
  17. 33 教師なしの学習シグナルを用いる ⚫音楽検索:自己教師あり距離学習 Auxiliary self-supervision to metric learning for music

    similarity-based retrieval and auto-tagging, Taketo Akama, Hiroaki Kitano, Katsuhiro Takematsu, Yasushi Miyajima, Natalia Polouliakh, PlosOne 2023
  18. 34 教師なしの学習シグナルを用いる ⚫音楽検索:自己教師あり距離学習 Auxiliary self-supervision to metric learning for music

    similarity-based retrieval and auto-tagging, Taketo Akama, Hiroaki Kitano, Katsuhiro Takematsu, Yasushi Miyajima, Natalia Polouliakh, PlosOne 2023
  19. 36 こうした技術の製品化 Generation Analysis Generation Music Music Library Brain &

    Body Signal Retrieval Generation Music Components MIDI Timbre Lyrics ・・・
  20. 37 こうした技術の製品化 Generation Analysis Generation Music Music Library Brain &

    Body Signal Retrieval Generation Music Components MIDI Timbre Lyrics ・・・
  21. 39

  22. 42 構成性と協調性を持つ音楽AIシステム Generation Analysis Generation Music Music Library Brain &

    Body Signal Retrieval Generation Music Components MIDI Timbre Lyrics ・・・
  23. 43 下の階層の生成: MIDI & 音色 Generation Analysis Generation Music Music

    Library Brain & Body Signal Retrieval Generation Music Components MIDI Timbre Lyrics ・・・
  24. 44 MIDI生成と制御性 ⚫音楽校正 RefinPaint モデル ✓インペインティングは直すべき場所を教えてくれない • RefinPaintは教えてくれる ☺ ✓直すべき場所のフィードバックの用途

    • ユーザーの教育 • 自律的な改善 Music Proofreading with RefinPaint: Where and How to Modify Compositions given Context, Pedro Ramoneda, Martin Rocamora, and Taketo Akama, ISMIR 2024 DEMO: https://refinpaint.github.io/
  25. 45 MIDI生成と制御性 ⚫音楽校正 RefinPaint モデル ✓インペインティングは直すべき場所を教えてくれない • RefinPaintは教えてくれる ☺ ✓生成データにより質の低い音楽をシミュレートし、教師データ不要

    Music Proofreading with RefinPaint: Where and How to Modify Compositions given Context, Pedro Ramoneda, Martin Rocamora, and Taketo Akama, ISMIR 2024 DEMO: https://refinpaint.github.io/
  26. 49 同時期に報告された関連研究 Learning to Groove with Inverse Sequence Transformations, Jon

    Gillick, Adam Roberts, Jesse Engel, Douglas Eck, David Bamman, ICML 2019
  27. 50 その後の研究 Music FaderNets: Controllable Music Generation Based On High-Level

    Features via Low-Level Feature Modelling, Hao Hao Tan and Dorien Herremans, ISMIR 2020 arousal rhythm note
  28. 54 MIDI生成と制御性 A Contextual Latent Space Model: Subsequence Modulation in

    Melodic Sequence, Taketo Akama, ISMIR 2021 DEMO: https://contextual-latent-space-model.github. io/demo/
  29. 55 MIDI生成と制御性 ⚫表現力が高く安定して学習できるプライ ヤーモデル ✓Normalizing Flow ⚫Global潜在ベクトルを持つ Transformer VAE ✓RNNで集約

    ✓BERTのように集約する方法もある ⚫インペインティング用のアテンションマスク デザイン A Contextual Latent Space Model: Subsequence Modulation in Melodic Sequence, Taketo Akama, ISMIR 2021 DEMO: https://contextual-latent-space-model.github. io/demo/ https://aditi-mittal.medium.com/understanding-rnn- and-lstm-f7cdf6dfc14e [Devlin+ 19]
  30. 57 構成性と協調性を持つ音楽AIシステム Generation Analysis Generation Music Music Library Brain &

    Body Signal Retrieval Generation Music Components MIDI Timbre Lyrics ・・・
  31. 58 下の階層の生成: MIDI & 音色 Generation Analysis Generation Music Music

    Library Brain & Body Signal Retrieval Generation Music Components MIDI Timbre Lyrics ・・・
  32. 63 音色生成:ニューラル・シンセサイザー ⚫HyperGANStrument ✓「再構成 vs インターポレーション」のトレードオフの改善 ✓ピッチ不変なハイパーネットワークを提案 HyperGANStrument: Instrument Sound

    Synthesis and Editing with Pitch-Invariant Hypernetworks, Zhe Zhang and Taketo Akama, ICASSP2024 DEMO: https://lukibibi.notion.site/Demo-Page-for-HyperGANStrument-b7cf7b02ddfd4831ac8c64e9e246642b
  33. 65 構成性と協調性を持つ音楽AIシステム Generation Analysis Generation Music Music Library Brain &

    Body Signal Retrieval Generation, Analysis Music Components MIDI Timbre Lyrics ・・・
  34. 66 構成性と協調性を持つ音楽AIシステム Generation Analysis Generation Music Music Library Brain &

    Body Signal Retrieval Generation, Analysis Music Components MIDI Timbre Lyrics ・・・
  35. 67 脳波からの音楽生成 ⚫一般の音楽を非侵襲のEEGから再構成 ⚫人手の前処理が不要 Reconstructed with our model Ground Truth

    Naturalistic Music Decoding from EEG Data via Latent Diffusion Models, Emilian Postolache, Natalia Polouliakh, Hiroaki Kitano, Akima Connelly, Emanuele Rodolà, Luca Cosmo, and Taketo Akama, ICASSP 2025 DEMO: https://emilianpostolache.com/brainwave/
  36. 68 脳波からの音楽生成 ⚫一般の音楽を非侵襲のEEGから再構成 ⚫人手の前処理が不要 Naturalistic Music Decoding from EEG Data

    via Latent Diffusion Models, Emilian Postolache, Natalia Polouliakh, Hiroaki Kitano, Akima Connelly, Emanuele Rodolà, Luca Cosmo, and Taketo Akama, ICASSP 2025 DEMO: https://emilianpostolache.com/brainwave/
  37. 69 脳波表現学習 Predicting Artificial Neural Network Representations to Learn Recognition

    Model for Music Identification from Brain Recordings, Taketo Akama, Zhuohao Zhang, Pengcheng Li, Kotaro Hongo, Shun Minamikawa, Natalia Polouliakh, Scientific Reports, to appear, 2025 ⚫大脳皮質と人工ニューラルネット(ANN)の表現の類似性が報告されている ⚫ANN表現を予測することで、脳波の表現を学習するフレームワークを提案 Paper: https://arxiv.org/abs/2412.15560 Millet et al. Toward a realistic model of speech processing in the brain with self-supervised learning, NeurIPS, 2022
  38. 70 脳波表現学習 Predicting Artificial Neural Network Representations to Learn Recognition

    Model for Music Identification from Brain Recordings, Taketo Akama, Zhuohao Zhang, Pengcheng Li, Kotaro Hongo, Shun Minamikawa, Natalia Polouliakh, Scientific Reports, to appear, 2025 ⚫大脳皮質と人工ニューラルネット(ANN)の表現の類似性が報告されている ⚫ANN表現を予測することで、脳波の表現を学習するフレームワークを提案 Paper: https://arxiv.org/abs/2412.15560
  39. 71 脳波表現学習 Predicting Artificial Neural Network Representations to Learn Recognition

    Model for Music Identification from Brain Recordings, Taketo Akama, Zhuohao Zhang, Pengcheng Li, Kotaro Hongo, Shun Minamikawa, Natalia Polouliakh, Scientific Reports, to appear, 2025 ⚫大脳皮質と人工ニューラルネット(ANN)の表現の類似性が報告されている ⚫ANN表現を予測することで、脳波の表現を学習するフレームワークを提案 Paper: https://arxiv.org/abs/2412.15560