AIと一緒に音楽を作ろう～作曲体験セッション～ | DevelopersIO 2023

2023/07/08 AWS事業本部平木佳介アライアンス事業部木田雅伊子 AIと一緒に音楽を作ろう～作曲体験セッション～

お品書き 1.はじめに 2.AIとは 3.音楽生成AIとは 4.音楽生成AIの紹介 5.一緒に作曲してみよう(デモ) 6.まとめ 2

自己紹介 3 https://dev.classmethod.jp/author/kidapan/ 木田雅伊子／きだぱんクラスメソッド株式会社アライアンス事業部エンジニアグループ担当：DevOps製品
マーシャルフェレット (4ヶ月) ジャンガリアンハムスター (1歳2ヶ月) 3

はじめに 4

本セッションの概要音楽の新たな可能性を探るため、関連する機械学習の仕組みを解説するとともに、役立つAI技術をご紹介していきます。目的対象 •AIや機械学習に興味がある方 •音楽が好きな方 •音楽の知識やプログラミングの知識がなくてもOK
5

セッションについて • あくまで実験的なもの、抜粋したもの手法であり、 AI音楽生成の定番手法ではない • 作曲理論については話しません • 音で遊ぶなどの体験を重視 • AI、機械学習についても少し話します
• 従来の定番作曲というよりも、様々な手法をやってみよう！試してみよう！概要 6

はじめに Part2 7

AIって何だろう 8

• "AIと一緒にメロディを作ろうセッション" • "楽曲アイデア共有：AIとのコラボレーション" • "AIによるリズムパートナーシップセッション" • "クリエイティブAIとの即興演奏セッション" • "AIが導く新たな和音：作曲セッション"
• "AIの音楽インスピレーション：一緒に作曲しよう" • "AIのメロディガイド：作曲セッション" 以下のキーワードでタイトルを考えて音楽、作曲、AI AIと一緒に音楽を作ろう～作曲体験セッション～ 10

汎用人工知能 (AGI: Artificial General Intelligence) ：人間と同等以上の知能を持つ、あらゆる種類の問題を解決できる人工知能のこと • 大規模なデータを用いた学習能力 •
オープンソース化されたプラットフォームの提供 • 多様な研究分野への取り組み 11

三大AI https://markezine.jp/article/detail/29471 •ディープラーニング •機械学習 •AI(人工知能) ➡ マシンが特徴を自動定義 ➡ 特定のタスクを学習して実行できるAI、人が定義する ➡
人間同様の知識を実現させる技術や取り組み 12

マシンが特徴を自動定義 AI（人工知能）マシンが特徴を自動定義機械学習マシンが特徴を自動定義ディープラーニング特定のタスクを学習して実行できるAI、人が定義する人間同様の知識を実現させる技術や取り組み 13

音楽は好きですか？ 14

音楽とは、音や音の組み合わせによって表現される芸術形式です。音楽はリズム、メロディ、ハーモニーなどの要素が組み合わさってできており、人々の心に感情や情緒を与えたり、物語を伝えたりする力があります。また、文化や地域によって様々な音楽スタイルや楽器が存在しています。世界中で多くの人々が音楽を楽しみ、創作や演奏、聴取などの方法で参加しています。音楽って何ですか？音楽の歴史は非常に広範で長いもので、数万年前の先史時代から現代に至るまで続いています。音楽は文化の発展とともに進化してきました。以下に概略を示します。 1. 先史時代 - 石器時代から青銅器時代にかけての古代音楽が発展。楽器として骨や竹、石の製品が使われるようになります。 2.
古代文明 - 古代メソポタミア、エジプト、ギリシャ、ローマなどの文明では音楽が重要な役割を果たし、宗教儀式や祝祭に使われました。 3. 中世（約500年 - 1400年頃）- グレゴリオ聖歌が発展し、多声音楽が生まれました。この時期の音楽は宗教音楽が主流で、聖職者や僧侶によって作曲されました。 4. ルネサンス（約1400年 - 1600年頃）- セクラー音楽が発展し、宮廷や上流階級の社交場で演奏されました。また、ポリフォニー（多声音楽）が進化しました。 5. バロック（約1600年 - 1750年頃）- オペラ、カンタータ、オラトリオ、宗教音楽、室内楽、協奏曲など様々な形式が発展しました。代表的な作曲家には、バッハ、ヘンデル、ヴィヴァルディがいます。 6. 古典派（約1750年 - 1820年頃）- 調性音楽が確立し、楽器やオーケストラの技術が向上しました。代表的な作曲家には、ハイドン、モーツァルト、ベートーヴェンがいます。 7. ロマン派（約1810年 - 1900年頃）- 個人表現や感情を重視し、プログラム音楽や交響詩などの新しい形式が登場しました。代表的な作曲家には、シューベルト、シューマン、ショパン、ワーグナー、ブラームスがいます。 8. 近現代（20世紀 - 現代）- 音楽の多様性がさらに進み、ジャズ、ロック、ポピュラー音楽が登場しました。また、現代音楽や電子音楽、実験音楽も重要な役割を果たしています。音楽の歴史は国や時代ごとに多種多様な発展を遂げてきましたが、これはあくまで概略であり、さらに詳細に掘り下げることができます。音楽の歴史を教えて 15

音楽 × テクノロジー 16

音楽 × テクノロジー •既存の曲と同じものを作るのはまだまだ難しい部分もある •作成した曲や、既存曲に対してメロディーを変えたり、リズムを変えたりは出来る(Jazz、ラテン風など) •テクノロジー×音楽の融合 •今回は、AIと一緒に音楽と一緒に遊ぶような気分で 17

音楽生成系AIの紹介 18

自己紹介 19 https://dev.classmethod.jp/author/hiraki-keisuke/ 平木佳介クラスメソッド株式会社 AWS事業本部コンサルティング部ソリューションアーキテクト趣味の温泉めぐり（有馬温泉）

音楽生成AI とは音楽生成AI（Artificial Intelligence）とは、コンピュータプログラムを使って新しい音楽や既存曲のアレンジを自動的に生成する技術です。 AIは、既存の音楽や作曲スタイルを学習し、その知識をもとにオリジナルのメロディやリズムを創り出します。音楽生成AIは、作曲家や音楽制作者をサポートし、音楽制作プロセスを効率化することができます。
by ChatGPT 20

音楽生成AI とは音楽生成システムの概念図画像音声/楽譜文字コントロール深層学習型 AIモデルシンボル
(MIDI等) オーディオ 21

音楽生成AI とは深層学習型のAIモデル・再帰型ニューラルネットワーク（Recurrent Neural Network、RNN）・生成的敵対ネットワーク（Generative Adversarial Network、GAN）・Transformer
22

再帰型ニューラルネットワーク（Recurrent Neural Network、RNN） RNN は、時系列データを扱うことができる特徴があります。音楽生成においては、RNN は過去の音楽データを学習し、音楽の構造やパターンを理解し、新しい音楽を生成することができます。これにより、人間が作曲したような自然な音楽を生成することができます。 23

RNN のイメージ過去の経験 24

生成的敵対ネットワーク（Generative Adversarial Network、GAN） GANは、生成モデルと識別モデルという 2つのモデルが協力して働く仕組みになっています。生成モデルは、新しい音楽を作り出し、識別モデルはその音楽が本物かどうかを判断します。生成モデルが作り出した音楽が、識別
モデルによって本物と判断されるまで、生成モデルは音楽を改良し続けます。 25

GAN のイメージ Generator (生成モデル) 実際のデータダミーデータ Discriminator (識別モデル) 繰り返し判定 26

Transformer Transformerベースの手法は、 RNN や GANが苦手とする音楽生成における長期間の時間的構造をうまく扱うことができます。Attention メカニズムを利用して、過去の情報のどの部分を参照するかを学習し、RNN
よりも効果的に大量のデータを用いた学習が可能です。この技術は、自然言語処理から音楽生成へ応用され、さまざまな種類の巨大な音楽データを生成するAIモデルが登場しています。 27

Transformer のイメージ事前に大量に学習されたレシピ 28

音楽生成AIのパターンパターンの種類　music2music （音楽 ⇒ 音楽）　img2music （画像 ⇒ 音楽）
♪ text2music （文字 ⇒ 音楽） 29

text2music の例 Jukebox 2020年5月リリース OpenAI Mubert render 2021年9月リリース Mubert MusicLM
2023年5月公開 Google Research MusicGen 2023年6月公開 Meta AI 30

MusicGen とは 2023年6月9日に Meta AI から公開された text2music の技術。 small, medium,
melody, large までの 4 つのモデルサイズが利用可能。前進の AudioGen をベースとして使用し、追加の仕組みを実装し、さらにパフォーマンスをあげたのが MusicGen。 31

MusicGen とは MusicGen は、 AudioGen をベースにしたもので EnCodec トークナイザーで学習された単一の自己回帰 Transformer
モデル。イメージ） AudioGen = EnCodec(Meta) + Transformer (Google) MusicGen = AudioGen +α 32

MusicLM vs. MusicGen MusicLM MusicGen ⽣成パターン text2music text2music OSS ×
〇トレーニング時間 280,000 時間 20,000 時間メリット実際のレコーディングのような⾼品質の⾳楽素早く簡単に使⽤でき、さまざまなスタイルの⾳楽を⽣成デメリット使⽤できるユーザが、 Googleの従業員と選ばれたパートナーに限定されている MusicLMよりも精度が低く、すべてのスタイルの⾳楽を⽣成できない場合がある 33

使用方法 MusicGen の使用方法 • カスタマイズ性重視の利用（独自のGPU環境） • 手軽に独自のコンソールを作成（Google Colab） • 手軽に楽曲を出力（Google
Colab） • すぐに使えるデモ環境（Hagging Face） 34

MusicGen を触ってみよう！ 35

音楽生成AIの課題機械学習に使用する楽曲や生成した楽曲に関する著作権の問題 • 機械学習に使用する楽曲の著作権 ◦ 商用利用可能なMITライセンスの使用 • 生成した楽曲に関する著作権 ◦ 現在のところ著作権がないものとされる。
36

AWS には何がある？ 37

AWS DeepComposer とは AWS DeepComposer は、機械学習スキルを伸ばすために設計された音楽キーボードと最新の機械学習技術を使用して、実践的に学習することを目的とした開発者向けのサービス
です。使えるモデル • AR-CNN：メロディを変更する • GANs：メロディに伴奏をつける • Transformers：メロディの続きを作曲する 38

AWS DeepComposer とは https://dev.classmethod.jp/articles/deep-compos er-session-report-reinvent2019/ 39

AWS DeepComposer を触ってみよう！ 40

• AIは人間が普段行うような意思決定や認識、学習、問題解決などを実行する能力を持ったコンピュータプログラムやシステムのこと • 音楽生成AIは、コード進行や旋律、リズムなどの要素を生成するのに用いられ、創造的な作曲プロセスに活用している • 実際に音楽生成AIを使って一緒に作曲することで、AIが音
楽創造プロセスに新たな可能性をもたらすまとめ 41

まとめ 42

音楽　×　テクノロジー 43

End 44

AIと一緒に音楽を作ろう ～作曲体験セッション～ | DevelopersIO 2023

AIと一緒に音楽を作ろう ～作曲体験セッション～ | DevelopersIO 2023

More Decks by 平木佳介

Featured

Transcript

AIと一緒に音楽を作ろう～作曲体験セッション～ | DevelopersIO 2023

AIと一緒に音楽を作ろう～作曲体験セッション～ | DevelopersIO 2023