[論文紹介]Jukebox: A Generative Model for Music

<࿦จ঺հ> +VLFCPY"(FOFSBUJWF.PEFMGPS.VTJD

Jukebox: A Generative Model for Music 資料は公開済み 2 / 14
speakerdeckのリンク

Jukebox: A Generative Model for Music 免責事項 3 / 14
- 本登壇は個⼈の⾒解であり、所属する組織の公式⾒解ではありません - 間違っていることを話していましたら、ごめんなさい - 論⽂に書いてることが正なので、論⽂を確認してください(h$ps://arxiv.org/abs/2005.00341) - 多少ML(正確には深層学習)を知っている⼈向けになっています

Jukebox: A Generative Model for Music ⾃⼰紹介 4 / 14
仁ノ平将⼈ Masato Ninohira (@nino_pira) 早稲⽥⼤学創造理⼯学研究科経営システム⼯学専攻共同研究先のマーケティングデータ × データサイエンスデータサイエンティスト@BrainPad 2018年新卒深層強化学習 / NLP / 統計的因果推論 / 画像異常検知シスムテム化を⾒据えた需要予測モデルのPoCと業務要件整理 (昨年11⽉頃の画像案件以降は⼩規模案件のPM) (サイエンス寄りの案件が主戦場) Data Gateway Talk 主催ブログ:下町データサイエンティストの⽇常 B’zファンフットサル仕事学⽣趣味

Jukebox: A Generative Model for Music ⾃⼰紹介 (⾳楽関連) 5 /
14 ⾳楽関連・B’zファン・5線譜は読めないけど6線譜は読める #muana関連・#muanaの⽴ち上げメンバー → 現運営に引き継ぎ済み・初回にArtist2VecでLT 過去のmuanaでの登壇資料

Jukebox: A Generative Model for Music 会社の活動の宣伝も兼ねて 6 / 14
⽩⾦鉱業FM#11でも論⽂紹介したので、聞いてください podcastリンク

Jukebox: A Generative Model for Music 何はともあれデモサイトを⾒てみる。凄く賢いことがわかる。 7 / 14
OpenAIのページ⽣成された曲の検索ページ

Jukebox: A Generative Model for Music ざっくりフロー 8 / 14
⾳楽の中間表現を頑張って学習 (圧縮率の異なる⾳源の各種中間表現をVQ-VAE2を使って学習) 中間表現 + 歌詞 + アーティストを⼊れて次の(中間表現 + 歌詞)を予測中間表現をdecodeし、最終的な⾳楽を⽣成中間表現の推定中間表現をもとに⾳源に復元

Jukebox: A Generative Model for Music 中間表現の学習 9 / 14
・VQ-VAE2を⽤いる(潜在空間が離散的なVAE)(中間ベクトルもたまに更新) ・異なる圧縮率で圧縮させた⾳源を⼊⼒・spectral loss

Jukebox: A Generative Model for Music 余談︓このencode + decodeモデルを作るだけで、V100を512枚で4weeks 10
/ 14

Jukebox: A Generative Model for Music 中間表現 + 歌詞 (+諸々の情報)を⼊⼒して、次の中間表現
+ 歌詞を⽣成 11 / 14 ざっくり書くとこうちゃんと書くとこう scalable transformer

Jukebox: A Generative Model for Music 余談: 副次的に⽣成されたアーティストベクトルをt-SNEで可視化 12 /
14

Jukebox: A Generative Model for Music 今後の課題(Future Work) 13 /
14 伝統的な⾳楽の性質を表現できていない・such as choruses that repeat, or melodies that have a quesOon and answer form ノイズの話・ノイズとかスクラッチの⾳などの雑⾳が聞こえるモデルが⽣成できる⾔語やスタイルの多様化・今のモデルの学習データは⼤半が英語の曲・英語以外の他⾔語も視野に・⾳楽スタイルの融合で発展してきたという⾳楽の歴史的にも興味深いものと⾒込んでいる計算時間を短くして、⼈間とのインテラクティブ性を上げたい・1分の⾳源を完全にレンダリングするのに約9時間・並列サンプラーにモデルを蒸留させる⽅法で⾼速化の可能性(参考1, 参考2)

Jukebox: A Generative Model for Music 振り返り 14 / 14
⾳楽の中間表現を頑張って学習 (圧縮率の異なる⾳源の各種中間表現をVQ-VAE2を使って学習) 中間表現 + 歌詞 + アーティストを⼊れて次の(中間表現 + 歌詞)を予測中間表現をdecodeし、最終的な⾳楽を⽣成中間表現の推定中間表現をもとに⾳源に復元 Thank you

[論文紹介]Jukebox: A Generative Model for Music

[論文紹介]Jukebox: A Generative Model for Music

ninohira

More Decks by ninohira

Featured

Transcript

<࿦จ঺հ> +VLFCPY"(FOFSBUJWF.PEFMGPS.VTJD

Jukebox: A Generative Model for Music 資料は公開済み 2 / 14

Jukebox: A Generative Model for Music 免責事項 3 / 14

Jukebox: A Generative Model for Music ⾃⼰紹介 4 / 14

Jukebox: A Generative Model for Music ⾃⼰紹介 (⾳楽関連) 5 /

Jukebox: A Generative Model for Music 会社の活動の宣伝も兼ねて 6 / 14

Jukebox: A Generative Model for Music 何はともあれデモサイトを⾒てみる。凄く賢いことがわかる。 7 / 14

Jukebox: A Generative Model for Music ざっくりフロー 8 / 14

Jukebox: A Generative Model for Music 中間表現の学習 9 / 14

Jukebox: A Generative Model for Music 余談︓このencode + decodeモデルを作るだけで、V100を512枚で4weeks 10

Jukebox: A Generative Model for Music 中間表現 + 歌詞 (+諸々の情報)を⼊⼒して、次の中間表現

Jukebox: A Generative Model for Music 余談: 副次的に⽣成されたアーティストベクトルをt-SNEで可視化 12 /

Jukebox: A Generative Model for Music 今後の課題(Future Work) 13 /

Jukebox: A Generative Model for Music 振り返り 14 / 14