Slide 1

Slide 1 text

<࿦จ঺հ> +VLFCPY"(FOFSBUJWF.PEFMGPS.VTJD

Slide 2

Slide 2 text

Jukebox: A Generative Model for Music 資料は公開済み 2 / 14 speakerdeckのリンク

Slide 3

Slide 3 text

Jukebox: A Generative Model for Music 免責事項 3 / 14 - 本登壇は個⼈の⾒解であり、所属する組織の公式⾒解ではありません - 間違っていることを話していましたら、ごめんなさい - 論⽂に書いてることが正なので、論⽂を確認してください(h$ps://arxiv.org/abs/2005.00341) - 多少ML(正確には深層学習)を知っている⼈向けになっています

Slide 4

Slide 4 text

Jukebox: A Generative Model for Music ⾃⼰紹介 4 / 14 仁ノ平 将⼈ Masato Ninohira (@nino_pira) 早稲⽥⼤学 創造理⼯学研究科 経営システム⼯学専攻 共同研究先のマーケティングデータ × データサイエンス データサイエンティスト@BrainPad 2018年新卒 深層強化学習 / NLP / 統計的因果推論 / 画像異常検知 シスムテム化を⾒据えた需要予測モデルのPoCと業務要件整理 (昨年11⽉頃の画像案件以降は⼩規模案件のPM) (サイエンス寄りの案件が主戦場) Data Gateway Talk 主催 ブログ:下町データサイエンティストの⽇常 B’zファン フットサル 仕事 学⽣ 趣味

Slide 5

Slide 5 text

Jukebox: A Generative Model for Music ⾃⼰紹介 (⾳楽関連) 5 / 14 ⾳楽関連 ・B’zファン ・5線譜は読めないけど6線譜は読める #muana関連 ・#muanaの⽴ち上げメンバー → 現運営に引き継ぎ済み ・初回にArtist2VecでLT 過去のmuanaでの登壇資料

Slide 6

Slide 6 text

Jukebox: A Generative Model for Music 会社の活動の宣伝も兼ねて 6 / 14 ⽩⾦鉱業FM#11でも論⽂紹介したので、聞いてください podcastリンク

Slide 7

Slide 7 text

Jukebox: A Generative Model for Music 何はともあれデモサイトを⾒てみる。凄く賢いことがわかる。 7 / 14 OpenAIのページ ⽣成された曲の検索ページ

Slide 8

Slide 8 text

Jukebox: A Generative Model for Music ざっくりフロー 8 / 14 ⾳楽の中間表現を頑張って学習 (圧縮率の異なる⾳源の各種中間表現をVQ-VAE2を使って学習) 中間表現 + 歌詞 + アーティストを⼊れて次の(中間表現 + 歌詞)を予測 中間表現をdecodeし、最終的な⾳楽を⽣成 中間表現の推定 中間表現をもとに⾳源に復元

Slide 9

Slide 9 text

Jukebox: A Generative Model for Music 中間表現の学習 9 / 14 ・VQ-VAE2を⽤いる(潜在空間が離散的なVAE)(中間ベクトルもたまに更新) ・異なる圧縮率で圧縮させた⾳源を⼊⼒ ・spectral loss

Slide 10

Slide 10 text

Jukebox: A Generative Model for Music 余談︓このencode + decodeモデルを作るだけで、V100を512枚で4weeks 10 / 14

Slide 11

Slide 11 text

Jukebox: A Generative Model for Music 中間表現 + 歌詞 (+諸々の情報)を⼊⼒して、次の中間表現 + 歌詞を⽣成 11 / 14 ざっくり書くとこう ちゃんと書くとこう scalable transformer

Slide 12

Slide 12 text

Jukebox: A Generative Model for Music 余談: 副次的に⽣成されたアーティストベクトルをt-SNEで可視化 12 / 14

Slide 13

Slide 13 text

Jukebox: A Generative Model for Music 今後の課題(Future Work) 13 / 14 伝統的な⾳楽の性質を表現できていない ・such as choruses that repeat, or melodies that have a quesOon and answer form ノイズの話 ・ノイズとかスクラッチの⾳などの雑⾳が聞こえる モデルが⽣成できる⾔語やスタイルの多様化 ・今のモデルの学習データは⼤半が英語の曲 ・英語以外の他⾔語も視野に ・⾳楽スタイルの融合で発展してきたという⾳楽の歴史的にも興味深いものと⾒込んでいる 計算時間を短くして、⼈間とのインテラクティブ性を上げたい ・1分の⾳源を完全にレンダリングするのに約9時間 ・並列サンプラーにモデルを蒸留させる⽅法で⾼速化の可能性(参考1, 参考2)

Slide 14

Slide 14 text

Jukebox: A Generative Model for Music 振り返り 14 / 14 ⾳楽の中間表現を頑張って学習 (圧縮率の異なる⾳源の各種中間表現をVQ-VAE2を使って学習) 中間表現 + 歌詞 + アーティストを⼊れて次の(中間表現 + 歌詞)を予測 中間表現をdecodeし、最終的な⾳楽を⽣成 中間表現の推定 中間表現をもとに⾳源に復元 Thank you