Upgrade to Pro — share decks privately, control downloads, hide ads and more …

[論文紹介]Jukebox: A Generative Model for Music

ninohira
October 09, 2020
650

[論文紹介]Jukebox: A Generative Model for Music

Music×Analytics Meetup Vol.3
https://muana.connpass.com/event/188713/

ninohira

October 09, 2020
Tweet

Transcript

  1. Jukebox: A Generative Model for Music 免責事項 3 / 14

    - 本登壇は個⼈の⾒解であり、所属する組織の公式⾒解ではありません - 間違っていることを話していましたら、ごめんなさい - 論⽂に書いてることが正なので、論⽂を確認してください(h$ps://arxiv.org/abs/2005.00341) - 多少ML(正確には深層学習)を知っている⼈向けになっています
  2. Jukebox: A Generative Model for Music ⾃⼰紹介 4 / 14

    仁ノ平 将⼈ Masato Ninohira (@nino_pira) 早稲⽥⼤学 創造理⼯学研究科 経営システム⼯学専攻 共同研究先のマーケティングデータ × データサイエンス データサイエンティスト@BrainPad 2018年新卒 深層強化学習 / NLP / 統計的因果推論 / 画像異常検知 シスムテム化を⾒据えた需要予測モデルのPoCと業務要件整理 (昨年11⽉頃の画像案件以降は⼩規模案件のPM) (サイエンス寄りの案件が主戦場) Data Gateway Talk 主催 ブログ:下町データサイエンティストの⽇常 B’zファン フットサル 仕事 学⽣ 趣味
  3. Jukebox: A Generative Model for Music ⾃⼰紹介 (⾳楽関連) 5 /

    14 ⾳楽関連 ・B’zファン ・5線譜は読めないけど6線譜は読める #muana関連 ・#muanaの⽴ち上げメンバー → 現運営に引き継ぎ済み ・初回にArtist2VecでLT 過去のmuanaでの登壇資料
  4. Jukebox: A Generative Model for Music 会社の活動の宣伝も兼ねて 6 / 14

    ⽩⾦鉱業FM#11でも論⽂紹介したので、聞いてください podcastリンク
  5. Jukebox: A Generative Model for Music ざっくりフロー 8 / 14

    ⾳楽の中間表現を頑張って学習 (圧縮率の異なる⾳源の各種中間表現をVQ-VAE2を使って学習) 中間表現 + 歌詞 + アーティストを⼊れて次の(中間表現 + 歌詞)を予測 中間表現をdecodeし、最終的な⾳楽を⽣成 中間表現の推定 中間表現をもとに⾳源に復元
  6. Jukebox: A Generative Model for Music 中間表現の学習 9 / 14

    ・VQ-VAE2を⽤いる(潜在空間が離散的なVAE)(中間ベクトルもたまに更新) ・異なる圧縮率で圧縮させた⾳源を⼊⼒ ・spectral loss
  7. Jukebox: A Generative Model for Music 中間表現 + 歌詞 (+諸々の情報)を⼊⼒して、次の中間表現

    + 歌詞を⽣成 11 / 14 ざっくり書くとこう ちゃんと書くとこう scalable transformer
  8. Jukebox: A Generative Model for Music 今後の課題(Future Work) 13 /

    14 伝統的な⾳楽の性質を表現できていない ・such as choruses that repeat, or melodies that have a quesOon and answer form ノイズの話 ・ノイズとかスクラッチの⾳などの雑⾳が聞こえる モデルが⽣成できる⾔語やスタイルの多様化 ・今のモデルの学習データは⼤半が英語の曲 ・英語以外の他⾔語も視野に ・⾳楽スタイルの融合で発展してきたという⾳楽の歴史的にも興味深いものと⾒込んでいる 計算時間を短くして、⼈間とのインテラクティブ性を上げたい ・1分の⾳源を完全にレンダリングするのに約9時間 ・並列サンプラーにモデルを蒸留させる⽅法で⾼速化の可能性(参考1, 参考2)
  9. Jukebox: A Generative Model for Music 振り返り 14 / 14

    ⾳楽の中間表現を頑張って学習 (圧縮率の異なる⾳源の各種中間表現をVQ-VAE2を使って学習) 中間表現 + 歌詞 + アーティストを⼊れて次の(中間表現 + 歌詞)を予測 中間表現をdecodeし、最終的な⾳楽を⽣成 中間表現の推定 中間表現をもとに⾳源に復元 Thank you