Music×Analytics Meetup Vol.11での発表内容です。
Demucsを用いた音源分離2023/10/28Music×Analytics Meetup Vol.11合谷秋人
View Slide
自己紹介https://github.com/ch-shin/awesome-nilm仕事音楽遍歴NILM(機器分離)技術の開発中学高校大学以降● ロキノン系(死語?)からマスロック・エモ寄りも好き● 15~20歳までバンド活動(ギター)● 今はもっぱら聞くだけ(音楽活動したい)その他● X: @shuto508● 最近の取り組んでいる・やりたいこと○ Kaggleとか興味ある(が、ほぼやっていない)○ 引き続き機械学習の勉強(PRMLを頑張って解読中)● 趣味:ビール
よくある悩み:耳コピができない…!聞きたいパートだけ聞けたらいいのになぁ …● そもそもフレーズが複雑● 音が埋もれている● etc…
音源分離:合成波形(元音源)を個別要素に分解する代表的なDeep Learning手法主な応用先● AIスピーカー● テレビ会議システム● 補聴器● etc…● U-Net● Deep clustering● Conv-TasNet● etc…全体から個別パートに分解
Demucs: Metaが開発した音源分離ライブラリ元となる技術:Wave U-Net Vocal/Bass/Drums/Othersに分離Wave U-Net: U-Netを1次元にしたもの
Google Colab上で簡単に分離結果を得ることが可能Notebook例 ディレクトリ構成 分離結果元音源ノートブックを実行するだけで手軽に音源分離が可能
やってみた①:Demo編波形やメルスペクトログラムではどこで何が鳴っているのか不明元音源
やってみた①:分離結果DrumsVocalBassOthers各成分に音源分離できた!!
やってみた①:メルスペクトログラム分析DrumsVocalBassOthersボーカル/ピアノ金物/倍音ベース/ドラム
やってみた②:バンド音楽編
感想- 手軽に分離できるわりに結構綺麗に分離される- パートごとの楽曲構成を調べることもできそう- ボーカルなどは一部違和感のある箇所もあった- 正解データ作りもできそう…?- リード/バッキングは分けられない(主目的が…)- 音数が減った事自体で聞き取りやすくはなっている!- DemucsはVocal/Bass/Drums/Othersと分離できる構成が固定
ご清聴ありがとうございました!
Appendix
- https://github.com/facebookresearch/demucs- https://github.com/f90/Wave-U-Net参考