Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Demucsを用いた音源分離
Search
shuto goya
October 28, 2023
Science
0
600
Demucsを用いた音源分離
Music×Analytics Meetup Vol.11での発表内容です。
shuto goya
October 28, 2023
Tweet
Share
Other Decks in Science
See All in Science
データベース10: 拡張実体関連モデル
trycycle
PRO
0
1.1k
コンピュータビジョンによるロボットの視覚と判断:宇宙空間での適応と課題
hf149
1
530
主成分分析に基づく教師なし特徴抽出法を用いたコラーゲン-グリコサミノグリカンメッシュの遺伝子発現への影響
tagtag
PRO
0
190
機械学習 - K-means & 階層的クラスタリング
trycycle
PRO
0
1.2k
Amusing Abliteration
ianozsvald
0
110
なぜ21は素因数分解されないのか? - Shorのアルゴリズムの現在と壁
daimurat
0
290
データマイニング - グラフ構造の諸指標
trycycle
PRO
0
260
SpatialRDDパッケージによる空間回帰不連続デザイン
saltcooky12
0
160
安心・効率的な医療現場の実現へ ~オンプレAI & ノーコードワークフローで進める業務改革~
siyoo
0
460
やるべきときにMLをやる AIエージェント開発
fufufukakaka
2
1.1k
Optimization of the Tournament Format for the Nationwide High School Kyudo Competition in Japan
konakalab
0
150
機械学習 - K近傍法 & 機械学習のお作法
trycycle
PRO
0
1.3k
Featured
See All Featured
The Art of Delivering Value - GDevCon NA Keynote
reverentgeek
16
1.8k
KATA
mclloyd
PRO
34
15k
Paper Plane
katiecoart
PRO
0
46k
RailsConf & Balkan Ruby 2019: The Past, Present, and Future of Rails at GitHub
eileencodes
141
34k
Why You Should Never Use an ORM
jnunemaker
PRO
61
9.7k
Designing for humans not robots
tammielis
254
26k
Reflections from 52 weeks, 52 projects
jeffersonlam
356
21k
Exploring the Power of Turbo Streams & Action Cable | RailsConf2023
kevinliebholz
37
6.3k
Have SEOs Ruined the Internet? - User Awareness of SEO in 2025
akashhashmi
0
270
Google's AI Overviews - The New Search
badams
0
910
What's in a price? How to price your products and services
michaelherold
247
13k
Bootstrapping a Software Product
garrettdimon
PRO
307
120k
Transcript
Demucsを用いた音源分離 2023/10/28 Music×Analytics Meetup Vol.11 合谷秋人
自己紹介 https://github.com/ch-shin/awesome-nilm 仕事 音楽遍歴 NILM(機器分離)技術の開発 中学 高校 大学以降 • ロキノン系(死語?)からマスロック・エモ寄りも好き
• 15~20歳までバンド活動(ギター) • 今はもっぱら聞くだけ(音楽活動したい) その他 • X: @shuto508 • 最近の取り組んでいる・やりたいこと ◦ Kaggleとか興味ある(が、ほぼやっていない) ◦ 引き続き機械学習の勉強(PRMLを頑張って解読中) • 趣味:ビール
よくある悩み:耳コピができない…! 聞きたいパートだけ聞けたらいいのになぁ … • そもそもフレーズが複雑 • 音が埋もれている • etc…
音源分離:合成波形(元音源)を個別要素に分解する 代表的なDeep Learning手法 主な応用先 • AIスピーカー • テレビ会議システム • 補聴器
• etc… • U-Net • Deep clustering • Conv-TasNet • etc… 全体から個別パートに分解
Demucs: Metaが開発した音源分離ライブラリ 元となる技術:Wave U-Net Vocal/Bass/Drums/Othersに分離 Wave U-Net: U-Netを1次元にしたもの
Google Colab上で簡単に分離結果を得ることが可能 Notebook例 ディレクトリ構成 分離結果 元音源 ノートブックを実行するだけで手軽に音源分離が可能
やってみた①:Demo編 波形やメルスペクトログラムではどこで何が鳴っているのか不明 元音源
やってみた①:分離結果 Drums Vocal Bass Others 各成分に音源分離できた!!
やってみた①:メルスペクトログラム分析 Drums Vocal Bass Others ボーカル/ピアノ 金物/倍音 ベース/ドラム
やってみた②:バンド音楽編
感想 - 手軽に分離できるわりに結構綺麗に分離される - パートごとの楽曲構成を調べることもできそう - ボーカルなどは一部違和感のある箇所もあった - 正解データ作りもできそう…? -
リード/バッキングは分けられない(主目的が…) - 音数が減った事自体で聞き取りやすくはなっている! - DemucsはVocal/Bass/Drums/Othersと分離できる構成が固定
ご清聴ありがとうございました!
Appendix
- https://github.com/facebookresearch/demucs - https://github.com/f90/Wave-U-Net 参考