Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
歌声の特徴に基づいて曲を探そう!
Search
Taro Masuda
January 18, 2020
Technology
1.7k
1
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
歌声の特徴に基づいて曲を探そう!
Taro Masuda
January 18, 2020
More Decks by Taro Masuda
See All by Taro Masuda
Rist_Meetup_Kaggleは業務の役にたつ - ビジネスコンテンツ情報を活用する BtoB 事業編 - / rist-meetup-20241012
taro_masuda
1
1.1k
白金鉱業Meetup_経験値ゼロから始める A_B テスト布教活動と意思決定に活かしやすいA_Bテスト設計の一案 / brainpad-meetup-20240919
taro_masuda
4
1.1k
企業・業界動向抽出のための経済情報ラベルの定義とタグ付きコーパスの構築 / yans2023-poster-s3-p21
taro_masuda
0
250
NLP2024 参加報告LT ~RAGの生成評価と懇親戦略~ / nlp2024_attendee_presentation_LT_masuda
taro_masuda
1
590
BtoBプロダクト改善のためのデータドリブン活動と組織の概要/b2b_data_driven_team
taro_masuda
0
1.3k
企業の業界分類予測における共変量シフト問題の抑制
taro_masuda
2
1.6k
ディジタル信号処理の入り口に立つ
taro_masuda
3
370
NGBoost論文読んでみた
taro_masuda
2
4.2k
Other Decks in Technology
See All in Technology
なぜ Platform Engineering の土台に Kubernetes を選ぶのか
r4ynode
2
590
AIっぽい文章を採点して人間らしく直すアプリを作ってみた
yama3133
2
130
DevOps Agentで始めるAWS運用 〜フロンティアエージェントが変える運用の現場〜
nyankotaro
1
380
10倍の生産性を実現するAI駆動並列エージェントのすべて
kumaiu
5
1.3k
中期計画、2回作ってみた ~業務委託と正社員、両方の視点から~
demaecan
1
680
非エンジニアがClaudeと挑んだ「1ヶ月間プロダクト30本ノック」
askokc
0
340
2026 TECHFRESH 畢業分享會 - AI-Native 重塑軟體工程與虛擬講師
line_developers_tw
PRO
0
810
200個のGitHubリポジトリを横断調査したかった
icck
0
110
FinOps × AIエージェントで実現する コストインシデントの自動調査
oasis1994liveforever
0
130
「エンジニア進化論」2028年の開発完全自動化、エンジニアはどう進化するか
cyberagentdevelopers
PRO
6
4.6k
Claude Codeをどのように キャッチアップしているか
oikon48
9
4.8k
やさしいA2A入門
minorun365
PRO
12
1.7k
Featured
See All Featured
More Than Pixels: Becoming A User Experience Designer
marktimemedia
3
440
Have SEOs Ruined the Internet? - User Awareness of SEO in 2025
akashhashmi
0
370
Building a A Zero-Code AI SEO Workflow
portentint
PRO
0
570
Tips & Tricks on How to Get Your First Job In Tech
honzajavorek
1
540
Tell your own story through comics
letsgokoyo
1
950
How GitHub (no longer) Works
holman
316
150k
Un-Boring Meetings
codingconduct
0
310
The Limits of Empathy - UXLibs8
cassininazir
1
350
Future Trends and Review - Lecture 12 - Web Technologies (1019888BNR)
signer
PRO
0
3.6k
ピンチをチャンスに:未来をつくるプロダクトロードマップ #pmconf2020
aki_iinuma
128
56k
Primal Persuasion: How to Engage the Brain for Learning That Lasts
tmiket
0
360
Learning to Love Humans: Emotional Interface Design
aarron
275
41k
Transcript
歌声の特徴に基づいて曲を探そう! @ Music×Analytics Meetup 増田 太郎 @ml_taro 2020/01/18
自己紹介 1 増田 太郎(ますだ たろう) @ml_taro • 仕事(株)電通国際情報サービス • 画像認識・音響解析・自然言語処理といった分野の技術検証、
研究開発、新規事業の企画提案 • 興味 • 音響信号処理、音楽情報処理 • 機械学習、特にモデルの動作原理など理論に興味あり、ベイズ(PRML) • 経歴 • 楽器の演奏フレーズをクエリとする楽曲検索の研究 @修士 • 論文: https://staff.aist.go.jp/m.goto/PAPER/ISMIR2014masuda.pdf • 音声信号処理の研究 @電機メーカー研究所 • 論文: https://ieeexplore.ieee.org/document/7952201 • その他 • 産総研メディアインタラクション研究G 技術研修生、ヤマハR&Dインターン • 好きなアーティスト • indigo la End, サカナクション, sumika
目次 1. 背景・目的 2. 処理フロー 3. 実験条件 4. 実験結果 5.
まとめ 2
• 背景① 「歌声」は楽曲の中でリスナーが最も重視する要素の1つ – 「VOCALOID」等歌声編集ソフトの普及 – 「AI美空ひばり」プロジェクトでも 歌声のチューニングに多くの工数が割かれている(はず) – 私自身も好みの歌声を持ったボーカリストが複数いて、声が似た曲を探したい
• 背景② カラオケで自分の声に似たアーティストの曲を歌いたい – 自分自身の声を客観的に誰と似ているか判定することは難しい • 目的 歌声の特徴に基づき楽曲の類似度を算出することで、 曲との新しい出会い方の実現性について実験すること – 好きな歌声の特徴を基に別の曲と出会う – 自分の声に似た曲と出会う 1. 背景・目的 3
• はじめに – 本発表では、いわしさん( @tty_tkhs_ml )のブログ記事 (*1) およびコード (*2) を大いに参照、活用させていただきました。
ここに厚く御礼申し上げます。 – (*1)「Spotify Web APIから収集した楽曲のメル周波数スペクトログラムを 用いたジャンル推定と特定次元空間へのマッピング」 https://fake-plastic-trees.hatenablog.jp/entry/2019/12/01/183713 – (*2) https://colab.research.google.com/drive/1_efY_YcYB3b_NkOT_bs85-8k73otVoUx 2. 処理フロー 4
2. 処理フロー 5 Web API 楽曲ファイルA 楽音分離 歌声特徴量 抽出 歌声波形A
歌声特徴量A 楽曲ファイルB 楽音分離 歌声特徴量 抽出 歌声波形B 歌声特徴量B 類似度 計算 Spotify DB
• 楽音分離 – Deezer社のOSSである「Spleeter」を使用 • 以下の3通りの学習済み楽音分離モデルを提供 – ボーカル / 伴奏
(2 stems) – ボーカル / ドラム / ベース / その他 (4 stems) – ボーカル / ドラム / ベース / ピアノ / その他 (5 stems) • https://github.com/deezer/spleeter • Romain Hennequin and Anis Khlif and Felix Voituret and Manuel Moussallam,“Spleeter: A Fast And State-of-the Art Music Source Separation Tool With Pre-trained Models,“ Late-Breaking/Demo ISMIR 2019, Deezer Research, November 2019. • 今回は 2 stems のみを使用 2. 処理フロー 6
• 歌声特徴量の抽出 – MFCC • 人間の聴覚特性に基づき人手で設計された特徴量 • 音声・音楽信号処理で幅広く使われる音響特徴量のド定番 – LPMCC
• 線形予測(LP)を用いて声道特徴を表現する特徴量 – 歌声の特徴量として有効であることが報告されている » 中野, 吉井, 後藤, “トピックモデルを用いた歌声特徴量の分析" » https://staff.aist.go.jp/t.nakano/PAPER/SIGMUS201309nakano.pdf • 類似度計算 – ユークリッド距離 • 値が小さいほど類似度が高い 2. 処理フロー 7
• データセットについて – ジャンル:結果の分かりやすさのため「j-pop」に絞って収集 – 曲数:合計1,000曲のmp3ファイルを収集 • アーティスト数:181 • Spotify
APIにてサンプル視聴用の30秒のクリップが提供されている – マーケットプレイスのリージョン:日本に限定 • クエリについて – 以下の3種類で実験 • サカナクション「新宝島」 • sumika「ファンファーレ」 • 増田太郎の歌唱 3. 実験条件 8
• サカナクション「新宝島」をクエリ とした場合の類似歌声 – 考察 ・同じ曲がトップ1に(Spotifyで別IDとして登録されていた) ・同一アーティストの別曲が上位に入らないなど、改善の余地あり 4. 実験結果 –MFCCの類似度-
9 曲名 アーティスト 距離 新宝島 サカナクション 0.42 地獄でなぜ悪い 星野源 9.65 Face Down 嵐 9.71 アゲハ蝶 ポルノグラフィティ 9.99 君のために僕がいる 嵐 10.05
• サカナクション「新宝島」をクエリとした場合の類似歌声 – 考察 ・MFCCとほぼ同じ結果 4. 実験結果 –LPMCCの類似度- 10 曲名
アーティスト 距離 新宝島 サカナクション 0.59 Face Down 嵐 10.59 地獄でなぜ悪い 星野源 11.03 水星(Original mix) feat. オノマトペ大臣 tofubeats 11.15 君のために僕がいる 嵐 11.29
• sumika「ファンファーレ」をクエリ とした場合の類似歌声 – 考察 ・4位に女性アーティストが来ており、類似度を上手く捉えられていない ・一方、サンボマスターのような熱く太い歌声は似ている 4. 実験結果 –MFCCの類似度-
11 曲名 アーティスト 距離 輝きだして走ってく サンボマスター 4.40 エソラ Mr.Children 5.75 Sorry 清水翔太 7.20 Jupiter 平原綾香 7.84 Bon Voyage ONE OK ROCK 8.05
• sumika「ファンファーレ」をクエリとした場合の類似歌声 – 考察 ・MFCCと同じアーティストが並ぶ 4. 実験結果 –LPMCCの類似度- 12 曲名
アーティスト 距離 輝きだして走ってく サンボマスター 4.27 エソラ Mr.Children 7.00 Sorry 清水翔太 7.25 努努-ゆめゆめ- ONE OK ROCK 7.67 Jupiter 平原綾香 8.08
• 増田太郎が歌う「ファンファーレ」をクエリ とした場合 – 考察 ・1位であっても距離のスケールが大きく、特徴を上手く掴めていない ・Spleeterによるダウンサンプリングなど前処理を揃えるべきだったか ・重複や偏りの影響でユニークなアーティスト数が十分でなかった 4. 実験結果
–MFCCの類似度- 13 曲名 アーティスト 距離 クローバー 菅田将暉 12,075 アゲハ蝶 ポルノグラフィティ 12,122 180° 山猿 12,126 君こそスターだ サザンオールスターズ 12,136 One Love 嵐 12,137
• 増田太郎が歌う「ファンファーレ」をクエリとした場合の類似歌声 – 考察 ・問題点はMFCCで上げたことと同じ 4. 実験結果 –LPMCCの類似度- 14 曲名
アーティスト 距離 クローバー 菅田将暉 9,332 アゲハ蝶 ポルノグラフィティ 9,376 ロングホープ・フィリア 菅田将暉 9,384 Everything 嵐 9,385 君こそスターだ サザンオールスターズ 9,401
• 歌声の特徴に基づき楽曲の類似度を算出することで、 曲との新しい出会い方の実現性について実験した – Spleeterを利用することで歌声波形と伴奏の分離 – 分離された歌声波形をMFCC, LPMCCを用いて歌声特徴量に変換 • 今後の課題
– 歌声の別の特徴量抽出手法を取り入れた精度の改善 • ΔF0:ビブラートやこぶしなど、音高の時間変化の特徴 – 今回は声質のみで検索するという思惑がありスコープ外とした – いわしさんの下記の取り組みに、アドオンとして歌声類似度機能を追加したい • “今回作成した曲同士のデータをGraphデータに変換し,3D空間に作図して Web公開しようと思います.”, -ブログより引用 – https://fake-plastic-trees.hatenablog.jp/entry/2019/12/01/183713 • ユーザの歌唱をクエリとするための音声入力インタフェースの実装 5. まとめ 15