川原瑞樹

モーフィングを用いたドラムループ素材の生成川原瑞樹日本大学

背景ループシーケンサ：数小節程度の音素材をつなげて作曲ソフトウェアドラムループのようなリズミカルな素材はポピュラー楽器であり、曲の特徴を形作る音色、効果音の多様性が楽曲のバリエーションに影響を与える

背景音素材に限りがある自分の求める音素材が常に見つかるとは限らない多様な音素材を生成を可能にしよう！課題

目的モーフィング音源を生成することで、限られた音素材から多様な音素材を作る２つの音源の中間的な音源

関連研究との違い・ Li-Chia Yang, Szu-Yu Chou, Yi-Hsuan Yang, MidiNet: A
Convolutional Generative Adversarial Network for Symbolic-domain Music Generation（2017） → 畳み込みニューラルネットワーク（CNN）を使用した音楽生成・小林瑞季, 浜中雅俊, 新しいGTTMメロディモーフィング手法の提示 (2019) → GTTMに基づくメロディモーフィング手法の自動化・河原英紀, 生駒太一, 森勢将雅, 高橋徹, 豊田健一, 片寄晴弘, 歌唱音声モーフィングに基づく声質と歌い回し転写の知覚的検討, (2017) → 高品質音声分析変換合成システムSTRAIGHTに基づくモーフィングによって、歌手の歌いまわしを転写するドラム音をモーフィングによって多様な音素材を生成することに特化するものは見つからなかった

提案手法 VAE（変分オートエンコーダ）と CNN（畳み込みニューラルネットワーク）を組み合わせたモデルでモーフィングを実現する

VAE 提案手法データの特徴を抽出し、新しいデータを生成するための深層学習モデル CNN VAEの圧縮・復元の際にフィルタを通すことで画像の特徴を学習

提案手法モーフィングの実現音源A 音源B モーフィング音源スペクトログラム CNN（圧縮） CNN（復元）

モーフィング音源 CNN-VAEによって得られたモーフィング音源音源A 音源B モーフィング音源

データセット SoundPool というWAVE形式の3 秒間の音楽ループ素材データ数 224個ジャンルテクノ＆トランス楽器パートドラム

実験 1．曲作りに使えるかどうか 2．機械学習モデルによって生成されたと思われるのはどちらか 3．元音源との類似度評価 4．新しい音源が生成されたか１～３についてWeb 上のクラウドソーシングサービスを用いて評価した

実験 1．曲作りに使えるかどうか 2．機械学習によって生成されたと思われるのはどちらか機械学習による音源、市販音源をランダムを対に提示聴いて以下の項目を選択する１．曲作りに使える A or B ２．機械学習モデルによって生成された
A or B 実験参加者：145名×10回評価音源 A 音源 B

実験 1．曲作りに使えるかどうか機械学習による音源を選んだ割合の平均： 0.5 曲作りの使える品質、市販の音源同等の品質である理想の結果

結果と考察１．曲作りに使えるかどうか平均標準偏差 0.419 0.223

実験 2．機械学習モデルによって生成されたと思われるのはどちらか機械学習による音源を選んだ割合の平均： 0.5 曲作りの使える品質、市販の音源同等の品質である機械学習による音源を選んだ割合の平均： 0.5以下機械学習による音源が市販の音源よりも市販の音源らしい
理想の結果

結果と考察 2．機械学習モデルによって生成されたと思われるのはどちらか平均標準偏差 0.374 0.180

実験 3．元音源との類似度評価機械学習によるモーフィング音源、モーフィング前の元音源A、Bを提示音源 A、音源 B 、どちらに近いかを選択する音源 X 音源
B 音源 A

実験 3．元音源との類似度評価実験参加者：201名×10回評価全ての評価数値の平均を出す選択肢評価数値 Aに近い 1 どちらかといえばAに近い 2
どちらかといえばBに近い 3 Bに近い 4

実験 3．元音源との類似度評価 2以上3未満の割合が大きい機械学習によるモーフィング音源は元音源 A、B の中間的な音源といえる理想の結果平均評価数値割合 1
以上2 未満 0 % 2以上3 未満 100 % 3 以上4 未満 0 %

結果と考察 3．元音源との類似度評価平均評価数値割合 1 以上2 未満 28% 2以上3 未満
48% 3 以上4 未満 24%

実験 4．新しい音源が生成されたか機械学習で生成されたモーフィング音源 X （100個）とデータセットの音源との類似度を調べる音源Xのそれぞれに対して、最も似ているものの類似度を計算する音源 X 音源
B 音源 A データセット

実験 4．新しい音源が生成されたかデータセットからランダムに選ばれた音源とデータセットの音源との類似度を調べるランダムに選ばれた100個の音源のそれぞれに対して、最も似ているものの類似度を計算するそれらの平均値を求めるデータセットからランダムに選ばれた音源データセット

実験 4．新しい音源が生成されたか「生成音源とデータセット内の類似度」が低いほど、生成された音源はデータセット内のどの音源とも類似していない理想の結果

結果と考察 4．新しい音源が生成されたか平均最大類似度データセット内 0.870 生成音源とデータセット内 0.935

まとめ・市販の音素材に対して曲作り、品質に対して劣らない・モーフィングの元となる2 つの音源のどちらかに類似するケースは少ないこと・データセットに存在しない新しい音源が生成されている可能性は少ない

今後の課題より多様なジャンルや楽器、スタイルに対応できるように、モデルの改良や新しい学習手法を検討する必要

川原瑞樹

川原瑞樹

Kitahara Lab.

More Decks by Kitahara Lab.

Other Decks in Research

Featured

Transcript

モーフィングを用いたドラムループ素材の生成川原瑞樹日本大学

背景ループシーケンサ：数小節程度の音素材をつなげて作曲ソフトウェアドラムループのようなリズミカルな素材はポピュラー楽器であり、曲の特徴を形作る音色、効果音の多様性が楽曲のバリエーションに影響を与える

背景音素材に限りがある自分の求める音素材が常に見つかるとは限らない多様な音素材を生成を可能にしよう！課題

目的モーフィング音源を生成することで、限られた音素材から多様な音素材を作る２つの音源の中間的な音源

関連研究との違い・ Li-Chia Yang, Szu-Yu Chou, Yi-Hsuan Yang, MidiNet: A

提案手法 VAE（変分オートエンコーダ）と CNN（畳み込みニューラルネットワーク）を組み合わせたモデルでモーフィングを実現する

VAE 提案手法データの特徴を抽出し、新しいデータを生成するための深層学習モデル CNN VAEの圧縮・復元の際にフィルタを通すことで画像の特徴を学習

提案手法モーフィングの実現音源A 音源B モーフィング音源スペクトログラム CNN（圧縮） CNN（復元）

モーフィング音源 CNN-VAEによって得られたモーフィング音源音源A 音源B モーフィング音源

データセット SoundPool というWAVE形式の3 秒間の音楽ループ素材データ数 224個ジャンルテクノ＆トランス楽器パートドラム

実験 1．曲作りに使えるかどうか 2．機械学習モデルによって生成されたと思われるのはどちらか 3．元音源との類似度評価 4．新しい音源が生成されたか１～３についてWeb 上のクラウドソーシングサービスを用いて評価した

実験 1．曲作りに使えるかどうか機械学習による音源を選んだ割合の平均： 0.5 曲作りの使える品質、市販の音源同等の品質である理想の結果

結果と考察１．曲作りに使えるかどうか平均標準偏差 0.419 0.223

結果と考察 2．機械学習モデルによって生成されたと思われるのはどちらか平均標準偏差 0.374 0.180

実験 3．元音源との類似度評価機械学習によるモーフィング音源、モーフィング前の元音源A、Bを提示音源 A、音源 B 、どちらに近いかを選択する音源 X 音源

実験 3．元音源との類似度評価実験参加者：201名×10回評価全ての評価数値の平均を出す選択肢評価数値 Aに近い 1 どちらかといえばAに近い 2

実験 3．元音源との類似度評価 2以上3未満の割合が大きい機械学習によるモーフィング音源は元音源 A、B の中間的な音源といえる理想の結果平均評価数値割合 1

結果と考察 3．元音源との類似度評価平均評価数値割合 1 以上2 未満 28% 2以上3 未満

実験 4．新しい音源が生成されたか機械学習で生成されたモーフィング音源 X （100個）とデータセットの音源との類似度を調べる音源Xのそれぞれに対して、最も似ているものの類似度を計算する音源 X 音源

実験 4．新しい音源が生成されたか「生成音源とデータセット内の類似度」が低いほど、生成された音源はデータセット内のどの音源とも類似していない理想の結果

結果と考察 4．新しい音源が生成されたか平均最大類似度データセット内 0.870 生成音源とデータセット内 0.935

まとめ・市販の音素材に対して曲作り、品質に対して劣らない・モーフィングの元となる2 つの音源のどちらかに類似するケースは少ないこと・データセットに存在しない新しい音源が生成されている可能性は少ない

今後の課題より多様なジャンルや楽器、スタイルに対応できるように、モデルの改良や新しい学習手法を検討する必要