Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
川原瑞樹
Search
Sponsored
·
Your Podcast. Everywhere. Effortlessly.
Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
→
Kitahara Lab.
February 12, 2024
Research
100
0
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
川原瑞樹
2023年度卒業研究発表 川原瑞樹
Kitahara Lab.
February 12, 2024
More Decks by Kitahara Lab.
See All by Kitahara Lab.
カラーバーの段階的非表示による読譜誘導型ピアノ演奏支援システムの試作
kthrlab
0
33
初学者による演奏音の自動評価を目的としたフルート音の音響分析
kthrlab
1
47
サッカーにおける選手位置とパスコースの可聴化システム
kthrlab
0
31
ハウスミュージックの楽曲構成を決める要因とその法則性の分析
kthrlab
0
210
即興演奏システム JamSketch の社会応用の可能性
kthrlab
0
38
Generating Melodies from Melodic Outlines Towards an Improvisation Support Systems for Non-musicians
kthrlab
0
49
即興演奏支援に向けた旋律生成の一試行
kthrlab
0
17
JamSketch Deep α: A CNN-based Improvisation System in Accordance with User's Melodic Outline Drawing
kthrlab
0
32
即興演奏システムJamSketchにおける 旋律生成手法の改善
kthrlab
0
36
Other Decks in Research
See All in Research
明日から使える!研究効率化ツール入門
matsui_528
13
7.2k
[BlackHatAsia2026] Hidden Telemetry: Uncovering TraceLogging ETW Providers You're Not Using (Yet)
asuna_jp
1
500
多様なデータを許容し学習し続ける模倣学習 / Advanced Imitation Learning for VLA
prinlab
0
210
Harness Engineering and Al Agent
kzinmr
3
1.6k
老舗ものづくり企業でリサーチが変革を起こすまで - 三菱重工DXの実践
skydats
0
180
LINEヤフー データサイエンス Meetup「三井物産コモディティ予測チャレンジ」の舞台裏-AlpacaTechパート
gamella
1
550
存立危機事態の再検討
jimboken
0
290
論文紹介 "ReSim: Reliable World Simulation for Autonomous Driving"
kogo
0
620
Research Engineerという仕事 / Research Engineering: Bridging Research and Business
chck
1
200
typst の使い方:言語学を研究する学生のために
gitomochang
0
450
Dual Quadric表現を用いた動的物体追跡とRGB-D・IMU制約の密結合によるオドメトリ推定
nanoshimarobot
0
400
機械学習で作った ポケモン対戦bot で 遊ぼう!
fufufukakaka
0
250
Featured
See All Featured
What’s in a name? Adding method to the madness
productmarketing
PRO
24
4.1k
From Legacy to Launchpad: Building Startup-Ready Communities
dugsong
0
220
AI Search: Implications for SEO and How to Move Forward - #ShenzhenSEOConference
aleyda
1
1.3k
The AI Revolution Will Not Be Monopolized: How open-source beats economies of scale, even for LLMs
inesmontani
PRO
3
3.5k
Avoiding the “Bad Training, Faster” Trap in the Age of AI
tmiket
0
170
30 Presentation Tips
portentint
PRO
1
320
Game over? The fight for quality and originality in the time of robots
wayneb77
1
190
A designer walks into a library…
pauljervisheath
211
24k
4 Signs Your Business is Dying
shpigford
187
22k
Gemini Prompt Engineering: Practical Techniques for Tangible AI Outcomes
mfonobong
2
420
エンジニアに許された特別な時間の終わり
watany
107
250k
Making Projects Easy
brettharned
120
6.7k
Transcript
モーフィングを用いたドラムループ素材の生成 川原瑞樹 日本大学
背景 ループシーケンサ : 数小節程度の音素材をつなげて作曲ソフトウェア ドラムループのようなリズミカルな素材は ポピュラー楽器であり、曲の特徴を形作る 音色、効果音の多様性が楽曲のバリエーションに影響を与える
背景 音素材に限りがある 自分の求める音素材が常に見つかるとは限らない 多様な音素材を生成を可能にしよう! 課題
目的 モーフィング音源を生成することで、 限られた音素材から多様な音素材を作る 2つの音源の中間的な音源
関連研究との違い ・ Li-Chia Yang, Szu-Yu Chou, Yi-Hsuan Yang, MidiNet: A
Convolutional Generative Adversarial Network for Symbolic-domain Music Generation(2017) → 畳み込みニューラルネットワーク(CNN)を使用した音楽生成 ・ 小林瑞季, 浜中雅俊, 新しいGTTMメロディモーフィング手法の提示 (2019) → GTTMに基づくメロディモーフィング手法の自動化 ・ 河原英紀, 生駒太一, 森勢将雅, 高橋徹, 豊田健一, 片寄晴弘, 歌唱音声モーフィングに基づく声質と歌 い回し転写の知覚的検討, (2017) → 高品質音声分析変換合成システムSTRAIGHTに基づくモーフィングによって、歌手の歌いまわしを転 写する ドラム音をモーフィングによって多様な音素材を生成すること に特化するものは見つからなかった
提案手法 VAE(変分オートエンコーダ)と CNN(畳み込みニューラルネットワーク) を組み合わせたモデルでモーフィングを実現する
VAE 提案手法 データの特徴を抽出し、新しいデータを生成するための深層学習モデル CNN VAEの圧縮・復元の際にフィルタを通すことで画像の特徴を学習
提案手法 モーフィングの実現 音源A 音源B モーフィング音源 スペクトログラム CNN(圧縮) CNN(復元)
モーフィング音源 CNN-VAEによって得られたモーフィング音源 音源A 音源B モーフィング音源
データセット SoundPool というWAVE形式の3 秒間の音楽ループ素材 データ数 224個 ジャンル テクノ&トランス 楽器パート ドラム
実験 1.曲作りに使えるかどうか 2.機械学習モデルによって生成されたと思われるのはどちらか 3.元音源との類似度評価 4.新しい音源が生成されたか 1~3についてWeb 上のクラウドソーシングサービスを用いて評価した
実験 1.曲作りに使えるかどうか 2.機械学習によって生成されたと思われるのはどちらか 機械学習による音源、市販音源をランダムを対に提示 聴いて以下の項目を選択する 1.曲作りに使える A or B 2.機械学習モデルによって生成された
A or B 実験参加者:145名×10回評価 音源 A 音源 B
実験 1.曲作りに使えるかどうか 機械学習による音源を選んだ割合の平均 : 0.5 曲作りの使える品質、市販の音源同等の品質である 理想の結果
結果と考察 1.曲作りに使えるかどうか 平均 標準偏差 0.419 0.223
実験 2.機械学習モデルによって生成されたと思われるのはどちらか 機械学習による音源を選んだ割合の平均 : 0.5 曲作りの使える品質、市販の音源同等の品質である 機械学習による音源を選んだ割合の平均 : 0.5以下 機械学習による音源が市販の音源よりも市販の音源らしい
理想の結果
結果と考察 2.機械学習モデルによって生成されたと思われるのはどちらか 平均 標準偏差 0.374 0.180
実験 3.元音源との類似度評価 機械学習によるモーフィング音源、モーフィング前の元音源A、Bを提示 音源 A、音源 B 、どちらに近いかを選択する 音源 X 音源
B 音源 A
実験 3.元音源との類似度評価 実験参加者:201名×10回評価 全ての評価数値の平均を出す 選択肢 評価数値 Aに近い 1 どちらかといえばAに近い 2
どちらかといえばBに近い 3 Bに近い 4
実験 3.元音源との類似度評価 2以上3未満の割合が大きい 機械学習によるモーフィング音源は元音源 A、B の中間的な音源といえる 理想の結果 平均評価数値 割合 1
以上2 未満 0 % 2以上3 未満 100 % 3 以上4 未満 0 %
結果と考察 3.元音源との類似度評価 平均評価数値 割合 1 以上2 未満 28% 2以上3 未満
48% 3 以上4 未満 24%
実験 4.新しい音源が生成されたか 機械学習で生成されたモーフィング音源 X (100個)とデータセットの音源との類 似度を調べる 音源Xのそれぞれに対して、最も似ているものの類似度を計算する 音源 X 音源
B 音源 A データセット
実験 4.新しい音源が生成されたか データセットからランダムに選ばれた音源とデータセットの音源との類似度を調 べる ランダムに選ばれた100個の音源のそれぞれに対して、最も似ているものの類 似度を計算する それらの平均値を求める データセットからランダムに選ばれた音源 データセット
実験 4.新しい音源が生成されたか 「生成音源とデータセット内の類似度」 が低いほど、生成された音源はデータ セット内のどの音源とも類似していない 理想の結果
結果と考察 4.新しい音源が生成されたか 平均最大類似度 データセット内 0.870 生成音源とデータセット内 0.935
まとめ ・市販の音素材に対して曲作り、品質に対して劣らない ・モーフィングの元となる2 つの音源のどちらかに類似するケースは少ないこと ・データセットに存在しない新しい音源が生成されている可能性は少ない
今後の課題 より多様なジャンルや楽器、スタイルに対応できるように、モデルの改良や新し い学習手法を検討する必要