Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
川原瑞樹
Search
Kitahara Lab.
February 12, 2024
Research
100
0
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
川原瑞樹
2023年度卒業研究発表 川原瑞樹
Kitahara Lab.
February 12, 2024
More Decks by Kitahara Lab.
See All by Kitahara Lab.
カラーバーの段階的非表示による読譜誘導型ピアノ演奏支援システムの試作
kthrlab
0
33
初学者による演奏音の自動評価を目的としたフルート音の音響分析
kthrlab
1
47
サッカーにおける選手位置とパスコースの可聴化システム
kthrlab
0
31
ハウスミュージックの楽曲構成を決める要因とその法則性の分析
kthrlab
0
210
即興演奏システム JamSketch の社会応用の可能性
kthrlab
0
38
Generating Melodies from Melodic Outlines Towards an Improvisation Support Systems for Non-musicians
kthrlab
0
49
即興演奏支援に向けた旋律生成の一試行
kthrlab
0
17
JamSketch Deep α: A CNN-based Improvisation System in Accordance with User's Melodic Outline Drawing
kthrlab
0
32
即興演奏システムJamSketchにおける 旋律生成手法の改善
kthrlab
0
36
Other Decks in Research
See All in Research
Harness Engineering and Al Agent
kzinmr
3
1.6k
R&Dチームを起ち上げる
shibuiwilliam
1
260
LLM Compute Infrastructure Overview
karakurist
2
1.4k
ローテーション別のサイドアウト戦略 ~なぜあのローテは回らないのか?~
vball_panda
0
340
第66回コンピュータビジョン勉強会@関東 Epona: Autoregressive Diffusion World Model for Autonomous Driving
kentosasaki
0
620
LOSの検討(λ Kansai 2026 in Winter)
motopu
0
140
LLMアプリケーションの透明性について
fufufukakaka
0
230
羽田新ルート運用6年の検証
1manken
0
160
Research Engineerという仕事 / Research Engineering: Bridging Research and Business
chck
1
200
論文紹介 "ReSim: Reliable World Simulation for Autonomous Driving"
kogo
0
620
正規分布と最適化について
koide3
1
240
AY 2026 Guide to Academic Writing Using Generative AI - Workshop
ks91
PRO
0
120
Featured
See All Featured
Gemini Prompt Engineering: Practical Techniques for Tangible AI Outcomes
mfonobong
2
430
Helping Users Find Their Own Way: Creating Modern Search Experiences
danielanewman
31
3.2k
Typedesign – Prime Four
hannesfritz
42
3.1k
Redefining SEO in the New Era of Traffic Generation
szymonslowik
1
320
A Guide to Academic Writing Using Generative AI - A Workshop
ks91
PRO
1
320
The Illustrated Children's Guide to Kubernetes
chrisshort
51
52k
How People are Using Generative and Agentic AI to Supercharge Their Products, Projects, Services and Value Streams Today
helenjbeal
1
200
Being A Developer After 40
akosma
91
590k
Documentation Writing (for coders)
carmenintech
77
5.4k
GitHub's CSS Performance
jonrohan
1033
470k
GraphQLとの向き合い方2022年版
quramy
50
15k
個人開発の失敗を避けるイケてる考え方 / tips for indie hackers
panda_program
122
22k
Transcript
モーフィングを用いたドラムループ素材の生成 川原瑞樹 日本大学
背景 ループシーケンサ : 数小節程度の音素材をつなげて作曲ソフトウェア ドラムループのようなリズミカルな素材は ポピュラー楽器であり、曲の特徴を形作る 音色、効果音の多様性が楽曲のバリエーションに影響を与える
背景 音素材に限りがある 自分の求める音素材が常に見つかるとは限らない 多様な音素材を生成を可能にしよう! 課題
目的 モーフィング音源を生成することで、 限られた音素材から多様な音素材を作る 2つの音源の中間的な音源
関連研究との違い ・ Li-Chia Yang, Szu-Yu Chou, Yi-Hsuan Yang, MidiNet: A
Convolutional Generative Adversarial Network for Symbolic-domain Music Generation(2017) → 畳み込みニューラルネットワーク(CNN)を使用した音楽生成 ・ 小林瑞季, 浜中雅俊, 新しいGTTMメロディモーフィング手法の提示 (2019) → GTTMに基づくメロディモーフィング手法の自動化 ・ 河原英紀, 生駒太一, 森勢将雅, 高橋徹, 豊田健一, 片寄晴弘, 歌唱音声モーフィングに基づく声質と歌 い回し転写の知覚的検討, (2017) → 高品質音声分析変換合成システムSTRAIGHTに基づくモーフィングによって、歌手の歌いまわしを転 写する ドラム音をモーフィングによって多様な音素材を生成すること に特化するものは見つからなかった
提案手法 VAE(変分オートエンコーダ)と CNN(畳み込みニューラルネットワーク) を組み合わせたモデルでモーフィングを実現する
VAE 提案手法 データの特徴を抽出し、新しいデータを生成するための深層学習モデル CNN VAEの圧縮・復元の際にフィルタを通すことで画像の特徴を学習
提案手法 モーフィングの実現 音源A 音源B モーフィング音源 スペクトログラム CNN(圧縮) CNN(復元)
モーフィング音源 CNN-VAEによって得られたモーフィング音源 音源A 音源B モーフィング音源
データセット SoundPool というWAVE形式の3 秒間の音楽ループ素材 データ数 224個 ジャンル テクノ&トランス 楽器パート ドラム
実験 1.曲作りに使えるかどうか 2.機械学習モデルによって生成されたと思われるのはどちらか 3.元音源との類似度評価 4.新しい音源が生成されたか 1~3についてWeb 上のクラウドソーシングサービスを用いて評価した
実験 1.曲作りに使えるかどうか 2.機械学習によって生成されたと思われるのはどちらか 機械学習による音源、市販音源をランダムを対に提示 聴いて以下の項目を選択する 1.曲作りに使える A or B 2.機械学習モデルによって生成された
A or B 実験参加者:145名×10回評価 音源 A 音源 B
実験 1.曲作りに使えるかどうか 機械学習による音源を選んだ割合の平均 : 0.5 曲作りの使える品質、市販の音源同等の品質である 理想の結果
結果と考察 1.曲作りに使えるかどうか 平均 標準偏差 0.419 0.223
実験 2.機械学習モデルによって生成されたと思われるのはどちらか 機械学習による音源を選んだ割合の平均 : 0.5 曲作りの使える品質、市販の音源同等の品質である 機械学習による音源を選んだ割合の平均 : 0.5以下 機械学習による音源が市販の音源よりも市販の音源らしい
理想の結果
結果と考察 2.機械学習モデルによって生成されたと思われるのはどちらか 平均 標準偏差 0.374 0.180
実験 3.元音源との類似度評価 機械学習によるモーフィング音源、モーフィング前の元音源A、Bを提示 音源 A、音源 B 、どちらに近いかを選択する 音源 X 音源
B 音源 A
実験 3.元音源との類似度評価 実験参加者:201名×10回評価 全ての評価数値の平均を出す 選択肢 評価数値 Aに近い 1 どちらかといえばAに近い 2
どちらかといえばBに近い 3 Bに近い 4
実験 3.元音源との類似度評価 2以上3未満の割合が大きい 機械学習によるモーフィング音源は元音源 A、B の中間的な音源といえる 理想の結果 平均評価数値 割合 1
以上2 未満 0 % 2以上3 未満 100 % 3 以上4 未満 0 %
結果と考察 3.元音源との類似度評価 平均評価数値 割合 1 以上2 未満 28% 2以上3 未満
48% 3 以上4 未満 24%
実験 4.新しい音源が生成されたか 機械学習で生成されたモーフィング音源 X (100個)とデータセットの音源との類 似度を調べる 音源Xのそれぞれに対して、最も似ているものの類似度を計算する 音源 X 音源
B 音源 A データセット
実験 4.新しい音源が生成されたか データセットからランダムに選ばれた音源とデータセットの音源との類似度を調 べる ランダムに選ばれた100個の音源のそれぞれに対して、最も似ているものの類 似度を計算する それらの平均値を求める データセットからランダムに選ばれた音源 データセット
実験 4.新しい音源が生成されたか 「生成音源とデータセット内の類似度」 が低いほど、生成された音源はデータ セット内のどの音源とも類似していない 理想の結果
結果と考察 4.新しい音源が生成されたか 平均最大類似度 データセット内 0.870 生成音源とデータセット内 0.935
まとめ ・市販の音素材に対して曲作り、品質に対して劣らない ・モーフィングの元となる2 つの音源のどちらかに類似するケースは少ないこと ・データセットに存在しない新しい音源が生成されている可能性は少ない
今後の課題 より多様なジャンルや楽器、スタイルに対応できるように、モデルの改良や新し い学習手法を検討する必要