Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
機械学習で無音サックスを作ろうとしたら音響特性とレイテンシに明るくなった話
Search
nayopu
October 19, 2022
Technology
1
390
機械学習で無音サックスを作ろうとしたら音響特性とレイテンシに明るくなった話
Music×Analytics Meetup Vol.9 LT
https://muana.connpass.com/event/259360/
nayopu
October 19, 2022
Tweet
Share
Other Decks in Technology
See All in Technology
First-Principles-of-Scrum
hiranabe
4
1.9k
Cloud WAN MCP Serverから考える新しいネットワーク運用 / 20251228 Masaki Okuda
shift_evolve
PRO
0
150
Node vs Deno vs Bun 〜推しランタイムを見つけよう〜
kamekyame
1
430
「アウトプット脳からユーザー価値脳へ」がそんなに簡単にできたら苦労しない #RSGT2026
aki_iinuma
11
5k
スクラムマスターが スクラムチームに入って取り組む5つのこと - スクラムガイドには書いてないけど入った当初から取り組んでおきたい大切なこと -
scrummasudar
3
2k
Sansan Engineering Unit 紹介資料
sansan33
PRO
1
3.6k
松尾研LLM講座2025 応用編Day3「軽量化」 講義資料
aratako
15
5k
小さく、早く、可能性を多産する。生成AIプロジェクト / prAIrie-dog
visional_engineering_and_design
0
430
あの夜、私たちは「人間」に戻った。 ── 災害ユートピア、贈与、そしてアジャイルの再構築 / 20260108 Hiromitsu Akiba
shift_evolve
PRO
0
590
Oracle Cloud Infrastructure:2025年12月度サービス・アップデート
oracle4engineer
PRO
0
270
Keynoteから見るAWSの頭の中
nrinetcom
PRO
1
170
AI に「学ばせ、調べさせ、作らせる」。Auth0 開発を加速させる7つの実践的アプローチ
scova0731
0
230
Featured
See All Featured
How to Create Impact in a Changing Tech Landscape [PerfNow 2023]
tammyeverts
55
3.2k
Optimizing for Happiness
mojombo
379
70k
Thoughts on Productivity
jonyablonski
74
5k
Evolution of real-time – Irina Nazarova, EuRuKo, 2024
irinanazarova
9
1.1k
SERP Conf. Vienna - Web Accessibility: Optimizing for Inclusivity and SEO
sarafernandez
1
1.3k
GraphQLの誤解/rethinking-graphql
sonatard
74
11k
Taking LLMs out of the black box: A practical guide to human-in-the-loop distillation
inesmontani
PRO
3
2k
Exploring anti-patterns in Rails
aemeredith
2
220
The Director’s Chair: Orchestrating AI for Truly Effective Learning
tmiket
1
75
How to Get Subject Matter Experts Bought In and Actively Contributing to SEO & PR Initiatives.
livdayseo
0
46
Tips & Tricks on How to Get Your First Job In Tech
honzajavorek
0
410
The innovator’s Mindset - Leading Through an Era of Exponential Change - McGill University 2025
jdejongh
PRO
1
76
Transcript
© nayopu 2022. All rights reserved. @nayopu3 C nayopu 機械学習で無音サックスを作ろうとしたら
音響特性とレイテンシに明るくなった話 #muana 2022.10.19
2 © nayopu 2022. All rights reserved. 自己紹介
3 © nayopu 2022. All rights reserved. 内容 家でサックスを練習したい レイテンシと呼ばれる沼へ
木管楽器の音響の造詣の浅さでつまづく 機械学習の採用 無音サックスの完成(?)
4 © nayopu 2022. All rights reserved. 家でサックスを練習したい
5 © nayopu 2022. All rights reserved. 55 dB ≫
~ 100 dB 木管楽器の音量 住環境の騒音レベル 家でサックスを練習したい [1] Gavin King, Marek Roland-Mieszkowski, Timothy Jason, and Daniel Rainham.2012. Noise Levels Associated with Urban Land Use.Journal of urban health :bulletin of the New York Academy of Medicine89 (06 2012).
6 © nayopu 2022. All rights reserved. 家でサックスを練習したい アプローチ3. ローランド/ウィンドシンセサイザー
¥85,800 アプローチ2. ベストブラス/イーサックス ¥52,500 どれもいまいち…🤔 → やっぱり本物のサックスで演奏したい アプローチ1. Dilwe/サックスサイレンサー ¥1,408
7 © nayopu 2022. All rights reserved. 家でサックスを練習したい アプローチ4. キー全部にスイッチつける
¥? → 非侵襲的にやりたい https://twitter.com/nayopu3/status/1218865654234632198?s=20
8 © nayopu 2022. All rights reserved. 家でサックスを練習したい アプローチ5.(今日の話) 小さなホワイトノイズをマウスピースから流して応答音の周波数特定から運指をリアルタイム推定
9 © nayopu 2022. All rights reserved. レイテンシと呼ばれる沼へ
10 © nayopu 2022. All rights reserved. レイテンシと呼ばれる沼へ レイテンシと運指推定精度のトレードオフ •
運指変更から運指出力までの時間差(レイテンシ) > フーリエ変換の時間窓ΔT • 小さなΔTは粗い周波数分解能をΔfにつながり、運指の推定精度が下がりそう → 許容されるレイテンシ一杯の時間窓を使って推定したい
11 © nayopu 2022. All rights reserved. レイテンシと呼ばれる沼へ サーベイ論文を読む Lago,
Nelson Posse, and Fabio Kon. "The quest for low latency." ICMC. 2004. 許容されるレイテンシ = ケースバイケース。 • 人間の聴覚は視覚よりも高い時間精度を持っており、少なくとも4ms程度の変動は知覚、コントロールできる。 • 異なる種類の二つの刺激(例えば、視覚と聴覚、あるいは、視覚と聴覚と聴覚など)が関与する時間精度 は同じ種類の二つの刺激の時間精度よりも低い。 • 人は異なるフィードバック遅延に対して自身の動作を適応させる能力があり、大きな遅延が許容されることも。 – ピアノ演奏において、鍵盤を押してから対応する音が出るまでの経過時間は、ピアノ音で100ms程度、 スタッカート、フォルテ音で30ms程度で、待ち時間がダイナミックレベルによって異なる。 – 人の運動システムは瞬時に反応することができないため、「時間通り」に動作するためには前もって運動 命令を出す必要がある。 – 人は動作に対するフィードバック遅延の情報を、「どれだけ前もって命令を出すかを調整する」ために使っ ている可能性がある。 • 総じて一般の音楽アプリケーションにおいては,20-30ms 程度の遅延を許容することができる、らしい。
12 © nayopu 2022. All rights reserved. レイテンシと呼ばれる沼へ サーベイ論文を読む Lago,
Nelson Posse, and Fabio Kon. "The quest for low latency." ICMC. 2004. 許容されるレイテンシ = ケースバイケース。 • 人間の聴覚は視覚よりも高い時間精度を持っており、少なくとも4ms程度の変動は知覚、コントロールできる。 • 異なる種類の二つの刺激(例えば、視覚と聴覚)が関与する時間精度は同じ種類の二つの刺激の時間 精度よりも低い。 • 人は異なるフィードバック遅延に対して自身の動作を適応させる能力があり、大きな遅延が許容されることも。 – ピアノ演奏において、鍵盤を押してから対応する音が出るまでの経過時間は、pianoで100ms程度、 staccato、forte音で30ms程度で、待ち時間がダイナミックレベルによって異なる。 – 人の運動システムは瞬時に反応することができないため、「時間通り」に動作するためには前もって運動 命令を出す必要がある。 – 人は動作に対するフィードバック遅延の情報を、「どれだけ前もって命令を出すかを調整する」ために使っ ている可能性がある。 • 総じて一般の音楽アプリケーションにおいては,20-30ms 程度の遅延を許容することができる、らしい。
13 © nayopu 2022. All rights reserved. レイテンシと呼ばれる沼へ サーベイ論文を読む Lago,
Nelson Posse, and Fabio Kon. "The quest for low latency." ICMC. 2004. 許容されるレイテンシ = ケースバイケース。 • 人間の聴覚は視覚よりも高い時間精度を持っており、少なくとも4ms程度の変動は知覚、コントロールできる。 • 異なる種類の二つの刺激(例えば、視覚と聴覚)が関与する時間精度は同じ種類の二つの刺激の時間 精度よりも低い。 • 人は異なるフィードバック遅延に対して自身の動作を適応させる能力があり、大きな遅延が許容されることも。 – ピアノ演奏において、鍵盤を押してから対応する音が出るまでの経過時間は、pianoで100ms程度、 staccato、forte音で30ms程度で、待ち時間がダイナミックレベルによって異なる。 – 人の運動システムは瞬時に反応することができないため、「時間通り」に動作するためには前もって運動 命令を出す必要がある。 – 人は動作に対するフィードバック遅延の情報を、「どれだけ前もって命令を出すかを調整する」ために使っ ている可能性がある。 • 総じて一般の音楽アプリケーションにおいては,20-30ms 程度の遅延を許容することができる、らしい。
14 © nayopu 2022. All rights reserved. レイテンシと呼ばれる沼へ • サンプル時間20msecとすると,
周波数分解能Δ𝑓 = 1 20∗10−3 = 50 𝐻𝑧 • 音階間の周波数間隔は音域によって変わるが、低音域の間隔は~10hz • Δ𝑓 = 50𝐻𝑧 分解能 > 10𝐻𝑧 (音階間隔) • → 最大値を調べるだけではだめなのでハーモニーのパターンも活用する基本周波数推定手法 (SWIPE, YIN, WORLD)を使う。
15 © nayopu 2022. All rights reserved. 木管楽器の音響の造詣の浅さでつまづく
16 © nayopu 2022. All rights reserved. 木管楽器の音響の造詣の浅さでつまづく • 基本周波数推定手法の適用
→ オクターブ違いの推定エラーが頻発 (基本周波数は十分離れているはずなのになぜ…?) • サックスの音響特性ライブラリ[1]を見つける。 – オクターブキー (a.k.a. register key) の有無で基本周波数は変わらないことが判明 [1] http://newt.phys.unsw.edu.au/music/saxophone/ オクターブキー
17 © nayopu 2022. All rights reserved. 木管楽器の音響の造詣の浅さでつまづく • そもそもオクターブキーは何をしているのか。
– サックスは円錐で複雑なため、リコーダーの裏孔で説明。 • オクターブキー非押下 (サックス) • 親指で裏孔を完全に閉じる(リコーダー) …
18 © nayopu 2022. All rights reserved. 木管楽器の音響の造詣の浅さでつまづく • そもそもオクターブキーは何をしているのか。
– サックスは円錐で複雑なため、リコーダーの裏孔で説明。 • オクターブキー非押下 (サックス) • 親指で裏孔を完全に閉じる(リコーダー) … • オクターブキー押下 (サックス) • 親指で裏孔を半分開ける(リコーダー) … 基本振動のみ 形成が困難になる ↓ 基本周波数は変 わらない
19 © nayopu 2022. All rights reserved. 機械学習の採用 (割愛)
20 © nayopu 2022. All rights reserved. 無音サックスの完成(?)
21 © nayopu 2022. All rights reserved. 無音サックスの完成(?)
22 © nayopu 2022. All rights reserved. お し ま
い
23 © nayopu 2022. All rights reserved. @nayopu3