Upgrade to Pro — share decks privately, control downloads, hide ads and more …

機械学習で無音サックスを作ろうとしたら音響特性とレイテンシに明るくなった話

nayopu
October 19, 2022

 機械学習で無音サックスを作ろうとしたら音響特性とレイテンシに明るくなった話

Music×Analytics Meetup Vol.9 LT
https://muana.connpass.com/event/259360/

nayopu

October 19, 2022
Tweet

Other Decks in Technology

Transcript

  1. © nayopu 2022. All rights reserved.
    @nayopu3
    C
    nayopu
    機械学習で無音サックスを作ろうとしたら
    音響特性とレイテンシに明るくなった話
    #muana
    2022.10.19

    View Slide

  2. 2
    © nayopu 2022. All rights reserved.
    自己紹介

    View Slide

  3. 3
    © nayopu 2022. All rights reserved.
    内容
    家でサックスを練習したい
    レイテンシと呼ばれる沼へ
    木管楽器の音響の造詣の浅さでつまづく
    機械学習の採用
    無音サックスの完成(?)

    View Slide

  4. 4
    © nayopu 2022. All rights reserved.
    家でサックスを練習したい

    View Slide

  5. 5
    © nayopu 2022. All rights reserved.
    55 dB

    ~ 100 dB
    木管楽器の音量 住環境の騒音レベル
    家でサックスを練習したい
    [1] Gavin King, Marek Roland-Mieszkowski, Timothy Jason, and Daniel Rainham.2012. Noise Levels Associated with
    Urban Land Use.Journal of urban health :bulletin of the New York Academy of Medicine89 (06 2012).

    View Slide

  6. 6
    © nayopu 2022. All rights reserved.
    家でサックスを練習したい
    アプローチ3.
    ローランド/ウィンドシンセサイザー
    ¥85,800
    アプローチ2.
    ベストブラス/イーサックス
    ¥52,500
    どれもいまいち…🤔 → やっぱり本物のサックスで演奏したい
    アプローチ1.
    Dilwe/サックスサイレンサー
    ¥1,408

    View Slide

  7. 7
    © nayopu 2022. All rights reserved.
    家でサックスを練習したい
    アプローチ4.
    キー全部にスイッチつける ¥?
    → 非侵襲的にやりたい
    https://twitter.com/nayopu3/status/1218865654234632198?s=20

    View Slide

  8. 8
    © nayopu 2022. All rights reserved.
    家でサックスを練習したい
    アプローチ5.(今日の話)
    小さなホワイトノイズをマウスピースから流して応答音の周波数特定から運指をリアルタイム推定

    View Slide

  9. 9
    © nayopu 2022. All rights reserved.
    レイテンシと呼ばれる沼へ

    View Slide

  10. 10
    © nayopu 2022. All rights reserved.
    レイテンシと呼ばれる沼へ
    レイテンシと運指推定精度のトレードオフ
    • 運指変更から運指出力までの時間差(レイテンシ) > フーリエ変換の時間窓ΔT
    • 小さなΔTは粗い周波数分解能をΔfにつながり、運指の推定精度が下がりそう
    → 許容されるレイテンシ一杯の時間窓を使って推定したい

    View Slide

  11. 11
    © nayopu 2022. All rights reserved.
    レイテンシと呼ばれる沼へ
    サーベイ論文を読む
    Lago, Nelson Posse, and Fabio Kon. "The quest for low latency." ICMC. 2004.
    許容されるレイテンシ = ケースバイケース。
    • 人間の聴覚は視覚よりも高い時間精度を持っており、少なくとも4ms程度の変動は知覚、コントロールできる。
    • 異なる種類の二つの刺激(例えば、視覚と聴覚、あるいは、視覚と聴覚と聴覚など)が関与する時間精度
    は同じ種類の二つの刺激の時間精度よりも低い。
    • 人は異なるフィードバック遅延に対して自身の動作を適応させる能力があり、大きな遅延が許容されることも。
    – ピアノ演奏において、鍵盤を押してから対応する音が出るまでの経過時間は、ピアノ音で100ms程度、
    スタッカート、フォルテ音で30ms程度で、待ち時間がダイナミックレベルによって異なる。
    – 人の運動システムは瞬時に反応することができないため、「時間通り」に動作するためには前もって運動
    命令を出す必要がある。
    – 人は動作に対するフィードバック遅延の情報を、「どれだけ前もって命令を出すかを調整する」ために使っ
    ている可能性がある。
    • 総じて一般の音楽アプリケーションにおいては,20-30ms 程度の遅延を許容することができる、らしい。

    View Slide

  12. 12
    © nayopu 2022. All rights reserved.
    レイテンシと呼ばれる沼へ
    サーベイ論文を読む
    Lago, Nelson Posse, and Fabio Kon. "The quest for low latency." ICMC. 2004.
    許容されるレイテンシ = ケースバイケース。
    • 人間の聴覚は視覚よりも高い時間精度を持っており、少なくとも4ms程度の変動は知覚、コントロールできる。
    • 異なる種類の二つの刺激(例えば、視覚と聴覚)が関与する時間精度は同じ種類の二つの刺激の時間
    精度よりも低い。
    • 人は異なるフィードバック遅延に対して自身の動作を適応させる能力があり、大きな遅延が許容されることも。
    – ピアノ演奏において、鍵盤を押してから対応する音が出るまでの経過時間は、pianoで100ms程度、
    staccato、forte音で30ms程度で、待ち時間がダイナミックレベルによって異なる。
    – 人の運動システムは瞬時に反応することができないため、「時間通り」に動作するためには前もって運動
    命令を出す必要がある。
    – 人は動作に対するフィードバック遅延の情報を、「どれだけ前もって命令を出すかを調整する」ために使っ
    ている可能性がある。
    • 総じて一般の音楽アプリケーションにおいては,20-30ms 程度の遅延を許容することができる、らしい。

    View Slide

  13. 13
    © nayopu 2022. All rights reserved.
    レイテンシと呼ばれる沼へ
    サーベイ論文を読む
    Lago, Nelson Posse, and Fabio Kon. "The quest for low latency." ICMC. 2004.
    許容されるレイテンシ = ケースバイケース。
    • 人間の聴覚は視覚よりも高い時間精度を持っており、少なくとも4ms程度の変動は知覚、コントロールできる。
    • 異なる種類の二つの刺激(例えば、視覚と聴覚)が関与する時間精度は同じ種類の二つの刺激の時間
    精度よりも低い。
    • 人は異なるフィードバック遅延に対して自身の動作を適応させる能力があり、大きな遅延が許容されることも。
    – ピアノ演奏において、鍵盤を押してから対応する音が出るまでの経過時間は、pianoで100ms程度、
    staccato、forte音で30ms程度で、待ち時間がダイナミックレベルによって異なる。
    – 人の運動システムは瞬時に反応することができないため、「時間通り」に動作するためには前もって運動
    命令を出す必要がある。
    – 人は動作に対するフィードバック遅延の情報を、「どれだけ前もって命令を出すかを調整する」ために使っ
    ている可能性がある。
    • 総じて一般の音楽アプリケーションにおいては,20-30ms 程度の遅延を許容することができる、らしい。

    View Slide

  14. 14
    © nayopu 2022. All rights reserved.
    レイテンシと呼ばれる沼へ
    • サンプル時間20msecとすると, 周波数分解能Δ𝑓 = 1
    20∗10−3
    = 50 𝐻𝑧
    • 音階間の周波数間隔は音域によって変わるが、低音域の間隔は~10hz
    • Δ𝑓 = 50𝐻𝑧 分解能 > 10𝐻𝑧 (音階間隔)
    • → 最大値を調べるだけではだめなのでハーモニーのパターンも活用する基本周波数推定手法
    (SWIPE, YIN, WORLD)を使う。

    View Slide

  15. 15
    © nayopu 2022. All rights reserved.
    木管楽器の音響の造詣の浅さでつまづく

    View Slide

  16. 16
    © nayopu 2022. All rights reserved.
    木管楽器の音響の造詣の浅さでつまづく
    • 基本周波数推定手法の適用
    → オクターブ違いの推定エラーが頻発 (基本周波数は十分離れているはずなのになぜ…?)
    • サックスの音響特性ライブラリ[1]を見つける。
    – オクターブキー (a.k.a. register key) の有無で基本周波数は変わらないことが判明
    [1] http://newt.phys.unsw.edu.au/music/saxophone/
    オクターブキー

    View Slide

  17. 17
    © nayopu 2022. All rights reserved.
    木管楽器の音響の造詣の浅さでつまづく
    • そもそもオクターブキーは何をしているのか。
    – サックスは円錐で複雑なため、リコーダーの裏孔で説明。
    • オクターブキー非押下 (サックス)
    • 親指で裏孔を完全に閉じる(リコーダー)

    View Slide

  18. 18
    © nayopu 2022. All rights reserved.
    木管楽器の音響の造詣の浅さでつまづく
    • そもそもオクターブキーは何をしているのか。
    – サックスは円錐で複雑なため、リコーダーの裏孔で説明。
    • オクターブキー非押下 (サックス)
    • 親指で裏孔を完全に閉じる(リコーダー)

    • オクターブキー押下 (サックス)
    • 親指で裏孔を半分開ける(リコーダー)

    基本振動のみ
    形成が困難になる

    基本周波数は変
    わらない

    View Slide

  19. 19
    © nayopu 2022. All rights reserved.
    機械学習の採用 (割愛)

    View Slide

  20. 20
    © nayopu 2022. All rights reserved.
    無音サックスの完成(?)

    View Slide

  21. 21
    © nayopu 2022. All rights reserved.
    無音サックスの完成(?)

    View Slide

  22. 22
    © nayopu 2022. All rights reserved.
    お し ま い

    View Slide

  23. 23
    © nayopu 2022. All rights reserved.
    @nayopu3

    View Slide