해석할 수 있음 • 구성 이벤트: • 음정 • 시작 시간 (Onsets) • 종료 시간 (Offsets) • 음량 (Velocity) • MIDI / 피아노 롤 시간 이벤트 → 기록된 MIDI를 전자악기로 연주 전자 악기의 연주를 실시간으로 기록 연주될 이벤트를 수기로 작성
ClassicMan https://musescore.com/classicman/satie-gymnopedie-no-1 Concert Etude No. 2, "Gnomenreigen", S. 145/2 - Franz Liszt Performed by Xing Yu Lu https://www.piano-e-competition.com/midi_2011.asp 강약(Velocity) 정보가 인위적으로 작성되어 있어 듣기에 부자연스러움 음표 간의 세기 차이가 짧은 시간 안에도 굉장히 큼 강약의 변화 경향이 자연스러움 인터넷에서 구한 미디 악보 전문가가 입력한 미디 악보
of Musical Style" Malik, Iman, and Carl Henrik Ek. "Neural translation of musical style." arXiv preprint arXiv:1708.03535 (2017). https://arxiv.org/abs/1708.03535 • MIDI로 기록된 클래식/재즈 데이터를 학습 • 4/4 박자의 음악만 이용함 • 각 음표의 박자를 1/16 박자 단위로 보정 • 세부적인 박자 정보 누락됨 • 음의 지속시간을 입력 시작/지속/끝으로 구분
Wattenhofer - "MIDI-VAE: Modeling Dynamics and Instrumentation of Music with Applications to Style Transfer" Brunner, Gino, et al. "MIDI-VAE: Modeling dynamics and instrumentation of music with applications to style transfer." arXiv preprint arXiv:1809.07600 (2018). https://arxiv.org/abs/1809.07600 • Variational Autoencoder (VAE)와 GRU(Gated Recurrent Unit)에 기반하여 음악 Style Transfer를 구현 • MIDI에 포함된 악기 및 각 악기의 연주 정보를 장르 레이블과 함께 학습하여 임의의 음악을 다른 장르로 변환
정보를 결정하는 요소: • 시간 축에서의 위치 • 음의 높이(계명) • 음의 지속 시간 • 인접한 음표일수록 비슷한 크기를 갖거나 증감 경향을 가짐 • 사람의 손으로 연주되었기 때문에 유사한 힘으로 입력되는 경향 • 거의 동시에 입력된 음표들은 음표끼리 세기 편차가 큰 편임 • 장기적인 관점에서는 주기적인 추세를 가지고 오르내리는 형태 ① ② ③ ③ ② ① ② • 벨로시티(Velocity): 음표를 얼마나 세게 칠 지를 정하는 수치
for Synchronous TRacks and Organization 데이터셋 특징: • 세계 정상급 피아니스트들의 경연 연주를 기록함 • 오디오, MIDI 두가지매체를모두수집함 • Yamaha Disklavier* 피아노를 사용하여 연주와 동시에 MIDI 정보를 취득함 • 오디오와미디데이터는~3ms의 오차범위 내에서 정렬됨 *Disklavier: 고해상도 미디 정보를 기록할 수 있는 그랜드 피아노 https://en.wikipedia.org/wiki/Disklavier http://piano-e-competition.com/ 1,814 Performances 430 Compositions 172.3 Hours of Audio and MIDI 6.18 Million Notes by Google Magenta project Curtis Hawthorne, Andriy Stasyuk, Adam Roberts, Ian Simon, Cheng-Zhi Anna Huang, Sander Dieleman, Erich Elsen, Jesse Engel, and Douglas Eck. "Enabling Factorized Piano Music Modeling and Generation with the MAESTRO Dataset." In International Conference on Learning Representations, 2019. Link: https://magenta.tensorflow.org/datasets/maestro
Instrumentation of Music with Applications to Style Transfer by Gino Brunner, Andres Konrad, Yuyi Wang, Roger Wattenhofer. Test loss가 모두 앞선 결과를 냈음 MIDI-VAE 본 연구 (MSE only) Train Test Train Test Valid CvJ 0.008 0.029 0.0074 0.0100 0.0094 CvP 0.017 0.036 0.0074 0.0127 0.0129 JvP 0.043 0.048 0.0093 0.0155 0.0137 BvM 0.010 0.033 0.029 0.0021 0.0024 * 동일한 환경 비교를 위해 손실함수와 손실 모두 MSE 사용 Brunner, Gino, et al. "MIDI-VAE: Modeling dynamics and instrumentation of music with applications to style transfer. arXiv preprint arXiv:1809.07600 (2018). https://arxiv.org/abs/1809.07600 Dataset: [goo.gl/sNpgQ7]
영상 모델 예측 결과 Original MIDI source: https://bitmidi.com/deb_clai_format0-mid * Train/Valid/Test 데이터셋에 없는, 아예 외부에서 수집한 임의의 클래식 악곡임 원본 표현에 비해 강약 표현이 뚜렷함 (훈련 데이터셋의 영향으로 추정)
음표의 Velocity를 예측할 수 있었음 • 양방향 LSTM에 비해 단방향 LSTM이 세부적인 노트 정보를 잘 표현하고 있었음 • MSE 손실함수와 Cosine Similarity 손실함수를 적절히 혼합하여 단기간/장기간 표현력을 향상함 • 기존 연구들에 비해 장점으로 내세울 수 있는 점들이 존재함 • 세밀한 시간 정보를 학습하고 처리할 수 있다는 점 • 기존 네트워크에 비해 많이 단순하지만 손실 측면에서의 성능은 비교할 만하다는 점 • 장기간 표현력에 비해 단기간의 세부적인 표현력은 여전히 낮은 편이어서 원천적인 개선이 필요