仮想的な非自然データセットは、学習にも評価にも不適 ◆ 自然楽曲と同じバランスでの合成は困難 ▪ そもそも自然楽曲と同じバランスにするには 自然楽曲のサンプリング・分析が必要 ◆ 学習において自然音声・楽曲を利用する有効性も 示唆されている [Fujita+, 2019][Suda+, 2022] 歌割り認識 4 Y. Fujita, et al. End-to-end neural speaker diarization with self-attention. In Proc. ASRU 2019, 2019. H. Suda, et al. Singer diarization for polyphonic music with unison singing. IEEE/ACM Trans. Audio, Speech, Language Process., 30, 2022. → 自然楽曲のコーパスを作ろう!
[Abu-El-Haija+, 2016] • コーパスには動画そのものは含まれず、ID のみ記載 ◆ YouTube-8M、YouTube-ASL [Uthus+, 2023] と同様 ◆ 配布物に含まれる著作物は歌詞のみ • 現在のバージョン: 1.1.1(論文執筆時 1.0.0) • 14 グループ、92 名、30 楽曲、122 分 FruitsMusic 6 S. Abu-El-Haija, et al. YouTube-8M: A large-scale video classification benchmark. arXiv: 1609.08675, 2016. D. Uthus, et al. YouTube-ASL: A large-scale, open-domain American sign language-English parallel corpus. In Proc. NeurIPS 2023 Track on Datasets and Benchmarks, 2023.
CHiME-5 (会話音声データセット) FruitsMusic 平均音声長 9031 s 243 s 話者・歌唱者数 4 4〜9(平均 6.4) セグメント平均長 2.11 s 4.82 s 話者あたり単独発声平均合計長 1159.6 s 16.2 s 非発声区間 22.3% 23.3% 単独発声区間 51.4% 42.7% 同時発声区間 26.4% 34.0% これらの値は FruitsMusic version 1.1.1 にもとづきます。予稿での値(version 1.0.0 時点)とは異なります。 J. Barker, et al. The fifth ‘CHiME’speech separation and recognition challenge: Dataset, task, and baselines. In Proc. INTERSPEECH 2018, 2018.
VoxCeleb1 • Bootstrap your own latent(BYOL)[Grill+, 2020] ◆ 歌唱者認識用の学習済みモデル [Torres+, 2023] ▪ EfficientNet B0 [Tan+, 2019] ベース ◆ 学習データ: 940 時間のクリーンな歌声(internal) ▪ +4 時間の分離後の歌声(internal?) • 音源分離: Demucs の htdemucs_ft モデル 歌唱者表現の評価: 手法 15 S. Chen, et al. WavLM: Large-scale self-supervised pre-training for full stack speech processing. IEEE J. Sel. Top. Signal Process., 16(6), 2022. microsoft/wavlm-base-plus-sv. https://huggingface.co/microsoft/wavlm-base-plus-sv J.-B. Grill, et al. Bootstrap your own latent: A new approach to self-supervised learning. In Proc. NeurIPS 2020, 2020. B. Torres, et al. Singer identity representation learning using self-supervised techniques. In Proc. ISMIR 2023, 2023. M. Tan, et al. EfficientNet: Rethinking model scaling for convolutional neural networks. In Proc. ICML 2019, 2019. Demucs Music Source Separation. https://github.com/facebookresearch/demucs [A. Defossez, 2021][S. Rouard+, 2023] ´
2. pyannote.audio [Bredin+, 2020] ◆ 話者ダイアライゼーションでは SoTA(らしい) ◆ pyannote/speaker-diarization-3.1 を利用 ▪ 閾値など含めて fine-tuning ◆ 同時発声部分は 2 人による発声と推測 3. 当該アイドルの知識なく、歌声だけで解いた一般人 1 人 • モデルは最小 DER 規準で選択 歌唱者ダイアライゼーション: 手法 18 Y. Fujita, et al. End-to-end neural speaker diarization with self-attention. In Proc. ASRU 2019, 2019. S. Horiguchi, et al. Encoder-decoder based attractors for end-to-end neural diarization. IEEE/ACM Trans. Audio, Speech, Language Process., 30, 2022. H. Bredin, et al. Pyannote.Audio: Neural building blocks for speaker diarization. In Proc. ICASSP 2020, 2020. pyannote/speaker-diarization-3.1. https://huggingface.co/pyannote/speaker-diarization-3.1