FruitsMusic: 音楽情報処理のためのアイドルユニット楽曲コーパス

FruitsMusic: 音楽情報処理のためのアイドルユニット楽曲コーパス須田仁志、　中村友彦、　深山覚、　緒方淳産業技術総合研究所 2024.03.09　第 139 回音楽情報科学研究発表会

/23 • 近年の J-POP や K-POP では、アイドル/ダンスグループの存在感・重要性が顕著 ◆ e.g., 昨年の『輝く! 日本レコード大賞』では FRUITS ZIPPER が最優秀新人賞に
• 実用的な音楽情報処理のためにはこうしたアイドルグループ楽曲の考慮が不可欠 ◆ 歌声声質検索、歌詞認識、基本周波数推定、etc. ◆ いずれも挑戦的な基礎的タスク • しかし、こうした楽曲のコーパスはほとんどない ◆ e.g., 恋の Ver.2.4（4 人）[Goto+, 2003] 研究背景 2 FRUITS ZIPPER は月足天音、鎮西寿々歌、櫻井優衣、仲川瑠夏、真中まな、松本かれん、早瀬ノエルの 7 人からなるアソビシステム株式会社の女性アイドルグループ。輝く! 日本レコード大賞．https://www.tbs.co.jp/recordaward/ M. Goto, et al. RWC Music Database: Music genre database and musical instrument sound database. In Proc. ISMIR 2003, 2003.

/23 • 少人数（〜10 人程度）の楽曲の特徴: 歌割り ◆ 歌唱区間によって歌唱する人を変化させる演出 • いつ誰が何を歌っているかが興味の対象の 1 つ ◆ FRUITS
ZIPPER では X 上で公式提供 ◆ line distribution: ファン制作の可視化動画 ◆ ミュージックビデオ、ライブ映像のカメラ割りなど制作においても必要不可欠少人数アイドルグループ楽曲の特徴 3 A: 静かになった放課後窓辺の席 B: 名前も知らない君をいつも見てたんだ C: このままだって後悔はしないと思うけれど A, C, E: ふとした時頭に浮かぶのは B, D, F: 君の居る景色ばかり FRUITS ZIPPER．わたしの一番かわいいところ．https://x.com/FRUITS_ZIPPER/status/1531261411476656129

/23 • 各認識技術には既に名前がある ◆ いつ誰が歌っているか: 歌唱者ダイアライゼーション ◆ 何を歌っているか: 歌詞認識 •
仮想的な非自然データセットは、学習にも評価にも不適 ◆ 自然楽曲と同じバランスでの合成は困難 ▪ そもそも自然楽曲と同じバランスにするには自然楽曲のサンプリング・分析が必要 ◆ 学習において自然音声・楽曲を利用する有効性も示唆されている [Fujita+, 2019][Suda+, 2022] 歌割り認識 4 Y. Fujita, et al. End-to-end neural speaker diarization with self-attention. In Proc. ASRU 2019, 2019. H. Suda, et al. Singer diarization for polyphonic music with unison singing. IEEE/ACM Trans. Audio, Speech, Language Process., 30, 2022. → 自然楽曲のコーパスを作ろう！

Corpus of Fully Real Popular Idol-group Songs from YouTube Videos
for Music Information Processing FruitsMusic

/23 https://huggingface.co/datasets/fruits-music/fruits-music • YouTube 上の自然楽曲のミュージックビデオにいつ誰が何を歌唱しているかのアノテーションを付与 • YouTube から収集することで再現可能性が高まる ◆ e.g., YouTube-8M
[Abu-El-Haija+, 2016] • コーパスには動画そのものは含まれず、ID のみ記載 ◆ YouTube-8M、YouTube-ASL [Uthus+, 2023] と同様 ◆ 配布物に含まれる著作物は歌詞のみ • 現在のバージョン: 1.1.1（論文執筆時 1.0.0） • 14 グループ、92 名、30 楽曲、122 分 FruitsMusic 6 S. Abu-El-Haija, et al. YouTube-8M: A large-scale video classification benchmark. arXiv: 1609.08675, 2016. D. Uthus, et al. YouTube-ASL: A large-scale, open-domain American sign language-English parallel corpus. In Proc. NeurIPS 2023 Track on Datasets and Benchmarks, 2023.

/23 • 創作的表現の鑑賞・享受目的での利用禁止 • いわゆる生成 AI 禁止（推論含む） ◆ 禁止例: 歌声合成、歌声変換、歌詞生成、楽音生成 ◆ 可能例:
歌詞認識、歌唱者表現抽出、歌詞の自然性評価 • 現実のアイドル・アイドルグループとの対応付け禁止 ◆ 発表などでは、コーパス内の ID で表記してください ◆ 曲名も、議論に不要であれば ID で表記してください • 本コーパスを用いて学習された認識モデルなどにもこの 3 事項を要継承 • 詳細はコーパス内のライセンス文をお読みください FruitsMusic 利用規約 7

/23 • 楽曲 ID（XXm00） • YouTube 上の ID • 動画の種類 • 歌唱者のリスト（XXs00） •
楽曲名 • 楽曲の開始時刻、長さ • 歌唱状態のリスト ◆ 開始時刻、終了時刻 ◆ 歌唱者リスト ◆ 本来の歌詞、実際の歌詞 FruitsMusic に含まれるデータ 8 { "id": "SYm01", "youtubeId": "YouTubeID", "type": "music_video", "singerIds": ["SYs01", "SYs02", "SYs04", "SYs05", "SYs06"], "title": "Title", "songStartsAt": 0, "duration": 216128, "states": [ { "start": 1869, "end": 17335, "singers": [0, 1, 2, 3, 4], "lyrics": "Lyrics 1", "realLyrics": null }, { "start": 22543, "end": 26930, "singers": [1], "lyrics": "Lyrics 2", "realLyrics": null } ] } SPEAKER SYm01 1 1.869 15.466 <NA> <NA> SYs01 <NA> <NA> SPEAKER SYm01 1 1.869 15.466 <NA> <NA> SYs02 <NA> <NA> SPEAKER SYm01 1 1.869 15.466 <NA> <NA> SYs04 <NA> <NA> SPEAKER SYm01 1 1.869 15.466 <NA> <NA> SYs05 <NA> <NA> SPEAKER SYm01 1 1.869 15.466 <NA> <NA> SYs06 <NA> <NA> SPEAKER SYm01 1 22.543 4.387 <NA> <NA> SYs02 <NA> <NA> SPEAKER SYm01 1 33.896 3.858 <NA> <NA> SYs01 <NA> <NA> 【JSON 形式】【RTTM 形式】

/23 • 女性アイドルグループのみ • 「歌唱区間」の定義の曖昧性 ◆ ブレス、ディレイやリバーブ → すべて除外 ◆
演出上の声素材（コーラス、ハモり、コールなど） → コールは考慮、それ以外の素材は基本的に除外 • 同じ歌唱者が同時に歌っている場合がある ◆ DER など、評価指標計算時には注意が必要 • 音量が動画によって異なるので正規化を推奨 • コーパス内の動画からの歌割り推定は一般人には困難 ◆ アノテータは特殊な訓練を積んでいるので内容は正確 FruitsMusic 利用時の注意点 9

/23 • 歌詞が重複したアノテーションがある（e.g., DRm03） ◆ 歌詞認識の評価の際には手修正が必須 • フェイク（コーパス内では [fake] と表記）
• 言語モデル的にかなり困難 & 評価時に考慮が必要 ◆ 固有名詞や造語（アイドルグループ名、楽曲名など） ▪ 歌詞は鑑賞・生成目的には使われないため、アイドルグループ名は redaction していない ◆ 新語（スクショ、エゴサ、すきぴ、リピる、メン死） ◆ 推定困難な綴り（最前・最後、ヒーロー、社会） ◆ そのままの外国語（Je t’ aime、ࢎی೧、我愛你）歌詞の利用上の注意点 10 さいぜんさいこうだれかしゃば

/23 • FruitsMusic は Subset A と Subset B に分割されている ◆ それぞれ学習・評価の目的だが、自由に利用してよい • Subset
A: 25 曲 / Subset B: 5 曲 • どちらのサブセットも、歌唱者数は 4 以上 9 以下 • Subset B の特徴 ◆ Subset A と歌唱者の被りがない（open-singer） ◆ 1 アイドルグループあたり 1 曲のみ ◆ Subset A と傾向が違う歌割り・ジャンルを含む ◆ 比較的あまり有名でない（人的な評価が容易）サブセット 11

/23 • 各アイドルがソロパートを持つ ◆ 歌唱者ダイアライゼーションを考慮しているため • 正確なアノテーションのための情報が存在する ◆ 実際のライブ映像など、根拠になる情報があれば OK •
ジャンルが多様（かわいい系ポップスに限らない） • 再生数、グループの人気などは無視 • 2022 年以降に発表されたもの • ライブ映像は不可 • 同一アイドルが複数のグループに存在しない ◆ 現実では兼任、卒業、グループ解散などがある楽曲選定の条件 12

/23 • FruitsMusic は 7 人曲が多い（16/30 曲） • 同時歌唱区間のうち、全員歌唱でない割合は 40.5% ◆ 「同時歌唱なら全員」は通用しない会話音声との比較 13
CHiME-5 （会話音声データセット） FruitsMusic 平均音声長 9031 s 243 s 話者・歌唱者数 4 4〜9（平均 6.4）セグメント平均長 2.11 s 4.82 s 話者あたり単独発声平均合計長 1159.6 s 16.2 s 非発声区間 22.3% 23.3% 単独発声区間 51.4% 42.7% 同時発声区間 26.4% 34.0% これらの値は FruitsMusic version 1.1.1 にもとづきます。予稿での値（version 1.0.0 時点）とは異なります。 J. Barker, et al. The fifth ‘CHiME’speech separation and recognition challenge: Dataset, task, and baselines. In Proc. INTERSPEECH 2018, 2018.

/23 • 2 秒以上のソロ歌唱区間を抜き出し、歌唱者表現を抽出 • 歌唱者ごとのクラスタ形成が理想 ◆ ダイアライゼーション、歌唱者数推定などの目的 • アイドルグループ: KF
◆ 7 曲・7 名、各歌唱者平均 20 区間合計 88 秒 ◆ （主観的な聴感上）わりと声の区別が付くメンバー • クラスタリング性能評価: F 値（高いと高性能） ◆ Purity と inverse purity の調和平均 [Hotho+, 2005] ◆ k-means で 7 クラスに分類後計算 • 「伴奏音あり」と「音源分離後ボーカルのみ」で比較歌唱者表現の評価 14 A. Hotho, et al. A brief survey of text mining. Journal for Language Technology and Computational Linguistics, 20(1), 2005.

/23 • WavLM-based x-vector [Chen+, 2022] ◆ microsoft/wavlm-base-plus-sv ◆ 学習データ:
VoxCeleb1 • Bootstrap your own latent（BYOL）[Grill+, 2020] ◆ 歌唱者認識用の学習済みモデル [Torres+, 2023] ▪ EfficientNet B0 [Tan+, 2019] ベース ◆ 学習データ: 940 時間のクリーンな歌声（internal） ▪ ＋4 時間の分離後の歌声（internal?） • 音源分離: Demucs の htdemucs_ft モデル歌唱者表現の評価: 手法 15 S. Chen, et al. WavLM: Large-scale self-supervised pre-training for full stack speech processing. IEEE J. Sel. Top. Signal Process., 16(6), 2022. microsoft/wavlm-base-plus-sv. https://huggingface.co/microsoft/wavlm-base-plus-sv J.-B. Grill, et al. Bootstrap your own latent: A new approach to self-supervised learning. In Proc. NeurIPS 2020, 2020. B. Torres, et al. Singer identity representation learning using self-supervised techniques. In Proc. ISMIR 2023, 2023. M. Tan, et al. EfficientNet: Rethinking model scaling for convolutional neural networks. In Proc. ICML 2019, 2019. Demucs Music Source Separation. https://github.com/facebookresearch/demucs [A. Defossez, 2021][S. Rouard+, 2023] ´

/23 歌唱者表現の評価: t-SNE 16 伴奏音あり音源分離後ボーカルのみ WavLM x-vector BYOL F=0.36
F=0.43 F=0.30 F=0.30 KFs06 集まっている?

/23 • 歌声から「いつ誰が歌っているか」を認識するタスク ◆ 人数や歌唱者の事前情報なし＝人数まで含めて推定 • FruitsMusic 外の 272 楽曲から無作為に生成した 1360 楽曲分・101 時間の合成データセットを利用
◆ 同時歌唱部分はすべてユニゾン（同一旋律） ◆ FruitsMusic の有無による性能の差を比較 • Subset A を学習に、Subset B を評価に利用 • 評価指標: diarization error rate（DER） ◆ 誤り率（低い方が性能が高い） ◆ 定義上 100% を超えることがある歌唱者ダイアライゼーション 17

/23 1. SA-EEND with EDA [Fujita+, 2019][Horiguchi+, 2022] ◆ 人数まで含めて end-to-end で推定
2. pyannote.audio [Bredin+, 2020] ◆ 話者ダイアライゼーションでは SoTA（らしい） ◆ pyannote/speaker-diarization-3.1 を利用 ▪ 閾値など含めて fine-tuning ◆ 同時発声部分は 2 人による発声と推測 3. 当該アイドルの知識なく、歌声だけで解いた一般人 1 人 • モデルは最小 DER 規準で選択歌唱者ダイアライゼーション: 手法 18 Y. Fujita, et al. End-to-end neural speaker diarization with self-attention. In Proc. ASRU 2019, 2019. S. Horiguchi, et al. Encoder-decoder based attractors for end-to-end neural diarization. IEEE/ACM Trans. Audio, Speech, Language Process., 30, 2022. H. Bredin, et al. Pyannote.Audio: Neural building blocks for speaker diarization. In Proc. ICASSP 2020, 2020. pyannote/speaker-diarization-3.1. https://huggingface.co/pyannote/speaker-diarization-3.1

/23 • FruitsMusic を利用することで DER が減少 • EEND での歌唱者ダイアライゼーションは困難 • pyannote.audio は fine-tuning で性能が大きく向上 • 一般人が優秀歌唱者ダイアライゼーション:
DER 19 伴奏音あり音源分離後 SA-EEND＋EDA 合成データのみ 99.6% 97.9% ＋FruitsMusic 86.5% 82.7% pyannote.audio pretrained 82.8% 79.9% ＋合成データ 93.1% 72.6% ＋FruitsMusic 88.5% 57.3% Human 18.4% ——— これらの値は FruitsMusic version 1.1.1 にもとづきます。予稿での値（version 1.0.0 時点）とは異なります。

/23 • ダイアライゼーション結果における総歌唱者数 • EEND では歌唱者の区別が困難 • pyannote.audio は学習データにかなり過適合 • 一般人「全員歌唱のパートで人数を把握しやすい」歌唱者数推定
20 BD BI JY QD SL SA-EEND＋EDA 合成データのみ 1 1 2 1 2 ＋FruitsMusic 2 2 2 2 2 pyannote.audio pretrained 2 2 3 2 4 ＋合成データ 3 6 3 3 3 ＋FruitsMusic 7 7 7 6 7 Human 8 6 5 5 6 Ground truth 9 4 5 5 6 すべて音源分離後。楽曲 ID 末尾の m01 は省略

/23 • 音楽音響信号のみを入力として、音声認識器で歌詞認識 • 比較手法 1. Whisper [Radford+, 2023]: large（日本語）
2. Google Speech-to-Text: long（日本語） 3. 当該アイドルグループも楽曲も知らない一般人 1 人 • 人間は Subset B のみ、それ以外は 30 曲すべて認識 • 評価基準: 単語誤り率（word error rate; WER） ◆ MeCab with Unidic 2023.2 にもとづく ◆ 記号除く表層文字列で比較（表記揺れは誤り扱い） • 歌詞は事前に手動で正規化歌詞認識 21 A. Radford, et al. Robust speech recognition via large-scale weak supervision. In Proc. ICML 2023, 2023. Google Speech-to-Text. https://cloud.google.com/speech-to-text

/23 • Whisper は不安定 ◆ 性能は比較的高いが、まったく認識しない場合がある ◆ WER 100% は 4 曲（音源分離後） • Google はロバストだが認識漏れ（聞き飛ばし）が多い
• 一般人が比較的優秀歌詞認識: WER 22 伴奏音あり音源分離後 Whisper 39.3%（47.6%） 29.9%（42.2%） Whisper（WER100%除く） 39.3%（43.9%） 29.9%（33.3%） Google Speech-to-Text 42.7%（43.0%） 38.2%（38.3%） Human 20.4%（———） ——— Subset B のみ（括弧内 Subset A 含む）これらの値は FruitsMusic version 1.1.1 にもとづきます。予稿での値（version 1.0.0 時点）とは異なります。

/23 • YouTube 上のアイドルグループの MV に「いつ誰が何を歌唱しているか」のアノテーションを与えたコーパス「　 FruitsMusic　」を構築 • （生成 AI をのぞく）幅広い用途で利用可能 •
現代のアイドルグループ楽曲の特徴を反映 • 挑戦的な条件での基礎技術の性能を、人間を含めて評価今後の課題（夢） • 男性グループなど、ジャンルを拡大した拡張 • 著作権などの制約がない自由に利用可能なコーパス構築まとめ 23 onsei-discord #area-音楽音響に発表スライドがあります！質問・要望などは投稿へのスレッドでお気軽に！

FruitsMusic: 音楽情報処理のためのアイドルユニット楽曲コーパス

FruitsMusic: 音楽情報処理のためのアイドルユニット楽曲コーパス

Hitoshi Suda

Other Decks in Technology

Featured

Transcript

FruitsMusic: 音楽情報処理のためのアイドルユニット楽曲コーパス須田仁志、　中村友彦、　深山覚、　緒方淳産業技術総合研究所 2024.03.09　第 139 回音楽情報科学研究発表会

/23 • 近年の J-POP や K-POP では、アイドル/ダンスグループの存在感・重要性が顕著 ◆ e.g., 昨年の『輝く! 日本レコード大賞』では FRUITS ZIPPER が最優秀新人賞に

/23 • 少人数（〜10 人程度）の楽曲の特徴: 歌割り ◆ 歌唱区間によって歌唱する人を変化させる演出 • いつ誰が何を歌っているかが興味の対象の 1 つ ◆ FRUITS

/23 • 各認識技術には既に名前がある ◆ いつ誰が歌っているか: 歌唱者ダイアライゼーション ◆ 何を歌っているか: 歌詞認識 •

Corpus of Fully Real Popular Idol-group Songs from YouTube Videos

/23 https://huggingface.co/datasets/fruits-music/fruits-music • YouTube 上の自然楽曲のミュージックビデオにいつ誰が何を歌唱しているかのアノテーションを付与 • YouTube から収集することで再現可能性が高まる ◆ e.g., YouTube-8M

/23 • 創作的表現の鑑賞・享受目的での利用禁止 • いわゆる生成 AI 禁止（推論含む） ◆ 禁止例: 歌声合成、歌声変換、歌詞生成、楽音生成 ◆ 可能例:

/23 • 楽曲 ID（XXm00） • YouTube 上の ID • 動画の種類 • 歌唱者のリスト（XXs00） •

/23 • 女性アイドルグループのみ • 「歌唱区間」の定義の曖昧性 ◆ ブレス、ディレイやリバーブ → すべて除外 ◆

/23 • 歌詞が重複したアノテーションがある（e.g., DRm03） ◆ 歌詞認識の評価の際には手修正が必須 • フェイク（コーパス内では [fake] と表記）

/23 • FruitsMusic は Subset A と Subset B に分割されている ◆ それぞれ学習・評価の目的だが、自由に利用してよい • Subset

/23 • 各アイドルがソロパートを持つ ◆ 歌唱者ダイアライゼーションを考慮しているため • 正確なアノテーションのための情報が存在する ◆ 実際のライブ映像など、根拠になる情報があれば OK •

/23 • FruitsMusic は 7 人曲が多い（16/30 曲） • 同時歌唱区間のうち、全員歌唱でない割合は 40.5% ◆ 「同時歌唱なら全員」は通用しない会話音声との比較 13

/23 • 2 秒以上のソロ歌唱区間を抜き出し、歌唱者表現を抽出 • 歌唱者ごとのクラスタ形成が理想 ◆ ダイアライゼーション、歌唱者数推定などの目的 • アイドルグループ: KF

/23 • WavLM-based x-vector [Chen+, 2022] ◆ microsoft/wavlm-base-plus-sv ◆ 学習データ:

/23 歌唱者表現の評価: t-SNE 16 伴奏音あり音源分離後ボーカルのみ WavLM x-vector BYOL F=0.36

/23 • 歌声から「いつ誰が歌っているか」を認識するタスク ◆ 人数や歌唱者の事前情報なし＝人数まで含めて推定 • FruitsMusic 外の 272 楽曲から無作為に生成した 1360 楽曲分・101 時間の合成データセットを利用

/23 1. SA-EEND with EDA [Fujita+, 2019][Horiguchi+, 2022] ◆ 人数まで含めて end-to-end で推定

/23 • FruitsMusic を利用することで DER が減少 • EEND での歌唱者ダイアライゼーションは困難 • pyannote.audio は fine-tuning で性能が大きく向上 • 一般人が優秀歌唱者ダイアライゼーション:

/23 • ダイアライゼーション結果における総歌唱者数 • EEND では歌唱者の区別が困難 • pyannote.audio は学習データにかなり過適合 • 一般人「全員歌唱のパートで人数を把握しやすい」歌唱者数推定

/23 • 音楽音響信号のみを入力として、音声認識器で歌詞認識 • 比較手法 1. Whisper [Radford+, 2023]: large（日本語）

/23 • Whisper は不安定 ◆ 性能は比較的高いが、まったく認識しない場合がある ◆ WER 100% は 4 曲（音源分離後） • Google はロバストだが認識漏れ（聞き飛ばし）が多い

/23 • YouTube 上のアイドルグループの MV に「いつ誰が何を歌唱しているか」のアノテーションを与えたコーパス「　 FruitsMusic　」を構築 • （生成 AI をのぞく）幅広い用途で利用可能 •