Upgrade to Pro — share decks privately, control downloads, hide ads and more …

FruitsMusic: 音楽情報処理のためのアイドルユニット楽曲コーパス

FruitsMusic: 音楽情報処理のためのアイドルユニット楽曲コーパス

第 139 回音楽情報科学研究発表会での発表に用いたスライドです。

Avatar for Hitoshi Suda

Hitoshi Suda

March 09, 2024
Tweet

Other Decks in Technology

Transcript

  1. /23 • 近年の J-POP や K-POP では、 アイドル/ダンスグループの存在感・重要性が顕著 ◆ e.g., 昨年の『輝く! 日本レコード大賞』では FRUITS ZIPPER が最優秀新人賞に

    • 実用的な音楽情報処理のためには こうしたアイドルグループ楽曲の考慮が不可欠 ◆ 歌声声質検索、歌詞認識、基本周波数推定、etc. ◆ いずれも挑戦的な基礎的タスク • しかし、こうした楽曲のコーパスはほとんどない ◆ e.g., 恋の Ver.2.4(4 人)[Goto+, 2003] 研究背景 2 FRUITS ZIPPER は月足天音、鎮西寿々歌、櫻井優衣、仲川瑠夏、真中まな、松本かれん、早瀬ノエルの 7 人からなるアソビシステム株式会社の女性アイドルグループ。 輝く! 日本レコード大賞.https://www.tbs.co.jp/recordaward/ M. Goto, et al. RWC Music Database: Music genre database and musical instrument sound database. In Proc. ISMIR 2003, 2003.
  2. /23 • 少人数(〜10 人程度)の楽曲の特徴: 歌割り ◆ 歌唱区間によって歌唱する人を変化させる演出 • いつ誰が何を歌っているかが興味の対象の 1 つ ◆ FRUITS

    ZIPPER では X 上で公式提供 ◆ line distribution: ファン制作の可視化動画 ◆ ミュージックビデオ、ライブ映像のカメラ割りなど 制作においても必要不可欠 少人数アイドルグループ楽曲の特徴 3 A: 静かになった放課後 窓辺の席 B: 名前も知らない君をいつも見てたんだ C: このままだって後悔はしないと思うけれど A, C, E: ふとした時頭に浮かぶのは B, D, F: 君の居る景色ばかり FRUITS ZIPPER.わたしの一番かわいいところ.https://x.com/FRUITS_ZIPPER/status/1531261411476656129
  3. /23 • 各認識技術には既に名前がある ◆ いつ誰が歌っているか: 歌唱者ダイアライゼーション ◆ 何を歌っているか: 歌詞認識 •

    仮想的な非自然データセットは、学習にも評価にも不適 ◆ 自然楽曲と同じバランスでの合成は困難 ▪ そもそも自然楽曲と同じバランスにするには 自然楽曲のサンプリング・分析が必要 ◆ 学習において自然音声・楽曲を利用する有効性も 示唆されている [Fujita+, 2019][Suda+, 2022] 歌割り認識 4 Y. Fujita, et al. End-to-end neural speaker diarization with self-attention. In Proc. ASRU 2019, 2019. H. Suda, et al. Singer diarization for polyphonic music with unison singing. IEEE/ACM Trans. Audio, Speech, Language Process., 30, 2022. → 自然楽曲のコーパスを作ろう!
  4. Corpus of Fully Real Popular Idol-group Songs from YouTube Videos

    for Music Information Processing FruitsMusic
  5. /23 https://huggingface.co/datasets/fruits-music/fruits-music • YouTube 上の自然楽曲のミュージックビデオに いつ誰が何を歌唱しているかのアノテーションを付与 • YouTube から収集することで再現可能性が高まる ◆ e.g., YouTube-8M

    [Abu-El-Haija+, 2016] • コーパスには動画そのものは含まれず、ID のみ記載 ◆ YouTube-8M、YouTube-ASL [Uthus+, 2023] と同様 ◆ 配布物に含まれる著作物は歌詞のみ • 現在のバージョン: 1.1.1(論文執筆時 1.0.0) • 14 グループ、92 名、30 楽曲、122 分 FruitsMusic 6 S. Abu-El-Haija, et al. YouTube-8M: A large-scale video classification benchmark. arXiv: 1609.08675, 2016. D. Uthus, et al. YouTube-ASL: A large-scale, open-domain American sign language-English parallel corpus. In Proc. NeurIPS 2023 Track on Datasets and Benchmarks, 2023.
  6. /23 • 創作的表現の鑑賞・享受目的での利用禁止 • いわゆる生成 AI 禁止(推論含む) ◆ 禁止例: 歌声合成、歌声変換、歌詞生成、楽音生成 ◆ 可能例:

    歌詞認識、歌唱者表現抽出、歌詞の自然性評価 • 現実のアイドル・アイドルグループとの対応付け禁止 ◆ 発表などでは、コーパス内の ID で表記してください ◆ 曲名も、議論に不要であれば ID で表記してください • 本コーパスを用いて学習された認識モデルなどにも この 3 事項を要継承 • 詳細はコーパス内のライセンス文をお読みください FruitsMusic 利用規約 7
  7. /23 • 楽曲 ID(XXm00) • YouTube 上の ID • 動画の種類 • 歌唱者のリスト(XXs00) •

    楽曲名 • 楽曲の開始時刻、長さ • 歌唱状態のリスト ◆ 開始時刻、終了時刻 ◆ 歌唱者リスト ◆ 本来の歌詞、実際の歌詞 FruitsMusic に含まれるデータ 8 { "id": "SYm01", "youtubeId": "YouTubeID", "type": "music_video", "singerIds": ["SYs01", "SYs02", "SYs04", "SYs05", "SYs06"], "title": "Title", "songStartsAt": 0, "duration": 216128, "states": [ { "start": 1869, "end": 17335, "singers": [0, 1, 2, 3, 4], "lyrics": "Lyrics 1", "realLyrics": null }, { "start": 22543, "end": 26930, "singers": [1], "lyrics": "Lyrics 2", "realLyrics": null } ] } SPEAKER SYm01 1 1.869 15.466 <NA> <NA> SYs01 <NA> <NA> SPEAKER SYm01 1 1.869 15.466 <NA> <NA> SYs02 <NA> <NA> SPEAKER SYm01 1 1.869 15.466 <NA> <NA> SYs04 <NA> <NA> SPEAKER SYm01 1 1.869 15.466 <NA> <NA> SYs05 <NA> <NA> SPEAKER SYm01 1 1.869 15.466 <NA> <NA> SYs06 <NA> <NA> SPEAKER SYm01 1 22.543 4.387 <NA> <NA> SYs02 <NA> <NA> SPEAKER SYm01 1 33.896 3.858 <NA> <NA> SYs01 <NA> <NA> 【JSON 形式】 【RTTM 形式】
  8. /23 • 女性アイドルグループのみ • 「歌唱区間」の定義の曖昧性 ◆ ブレス、ディレイやリバーブ → すべて除外 ◆

    演出上の声素材(コーラス、ハモり、コールなど) → コールは考慮、それ以外の素材は基本的に除外 • 同じ歌唱者が同時に歌っている場合がある ◆ DER など、評価指標計算時には注意が必要 • 音量が動画によって異なるので正規化を推奨 • コーパス内の動画からの歌割り推定は一般人には困難 ◆ アノテータは特殊な訓練を積んでいるので内容は正確 FruitsMusic 利用時の注意点 9
  9. /23 • 歌詞が重複したアノテーションがある(e.g., DRm03) ◆ 歌詞認識の評価の際には手修正が必須 • フェイク(コーパス内では [fake] と表記)

    • 言語モデル的にかなり困難 & 評価時に考慮が必要 ◆ 固有名詞や造語(アイドルグループ名、楽曲名など) ▪ 歌詞は鑑賞・生成目的には使われないため、 アイドルグループ名は redaction していない ◆ 新語(スクショ、エゴサ、すきぴ、リピる、メン死) ◆ 推定困難な綴り(最前・最後、ヒーロー、社会) ◆ そのままの外国語(Je t’ aime、ࢎی೧、我愛你) 歌詞の利用上の注意点 10 さいぜん さいこう だ れ か しゃば
  10. /23 • FruitsMusic は Subset A と Subset B に分割されている ◆ それぞれ学習・評価の目的だが、自由に利用してよい • Subset

    A: 25 曲 / Subset B: 5 曲 • どちらのサブセットも、歌唱者数は 4 以上 9 以下 • Subset B の特徴 ◆ Subset A と歌唱者の被りがない(open-singer) ◆ 1 アイドルグループあたり 1 曲のみ ◆ Subset A と傾向が違う歌割り・ジャンルを含む ◆ 比較的あまり有名でない(人的な評価が容易) サブセット 11
  11. /23 • 各アイドルがソロパートを持つ ◆ 歌唱者ダイアライゼーションを考慮しているため • 正確なアノテーションのための情報が存在する ◆ 実際のライブ映像など、根拠になる情報があれば OK •

    ジャンルが多様(かわいい系ポップスに限らない) • 再生数、グループの人気などは無視 • 2022 年以降に発表されたもの • ライブ映像は不可 • 同一アイドルが複数のグループに存在しない ◆ 現実では兼任、卒業、グループ解散などがある 楽曲選定の条件 12
  12. /23 • FruitsMusic は 7 人曲が多い(16/30 曲) • 同時歌唱区間のうち、全員歌唱でない割合は 40.5% ◆ 「同時歌唱なら全員」は通用しない 会話音声との比較 13

    CHiME-5 (会話音声データセット) FruitsMusic 平均音声長 9031 s 243 s 話者・歌唱者数 4 4〜9(平均 6.4) セグメント平均長 2.11 s 4.82 s 話者あたり単独発声平均合計長 1159.6 s 16.2 s 非発声区間 22.3% 23.3% 単独発声区間 51.4% 42.7% 同時発声区間 26.4% 34.0% これらの値は FruitsMusic version 1.1.1 にもとづきます。予稿での値(version 1.0.0 時点)とは異なります。 J. Barker, et al. The fifth ‘CHiME’speech separation and recognition challenge: Dataset, task, and baselines. In Proc. INTERSPEECH 2018, 2018.
  13. /23 • 2 秒以上のソロ歌唱区間を抜き出し、歌唱者表現を抽出 • 歌唱者ごとのクラスタ形成が理想 ◆ ダイアライゼーション、歌唱者数推定などの目的 • アイドルグループ: KF

    ◆ 7 曲・7 名、各歌唱者平均 20 区間合計 88 秒 ◆ (主観的な聴感上)わりと声の区別が付くメンバー • クラスタリング性能評価: F 値(高いと高性能) ◆ Purity と inverse purity の調和平均 [Hotho+, 2005] ◆ k-means で 7 クラスに分類後計算 • 「伴奏音あり」と「音源分離後ボーカルのみ」で比較 歌唱者表現の評価 14 A. Hotho, et al. A brief survey of text mining. Journal for Language Technology and Computational Linguistics, 20(1), 2005.
  14. /23 • WavLM-based x-vector [Chen+, 2022] ◆ microsoft/wavlm-base-plus-sv ◆ 学習データ:

    VoxCeleb1 • Bootstrap your own latent(BYOL)[Grill+, 2020] ◆ 歌唱者認識用の学習済みモデル [Torres+, 2023] ▪ EfficientNet B0 [Tan+, 2019] ベース ◆ 学習データ: 940 時間のクリーンな歌声(internal) ▪ +4 時間の分離後の歌声(internal?) • 音源分離: Demucs の htdemucs_ft モデル 歌唱者表現の評価: 手法 15 S. Chen, et al. WavLM: Large-scale self-supervised pre-training for full stack speech processing. IEEE J. Sel. Top. Signal Process., 16(6), 2022. microsoft/wavlm-base-plus-sv. https://huggingface.co/microsoft/wavlm-base-plus-sv J.-B. Grill, et al. Bootstrap your own latent: A new approach to self-supervised learning. In Proc. NeurIPS 2020, 2020. B. Torres, et al. Singer identity representation learning using self-supervised techniques. In Proc. ISMIR 2023, 2023. M. Tan, et al. EfficientNet: Rethinking model scaling for convolutional neural networks. In Proc. ICML 2019, 2019. Demucs Music Source Separation. https://github.com/facebookresearch/demucs [A. Defossez, 2021][S. Rouard+, 2023] ´
  15. /23 • 歌声から「いつ誰が歌っているか」を認識するタスク ◆ 人数や歌唱者の事前情報なし = 人数まで含めて推定 • FruitsMusic 外の 272 楽曲から無作為に生成した 1360 楽曲分・101 時間の合成データセットを利用

    ◆ 同時歌唱部分はすべてユニゾン(同一旋律) ◆ FruitsMusic の有無による性能の差を比較 • Subset A を学習に、Subset B を評価に利用 • 評価指標: diarization error rate(DER) ◆ 誤り率(低い方が性能が高い) ◆ 定義上 100% を超えることがある 歌唱者ダイアライゼーション 17
  16. /23 1. SA-EEND with EDA [Fujita+, 2019][Horiguchi+, 2022] ◆ 人数まで含めて end-to-end で推定

    2. pyannote.audio [Bredin+, 2020] ◆ 話者ダイアライゼーションでは SoTA(らしい) ◆ pyannote/speaker-diarization-3.1 を利用 ▪ 閾値など含めて fine-tuning ◆ 同時発声部分は 2 人による発声と推測 3. 当該アイドルの知識なく、歌声だけで解いた一般人 1 人 • モデルは最小 DER 規準で選択 歌唱者ダイアライゼーション: 手法 18 Y. Fujita, et al. End-to-end neural speaker diarization with self-attention. In Proc. ASRU 2019, 2019. S. Horiguchi, et al. Encoder-decoder based attractors for end-to-end neural diarization. IEEE/ACM Trans. Audio, Speech, Language Process., 30, 2022. H. Bredin, et al. Pyannote.Audio: Neural building blocks for speaker diarization. In Proc. ICASSP 2020, 2020. pyannote/speaker-diarization-3.1. https://huggingface.co/pyannote/speaker-diarization-3.1
  17. /23 • FruitsMusic を利用することで DER が減少 • EEND での歌唱者ダイアライゼーションは困難 • pyannote.audio は fine-tuning で性能が大きく向上 • 一般人が優秀 歌唱者ダイアライゼーション:

    DER 19 伴奏音あり 音源分離後 SA-EEND+EDA 合成データのみ 99.6% 97.9% +FruitsMusic 86.5% 82.7% pyannote.audio pretrained 82.8% 79.9% +合成データ 93.1% 72.6% +FruitsMusic 88.5% 57.3% Human 18.4% ——— これらの値は FruitsMusic version 1.1.1 にもとづきます。予稿での値(version 1.0.0 時点)とは異なります。
  18. /23 • ダイアライゼーション結果における総歌唱者数 • EEND では歌唱者の区別が困難 • pyannote.audio は学習データにかなり過適合 • 一般人「全員歌唱のパートで人数を把握しやすい」 歌唱者数推定

    20 BD BI JY QD SL SA-EEND+EDA 合成データのみ 1 1 2 1 2 +FruitsMusic 2 2 2 2 2 pyannote.audio pretrained 2 2 3 2 4 +合成データ 3 6 3 3 3 +FruitsMusic 7 7 7 6 7 Human 8 6 5 5 6 Ground truth 9 4 5 5 6 すべて音源分離後。楽曲 ID 末尾の m01 は省略
  19. /23 • 音楽音響信号のみを入力として、音声認識器で歌詞認識 • 比較手法 1. Whisper [Radford+, 2023]: large(日本語)

    2. Google Speech-to-Text: long(日本語) 3. 当該アイドルグループも楽曲も知らない一般人 1 人 • 人間は Subset B のみ、それ以外は 30 曲すべて認識 • 評価基準: 単語誤り率(word error rate; WER) ◆ MeCab with Unidic 2023.2 にもとづく ◆ 記号除く表層文字列で比較(表記揺れは誤り扱い) • 歌詞は事前に手動で正規化 歌詞認識 21 A. Radford, et al. Robust speech recognition via large-scale weak supervision. In Proc. ICML 2023, 2023. Google Speech-to-Text. https://cloud.google.com/speech-to-text
  20. /23 • Whisper は不安定 ◆ 性能は比較的高いが、まったく認識しない場合がある ◆ WER 100% は 4 曲(音源分離後) • Google はロバストだが認識漏れ(聞き飛ばし)が多い

    • 一般人が比較的優秀 歌詞認識: WER 22 伴奏音あり 音源分離後 Whisper 39.3%(47.6%) 29.9%(42.2%) Whisper(WER100%除く) 39.3%(43.9%) 29.9%(33.3%) Google Speech-to-Text 42.7%(43.0%) 38.2%(38.3%) Human 20.4%(———) ——— Subset B のみ(括弧内 Subset A 含む) これらの値は FruitsMusic version 1.1.1 にもとづきます。予稿での値(version 1.0.0 時点)とは異なります。
  21. /23 • YouTube 上のアイドルグループの MV に 「いつ誰が何を歌唱しているか」のアノテーションを 与えたコーパス「  FruitsMusic  」を構築 • (生成 AI をのぞく)幅広い用途で利用可能 •

    現代のアイドルグループ楽曲の特徴を反映 • 挑戦的な条件での基礎技術の性能を、人間を含めて評価 今後の課題(夢) • 男性グループなど、ジャンルを拡大した拡張 • 著作権などの制約がない自由に利用可能なコーパス構築 まとめ 23 onsei-discord #area-音楽音響 に発表スライドがあります! 質問・要望などは投稿へのスレッドでお気軽に!