Upgrade to Pro — share decks privately, control downloads, hide ads and more …

汎用音響信号表現の発展について@TokyoBISHBash#07

 汎用音響信号表現の発展について@TokyoBISHBash#07

大規模データセットを深層学習モデルで事前学習して得られる表現は、他のタスクに転移学習することで性能向上などに役立つことが期待される。音のタスクに対して、特に汎用的に幅広いタスクで役立つ表現の学習を目的として、「汎用音響信号表現」が近年提案されている。音声認識とは異なる発展の様子について、マルチモダリティの利用も含めた事前学習手法、評価ベンチマークなど、主な手法を中心に紹介する。

daisukelab cs

July 05, 2022
Tweet

Other Decks in Research

Transcript

  1. Copyright 2022 NTT CORPORATION
    汎⽤⾳響信号表現の発展について
    2022/7/6
    NTTコミュニケーション科学基礎研究所
    メディア情報研究部
    仁泉 ⼤輔

    View Slide

  2. 2
    Copyright 2022 NTT CORPORATION
    発表者略歴
    • 所属: NTTコミュニケーション科学基礎研究所
    メディア情報研究部 メディア認識研究グループ
    • ⽒名: 仁泉 ⼤輔 (にいずみ だいすけ)
    • 製造業において電⼦楽器や家電製品等のソフトウェア開発に携わる経験を経て、
    2020年から現職にて⾳の説明⽂⽣成や汎⽤⾳響信号の表現学習など、深層学
    習を⽤いた⾳響信号の研究に従事。
    製品(ソフトウェア)開発約20年
    @九州⼯業⼤学
    ・ファジィ
    ・ニューロ
    ・深層学習
    ・⾳響信号
    学⽣時代 現在
    研究キャリアは
    3年程度

    View Slide

  3. 3
    Copyright 2022 NTT CORPORATION
    そもそも表現とは?
    • ⽣データから機械学習による抽出で得られた「特徴量」が「表現」と呼ばれ
    ると考えられる。
    “特徴量(英: feature)はデータを変形して得られ、その特徴を表現し、続く処理に利⽤さ
    れる数値である。表現(英: representation)とも。
    〜中略〜
    特徴量はデータを変換することで⽣成される。この変換を特徴抽出
    (英: feature extraction)という。専⾨家の知⾒を⽤いた⼈⼿による変換規則の探求は
    特徴量エンジニアリングと呼ばれ、機械学習による場合は表現学習と呼ばれる。”
    --- Wikipedia “特徴量” より
    事前学習した深層学習モデルに、⾳響信号を⼊⼒して
    得られる特徴量のベクトルとイメージしてください。

    View Slide

  4. 4
    Copyright 2022 NTT CORPORATION
    汎⽤⾳響信号表現とは?
    • 幅広いタスクで汎⽤的に有効な⾳響信号の表現
    • 様々な⾳のタスクに応⽤する特徴量としての役割を期待するもの。
    • これまでの⼿法は深層学習モデルを⽤いて表現を学習している。
    ※エンコーダーのみ、または学習系を含む⼿法のシステム全体を表現と呼ぶこともある。
    ※明確に定義した⽂献はまだ存在しない様⼦。
    “General-purpose Audio Representation” =「汎⽤⾳響信号表現」
    ≈汎⽤的に有効な特徴量表現 ※発表者が対応させた⽇本語
    応⽤を問わず、⾳に対して汎⽤的に使える学習済みモデルを
    求めたのが汎⽤⾳響信号表現であり、⾔語や画像のBERT, GPT-3,
    CLIPのようなインパクトを⽬指している(と考えられる)。

    View Slide

  5. 5
    Copyright 2022 NTT CORPORATION
    汎⽤⾳響信号表現: 研究の枠組み
    事前学習⽤
    ⾳響信号
    ⼊⼒
    表現学習
    (教師あり,
    ⾃⼰教師あり)
    特徴抽出器
    (エンコーダ)
    ⼤規模データ
    セット
    事前学習 応⽤
    下流タスク
    ⾳響信号
    ⼊⼒
    汎⽤
    ⾳響信号
    表現
    (Vector)
    事前学習済み
    特徴抽出器
    (エンコーダ)
    下流タスク
    機械学習
    システム
    環境⾳分類
    ⾳響イベント認識
    ⽣態系モニタリング
    ⾳の説明⽂⽣成
    肺の⾳の分類
    ⼼⾳の分類
    :
    ⾳声感情認識
    発話コマンド分類
    話者識別
    発話⾔語識別
    楽器種別分類
    ⾳⾼分類
    :
    様々な
    下流タスク
    事前学習により得られた表現を、様々な応⽤タスクの性能で評価。

    View Slide

  6. 6
    Copyright 2022 NTT CORPORATION
    汎⽤⾳響信号表現: これまでの経緯
    • 初出は2019年の論⽂と考えられる。(発表者調べ)
    • ⾃⼰教師あり学習による⼿法の提案が2021年以降増加。
    (明⽰的な汎⽤⾳響信号表現)
    • 教師あり学習⼿法も暗黙の(汎⽤)⾳響信号表現と考えられ、数多く提案。
    • 他のモダリティを活⽤した⾃⼰教師あり学習⼿法も提案されており、
    これらも暗黙の(汎⽤)⾳響信号表現と考えられる。
    Tagliasacchi, Marco, et al. "Self-supervised audio representation learning for mobile devices." arXiv preprint
    arXiv:1905.11796 (2019). :

    View Slide

  7. 7
    Copyright 2022 NTT CORPORATION
    教師あり学習による⼿法
    〜画像分野のImageNet学習済みモデルと似た発展

    View Slide

  8. 8
    Copyright 2022 NTT CORPORATION
    教師あり学習〜暗黙の汎⽤表現学習
    • ⼤規模データセットによるラベルを利⽤した教師あり学習。
    • VGGish (2017): VGGをベースにしたモデルでYouTube-8Mを学習。
    • PANNs (2020): 多数の専⽤CNNを⽤いてAudioSet(2M)を学習。
    • AST (2021): ViTベースのモデルでImageNet事前学習を初期値に
    AudioSetを学習。
    • 評価タスクが限られる。(明⽰的な汎⽤⼿法ではない)
    • VGGishはイベント認識タスク、ASTはESC-50 (シーン分類), Speech
    commands(発話コマンド分類)で評価。
    • PANNsは多数で評価: AudioSet, ESC-50 (シーン分類), DCASE2019 task1
    (シーン分類), DCASE 2018 task2 (タグ付け), MSoS, GTZAN (⾳楽ジャンル),
    RAVDESS (感情認識)。
    • 実際の応⽤研究における利⽤例が⾒られる。
    [VGGish] Hershey, Shawn, et al. "CNN architectures for large-scale audio classification." 2017 ieee international conference on
    acoustics, speech and signal processing (icassp). IEEE, 2017.
    [PANNs] Kong, Qiuqiang, et al. ”PANNs: Large-scale pretrained audio neural networks for audio pattern recognition." IEEE/ACM
    Transactions on Audio, Speech, and Language Processing 28 (2020): 2880-2894.
    [AST] Gong, Yuan, Yu-An Chung, and James Glass. "AST: Audio spectrogram transformer." arXiv preprint arXiv:2104.01778 (2021).
    AST Figure 1より引⽤
    PANNsより引⽤

    View Slide

  9. 9
    Copyright 2022 NTT CORPORATION
    教師あり学習〜応⽤例
    • 特にVGGishの利⽤例が散⾒される。
    • しかし汎⽤的な性能が確認された上
    での応⽤ではない。
    AudioCaps: Generating Captions for Audios in The Wild (Kim et al., NAACL 2019)
    L. Shi, K. Du, C. Zhang, H. Ma and W. Yan, "Lung Sound Recognition Algorithm Based on VGGish-BiGRU,"
    in IEEE Access, vol. 7, pp. 139438-139449, 2019, doi: 10.1109/ACCESS.2019.2943492.
    ⾳の説明⽂⽣成
    への応⽤例
    肺の⾳の分類
    への応⽤例

    View Slide

  10. 10
    Copyright 2022 NTT CORPORATION
    教師あり学習〜汎⽤性能について
    • 教師あり学習モデルの汎⽤性能は⼗分か?
    • ⼀般に利⽤される最終層付近では No。
    • 層ごとに役⽴つタスクが異なる様⼦。
    - 仁泉+, “事前学習モデルの複数層特徴量の融合を⽤いた汎⽤⾳響信号表現", 信学技報 (EA2022-9) (2022).
    - Niizumi, Daisuke et al. “Composing General Audio Representation by Fusing Multilayer Features of a Pre-trained Model.”
    ArXiv abs/2205.08138 (2022) & EUSIPCO2022.
    そのまま盲⽬的な活⽤では
    性能が出ない可能性がある
    (タスクに性能が強く依存)

    View Slide

  11. 11
    Copyright 2022 NTT CORPORATION
    マルチモダリティを利⽤した⼿法
    〜マルチモーダルな⾃⼰教師あり学習

    View Slide

  12. 12
    Copyright 2022 NTT CORPORATION
    マルチモダリティ⼊⼒⾃⼰教師あり学習
    • OpenL3: ⾳と画像の対応関係を利⽤
    • 評価: US8K, ESC-50, DCASE2013
    (シーン分類)
    • Wang et al.: Raw, Spectrogram,
    画像の対応関係を利⽤
    • 汎⽤⾳響信号表現として提案
    • 評価: 多数のタスク
    • COALA: ⾳とラベルの対応関係を
    マルチモダリティとして利⽤
    • 評価: US8K, GTZAN,
    NSynth [OpenL3] Cramer, Jason, et al. "Look, listen, and learn more:
    Design choices for deep audio embeddings." ICASSP 2019-2019
    IEEE International Conference on Acoustics, Speech and Signal
    Processing (ICASSP). IEEE, 2019.
    [Wang et al.] Wang, Luyu, et al. "Multimodal self-supervised learning
    of general audio representations." arXiv preprint arXiv:2104.12807 (2021).
    [COALA] Favory, Xavier, et al. "Coala: Co-aligned autoencoders for
    learning semantically enriched audio representations." arXiv preprint
    arXiv:2006.08386 (2020).

    View Slide

  13. 13
    Copyright 2022 NTT CORPORATION
    マルチモダリティによる学習〜汎⽤性能
    • 教師あり学習と⽐べると汎⽤的に性能が⾼い。
    Niizumi, Daisuke, et al. "BYOL for Audio: Exploring Pre-trained General-purpose Audio Representations."
    arXiv preprint arXiv:2204.07402 (2022).

    View Slide

  14. 14
    Copyright 2022 NTT CORPORATION
    明⽰的な汎⽤⾳響信号表現⼿法
    〜⾳響信号のみを⾃⼰教師あり学習

    View Slide

  15. 15
    Copyright 2022 NTT CORPORATION
    汎⽤⾳響信号表現: ~2022/6の⼿法⼀覧
    [1] 2019/05 Self-supervised audio representation learning for mobile devices, Pre-Training Audio Representations with Self-Supervision
    [2] 2020/10 COLA Contrastive Learning of General-Purpose Audio Representations (ICASSP2021)
    [3] 2021/03 ※ BYOL for Audio: Self-Supervised Learning for General-Purpose Audio Representation (IJCNN2021)
    [4] 2021/04 Multimodal Self-Supervised Learning of General Audio Representations
    [5] 2021/09 BigSSL: Exploring the Frontier of Large-Scale Semi-Supervised Learning for Automatic Speech Recognition (≈ GPAR)
    [6] 2021/10 SSAST: Self-Supervised Audio Spectrogram Transformer (≈ GPAR)
    [7] 2021/10 Conformer-Based Self-Supervised Learning For Non-Speech Audio Tasks (ICASSP2022)
    [8] 2021/10 DECAR: Deep Clustering for learning general-purpose Audio Representations
    [9] 2021/11 Towards Learning Universal Audio Representations (ICASSP2022)
    [10] 2022/03 DeLoRes: Decorrelating Latent Spaces for Low-Resource Audio Representation Learning
    [11] 2022/03 MAE-AST: Masked Autoencoding Audio Spectrogram Transformer (≈ GPAR)
    [12] 2022/04 ※ Masked Spectrogram Modeling using Masked Autoencoders for Learning General-purpose Audio Representation
    [13] 2022/04 Masked Spectrogram Prediction For Self-Supervised Audio Pre-Training (≈ GPAR)
    [14] 2022/04 ATST: Audio Representation Learning with Teacher-Student Transformer
    [15] 2022/05 Self-Supervised Learning Method Using Multiple Sampling Strategies for General-Purpose Audio Representation (ICASSP2022)
    [16] 2022/05 ※ Composing General Audio Representation by Fusing Multilayer Features of a Pre-trained Model (EUSIPCO2022)
    [17] 2022/06 BYOL-S: Learning Self-supervised Speech Representations by Bootstrapping
    2021年後半から増加傾向。
    研究者は多くない様⼦。
    ※=発表者の提案。
    2021
    2022

    View Slide

  16. 16
    Copyright 2022 NTT CORPORATION
    汎⽤⾳響信号表現: ~2022/6の⼿法⼀覧
    [1] 2019/05 Self-supervised audio representation learning for mobile devices, Pre-Training Audio Representations with Self-Supervision
    [2] 2020/10 COLA Contrastive Learning of General-Purpose Audio Representations (ICASSP2021)
    [3] 2021/03 ※ BYOL for Audio: Self-Supervised Learning for General-Purpose Audio Representation (IJCNN2021)
    [4] 2021/04 Multimodal Self-Supervised Learning of General Audio Representations
    [5] 2021/09 BigSSL: Exploring the Frontier of Large-Scale Semi-Supervised Learning for Automatic Speech Recognition (≈ GPAR)
    [6] 2021/10 SSAST: Self-Supervised Audio Spectrogram Transformer (≈ GPAR)
    [7] 2021/10 Conformer-Based Self-Supervised Learning For Non-Speech Audio Tasks (ICASSP2022)
    [8] 2021/10 DECAR: Deep Clustering for learning general-purpose Audio Representations
    [9] 2021/11 Towards Learning Universal Audio Representations (ICASSP2022)
    [10] 2022/03 DeLoRes: Decorrelating Latent Spaces for Low-Resource Audio Representation Learning
    [11] 2022/03 MAE-AST: Masked Autoencoding Audio Spectrogram Transformer (≈ GPAR)
    [12] 2022/04 ※ Masked Spectrogram Modeling using Masked Autoencoders for Learning General-purpose Audio Representation
    [13] 2022/04 Masked Spectrogram Prediction For Self-Supervised Audio Pre-Training (≈ GPAR)
    [14] 2022/04 ATST: Audio Representation Learning with Teacher-Student Transformer
    [15] 2022/05 Self-Supervised Learning Method Using Multiple Sampling Strategies for General-Purpose Audio Representation (ICASSP2022)
    [16] 2022/05 ※ Composing General Audio Representation by Fusing Multilayer Features of a Pre-trained Model (EUSIPCO2022)
    [17] 2022/06 BYOL-S: Learning Self-supervised Speech Representations by Bootstrapping
    2021
    2022

    View Slide

  17. 17
    Copyright 2022 NTT CORPORATION
    COLA: 対照学習による⼿法
    • ⾳声の時系列性を利⽤した対照学習(Contrastive learning)。
    • 切り出し位置が近いペアを近づけ、遠い位置のペアを遠ざける。
    • 実際は同じクリップ・違うクリップ切り出しの関係性を利⽤。
    • データ拡張を利⽤しない。
    • ⾃⼰教師あり学習を使った表現の
    有効性を⽰した。
    • 画像分野での対照学習の影響。
    (SimCLR, MoCo等)
    [2] Saeed, Aaqib, David Grangier, and Neil Zeghidour. "Contrastive learning of general-purpose audio representations.”
    ICASSP 2021-2021 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2021.
    近づける・遠ざける
    = 表現の類似度でのロス

    View Slide

  18. 18
    Copyright 2022 NTT CORPORATION
    汎⽤⾳響信号表現: ~2022/6の⼿法⼀覧
    [1] 2019/05 Self-supervised audio representation learning for mobile devices, Pre-Training Audio Representations with Self-Supervision
    [2] 2020/10 COLA Contrastive Learning of General-Purpose Audio Representations (ICASSP2021)
    [3] 2021/03 ※ BYOL for Audio: Self-Supervised Learning for General-Purpose Audio Representation (IJCNN2021)
    [4] 2021/04 Multimodal Self-Supervised Learning of General Audio Representations
    [5] 2021/09 BigSSL: Exploring the Frontier of Large-Scale Semi-Supervised Learning for Automatic Speech Recognition (≈ GPAR)
    [6] 2021/10 SSAST: Self-Supervised Audio Spectrogram Transformer (≈ GPAR)
    [7] 2021/10 Conformer-Based Self-Supervised Learning For Non-Speech Audio Tasks (ICASSP2022)
    [8] 2021/10 DECAR: Deep Clustering for learning general-purpose Audio Representations
    [9] 2021/11 Towards Learning Universal Audio Representations (ICASSP2022)
    [10] 2022/03 DeLoRes: Decorrelating Latent Spaces for Low-Resource Audio Representation Learning
    [11] 2022/03 MAE-AST: Masked Autoencoding Audio Spectrogram Transformer (≈ GPAR)
    [12] 2022/04 ※ Masked Spectrogram Modeling using Masked Autoencoders for Learning General-purpose Audio Representation
    [13] 2022/04 Masked Spectrogram Prediction For Self-Supervised Audio Pre-Training (≈ GPAR)
    [14] 2022/04 ATST: Audio Representation Learning with Teacher-Student Transformer
    [15] 2022/05 Self-Supervised Learning Method Using Multiple Sampling Strategies for General-Purpose Audio Representation (ICASSP2022)
    [16] 2022/05 ※ Composing General Audio Representation by Fusing Multilayer Features of a Pre-trained Model (EUSIPCO2022)
    [17] 2022/06 BYOL-S: Learning Self-supervised Speech Representations by Bootstrapping
    2021
    2022

    View Slide

  19. 19
    Copyright 2022 NTT CORPORATION
    BYOL-A: BYOLを利⽤した⼿法
    [3] Niizumi, Daisuke, et al. "BYOL for audio: Self-supervised learning for general-purpose audio representation."
    2021 International Joint Conference on Neural Networks (IJCNN). IEEE, 2021.
    • 対照学習と同時期に提案されたBYOL (Bootstrap Your Own Latent)を利⽤。
    • 時系列性を使わない「切り出し位置が近いペアを近づけ、遠い位置のペアを遠ざける」
    • データ拡張に不変な表現の学習。
    • 性能の向上を果たした。
    • 画像分野の⾃⼰教師あり学習の影響。
    (BYOL, SimCLR, MoCo等)

    View Slide

  20. 20
    Copyright 2022 NTT CORPORATION
    汎⽤⾳響信号表現: ~2022/6の⼿法⼀覧
    [1] 2019/05 Self-supervised audio representation learning for mobile devices, Pre-Training Audio Representations with Self-Supervision
    [2] 2020/10 COLA Contrastive Learning of General-Purpose Audio Representations (ICASSP2021)
    [3] 2021/03 ※ BYOL for Audio: Self-Supervised Learning for General-Purpose Audio Representation (IJCNN2021)
    [4] 2021/04 Multimodal Self-Supervised Learning of General Audio Representations
    [5] 2021/09 BigSSL: Exploring the Frontier of Large-Scale Semi-Supervised Learning for Automatic Speech Recognition (≈ GPAR)
    [6] 2021/10 SSAST: Self-Supervised Audio Spectrogram Transformer (≈ GPAR)
    [7] 2021/10 Conformer-Based Self-Supervised Learning For Non-Speech Audio Tasks (ICASSP2022)
    [8] 2021/10 DECAR: Deep Clustering for learning general-purpose Audio Representations
    [9] 2021/11 Towards Learning Universal Audio Representations (ICASSP2022)
    [10] 2022/03 DeLoRes: Decorrelating Latent Spaces for Low-Resource Audio Representation Learning
    [11] 2022/03 MAE-AST: Masked Autoencoding Audio Spectrogram Transformer (≈ GPAR)
    [12] 2022/04 ※ Masked Spectrogram Modeling using Masked Autoencoders for Learning General-purpose Audio Representation
    [13] 2022/04 Masked Spectrogram Prediction For Self-Supervised Audio Pre-Training (≈ GPAR)
    [14] 2022/04 ATST: Audio Representation Learning with Teacher-Student Transformer
    [15] 2022/05 Self-Supervised Learning Method Using Multiple Sampling Strategies for General-Purpose Audio Representation (ICASSP2022)
    [16] 2022/05 ※ Composing General Audio Representation by Fusing Multilayer Features of a Pre-trained Model (EUSIPCO2022)
    [17] 2022/06 BYOL-S: Learning Self-supervised Speech Representations by Bootstrapping
    2021
    2022

    View Slide

  21. 21
    Copyright 2022 NTT CORPORATION
    ASRのSOTA⼿法を活⽤した研究
    • ⾳声認識(ASR)のモデル(Conformer)・学習⼿法(wav2vec2)を利⽤してGoogle, Metaが同時期に提案。
    • ⼤規模モデル・⼤量データ
    • Google: データ YouTube 350k時間~
    モデルパラメータ 600M~8B
    • Meta: データ Facebook video 67k時間~
    モデルパラメータ 16M~88M
    • 規模に期待される性能向上ではない様⼦。
    [5] Zhang, Yu, et al. "BigSSL: Exploring the frontier of large-scale semi-supervised learning for automatic speech recognition.”
    IEEE Journal of Selected Topics in Signal Processing (2022).
    [7] Srivastava, Sangeeta, et al. "Conformer-Based Self-Supervised Learning for Non-Speech Audio Tasks."
    ICASSP 2022-2022 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2022.
    [7]より引⽤
    [5]より引⽤

    View Slide

  22. 22
    Copyright 2022 NTT CORPORATION
    汎⽤⾳響信号表現: ~2022/6の⼿法⼀覧
    [1] 2019/05 Self-supervised audio representation learning for mobile devices, Pre-Training Audio Representations with Self-Supervision
    [2] 2020/10 COLA Contrastive Learning of General-Purpose Audio Representations (ICASSP2021)
    [3] 2021/03 ※ BYOL for Audio: Self-Supervised Learning for General-Purpose Audio Representation (IJCNN2021)
    [4] 2021/04 Multimodal Self-Supervised Learning of General Audio Representations
    [5] 2021/09 BigSSL: Exploring the Frontier of Large-Scale Semi-Supervised Learning for Automatic Speech Recognition (≈ GPAR)
    [6] 2021/10 SSAST: Self-Supervised Audio Spectrogram Transformer (≈ GPAR)
    [7] 2021/10 Conformer-Based Self-Supervised Learning For Non-Speech Audio Tasks (ICASSP2022)
    [8] 2021/10 DECAR: Deep Clustering for learning general-purpose Audio Representations
    [9] 2021/11 Towards Learning Universal Audio Representations (ICASSP2022)
    [10] 2022/03 DeLoRes: Decorrelating Latent Spaces for Low-Resource Audio Representation Learning
    [11] 2022/03 MAE-AST: Masked Autoencoding Audio Spectrogram Transformer (≈ GPAR)
    [12] 2022/04 ※ Masked Spectrogram Modeling using Masked Autoencoders for Learning General-purpose Audio Representation
    [13] 2022/04 Masked Spectrogram Prediction For Self-Supervised Audio Pre-Training (≈ GPAR)
    [14] 2022/04 ATST: Audio Representation Learning with Teacher-Student Transformer
    [15] 2022/05 Self-Supervised Learning Method Using Multiple Sampling Strategies for General-Purpose Audio Representation (ICASSP2022)
    [16] 2022/05 ※ Composing General Audio Representation by Fusing Multilayer Features of a Pre-trained Model (EUSIPCO2022)
    [17] 2022/06 BYOL-S: Learning Self-supervised Speech Representations by Bootstrapping
    2021
    2022

    View Slide

  23. 23
    Copyright 2022 NTT CORPORATION
    Transformerを利⽤した⼿法
    • SSAST, MAE-AST, Masked Spectrogram Modeling, Masked Spectrogram Prediction
    • ViTベースのアーキテクチャ
    • Masked Prediction, Masked Autoencoders (MAE)
    相当の学習フレームワーク
    • ATST
    • 標準的なTransformerベースのアーキテクチャ
    • BYOL-Aベースの学習フレームワーク・データ拡張
    [6] 2021/10 Gong et al. ”SSAST: Self-supervised audio spectrogram transformer." arXiv preprint
    arXiv:2110.09784 4 (2021).
    [11] 2022/03 Baade et al. "MAE-AST: Masked Autoencoding Audio Spectrogram Transformer."
    arXiv preprint arXiv:2203.16691 (2022).
    [12] 2022/04 Niizumi et al. "Masked Spectrogram Modeling using Masked Autoencoders for
    Learning General-purpose Audio Representation."
    [13] 2022/04 Chong et al. "Masked Spectrogram Prediction For Self-Supervised Audio Pre-
    Training." arXiv preprint arXiv:2204.12768 (2022).
    [14] 2022/04 Li et al. "ATST: Audio Representation Learning with Teacher-Student Transformer."
    arXiv preprint arXiv:2204.12076 (2022).
    [MAE] He et al. "Masked autoencoders are scalable vision learners." CVPR. 2022.
    性能が⾼く今後さらに
    発展が期待される。

    View Slide

  24. 24
    Copyright 2022 NTT CORPORATION
    ここまでのまとめ
    • 教師あり学習の⼿法は様々に提案され具体的応⽤も⾒られるが、
    汎⽤性能は他の⼿法に劣る。
    • マルチモダリティを利⽤する⾃⼰教師あり学習も提案され、
    汎⽤性能もよいが、直近の提案は少なくなっている様⼦。
    • ⾳響信号だけを使う⾃⼰教師あり学習⼿法は、画像分野の動向
    を追いかけるように提案されている。Transformer+Masked
    Predictionベースが主流になってきている。

    View Slide

  25. 25
    Copyright 2022 NTT CORPORATION
    汎⽤⾳響信号表現: 現状の実⼒
    • BERT, GPT-3, CLIPのようなインパクトには達していない様⼦。
    • ⾳声認識は、wav2vec2 以降のモデルがインパクトをもって迎えられている様⼦。
    • 今後 Foundation Models の⼀つに数えられるかどうかは、
    これからの発展次第か?
    “A foundation model is any model that is trained on
    broad data at scale and can be adapted (e.g.,
    fine-tuned) to a wide range of downstream tasks;
    current examples include BERT [Devlin et al. 2019],
    GPT-3 [Brown et al. 2020], and CLIP [Radford et al.
    2021].”
    Bommasani, Rishi, et al. "On the opportunities and risks of foundation
    models." arXiv preprint arXiv:2108.07258 (2021).
    近年、GPT-31)のように、これまでとは桁違いに⼤きな
    ニューラルネットワークを⼤きなデータセットを使って⻑い
    時間かけて学習して作ったモデルが次々と登場している。こ
    のようなモデルは⼀度作れば⾮常に多くの様々なタスクに利
    ⽤することができる。このようなモデルはFoundation
    Model2)とよばれており、最初は⾃然⾔語処理でスタートし
    たが、画像、⾳声、制御など他の分野にも進出しつつある。
    【PFN岡野原⽒連載】Foundation Model︓巨⼤モデルが今後のAIシステムの基礎となるか”,
    ⽇経ロボティクス, No. 84 (2022).

    View Slide

  26. 26
    Copyright 2022 NTT CORPORATION
    ⾳声認識モデルとは違うもの?
    • ⾳声認識⽤モデルを⽐較対象とせずに発展。
    • ⾮意味的発話認識 (NOSS, Non-semantic speech)
    については共通の評価指標として取り扱えるタスクがある。
    • 例) 話者認識、⾔語認識、感情認識…
    • 2021後半以降、⾳声認識モデルも対象として汎⽤⾳響信号表現を⽐較
    評価する論⽂が増えている。

    View Slide

  27. 27
    Copyright 2022 NTT CORPORATION
    ⾳声認識モデルとは違うもの?
    • ⾳声認識⼿法の場合:
    • ⾳声⾔語への特化のため、量⼦化相当の処理を⽤
    いることが多い。
    • ⾳声波形をそのまま⼊⼒することが多い。
    • (CNN +) Transformer + Masked Prediction
    + Quantization + α 構成。
    • ⾳声認識⼿法との違い:
    • Transformerベースでも量⼦化は使われない。
    › Transformer + Masked Prediction + Quantization
    + α 構成。
    • TF形式で画像同様に⾳響信号を扱う例が多い。
    • CNNベースの提案もまだ有効。
    Hsu et al. "HuBERT: Self-supervised speech representation learning by
    masked prediction of hidden units." TASLP (2021): 3451-3460.

    View Slide

  28. 28
    Copyright 2022 NTT CORPORATION
    • “✘”=汎⽤⾳響信号表現
    • 汎⽤⾳響信号表現は
    Spectrogram⼊⼒が
    多い。
    • ⾳声認識は Inspired
    by BERT ⼿法が隆盛。
    Liu, Shuo, et al. "Audio self-supervised learning: A survey." arXiv preprint arXiv:2203.01205 (2022).
    ⾳声認識モデル
    を含めた⼿法
    ⼀覧例
    汎⽤⾳響信号表現

    View Slide

  29. 29
    Copyright 2022 NTT CORPORATION
    評価ベンチマークについて
    〜統⼀ベンチマークに向けた流れ、
    2021年中盤からベンチマークが提案されている

    View Slide

  30. 30
    Copyright 2022 NTT CORPORATION
    HEAR (HEAR 2021: Holistic Evaluation of Audio Representations)
    • NeurIPS 2021 Competition Track の⼀つとし
    て開催された際に提案されたベンチマーク。
    • What approach best generalizes to a wide range of
    downstream audio tasks without fine-tuning?
    • 学習⽅法やデータセットを問わず、Frozenモデ
    ルの表現を19タスクで評価。
    • ⾮意味的⾳声、⾳楽、環境
    から幅広いタスク構成。
    (マイナーなデータセットが
    多く、⾳楽よりな印象)
    • 現在はHEAR Benchmark
    という名称で公開。
    https://hearbenchmark.com/

    View Slide

  31. 31
    Copyright 2022 NTT CORPORATION
    HARES (Holistic Audio Representation Evaluation Suite)
    • 環境⾳・⾮意味的⾔語・
    ⾳楽からバランスよく構
    成されたベンチマーク。
    • コード公開はないが、性
    能がすでに上限に近いも
    のを外して選定するなど、
    今後も有⽤と考えられる。
    • DeepMind社提案。
    Wang, Luyu et al. “Towards Learning Universal Audio Representations.” ICASSP (2022).

    View Slide

  32. 32
    Copyright 2022 NTT CORPORATION
    まとめ
    • Takeaways
    • 汎⽤⾳響信号表現は新しい分野と考えられる。
    › プレーヤーが少なく⽐較的BlueなOceanである。
    • 画像分野の⾃⼰教師あり学習を追って発展している。
    › 対照学習やBYOLを使った⼿法が提案されている。
    › 直近では、他の分野や⾳声認識同様、Transformer + Masked Predictionがよく使われている。
    • 必ずしも⾳声認識の⼿法が有効ではない。
    › ⼤規模データセット・モデルでも絶対的な性能は⽰されなかった。
    › 汎⽤として⼯夫の余地がまだある。
    › GPT-3やCLIP相当のインパクトはまだこれから。
    • ベンチマークも提案されている。しかし、まだ統⼀的ではない。
    › 論⽂の評価に利⽤するタスクに⾃由度がある。
    • 応⽤に使えるのか? à ⾔語ほどではないが画像分野に近い状況はありそう。
    › VGGishの代わりを検討する時期ではあると思われる。

    View Slide

  33. 33
    Copyright 2022 NTT CORPORATION
    予備

    View Slide

  34. 34
    Copyright 2022 NTT CORPORATION
    ⾳以外の分野で進む汎⽤志向
    Gupta, Tanmay et al. “Towards General Purpose Vision Systems.” ArXiv abs/2104.00743 (2021)

    View Slide

  35. 35
    Copyright 2022 NTT CORPORATION
    可視化例 – 各⼿法の表現ベクトル
    CNN14
    スパースな表現
    VGGish
    BYOL-A

    View Slide

  36. 36
    Copyright 2022 NTT CORPORATION
    可視化例 – UrbanSound8Kの各表現
    CNN14
    VGGish
    性能はどの⼿法も
    それほど変わらない。
    BYOL-A

    View Slide