汎用音響信号表現の発展について@TokyoBISHBash#07

2 Copyright 2022 NTT CORPORATION 発表者略歴 • 所属: NTTコミュニケーション科学基礎研究所メディア情報研究部
メディア認識研究グループ • ⽒名: 仁泉⼤輔 (にいずみだいすけ) • 製造業において電⼦楽器や家電製品等のソフトウェア開発に携わる経験を経て、 2020年から現職にて⾳の説明⽂⽣成や汎⽤⾳響信号の表現学習など、深層学習を⽤いた⾳響信号の研究に従事。製品(ソフトウェア)開発約20年 @九州⼯業⼤学・ファジィ・ニューロ・深層学習・⾳響信号学⽣時代現在研究キャリアは 3年程度

3 Copyright 2022 NTT CORPORATION そもそも表現とは? • ⽣データから機械学習による抽出で得られた「特徴量」が「表現」と呼ばれると考えられる。 “特徴量（英:
feature）はデータを変形して得られ、その特徴を表現し、続く処理に利⽤される数値である。表現（英: representation）とも。〜中略〜特徴量はデータを変換することで⽣成される。この変換を特徴抽出（英: feature extraction）という。専⾨家の知⾒を⽤いた⼈⼿による変換規則の探求は特徴量エンジニアリングと呼ばれ、機械学習による場合は表現学習と呼ばれる。” --- Wikipedia “特徴量” より事前学習した深層学習モデルに、⾳響信号を⼊⼒して得られる特徴量のベクトルとイメージしてください。

4 Copyright 2022 NTT CORPORATION 汎⽤⾳響信号表現とは? • 幅広いタスクで汎⽤的に有効な⾳響信号の表現 • 様々な⾳のタスクに応⽤する特徴量としての役割を期待するもの。
• これまでの⼿法は深層学習モデルを⽤いて表現を学習している。 ※エンコーダーのみ、または学習系を含む⼿法のシステム全体を表現と呼ぶこともある。 ※明確に定義した⽂献はまだ存在しない様⼦。 “General-purpose Audio Representation” =「汎⽤⾳響信号表現」 ≈汎⽤的に有効な特徴量表現 ※発表者が対応させた⽇本語応⽤を問わず、⾳に対して汎⽤的に使える学習済みモデルを求めたのが汎⽤⾳響信号表現であり、⾔語や画像のBERT, GPT-3, CLIPのようなインパクトを⽬指している(と考えられる)。

5 Copyright 2022 NTT CORPORATION 汎⽤⾳響信号表現: 研究の枠組み事前学習⽤⾳響信号⼊⼒
表現学習 (教師あり, ⾃⼰教師あり) 特徴抽出器 (エンコーダ) ⼤規模データセット事前学習応⽤下流タスク⾳響信号⼊⼒汎⽤⾳響信号表現 (Vector) 事前学習済み特徴抽出器 (エンコーダ) 下流タスク機械学習システム環境⾳分類⾳響イベント認識⽣態系モニタリング⾳の説明⽂⽣成肺の⾳の分類⼼⾳の分類 : ⾳声感情認識発話コマンド分類話者識別発話⾔語識別楽器種別分類⾳⾼分類 : 様々な下流タスク事前学習により得られた表現を、様々な応⽤タスクの性能で評価。

6 Copyright 2022 NTT CORPORATION 汎⽤⾳響信号表現: これまでの経緯 • 初出は2019年の論⽂と考えられる。(発表者調べ) •
⾃⼰教師あり学習による⼿法の提案が2021年以降増加。 (明⽰的な汎⽤⾳響信号表現) • 教師あり学習⼿法も暗黙の(汎⽤)⾳響信号表現と考えられ、数多く提案。 • 他のモダリティを活⽤した⾃⼰教師あり学習⼿法も提案されており、これらも暗黙の(汎⽤)⾳響信号表現と考えられる。 Tagliasacchi, Marco, et al. "Self-supervised audio representation learning for mobile devices." arXiv preprint arXiv:1905.11796 (2019). :

8 Copyright 2022 NTT CORPORATION 教師あり学習〜暗黙の汎⽤表現学習 • ⼤規模データセットによるラベルを利⽤した教師あり学習。 • VGGish
(2017): VGGをベースにしたモデルでYouTube-8Mを学習。 • PANNs (2020): 多数の専⽤CNNを⽤いてAudioSet(2M)を学習。 • AST (2021): ViTベースのモデルでImageNet事前学習を初期値に AudioSetを学習。 • 評価タスクが限られる。(明⽰的な汎⽤⼿法ではない) • VGGishはイベント認識タスク、ASTはESC-50 (シーン分類), Speech commands(発話コマンド分類)で評価。 • PANNsは多数で評価: AudioSet, ESC-50 (シーン分類), DCASE2019 task1 (シーン分類), DCASE 2018 task2 (タグ付け), MSoS, GTZAN (⾳楽ジャンル), RAVDESS (感情認識)。 • 実際の応⽤研究における利⽤例が⾒られる。 [VGGish] Hershey, Shawn, et al. "CNN architectures for large-scale audio classification." 2017 ieee international conference on acoustics, speech and signal processing (icassp). IEEE, 2017. [PANNs] Kong, Qiuqiang, et al. ”PANNs: Large-scale pretrained audio neural networks for audio pattern recognition." IEEE/ACM Transactions on Audio, Speech, and Language Processing 28 (2020): 2880-2894. [AST] Gong, Yuan, Yu-An Chung, and James Glass. "AST: Audio spectrogram transformer." arXiv preprint arXiv:2104.01778 (2021). AST Figure 1より引⽤ PANNsより引⽤

9 Copyright 2022 NTT CORPORATION 教師あり学習〜応⽤例 • 特にVGGishの利⽤例が散⾒される。 • しかし汎⽤的な性能が確認された上
での応⽤ではない。 AudioCaps: Generating Captions for Audios in The Wild (Kim et al., NAACL 2019) L. Shi, K. Du, C. Zhang, H. Ma and W. Yan, "Lung Sound Recognition Algorithm Based on VGGish-BiGRU," in IEEE Access, vol. 7, pp. 139438-139449, 2019, doi: 10.1109/ACCESS.2019.2943492. ⾳の説明⽂⽣成への応⽤例肺の⾳の分類への応⽤例

10 Copyright 2022 NTT CORPORATION 教師あり学習〜汎⽤性能について • 教師あり学習モデルの汎⽤性能は⼗分か? • ⼀般に利⽤される最終層付近では
No。 • 層ごとに役⽴つタスクが異なる様⼦。 - 仁泉+, “事前学習モデルの複数層特徴量の融合を⽤いた汎⽤⾳響信号表現", 信学技報 (EA2022-9) (2022). - Niizumi, Daisuke et al. “Composing General Audio Representation by Fusing Multilayer Features of a Pre-trained Model.” ArXiv abs/2205.08138 (2022) & EUSIPCO2022. そのまま盲⽬的な活⽤では性能が出ない可能性がある (タスクに性能が強く依存)

12 Copyright 2022 NTT CORPORATION マルチモダリティ⼊⼒⾃⼰教師あり学習 • OpenL3: ⾳と画像の対応関係を利⽤ •
評価: US8K, ESC-50, DCASE2013 (シーン分類) • Wang et al.: Raw, Spectrogram, 画像の対応関係を利⽤ • 汎⽤⾳響信号表現として提案 • 評価: 多数のタスク • COALA: ⾳とラベルの対応関係をマルチモダリティとして利⽤ • 評価: US8K, GTZAN, NSynth [OpenL3] Cramer, Jason, et al. "Look, listen, and learn more: Design choices for deep audio embeddings." ICASSP 2019-2019 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2019. [Wang et al.] Wang, Luyu, et al. "Multimodal self-supervised learning of general audio representations." arXiv preprint arXiv:2104.12807 (2021). [COALA] Favory, Xavier, et al. "Coala: Co-aligned autoencoders for learning semantically enriched audio representations." arXiv preprint arXiv:2006.08386 (2020).

13 Copyright 2022 NTT CORPORATION マルチモダリティによる学習〜汎⽤性能 • 教師あり学習と⽐べると汎⽤的に性能が⾼い。 Niizumi, Daisuke,
et al. "BYOL for Audio: Exploring Pre-trained General-purpose Audio Representations." arXiv preprint arXiv:2204.07402 (2022).

15 Copyright 2022 NTT CORPORATION 汎⽤⾳響信号表現: ~2022/6の⼿法⼀覧 [1] 2019/05 Self-supervised
audio representation learning for mobile devices, Pre-Training Audio Representations with Self-Supervision [2] 2020/10 COLA Contrastive Learning of General-Purpose Audio Representations (ICASSP2021) [3] 2021/03 ※ BYOL for Audio: Self-Supervised Learning for General-Purpose Audio Representation (IJCNN2021) [4] 2021/04 Multimodal Self-Supervised Learning of General Audio Representations [5] 2021/09 BigSSL: Exploring the Frontier of Large-Scale Semi-Supervised Learning for Automatic Speech Recognition (≈ GPAR) [6] 2021/10 SSAST: Self-Supervised Audio Spectrogram Transformer (≈ GPAR) [7] 2021/10 Conformer-Based Self-Supervised Learning For Non-Speech Audio Tasks (ICASSP2022) [8] 2021/10 DECAR: Deep Clustering for learning general-purpose Audio Representations [9] 2021/11 Towards Learning Universal Audio Representations (ICASSP2022) [10] 2022/03 DeLoRes: Decorrelating Latent Spaces for Low-Resource Audio Representation Learning [11] 2022/03 MAE-AST: Masked Autoencoding Audio Spectrogram Transformer (≈ GPAR) [12] 2022/04 ※ Masked Spectrogram Modeling using Masked Autoencoders for Learning General-purpose Audio Representation [13] 2022/04 Masked Spectrogram Prediction For Self-Supervised Audio Pre-Training (≈ GPAR) [14] 2022/04 ATST: Audio Representation Learning with Teacher-Student Transformer [15] 2022/05 Self-Supervised Learning Method Using Multiple Sampling Strategies for General-Purpose Audio Representation (ICASSP2022) [16] 2022/05 ※ Composing General Audio Representation by Fusing Multilayer Features of a Pre-trained Model (EUSIPCO2022) [17] 2022/06 BYOL-S: Learning Self-supervised Speech Representations by Bootstrapping 2021年後半から増加傾向。研究者は多くない様⼦。 ※=発表者の提案。 2021 2022

audio representation learning for mobile devices, Pre-Training Audio Representations with Self-Supervision [2] 2020/10 COLA Contrastive Learning of General-Purpose Audio Representations (ICASSP2021) [3] 2021/03 ※ BYOL for Audio: Self-Supervised Learning for General-Purpose Audio Representation (IJCNN2021) [4] 2021/04 Multimodal Self-Supervised Learning of General Audio Representations [5] 2021/09 BigSSL: Exploring the Frontier of Large-Scale Semi-Supervised Learning for Automatic Speech Recognition (≈ GPAR) [6] 2021/10 SSAST: Self-Supervised Audio Spectrogram Transformer (≈ GPAR) [7] 2021/10 Conformer-Based Self-Supervised Learning For Non-Speech Audio Tasks (ICASSP2022) [8] 2021/10 DECAR: Deep Clustering for learning general-purpose Audio Representations [9] 2021/11 Towards Learning Universal Audio Representations (ICASSP2022) [10] 2022/03 DeLoRes: Decorrelating Latent Spaces for Low-Resource Audio Representation Learning [11] 2022/03 MAE-AST: Masked Autoencoding Audio Spectrogram Transformer (≈ GPAR) [12] 2022/04 ※ Masked Spectrogram Modeling using Masked Autoencoders for Learning General-purpose Audio Representation [13] 2022/04 Masked Spectrogram Prediction For Self-Supervised Audio Pre-Training (≈ GPAR) [14] 2022/04 ATST: Audio Representation Learning with Teacher-Student Transformer [15] 2022/05 Self-Supervised Learning Method Using Multiple Sampling Strategies for General-Purpose Audio Representation (ICASSP2022) [16] 2022/05 ※ Composing General Audio Representation by Fusing Multilayer Features of a Pre-trained Model (EUSIPCO2022) [17] 2022/06 BYOL-S: Learning Self-supervised Speech Representations by Bootstrapping 2021 2022

17 Copyright 2022 NTT CORPORATION COLA: 対照学習による⼿法 • ⾳声の時系列性を利⽤した対照学習(Contrastive learning)。
• 切り出し位置が近いペアを近づけ、遠い位置のペアを遠ざける。 • 実際は同じクリップ・違うクリップ切り出しの関係性を利⽤。 • データ拡張を利⽤しない。 • ⾃⼰教師あり学習を使った表現の有効性を⽰した。 • 画像分野での対照学習の影響。 (SimCLR, MoCo等) [2] Saeed, Aaqib, David Grangier, and Neil Zeghidour. "Contrastive learning of general-purpose audio representations.” ICASSP 2021-2021 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2021. 近づける・遠ざける = 表現の類似度でのロス

19 Copyright 2022 NTT CORPORATION BYOL-A: BYOLを利⽤した⼿法 [3] Niizumi, Daisuke,
et al. "BYOL for audio: Self-supervised learning for general-purpose audio representation." 2021 International Joint Conference on Neural Networks (IJCNN). IEEE, 2021. • 対照学習と同時期に提案されたBYOL (Bootstrap Your Own Latent)を利⽤。 • 時系列性を使わない「切り出し位置が近いペアを近づけ、遠い位置のペアを遠ざける」 • データ拡張に不変な表現の学習。 • 性能の向上を果たした。 • 画像分野の⾃⼰教師あり学習の影響。 (BYOL, SimCLR, MoCo等)

21 Copyright 2022 NTT CORPORATION ASRのSOTA⼿法を活⽤した研究 • ⾳声認識(ASR)のモデル(Conformer)・学習⼿法(wav2vec2)を利⽤してGoogle, Metaが同時期に提案。 •
⼤規模モデル・⼤量データ • Google: データ YouTube 350k時間~ モデルパラメータ 600M~8B • Meta: データ Facebook video 67k時間~ モデルパラメータ 16M~88M • 規模に期待される性能向上ではない様⼦。 [5] Zhang, Yu, et al. "BigSSL: Exploring the frontier of large-scale semi-supervised learning for automatic speech recognition.” IEEE Journal of Selected Topics in Signal Processing (2022). [7] Srivastava, Sangeeta, et al. "Conformer-Based Self-Supervised Learning for Non-Speech Audio Tasks." ICASSP 2022-2022 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2022. [7]より引⽤ [5]より引⽤

23 Copyright 2022 NTT CORPORATION Transformerを利⽤した⼿法 • SSAST, MAE-AST, Masked
Spectrogram Modeling, Masked Spectrogram Prediction • ViTベースのアーキテクチャ • Masked Prediction, Masked Autoencoders (MAE) 相当の学習フレームワーク • ATST • 標準的なTransformerベースのアーキテクチャ • BYOL-Aベースの学習フレームワーク・データ拡張 [6] 2021/10 Gong et al. ”SSAST: Self-supervised audio spectrogram transformer." arXiv preprint arXiv:2110.09784 4 (2021). [11] 2022/03 Baade et al. "MAE-AST: Masked Autoencoding Audio Spectrogram Transformer." arXiv preprint arXiv:2203.16691 (2022). [12] 2022/04 Niizumi et al. "Masked Spectrogram Modeling using Masked Autoencoders for Learning General-purpose Audio Representation." [13] 2022/04 Chong et al. "Masked Spectrogram Prediction For Self-Supervised Audio Pre- Training." arXiv preprint arXiv:2204.12768 (2022). [14] 2022/04 Li et al. "ATST: Audio Representation Learning with Teacher-Student Transformer." arXiv preprint arXiv:2204.12076 (2022). [MAE] He et al. "Masked autoencoders are scalable vision learners." CVPR. 2022. 性能が⾼く今後さらに発展が期待される。

24 Copyright 2022 NTT CORPORATION ここまでのまとめ • 教師あり学習の⼿法は様々に提案され具体的応⽤も⾒られるが、汎⽤性能は他の⼿法に劣る。 •
マルチモダリティを利⽤する⾃⼰教師あり学習も提案され、汎⽤性能もよいが、直近の提案は少なくなっている様⼦。 • ⾳響信号だけを使う⾃⼰教師あり学習⼿法は、画像分野の動向を追いかけるように提案されている。Transformer+Masked Predictionベースが主流になってきている。

25 Copyright 2022 NTT CORPORATION 汎⽤⾳響信号表現: 現状の実⼒ • BERT, GPT-3,
CLIPのようなインパクトには達していない様⼦。 • ⾳声認識は、wav2vec2 以降のモデルがインパクトをもって迎えられている様⼦。 • 今後 Foundation Models の⼀つに数えられるかどうかは、これからの発展次第か? “A foundation model is any model that is trained on broad data at scale and can be adapted (e.g., fine-tuned) to a wide range of downstream tasks; current examples include BERT [Devlin et al. 2019], GPT-3 [Brown et al. 2020], and CLIP [Radford et al. 2021].” Bommasani, Rishi, et al. "On the opportunities and risks of foundation models." arXiv preprint arXiv:2108.07258 (2021). 近年、GPT-31）のように、これまでとは桁違いに⼤きなニューラルネットワークを⼤きなデータセットを使って⻑い時間かけて学習して作ったモデルが次々と登場している。このようなモデルは⼀度作れば⾮常に多くの様々なタスクに利⽤することができる。このようなモデルはFoundation Model2）とよばれており、最初は⾃然⾔語処理でスタートしたが、画像、⾳声、制御など他の分野にも進出しつつある。【PFN岡野原⽒連載】Foundation Model︓巨⼤モデルが今後のAIシステムの基礎となるか”, ⽇経ロボティクス, No. 84 (2022).

26 Copyright 2022 NTT CORPORATION ⾳声認識モデルとは違うもの? • ⾳声認識⽤モデルを⽐較対象とせずに発展。 • ⾮意味的発話認識
(NOSS, Non-semantic speech) については共通の評価指標として取り扱えるタスクがある。 • 例) 話者認識、⾔語認識、感情認識… • 2021後半以降、⾳声認識モデルも対象として汎⽤⾳響信号表現を⽐較評価する論⽂が増えている。

27 Copyright 2022 NTT CORPORATION ⾳声認識モデルとは違うもの? • ⾳声認識⼿法の場合: • ⾳声⾔語への特化のため、量⼦化相当の処理を⽤
いることが多い。 • ⾳声波形をそのまま⼊⼒することが多い。 • (CNN +) Transformer + Masked Prediction + Quantization + α 構成。 • ⾳声認識⼿法との違い: • Transformerベースでも量⼦化は使われない。 › Transformer + Masked Prediction + Quantization + α 構成。 • TF形式で画像同様に⾳響信号を扱う例が多い。 • CNNベースの提案もまだ有効。 Hsu et al. "HuBERT: Self-supervised speech representation learning by masked prediction of hidden units." TASLP (2021): 3451-3460.

28 Copyright 2022 NTT CORPORATION • “✘”=汎⽤⾳響信号表現 • 汎⽤⾳響信号表現は Spectrogram⼊⼒が
多い。 • ⾳声認識は Inspired by BERT ⼿法が隆盛。 Liu, Shuo, et al. "Audio self-supervised learning: A survey." arXiv preprint arXiv:2203.01205 (2022). ⾳声認識モデルを含めた⼿法⼀覧例汎⽤⾳響信号表現

30 Copyright 2022 NTT CORPORATION HEAR (HEAR 2021: Holistic Evaluation
of Audio Representations) • NeurIPS 2021 Competition Track の⼀つとして開催された際に提案されたベンチマーク。 • What approach best generalizes to a wide range of downstream audio tasks without fine-tuning? • 学習⽅法やデータセットを問わず、Frozenモデルの表現を19タスクで評価。 • ⾮意味的⾳声、⾳楽、環境から幅広いタスク構成。 (マイナーなデータセットが多く、⾳楽よりな印象) • 現在はHEAR Benchmark という名称で公開。 https://hearbenchmark.com/

31 Copyright 2022 NTT CORPORATION HARES (Holistic Audio Representation Evaluation
Suite) • 環境⾳・⾮意味的⾔語・⾳楽からバランスよく構成されたベンチマーク。 • コード公開はないが、性能がすでに上限に近いものを外して選定するなど、今後も有⽤と考えられる。 • DeepMind社提案。 Wang, Luyu et al. “Towards Learning Universal Audio Representations.” ICASSP (2022).

32 Copyright 2022 NTT CORPORATION まとめ • Takeaways • 汎⽤⾳響信号表現は新しい分野と考えられる。
› プレーヤーが少なく⽐較的BlueなOceanである。 • 画像分野の⾃⼰教師あり学習を追って発展している。 › 対照学習やBYOLを使った⼿法が提案されている。 › 直近では、他の分野や⾳声認識同様、Transformer + Masked Predictionがよく使われている。 • 必ずしも⾳声認識の⼿法が有効ではない。 › ⼤規模データセット・モデルでも絶対的な性能は⽰されなかった。 › 汎⽤として⼯夫の余地がまだある。 › GPT-3やCLIP相当のインパクトはまだこれから。 • ベンチマークも提案されている。しかし、まだ統⼀的ではない。 › 論⽂の評価に利⽤するタスクに⾃由度がある。 • 応⽤に使えるのか? à ⾔語ほどではないが画像分野に近い状況はありそう。 › VGGishの代わりを検討する時期ではあると思われる。

34 Copyright 2022 NTT CORPORATION ⾳以外の分野で進む汎⽤志向 Gupta, Tanmay et al.
“Towards General Purpose Vision Systems.” ArXiv abs/2104.00743 (2021)

35 Copyright 2022 NTT CORPORATION 可視化例 – 各⼿法の表現ベクトル CNN14 スパースな表現
VGGish BYOL-A

36 Copyright 2022 NTT CORPORATION 可視化例 – UrbanSound8Kの各表現 CNN14 VGGish
性能はどの⼿法もそれほど変わらない。 BYOL-A

汎用音響信号表現の発展について@TokyoBISHBash#07

汎用音響信号表現の発展について@TokyoBISHBash#07

Other Decks in Research

Featured

Transcript