クロスモーダル表現学習の研究動向: 音声関連を中心として

クロスモーダル表現学習の研究動向: 音声関連を中心として日本電信電話株式会社 NTT人間情報研究所増村亮

1 Copyright NTT CORPORATION 自己紹介  増村亮 (Ryo Masumura)
 経歴 • 2011/4: 日本電信電話株式会社入社 • 2016/9: 東北大学大学院工学研究科博士後期課程修了 • 現在: NTT人間情報研究所特別研究員  主な研究分野: マルチメディア処理×人工知能 (機械学習) • 音声音響処理全般 (2009~) • 自然言語処理全般 (2011~) • 画像映像処理全般 (2019~) この「広さ」を深めることではじめて実現可能な研究開発を目指す • 音声認識（言語モデル、音響モデル、End2End音声認識）、属性推定、感情推定、話者推定・ダイアライゼーション、音声区間検出、ターン交代点検出、言語・方言識別、音声合成、etc. • 2011/3:東北大学大学院工学研究科博士前期課程修了 • クロスタスク・クロスモーダルな統合モデリング (2017~)

2 Copyright NTT CORPORATION 我々が取り組んでいる研究テーマ  クロスタスク・クロスモーダルでの知識統合によるマルチモーダル基盤モデルの実現  NTTにて「MediaGnosis」という名前で研究開発 (https://www.rd.ntt/mediagnosis/)

3 Copyright NTT CORPORATION 推論時に目指していること (本日の主眼ではない)  「複合的かつ複雑な推論」を省リソースかつ高精度・高速にオールインワン提供

4 Copyright NTT CORPORATION  様々なタイプのデータを活用した上で、モーダル間やタスク間で共有可能な知識を効率的に保持できるような統合的なモデリング・学習の実現学習時に目指していること (この一部が本日の主眼) 自己教師あり学習
マルチタスク学習クロスモーダル表現学習テキスト理解部音声音響情報共通処理部画像映像情報共通処理部感情理解部属性理解部 Happy, Sad, neutral Male, Female Elder, Adult, Child “It is sunny today” クロスモーダル理解部自然言語情報共通処理部 … とはどんなもの?？(本日の主題) （主に同一入力に対して）複数タスクを同時に学習することで、相乗効果を得たり、タスク間の知識転移を行うラベルなしデータを活用して、様々なタスクに有益な表現空間を獲得テキスト:BERT, etc.、音声: HuBERT, etc., 画像: Masked MAE, etc.

5 Copyright NTT CORPORATION 本日の内容  「クロスモーダル表現学習」を話題に取り上げ、「音声」に関連する研究に特に焦点を当てて、その研究動向を概説 1. 自己紹介とはじめに
2. クロスモーダル表現学習（音声関連を中心） 3. 言語へのクロスモーダルアライメント（音声関連を中心） 4. おわりに

6 Copyright NTT CORPORATION 「クロスモーダル表現学習」一言でいうと？  モーダル間で共有可能な表現空間（共有可能な知識）を仮定した学習  これによって何がしたい？ =
知識獲得の効率化 • ① 表現空間に埋め込む知識を複数モーダルから同時に獲得 • ➁ あるモーダルに関するリッチな知識を、他のモーダルを扱う際に知識転移  もっと具体的にいうと何に使う？ = エンコーダの事前学習 • 事前学習後、特定タスクに対して予測ヘッドをつけて、ファインチューニングすることが一般的  良い「クロスモーダル表現学習」とは？ = 最終タスクの性能にいかに寄与するか • 特に、最終タスクに関する教師ありデータが少ない場合に性能を引き上げられることが大事 • ※ 本発表では、性能面の有用性などについては時間が限られるため触れないです… • ※ あくまで一般論で、一部の手法は表現学習自体が最終タスクに直結

7 Copyright NTT CORPORATION クロスモーダル表現学習とモデリング  デュアルエンコーダ方式  共有エンコーダ方式 
用途に応じて2種類のモデリングに大別入力音声入力画像音声モーダル用エンコーダ画像モーダル用エンコーダベクトル or ベクトル系列ベクトル or ベクトル系列 • 出力側の表現空間が「共有可能」であることを仮定 • 入力側の表現空間やエンコーダの中間層の表現空間が「共有可能」であることを仮定共有エンコーダ音声と画像の共有エンコーダ入力音声入力画像ベクトル or ベクトル系列 • 最終用途が単モーダル入力の場合をサポート • 単モーダル入力とマルチモーダル入力の両者をサポート • モーダルごとに、異なるモデルパラメータを持つ方式 • モーダル間で同一のモデルパラメータを使う方式

8 Copyright NTT CORPORATION クロスモーダル表現学習の学習戦略  空間一致ベース: モーダル間で表現空間が似るようにする  対照学習ベース:
モーダル間で対応しているか対応してないかを見分けられるようにする  マスク予測ベース: モーダルの一部を隠し、対応するモーダルを元に、隠した部分を予測できるようにする • デュアルエンコーダ型で、片方の表現空間は固定されている場合に利用可能な学習戦略 • デュアルエンコーダ型でも共有エンコーダ型でも利用可能な学習戦略 • 共有エンコーダ型で利用可能な学習戦略であり、個々のモーダルの範囲のマスク予測も同じフレームワークで実施可能音声画像音声モーダル用エンコーダ画像モーダル用エンコーダ対応音声画像音声モーダル用エンコーダ画像モーダル用エンコーダ対応対応しない音声音声モーダル用エンコーダ  代表的な学習戦略は３種類に大別共有エンコーダモーダル間で表現空間が似るようにする対応していると見分けられる対応してないと見分けられる一部を隠した音声画像対応隠した部分を予測できるようにする • 基本は離散化されたターゲットを予測する（ほうがうまくいく）

9 Copyright NTT CORPORATION クロスモーダル表現学習の分類 ① 教師ありクロスモーダル表現学習モーダル間で対応関係が取れたペアデータ（人手アノテーション必要）を用いて学習 ➁ 自己教師ありクロスモーダル表現学習
• モーダル間で対応関係が取れたペアデータ（人手アノテーションなし）を用いて学習 ③ 黙示的なクロスモーダル表現学習 • モーダル間で対応関係が取れたペアデータを使わずに、各モーダルのラベルなしデータのみから学習 ④ 複合的なクロスモーダル表現学習 • 様々なクロスモーダル表現学習やシングルモーダル表現学習を複合的に組み合わせた学習  用いるデータを観点として、４種類のクロスモーダル表現学習が検討されている

10 Copyright NTT CORPORATION ①教師ありクロスモーダル表現学習  モーダル間で対応関係が取れたペアデータ（人手アノテーション必要）を用いて学習 ※ Computer Vision
の分野では、Web クロール等により得られる画像とキャプションテキストのペアデータの利用は、「教師あり学習」ではなく「自己教師あり学習」として述べられることが多い  音声関連の研究でよく使われるデータ • 音声とテキストの書き起こしデータ  主な手法 • 音と説明文テキストのペアデータ • SPLAT [Y.-A. Chung+ NAACL2021] • SpeechBERT [Y.-S. Chuang+ INTERSPEECH2020] • Speech-language pre-training [Y. Qian+ ICASSP2021] • CLAP [B. Elizalde+ ICASSP2023]

11 Copyright NTT CORPORATION Speech-language pre-training [Y. Qian+ ICASSP2021] 
「共有エンコーダ型」×「マスク予測ベース」の「教師ありクロスモーダル表現学習」  用いるデータ: 音声と書き起こしのペアデータ (ATIS)  音声とテキストを同時に用い、テキストの一部をマスクして、その部分をテキストと音声のコンテキストから予測テキストのマスクした部分に対して、音声とテキストを用いて予測 Y. Qian et al., “Speech-language pre-training for end-to-end spoken language understanding,” In Proc. ICASSP, pp. 7458–7462, 2021.

12 Copyright NTT CORPORATION  「デュアルエンコーダ型」×「対照学習ベース」の「教師ありクロスモーダル表現学習」 CLAP [B. Elizalde+ ICASSP2023]
 音と説明文が一致する（ペアであった）場合に高い類似度、一致しない（ペアのものではない）場合は低い類似度が出るように学習  用いるデータ: 音と説明文のペアデータ (FSD50K, Clotho V2, AudioCaps, MACS) 類似度マトリックス、対角成分の要素が大きくなるように学習音声とテキストのそれぞれでエンコーダを持つ B. Elizalde et al., “CLAP: Learning audio concepts from natural language supervision,” In Proc. ICASSP, 2023.

13 Copyright NTT CORPORATION ➁自己教師ありクロスモーダル表現学習  モーダル間で対応関係が取れたペアデータ（人手アノテーションなし）を用いて学習  音声関連の研究でよく使われるデータ •
音声と唇周辺動画のペアデータ ※ ビデオを撮ればアノテーションなしに得られる • 音声と顔動画のペアデータ ※ ビデオを撮ればアノテーションなしに得られる  主な手法 • Perfect Match [S.-W. Chung+ ICASSP2019] • LiRA [P. Ma+ INTERSPEECH2021] • LAVEn [A. Haliassos+ ICLR2023] • AV-HuBERT [B. Shi+ ICLR2022] • MixSpeech [X. Cheng+ ICCV2023] • u-HuBERT [B. S. Wei-Ning Hsu+ Neurips2022]

14 Copyright NTT CORPORATION LiRA [P. Ma+ INTERSPEECH2021] 音声エンコーダは事前に学習しておき、Freezeしておく
（音韻情報がリッチに乗っている）映像エンコーダが学習可能であり、音声エンコーダ出力に近づけるように学習  音声から得られるリッチな情報を持つベクトルを、唇の動き映像から予測できるようにすることで、映像エンコーダを学習  「デュアルエンコーダ型」×「空間一致ベース」の「自己教師ありクロスモーダル表現学習」  用いるデータ: 音声と唇の動き映像のペアデータ (LRS3) P. Ma et al., “LiRA: Learning visual speech representations from audio through self-supervision,” In Proc. INTERSPEECH, pp. 3011–3015, 2021.

15 Copyright NTT CORPORATION AV-HuBERT [B. Shi+ ICLR2022] 音フレームと画像フレームを特徴量方向に結合し、
マスクした部分は0で埋めるマスク部分に対して、マルチモーダル情報をもとに事前に割り当てたコードブックIDを予測するように学習音声や映像の一部をマスク  「共有エンコーダ型」×「マスク予測ベース」の「自己教師ありクロスモーダル表現学習」  マスク予測の枠組みで、唇の動き映像から音声を、音声から唇の動き映像を、予測できるような学習を、ベクトル量子化コードブックを活用して実施  用いるデータ: 音声と唇の動き映像のペアデータ (LRS3やVoxCeleb2) B. Shi et al., “Learning audio-visual speech representation by masked multimodal cluster prediction,” In Proc. ICLR, 2022.

16 Copyright NTT CORPORATION ③黙示的なクロスモーダル表現学習  モーダル間で対応関係が取れたペアデータを使わずに、各モーダルのラベルなしデータのみから学習  音声関連の研究でよく使われるデータ
• 音声のラベルなしデータ＋テキストのラベルなしデータ  主な手法 (※ 手法全体が黙示的なクロスモーダル表現学習というわけではない) • SLAM [A. Bapna+ arxiv 2021] • Mu2SLAM [Y. Cheng+ ICML2023] • MAESTRO [Z. Chen+ INTERSPEECH2022] • SpeechT5 [J. Ao+ ICL2022]

17 Copyright NTT CORPORATION SLAM [A. Bapna+ arxiv 2021] における事前学習
 「共有エンコーダ型」×「マスク予測ベース」の「黙示的なクロスモーダル表現学習」テキストはBERT型のマスク予測により、自己教師あり学習音声はw2v-BERT型のマスク予測により、自己教師あり学習  音声に対するマスク予測とテキストに対するマスク予測を、１つの共有エンコーダに対してそれぞれ実施することで、黙示的に表現空間を獲得  用いるデータ: 音声データ (Libri-light)+テキストデータ (LibriLMとmC4-En) A. Bapna et al., “SLAM: A unified encoder for speech and language modeling via speech-text joint pretraining,” arXiv:2110, 2021.

18 Copyright NTT CORPORATION SpeechT5 [J. Ao+ ACL2022] における事前学習テキストと音声でベクトル空間を
共有した量子化コードブック  「共有エンコーダ型」×「マスク予測ベース」の「黙示的なクロスモーダル表現学習」  クロスモーダルベクトル量子化により音声とテキストの共有量子化コードブックを構成し、コードブックIDを活用したマスク予測をそれぞれのモーダルで実施  用いるデータ: 音声データ (LibriSpeechの音)+テキストデータ (LibriSpeechのテキスト) ※ ペアである情報はもちろん使わない J. Ao et al., “SpeechT5: Unified-modal encoder-decoder pre-training for spoken language processing,” In Proc. ACL, pp. 5723–5738, 2022.

19 Copyright NTT CORPORATION ④複合的なクロスモーダル表現学習  様々なクロスモーダル表現学習やシングルモーダル表現学習を複合的に組み合わせた学習  音声関連の研究（音声「も」使っている研究）でよく使われるデータ •
音声のラベルなしデータ＋テキストのラベルなしデータ+映像のラベルなしデータ+ 画像のラベルなしデータ＋音声と書き起こしのペアデータ+画像と説明文のペアデータ +音声と映像のペアデータ＋…, etc.  主な手法 • VATT [H. Akbari+ Neurips2021] • ONE-PEACE [P. Wang+ arxiv 2023] • VALOR [S. Chen+ arxiv 2023] • Imagebind [R. Girdhar+ CVPR2023] • i-Code [Z. Yang+ AAAI2023] • VATLM [Q. Zhu+ IEEE TMM 2023] ※ クロスモーダル表現学習は音声分野以外でももちろん検討されてきており、音声コミュニティよりも機械学習コミュニティで発表が多くなされている

20 Copyright NTT CORPORATION VATT [H. Akbari+ Neurips2021] H. Akbari
et al., “VATT: Transformers for multimodal self-supervised learning from raw video, audio and text,” In Proc. NeurIPS, 2021.  「共有エンコーダ型」×「対照学習ベース」の「複合的なクロスモーダル表現学習」  映像-音声の一致/不一致、映像-テキストの一致/不一致の両者を見分ける学習を実施  用いるデータ: 映像と音声のペアデータ (AudioSet)、映像とテキストのペアデータ (HowTo100M) 共有エンコーダのヘッド部分の情報を活用することで、異なるモーダル間での一致/不一致を考慮入力の時点で、「どのモーダル情報を入れるか？」は考慮しない

21 Copyright NTT CORPORATION VATLM [Q. Zhu+ IEEE TMM, 2023]
 「共有エンコーダ型」×「マスク予測ベース」の「複合的なクロスモーダル表現学習」  AV-HuBERT、HuBERT、BERT等のマスク予測を組み合わせて学習  用いるデータ: 映像と音声のペアデータ (LRS3, VoxCeleb2)、音声と書き起こしのペアデータ (TED-LIUM3)、音声データ (GigaSpeech)、テキストデータ (Cantab-TEDLIUM) 共有エンコーダの出力に対して、統一的にマスク予測問題を設定全てのモーダル入力があることをベースとなるようにして、使わないモーダルを0で埋める Q. Zhu et al., “VATLM: Visual-audio-text pre-training with unified masked prediction for speech representation learning,” IEEE TMM, 2023.

23 Copyright NTT CORPORATION 言語へのクロスモーダルアライメント  テキストにより獲得された表現空間（近年は「大規模言語モデル」の学習により獲得される表現空間）に、異なるモーダルの情報をアライメントする取り組み  強みは？
• テキストから得られる一般常識を最大限に活用した処理が可能  さきほどまでの「クロスモーダル表現学習」と何か違う？ • 一般的なクロスモーダル表現学習: 表現空間は基本的に複数モーダルから協調的に獲得される • 言語へのクロスモーダルアライメント: 表現空間はテキストを元にした自己教師あり学習や教師あり学習によって獲得され、事後的に異なるモーダルの特徴をその空間にマッピングする  今風に言うと要するに？ • 「音声を扱う大規模言語モデル」をモデル化するためのキー技術 • ※ 本発表では、大規模言語モデルカットの話は時間がないためしないです

24 Copyright NTT CORPORATION クロスモーダルアライメントの方式  言語の表現空間にアライメントすることに関して、大きく２つの方式が検討されている  連続特徴空間でのクロスモーダルアライメント 
離散化によるクロスモーダルアライメント • 大規模言語モデルの入力に近い層に対して、異なるモーダルの入力を連続特徴空間上で接続する枠組み • 異なるモーダルの入力を離散シンボルに変換することにより、大規模言語モデルに接続する枠組み大規模言語モデルの入力層より上部入力音声音声モーダル用エンコーダアライメントモジュール大規模言語モデル入力音声音声モーダル用エンコーダトークン化モジュール入力テキスト大規模言語モデルの入力層入力テキスト • 一般的に、サブワードトークンと同じ表現空間に対してアライメント • 一般的に、サブワードトークンを線形変換した埋め込みベクトルの表現空間に対してアライメント

25 Copyright NTT CORPORATION 連続特徴空間でのクロスモーダルアライメント  音声エンコーダと大規模言語モデルの間に挟む「アライメントモジュール」の構成方法が複数検討されている 
線形層によるアライメントモジュールを利用 • NExT-GPT [S.Wu+ arxiv 2023] • PandaGPT [Y. Su+ arxiv 2023] • Unified-IO 2 [Y. Su+ arxiv 2023]  Transformerブロックによるアライメントモジュールを利用 • Macaw-LLM [C. Lyu+ arxiv 2023] • SLM [M. Wang+ arxiv 2023]  Q-Former [J. Li+ arxiv 2023] によるアライメントモジュールを利用 • SALMONN [C. Tang+ arxiv 2023] • Video-LLaMA [H. Zhang+ EMNLP2023]

26 Copyright NTT CORPORATION SLM [M. Wang+ ASRU2023]  Transformerブロックによるアライメントモジュールを利用
この部分がアライメントモジュールで、 Transfomerブロックで構成  大規模言語モデルと音声エンコーダはフリーズし、少ないパラメータを持つアライメントモジュールを導入するだけで、音声入力が可能な大規模言語モデルを実現音声エンコーダはフリーズして、この時点で系列長をサブサンプリングする大規模言語モデルもフリーズ M. Wang et al., “SLM: Bridge the thin gap between speech and text foundation models,” In Proc. ASRU, 2023.

27 Copyright NTT CORPORATION SALMONN [C. Tang+ arxiv 2023] 
Q-Former [J. Li+ arxiv 2023] によるアライメントモジュールを利用  画像分野のBLIP2提案されたQ-Formerを用いることで、音声のように系列長が長くなってしまう場合においても、コンパクトな系列長に抑えてアライメントすることが可能音声系のエンコーダと音楽系のエンコーダの両者をフリーズして利用この部分がアライメントモジュールであり、Q-Formerはコンパクトな系列でアライメント可能大規模言語モデルの入口はフリーズ C. Tang et al., “SALMONN: Towards generic hearing abilities for large language models,” arXiv:2310.13289, 2023.

28 Copyright NTT CORPORATION おまけ① モデル扱うモーダルは？大規模言語モデルは？音声エンコーダは？ Qwen-Audio
[Y. Chu+, arxiv 2023] 言語、音 QwenLM Whisper SALMONN [C. Tang+ arxiv 2023] 言語、音 Vicuna Whisper + BEATs BLSP [C. Wang+ arxiv 2023] 言語、音 LLaMA-2 Whisper LTU [Y. Gong+ ICLR2024] 言語、音 LLaMA AST Macaw-LLM [C. Lyu+ arxiv 2023] 言語、音、映像、画像 LLaMA Whisper NExT-GPT [arixv 2023] 言語、音、映像、画像 Vicuna ImageBind LLaSM [Y. Shu+ arxiv 2023] 言語、音 Chinese-LLAMA-2 Whisper SpeechLLaMA [J. Wu+ arxiv 2023] 言語、音 LLaMA CTC compressor PandaGPT [Y. Su+ arxiv2023] 言語、音、映像、画像 Vucuna ImageBind ImageBind-LLM [J. Han+ arxiv 2023] 言語、音、映像、画像、点群 LLaMA ImageBind Video-LLaMA [H. Zhang+ EMNLP2023] 言語、音、映像 Vicuna/LLaMA ImageBind SLM [M. Wang+ arxiv 2023] 言語、音 mT0-MT XXL USM  クロスモーダルアライメント以外の目線での詳細情報

29 Copyright NTT CORPORATION 離散化によるクロスモーダルアライメント  トークン化にはベクトル量子化コードブックを用いたうえで、トークン化された音声（音声トークン）を大規模言語モデルで扱うための方法が複数検討されている • SpeechGPT
[D. Zhang+ EMNLP2023] • VoxtLM [S. Mait+ ASRU2023] ※ 参考：言語へのクロスモーダルアライメントではないが、離散された音声トークンを言語モデルとして扱う検討（本日の主題ではないが、音声トークンを生成できるようなモデル化が内包され、音声合成の拡張として発展） • GSLM [K. Lakhotia+ TACL 2021] • AudioLM [Z. Borsos+ arxiv 2022] • VioLA [T. Wang+ arxiv 2023]  音声トークンのベクトル埋め込みを学習（言語モデル部分も学習）することでアライメント • AudioPaLM [P. K. Rubenstein+ arxiv2023] • TWIST [M. Hassid+ Neurips2023] • SPRIT-LM [T. A. Nguyen+ arxiv 2024]

30 Copyright NTT CORPORATION AudioPaLM [P. K. Rubenstein+ arxiv2023] 
離散化によるクロスモーダルアライメントを用いた手法この部分のみを学習することで、音声トークンを扱える言語モデルとする (※ この転置行列出力側でも使う)  方法：複数の目的タスクのデータ（音声認識、音声合成、音声翻訳、etc.）を準備し、音声信号は音声トークンに変換し、教師あり学習をすることでアライメント Universal Speech Model+ベクトル量子化 P. K. Rubenstein et al., “AudioPaLM: A large language model that can speak and listen,” arXiv:2306.12925, 2023.

31 Copyright NTT CORPORATION SpeechGPT [D. Zhang+ EMNLP2023]  離散化によるクロスモーダルアライメントを用いた手法
 方法：音声のみのデータを大量に集め、音声トークン系列に変換し、音声トークン系列に対する自己回帰予測基準 (言語モデルの一般的な学習基準)でアライメント HuBERT+ベクトル量子化音声トークン系列が途中まで与えられた際に、それ以降の音声トークン系列を予測できるようにする D. Zhang et al., “SpeechGPT: Empowering large language models with intrinsic cross-modal conversational abilities,” In Proc. EMNLP, 2023.

32 Copyright NTT CORPORATION モデルテキスト以外に扱うモーダルは？大規模言語モデルは？音声トークナイザは？音声デトークナイザは？ SpeechGPT
[D. Zhang+ EMNLP2023] 言語、音 LLaMA HuBERT+ベクトル量子化 HiFi-GAN AudioPaLM [P. K. Rubenstein+ arxiv2023] 言語、音 PaLM USM+ベクトル量子化 SoundStream VoxtLM [S. Mait+ ASRU2023] 言語、音 OPT HuBERT+ベクトル量子化 HiFi-GAN TWIST [M. Hassid+ Neurips2023] 言語、音 OPT/LLaMA HuBERT+ベクトル量子化 HiFi-GAN SPRIT-LM [T. A. Nguyen+ arxiv 2024] 言語、音 LLaMA-2 HuBERT+ベクトル量子化 HiFi-GAN おまけ➁  クロスモーダルアライメント以外の目線での詳細情報

34 Copyright NTT CORPORATION おわりに  「クロスモーダル表現学習」と「言語へのクロスモーダルアライメント」を体系化し、音声に関わる取り組みを少しずつピックアップして説明  今日触れられなかった部分
• クロスモーダル表現学習により、どれだけ最終タスクに対して嬉しいことがあるのか？ • ここはセットアップ次第だが、モーダル内に閉じた知識獲得より、モーダル間まで考慮した知識獲得のほうが一般的に有益  今後期待されること • よりタスク不変・モーダル不変のクロスモーダル表現学習 • 現時点では、多くの研究で、目標タスクを想定したうえでアイデアが想起され、目標タスクでの評価で有用性を評価 • 今後は、言語のSuperGLUE、音声のSUPERBなど全般で有益でかつ、音声＋映像などのマルチモーダルタスクでも広く有益な表現学習が期待される

クロスモーダル表現学習の研究動向: 音声関連を中心として

クロスモーダル表現学習の研究動向: 音声関連を中心として

Ryo Masumura

More Decks by Ryo Masumura

Other Decks in Research

Featured

Transcript