「共有エンコーダ型」×「マスク予測ベース」の「教師ありクロスモーダル表現学習」 用いるデータ: 音声と書き起こしのペアデータ (ATIS) 音声とテキストを同時に用い、テキストの一部をマスクして、 その部分をテキストと音声のコンテキストから予測 テキストのマスクした 部分に対して、 音声とテキストを 用いて予測 Y. Qian et al., “Speech-language pre-training for end-to-end spoken language understanding,” In Proc. ICASSP, pp. 7458–7462, 2021.
(音韻情報がリッチに乗っている) 映像エンコーダ が学習可能であり、 音声エンコーダ出力に近づ けるように学習 音声から得られるリッチな情報を持つベクトルを、 唇の動き映像から予測できるようにすることで、映像エンコーダを学習 「デュアルエンコーダ型」×「空間一致ベース」の「自己教師ありクロスモーダル表現学習」 用いるデータ: 音声と唇の動き映像のペアデータ (LRS3) P. Ma et al., “LiRA: Learning visual speech representations from audio through self-supervision,” In Proc. INTERSPEECH, pp. 3011–3015, 2021.
「共有エンコーダ型」×「マスク予測ベース」の「黙示的なクロスモーダル表現学習」 テキストはBERT型の マスク予測により、 自己教師あり学習 音声はw2v-BERT型の マスク予測により、 自己教師あり学習 音声に対するマスク予測とテキストに対するマスク予測を、 1つの共有エンコーダに対してそれぞれ実施することで、黙示的に表現空間を獲得 用いるデータ: 音声データ (Libri-light)+テキストデータ (LibriLMとmC4-En) A. Bapna et al., “SLAM: A unified encoder for speech and language modeling via speech-text joint pretraining,” arXiv:2110, 2021.
共有した量子化コードブック 「共有エンコーダ型」×「マスク予測ベース」の「黙示的なクロスモーダル表現学習」 クロスモーダルベクトル量子化により音声とテキストの共有量子化コードブックを 構成し、コードブックIDを活用したマスク予測をそれぞれのモーダルで実施 用いるデータ: 音声データ (LibriSpeechの音)+テキストデータ (LibriSpeechのテキスト) ※ ペアである情報はもちろん使わない J. Ao et al., “SpeechT5: Unified-modal encoder-decoder pre-training for spoken language processing,” In Proc. ACL, pp. 5723–5738, 2022.
et al., “VATT: Transformers for multimodal self-supervised learning from raw video, audio and text,” In Proc. NeurIPS, 2021. 「共有エンコーダ型」×「対照学習ベース」の「複合的なクロスモーダル表現学習」 映像-音声の一致/不一致、映像-テキストの一致/不一致の両者を見分ける学習を実施 用いるデータ: 映像と音声のペアデータ (AudioSet)、 映像とテキストのペアデータ (HowTo100M) 共有エンコーダのヘッド部分の情報を 活用することで、異なるモーダル間 での一致/不一致を考慮 入力の時点で、 「どのモーダル情報を入れるか?」 は考慮しない
この部分が アライメントモジュールで、 Transfomerブロックで構成 大規模言語モデルと音声エンコーダはフリーズし、少ないパラメータを持つアライメント モジュールを導入するだけで、音声入力が可能な大規模言語モデルを実現 音声エンコーダはフリーズして、 この時点で系列長を サブサンプリングする 大規模言語モデルも フリーズ M. Wang et al., “SLM: Bridge the thin gap between speech and text foundation models,” In Proc. ASRU, 2023.
離散化によるクロスモーダルアライメントを用いた手法 この部分のみを学習することで、 音声トークンを扱える言語モデルとする (※ この転置行列出力側でも使う) 方法:複数の目的タスクのデータ(音声認識、音声合成、音声翻訳、etc.)を準備し、 音声信号は音声トークンに変換し、教師あり学習をすることでアライメント Universal Speech Model+ベクトル量子化 P. K. Rubenstein et al., “AudioPaLM: A large language model that can speak and listen,” arXiv:2306.12925, 2023.
方法:音声のみのデータを大量に集め、音声トークン系列に変換し、音声トークン系列 に対する自己回帰予測基準 (言語モデルの一般的な学習基準)でアライメント HuBERT+ベクトル量子化 音声トークン系列が 途中まで与えられた際に、 それ以降の音声トークン系列を 予測できるようにする D. Zhang et al., “SpeechGPT: Empowering large language models with intrinsic cross-modal conversational abilities,” In Proc. EMNLP, 2023.